资源列表
ChineseSegment
- 基于Hash字库算法的lucene分词 完整的代码,使用创新的Hash字库,是分词效果大大提高
2005202sou
- 可以查看你的网站在搜索引擎搜索关键中排第几名,可以在数十个搜索引擎中快速找到你网站的位置,含ASP版和ASP+ASP.net两个版本 -can check your website in search engine key ranked number, the number of 10 quick search engine to find your site location, including ASP and ASP version ASP.net 2 version
spider2006
- 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。 -C# spider.
IP
- vc++实现的搜索局域网在线主机的程序,Socket编程-vc++ implementation of the search procedure for a host on the LAN
07Crawler
- 这是一个网络爬虫的程序,只是能爬取网页,比较适合初学者学习用。-This is a network Reptile procedures, but will climb from the website, more suitable for beginners to learn from.
189
- 图书馆的基本功能,可以搜索书本,书本编号,查找作者-The basic function of libraries
知网爬虫
- 自己写的一个关于python的小型爬虫,性能感觉还算可以。(Himself wrote a small crawler about python, performance feel return calculate can.)
spider
- 网络爬虫程序、针对主流新闻网站进行信息抽取-Web crawlers for information extraction mainstream news sites
56
- 多线程文件搜索,需要的朋友可以下载下来看看,学习学习-Multi-threaded file search, necessary friends can download them to see, study study
sitesh1
- 包括:Google Rank查询 Google收录查询 Baidu收录查询 MSN收录查询 Yahoo收录查询 SOSO收录查询 Alexa排名查询 SINA收录查询 SOHU收录查询 163收录查询 QQ收录查询 Whois域名信息。 修改自51cha查询系统,修正百度、163、SHOU等收录查询无结果错误,去掉YISOU、QQ已关闭搜索引擎查询,加上iask和SOSO新搜索引擎查询,所有功能都完整可用。 -include : Google Google Rank inquiries
bdxt
- 搜索链接。包括网页、黄页、文档、新闻、MP3、英语翻译、书籍搜索等-search link. Including web, yellow pages, documents, news, MP3, English translation, book search
1575465
- 可以查看你的网站在搜索引擎搜索关键中排第几名,可以在数十个搜索引擎中快速找到你网站的位置,含ASP版和ASP+ASP.net两个版本 -can check your website in search engine key ranked number, the number of 10 quick search engine to find your site location, including ASP and ASP version ASP.net 2 version