搜索资源列表
CSpideqw
- 网络爬虫的开源代码, 用于练习网页抓取与分析的C#工程-Web crawler open source code, used for exercises web crawling and Analysis of C# project
python-scraping-master
- python scraping master 动物书系列源代码(python scraping master)
apache-nutch-1.13-src
- 网络编程一个非常不错的开源网络爬虫学习代码!(windows network open source)
搜猫源码PHP自带蜘蛛的搜索引擎
- ¤ 优化蜘蛛程序,整合Crawler爬虫代码、自动下载采集数据到本地 调用,实现本地索引功能。 ¤ 优化蜘蛛功能,实现蜘蛛智能去除死链接,实现多线程采集,默认蜘蛛开启数为20个,也就是说可以同时开启20个蜘蛛同时工作,这个根据你的服务器的配置来定,服务器越好开启的越多,采集的数据越多。理论值:日采集数据不低于1000000条信息。 【PHP+Mysql+Sphinx 说明】 出自俄罗斯的开源全文搜索引擎软件 Sphinx ,单一索引最大可包含1亿条记录,在1千万条记录