搜索资源列表
heritrix-1.14.0-src.tar
- heritrix是一种开源的网络爬虫/网络蜘蛛,heritrix目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。
heritrix-2.0.2-src
- heritrix的最新开源代码,以便自行学习和开发-Heritrix: Internet Archive Web Crawler The archive-crawler project is building a flexible, extensible, robust, and scalable web crawler capable of fetching, archiving, and analyzing the full diversity and breadth of internet