资源列表
heritrix-1.14.4-src
- heritrix-1.14.4-src
ansj
- ictclass的java版本开源实现,用于实现中文分词功能。-the java version that the open source implementation of ictclass
lucenePnutchPmapreducePsearch-engine
- 三篇关于开源搜索引擎的硕士论文 1、基于Lucene的Web搜索引擎实现 2、基于MapReduce的分布式智能搜索引擎框架研究 3、基于Nutch的垂直搜索引擎的分析与实现-Three open source search engine on the master' s thesis 1, the Web search engine based on Lucene implementation 2, based on the MapReduce framework
heritrixProject
- 搜索引擎的一个分支,在搜索网页时首先得用一个爬虫来获取网址该代码的功能就是获取所需网址的
lucene-2.3.0
- apache的开源搜索引擎框架,可以用其中的类包轻松建立文档索引程序
zhihu-master
- 爬虫程序,python语言,希望大家可以交流。。。。。。。。。。。。(Crawler procedures, python language, I hope we can exchange)
lucene-2.3.2
- Lucene不是一个完整的全文索引应用,而是是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。
API_lucene3.0.0
- 最新的lucene3中文api,是了解lucene的最好的学习文档。-The latest lucene3 Chinese api, is to understand the best learning lucene document.
Heri1
- 使用eclipse进行编辑编译,用来抓取网页-net crawler
Chap10
- 垂直搜索引擎,检索代码,创建索引文件,搜索关键字,并返回结果-Vertical search engine
SearchHistory
- 搜索记录查看器,用于读取goole,yahoo,live等搜索引擎的搜索历史,以及yahoo车站搜索的车站历史信息。-Search record viewer, for reading goole, yahoo, live search history and other search engines, and yahoo search station station history information.
webSpider
- GOOGLE查询分析注入系统 一,通过关键字检索把提取前10个网站的网址 二,通过提取的网站地址做为搜索关键字搜索该网站地址的所以查询结果 三,实现GOOGLE的自动分页排查所有结果直到末页; 四,根据查询后的结果对每一个结果链接做为索引进入网站分析当前页与当前页所有的站内链接页进行分析检测是否有留言板、论坛或其它有注入特征的页面如有发现则将可疑网站及表单信息记录到数据库中,在此环节中加入了多线程,用户在搜索时初始线程数,每个线程针对一个网站的索引页面,如有线程完成了单个网站