搜索资源列表
bbs
- Lucene+Heritrix搜索引擎的一个成功案例 市值30000万 只需下载,用Eclipse-import为web工程就可以了 需要安装mysql 5.5 同时由于此工程为web工程所以假如您的Eclipse没有安装tomcatPlugin的话,请也同时安装tomcatPlugin -Lucene+ Heritrix case of a successful search engine market capitalization of 300 million just to downl
4pm
- 本文用lucene和Heritrix构建了一个Web 搜索应用程序 Lucene 是基于 Java 的全文信息检索包,它目前是 Apache Jakarta 家族下面的一个开源项目。 Lucene很强大,但是,无论多么强大的搜索引擎工具,在其后台,都需要一样东西来支援它,那就是网络爬虫Spider。网络爬虫,又被称为蜘蛛Spider,或是网络机器人、BOT等,这些都无关紧要,最重要的是要认识到,由于爬虫的存在,才使得搜索引擎有了丰富的资源。 Heritrix是一个纯由Java开
Compass-Technical-Documentation
- 个人针对具体项目总结的基于Lucene的Compass搜索引擎框架的技术手册。比较具有实用价值。刚开始学习Compass或Lucene的人可以拿来借鉴。-Individual project-specific summary Compass search engine based on Lucene framework of technical manuals. Comparison has practical value. Compass or just beginning to learn
operaApi-(1)
- 豆瓣开放平台的sdk,已经进行过Maven打包盒编译,导入工程直接可以运行-Sdk watercress open platform, has been packaged box Maven compiled into the project can be run directly
WPCrawler
- 网络爬虫,也叫网络蜘蛛,有的项目也把它称作“walker”。维基百科所给的定义是“一种系统地扫描互联网,以获取索引为目的的网络程序”。网络上有很多关于网络爬虫的开源项目,其中比较有名的是Heritrix和Apache Nutch。 有时需要在网上搜集信息,如果需要搜集的是获取方法单一而人工搜集费时费力的信息,比如统计一个网站每个月发了多少篇文章、用了哪些标签,为自然语言处理项目搜集语料,或者为模式识别项目搜集图片等等,就需要爬虫程序来完成这样的任务。而且搜索引擎必不可少的组件之一也
lewsn2008-LBTSE-master
- 北大搜索引擎TSE的完整源代码(包括索引和爬虫两个独立项目的源代码)-Peking University search engine TSE complete source code (including the index and the source of the crawler two independent project)
lucenetest
- lucene全文搜索代码 lucene全文搜索组件是Jakarta Apache的开源项目,由资深全文索引/检索专家DougCutting贡献,主要解决各个中小型应用程序加入全文检索功能。(Lucene full text search code Lucene full-text search component is Jakarta Apache open source project, by the senior full-text indexing / retrieval expert