资源列表
neucsp
- 很好的分词工具,能对文本进行分词,标注词性,是进行文本聚类不可或缺的工具
hyperestraier-1.4.13
- 一个小型的分布式的搜索引擎,速度还快,并且内置了爬虫,能够处理CJK字符集(多字节字符),是个小型站内引擎的首选,能够运行在Unix/Linux平台
gsearch-linux-src-1.0
- 这是一款桌面文件搜索引擎,能够检索本地文件,速度非常快,索引1G文件只是需要一秒钟,能够运行在 Windows/Unix/Linux 等平台
heritrix-2.0.0-src
- Heritrix: Internet Archive Web Crawler The archive-crawler project is building a flexible, extensible, robust, and scalable web crawler capable of fetching, archiving, and analyzing the full diversity and breadth of internet-accesible content.
google
- 简单的新闻拖放系统,没有实现关闭栏目,选择新闻等功能,这些功能实现很简单,就是加控件,写事件
lucene-1.4-final-src
- 搜索引擎的辕马 大家可以使用他 谢谢 欢迎大家的使用
heritrixProject
- 搜索引擎的一个分支,在搜索网页时首先得用一个爬虫来获取网址该代码的功能就是获取所需网址的
seek
- lapc中对生成矩阵中存在的短环进行搜索,可以搜4,6,8,10环!
paoding-analysis-2.0.4-alpha2
- 一款基于java的分词软件,用来把中文文章分成有意义的单词。
seo_1.3_600it
- Z:\\BoFut_搜索引挚源码分析\\01-SEO\\Google 搜索 引擎 算法 的 秘密.rar
renthousesearchengine
- 一个租房专业搜索引擎的开发文档,比较详细
nutchtutorial
- nutch turorial,nutch搜索引擎开发文档