资源列表
MMSeg
- 分词算法描述,用于中文分词,供大家参考,互相学习
SearchEngineer
- 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。
ShootSearch
- 基于dotlucene的c#开源搜索引擎 基于dotlucene的c#开源搜索引擎
cjbt
- 1.BT下载页和种子列表以及搜索列表页均采用伪静态化URL,更易于被搜索引擎收录。 2.内置百度的热门电影、电视剧、动漫卡通、软件等TOP50关键字排行小偷. 3.强大的BT搜索功能. 4.可以在Linux和windows等系统服务器上正常运行。 5.除去了一些不必要的代码,提高了程序运行效率。 6.BT数据同步更新程序,每天更新几百条BT种子 7.任意自定义添加广告(请自行修改www文件夹下的文件) 8.高速获取数据,无需维护管理,一分钟即可建立个性化的BT站点!
deep-CBIRImageRetrieval
- 该课件主要陈述了基于内容的图象检索技术的由来,主要的处理技术和未来的发展方向。另外该课件为英文课件,有兴趣的可以下来看下!
lucene-2.0.0-src
- 著名开源搜索的2。0版本,全文检索引擎,JAVA版本
spider
- 该工程产生一个象蜘蛛一样行动的程序,该程序为断开的URL链接检查WEB站点。链接验证仅在href指定的链接上进行。它在一列表视图CListView中显示不断更新的URL列表,以反映超链接的状态。本工程能用作收集、索引信息的模板,该模板将这些信息存入到可以用于查询的数据库文件中。
mySpider
- 用C#编写的蜘蛛程序,实现主题词权重判别功能
user-profile
- 个性化搜索引擎中用户兴趣模型的研究 试验分析 设计方案
src
- lucene 实现 源代码,里面还含有索引创建,搜索等功能
kooxoo
- 在线采集源程序,kooxoo初期代码,供学习研究
GetLinks
- 查找网页对象的源代码. 主要应用于网络扑虫,网络蜘蛛等.