搜索资源列表
firtex_beta102_src
- FirteX介绍 功能: 支持增量索引,差量索引,多字段索引,提供了3种前向索引方式; 支持纯文本,HTML,PDF等文件格式; 提供快速中文分词; 从底层到高层,提供了多种索引访问接口,灵活自由地使用索引文件; 提供丰富的检索语法,支持多字段检索,日期范围检索,检索结果自定义排序等。 性能: 在Pentium 4 2.8G 2GRAM的机器上超过200Mb每分钟的索引速度 在近7G的索引文件(100G网页,11G纯文本的索引)上检索,仅使用十几M内存在数毫
ThesaurusAnalyzer
- lucene中文分词代码 带有19万字的词典 本分词程序的效果取决与词库.您可以用自己的词库替换程序自带的词库.词库是一个文本文件,名称为word.txt. 每一行一个词语,以#开头表示跳过改行.最后保存为UTF-8的文本.
Project1(soap)
- 采用SOAP协议的简单文本搜索引擎,可在客户端向服务器端发出请求,并进而在服务器端的文本文件中查询特定字符串,目前还不能支持中文搜索。
Search_Engine
- 课程作业 包含分词 前端 后台 爬虫等 网页数据直接用文本文件存储,倒叙表用二进制文件-Coursework includes reptiles and other sub-word front-back
holmes-3.11.tar
- Sherlock Holmes搜索引擎,可以对本地或网络上文本文件(网页,文件。。)创建索引-Sherlock Holmes search engine, can be local or network text file (pages, documents..) Create index
wordbag
- 根据一个人物名单文件,查找wekipedia上相应网页,读取网页文本,并统计每个人物在每个网页上出现的次数,最终形成word bag,人物500人,运行时间6分钟左右。-from a namelist making a word bag