资源列表
K-Means
- 一个很好的C均值聚类算法!通过运行此文件可以很好的进行数据的分类。-K-means
ModernInformationRetrieval
- Google写的,信息检索方面的文章非常好-verygood,perfect,and you love it
GB9706_1_2007
- 这是 GB 9706.1-2007 医用电气设备第1部分 安全通用要求(报批稿),能进行搜索查找的,非常方便-GB 9706.1
1
- 基于Lucene和Heritnx构建搜索引擎的研究和示例实现
Lucene_in_Action_2nd_Edition
- lucene in action的第二版,比较新,是英文原版的,对学习lucene的初学者很有帮助。-lucene in action in the second edition, is relatively new, the English version, useful for beginners learning lucene.
Lucene_in_Action
- lucene in action的中文版,但不是完全版,只是部分翻译,可以稍微看看。-lucene in action in the Chinese version, but not the full version, only part of the translation, you can see a little bit.
Modeling_the_Internets
- David Hand (Imperial College, UK) 评价这本书说:这本书太迷人了! 值得一看-"This book is fascinating!"- David Hand (Imperial College, UK)
google
- Sergey Brin and Lawrence Page 写的一篇关于搜索引擎原理的论文,值得一看。-Sergey Brin and Lawrence Page wrote a paper on the principles of search engines, worth a visit.
SharpICTCLAS
- ICTCLAS分词的总体流程包括:1)初步分词;2)词性标注;3)人名、地名识别;4)重新分词;5)重新词性标注这五步。就第一步分词而言,又细分成:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。 在所有内容中,词典库的读取是最基本的功能。ICTCLAS中词典存放在Data目录中,常用的词典包括coreDict.dct(词典库)、BigramDict.dct(词与词间的关联库)、nr.dct(人名库)、ns.dct(地名库)、tr.dct(翻译人名库
TSE
- 天网袖珍版搜索引擎TSE(Tiny Search Engine)源码-Skynet pocket version of search engine TSE (Tiny Search Engine) Source
seqsearch
- This is a document file related to searching techniques in algorithms
search_for_substring
- 此程序用于搜索从ES:1000开始的长度为100H的区域,是否存在给定的子字符串,其中,子字符串存放在以DS:1100开始的区域中,分别用DI,SI,指向它们。如果搜索到,在DS:1111处填写44(“是”的谐音),找不到,则填写55(“无”的谐音)。在本程序中,DS与ES相同。在本程序中,我们假设要搜索的子字符串的长度为3,字符可以自行设定。当然,可以改变BX来改变搜索的子字符串的长度-This program used to search from ES: 1000 100H length