资源列表
Ncut
- 本文介绍了web文本聚类的流程,着重介绍了Normalized Cut谱聚类的原理和算法,提出以Minimum cut作为类内部的内聚强度作为衡量Normalized Cut的迭代停止条件
33753115ktdictseg_v1.0.01
- 中文分词算法,效率很高,使用词典树装搜索进行单词切割,并提供扩充词库的函数-It s an arithmetc of word segment,it has a very high efficiency!
search_for_substring
- 此程序用于搜索从ES:1000开始的长度为100H的区域,是否存在给定的子字符串,其中,子字符串存放在以DS:1100开始的区域中,分别用DI,SI,指向它们。如果搜索到,在DS:1111处填写44(“是”的谐音),找不到,则填写55(“无”的谐音)。在本程序中,DS与ES相同。在本程序中,我们假设要搜索的子字符串的长度为3,字符可以自行设定。当然,可以改变BX来改变搜索的子字符串的长度-This program used to search from ES: 1000 100H length
seqsearch
- This is a document file related to searching techniques in algorithms
TSE
- 天网袖珍版搜索引擎TSE(Tiny Search Engine)源码-Skynet pocket version of search engine TSE (Tiny Search Engine) Source
SharpICTCLAS
- ICTCLAS分词的总体流程包括:1)初步分词;2)词性标注;3)人名、地名识别;4)重新分词;5)重新词性标注这五步。就第一步分词而言,又细分成:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。 在所有内容中,词典库的读取是最基本的功能。ICTCLAS中词典存放在Data目录中,常用的词典包括coreDict.dct(词典库)、BigramDict.dct(词与词间的关联库)、nr.dct(人名库)、ns.dct(地名库)、tr.dct(翻译人名库
google
- Sergey Brin and Lawrence Page 写的一篇关于搜索引擎原理的论文,值得一看。-Sergey Brin and Lawrence Page wrote a paper on the principles of search engines, worth a visit.
Modeling_the_Internets
- David Hand (Imperial College, UK) 评价这本书说:这本书太迷人了! 值得一看-"This book is fascinating!"- David Hand (Imperial College, UK)
Lucene_in_Action
- lucene in action的中文版,但不是完全版,只是部分翻译,可以稍微看看。-lucene in action in the Chinese version, but not the full version, only part of the translation, you can see a little bit.
Lucene_in_Action_2nd_Edition
- lucene in action的第二版,比较新,是英文原版的,对学习lucene的初学者很有帮助。-lucene in action in the second edition, is relatively new, the English version, useful for beginners learning lucene.
1
- 基于Lucene和Heritnx构建搜索引擎的研究和示例实现
GB9706_1_2007
- 这是 GB 9706.1-2007 医用电气设备第1部分 安全通用要求(报批稿),能进行搜索查找的,非常方便-GB 9706.1