搜索资源列表
多种分词方法
- 含有多个分词算法。毕业设计的时候获得的,希望对大家在汉字处理中能用的到。 ICTCLAS算法,中科院,对名字识别能力很强。VC开发。 CSharp分词,向前匹配加向后最大匹配,C#开发,容易扩展。 小叮咚分词,由后向前最大匹配,C#开发。 xerdoc分词,基于ICTCLAS的Java版本分词。 文本分词词典,分词的词典,可以提供分词数据源。-containing more than Segmentation. Graduation was the time of hope
百度分词词库
- 据说是百度以前用的中文分词词典,希望对大家有一点帮助哈,快下快下-allegedly Baidu before the Chinese word dictionaries, we hope to have a bit of help to Kazakhstan, where fast under fast!
MFC查词典、分词、词频统计程序
- MFC编程,功能是查词典(用户可自己导入文本),分词,统计词频,还可以保存结果!我们MFC课的期末作业,强烈推荐!-MFC programming function is to check dictionary (users can import their own version), participle, statistical, frequency, the results can be saved! We MFC class at the end operations, strongly
luncene查询分析器中文词典
- 中文分词词库
无词典分词
- 基于后缀数组的无词典分词算法,通过后缀和散列表获取汉字的结合模式,通过置信度筛选词
MFC编程,功能是查词典(用户可自己导入文本),分词,统计词频
- AppWizard has created this RMM application for you. This application not only demonstrates the basics of using the Microsoft Foundation classes but is also a starting point for writing your application. This file contains a summary of what you
hash结构最大逆向中文分词算法
- 建立hash结构的中文词典,并实现了最大逆向中文分词算法
ICTCLAS2009.对中文进行分词并对其词性标注
- 对中文进行分词并对其词性标注;命名实体识别;新词识别;同时支持用户词典,To be conducted in Chinese word segmentation and POS tagging Named Entity Recognition new word identification simultaneously support the user dictionary
windowsC32.rar
- 汉语词法分词系统,主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。,Morphology of Chinese word segmentation systems, the main features include Chinese word segmentation-of-speech tagging named entity recognition new word identification At the same time support the use
SW_I_WordSegment
- SW-I中文分词算法,MFC程序,在visual studio 2008中调试通过。默认词库为mdb,由于较大未包含在源文件中,请自行下载mdb格式的词典。-SW-I Chinese word segmentation algorithm, MFC procedures, visual studio 2008 in debug through. Default thesaurus for the mdb, as a result of the larger not included in the
wordsegment1
- 中文分词算法,效率很高,使用词典树装搜索进行单词切割,并提供扩充词库的函数!-It s an arithmetc of word segment,it has a very high efficiency!
MaximumMatching
- 利用最大匹配法进行分词。需要一个词典。就可以进行分词。性能很好-Carried out using the maximum matching word segmentation. Need a dictionary. Segmentation can be carried out. Good performance
imdict-chinese-analyzer
- imdict-chinese-analyzer 是 imdict智能词典 的智能中文分词模块,算法基于隐马尔科夫模型(Hidden Markov Model, HMM),是中国科学院计算技术研究所的ictclas中文分词程序的重新实现(基于Java),可以直接为lucene搜索引擎提供简体中文分词支持。-imdict-chinese-analyzer is a smart imdict Chinese Dictionary smart module segmentation algorithm
chinese_segment
- 一个中文分词算法的java语言实现,词典采用文本文件形式。-A Chinese word segmentation algorithm java language implementation
fenci
- 一个简单的基于词典分词的程序,lucene的分词程序不少,但有时候并不需要复杂的功能,只是需要简单的根据指定的词典分词。代码简单,可以作为学习参考-A simple dictionary-based word process, lucene procedures for sub-word a lot, but sometimes does not require complex functions, but only require a simple dictionary word accord
Dictory
- 用B-树作为查找存储结构,对中文单词进行哈希,用最长逆向匹配算法进行中文句段分词,实现中文词典以及分词。中文词典规模为十万八千多词汇。分词的正确率在90 以上。-Use the B-tree as storage structure , and hash the Chinese word while storing or searching. Use the longest reverse matching algorithm to split Chinese sentence to word
33753115ktdictseg_v1.0.01
- 中文分词算法,效率很高,使用词典树装搜索进行单词切割,并提供扩充词库的函数-It s an arithmetc of word segment,it has a very high efficiency!
SharpICTCLAS
- ICTCLAS分词的总体流程包括:1)初步分词;2)词性标注;3)人名、地名识别;4)重新分词;5)重新词性标注这五步。就第一步分词而言,又细分成:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。 在所有内容中,词典库的读取是最基本的功能。ICTCLAS中词典存放在Data目录中,常用的词典包括coreDict.dct(词典库)、BigramDict.dct(词与词间的关联库)、nr.dct(人名库)、ns.dct(地名库)、tr.dct(翻译人名库
ICTCLAS2010CSharpDemo
- 中文分词源程序, 中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45
简单基于词典的分词(带txt语料库)
- 基于词典的分词,用于英文文本对文本进行词典的分词(Based on the word segmentation of the dictionary, used in the English text of the text of the dictionary word segmentation)