搜索资源列表
多种分词方法
- 含有多个分词算法。毕业设计的时候获得的,希望对大家在汉字处理中能用的到。 ICTCLAS算法,中科院,对名字识别能力很强。VC开发。 CSharp分词,向前匹配加向后最大匹配,C#开发,容易扩展。 小叮咚分词,由后向前最大匹配,C#开发。 xerdoc分词,基于ICTCLAS的Java版本分词。 文本分词词典,分词的词典,可以提供分词数据源。-containing more than Segmentation. Graduation was the time of hope
segment
- 基于文本文件的分词程序,可以将指定文件名的文本文档按照词典自动划分出单词.-text-based documents, the sub-term process, which would be designated the File Name text documents with automatic divided dictionary word.
mmseg-v0.1
- 基于词典和最大匹配算法的的中文分词组件,达到很好的分词准确率-Dictionary and the largest based on the matching algorithm of the Chinese word segmentation components, to achieve good word accuracy rate
IKAnalyzer
- IKAnalyzer是中文分词工具,基于lucene2.0版本API开发,实现了以词典分词为基础的正反向全切分算法,是Lucene Analyzer接口的实现,这个是.Net版本,含有源代码
无词典分词
- 基于后缀数组的无词典分词算法,通过后缀和散列表获取汉字的结合模式,通过置信度筛选词
ictclas4j
- 基于词典的分词工具,用与对文本文件的分词-word parsing tools based on dictionary
imdict-chinese-analyzer
- imdict-chinese-analyzer 是 imdict智能词典 的智能中文分词模块,算法基于隐马尔科夫模型(Hidden Markov Model, HMM),是中国科学院计算技术研究所的ictclas中文分词程序的重新实现(基于Java),可以直接为lucene搜索引擎提供简体中文分词支持。-imdict-chinese-analyzer is a smart imdict Chinese Dictionary smart module segmentation algorithm
fenci
- 一个简单的基于词典分词的程序,lucene的分词程序不少,但有时候并不需要复杂的功能,只是需要简单的根据指定的词典分词。代码简单,可以作为学习参考-A simple dictionary-based word process, lucene procedures for sub-word a lot, but sometimes does not require complex functions, but only require a simple dictionary word accord
maxfenci
- 基于词典的最大正向/反向分词,C++的,最简单的学习分词算法的代码-Dictionary-based maximum forward/reverse word, C++, the most simple method of learning the code word
mySegment
- 类库程序,基于词典的简单分词,可分中英文混合的情况-Simple dictionary-based segmentation procedure
fencisuanfa
- 用正向最大匹配发实现句子的分词。是基于词典的分词算法。该算法的特点是速度快,准确率高。-Made to achieve a positive match with a maximum sentence segmentation. Dictionary-based segmentation algorithm. The algorithm is characterized by fast and accurately.
splitword
- 基于VC++6.0的中文分词程序。内含词典。-VC++6.0 based Chinese word segmentation procedure. Embedded dictionary.
pp
- 基于机械分词的中文分词技术代码,使用最大概率法去歧义。词典很全。-Chinese word segmentation based on mechanical technology code word, using the maximum probability method to ambiguity. Dictionary is full.
WordSegment
- 用C++开发的分词系统 运用基于哈希的逆向最大匹配算法 基于词典-Word in C development system uses a hash-based reverse maximum matching algorithm is based on dictionary
hanseg
- 1.该程序为基于词典的中文自动分词. 2.程序的运行编译环境是:VC6 3.详细信息请参见本目录下面的中文自动分词文档。-1 The procedure for dictionary-based Chinese automatic word segmentation program run the compiler environment: VC6 For more information please see the catalog below the automatic Chine
IKAnalyzer3.2.0Stable_bin
- IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 -IKAnalyzer is an open source toolkit, Chinese word segm
cpp
- 分词系统的原理是基于词典匹配进行分词,就是说它会先去文件的一行,在去这行中的四个字然后去和词典比较,如果词典中有这个字则输出加空格,如果没有则把左边的字去除剩下3个字后再和词典进行比较-The principle of word segmentation system is based on word segmentation dictionary matching, which means it will go first to file a line, in the four words i
567657
- SCWS是Simple Chinese Word Segmentation的首字母缩写(即:简易中文分词系统)。 这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点。 -SCWS initials Simple Chinese Word Segmentation abbreviations (ie: Simple Chinese
HmmPos
- 本文主要研究在给定的机械词频词典下的基于字符串匹配的中文分词系统,将一整段文字基本正确的切分成词,并标注上词性。在实现分词的过程中,最重要的两个因素就是分词速度和分词精度。因此,我们以分词速度、分词正确率和分词召回率作为中文分词评测标准,力求达到较高的分词速度和分词精度-word Tagging
简单基于词典的分词(带txt语料库)
- 基于词典的分词,用于英文文本对文本进行词典的分词(Based on the word segmentation of the dictionary, used in the English text of the text of the dictionary word segmentation)