搜索资源列表
多种分词方法
- 含有多个分词算法。毕业设计的时候获得的,希望对大家在汉字处理中能用的到。 ICTCLAS算法,中科院,对名字识别能力很强。VC开发。 CSharp分词,向前匹配加向后最大匹配,C#开发,容易扩展。 小叮咚分词,由后向前最大匹配,C#开发。 xerdoc分词,基于ICTCLAS的Java版本分词。 文本分词词典,分词的词典,可以提供分词数据源。-containing more than Segmentation. Graduation was the time of hope
segment
- 基于文本文件的分词程序,可以将指定文件名的文本文档按照词典自动划分出单词.-text-based documents, the sub-term process, which would be designated the File Name text documents with automatic divided dictionary word.
mmseg-v0.1
- 基于词典和最大匹配算法的的中文分词组件,达到很好的分词准确率-Dictionary and the largest based on the matching algorithm of the Chinese word segmentation components, to achieve good word accuracy rate
IKAnalyzer
- IKAnalyzer是中文分词工具,基于lucene2.0版本API开发,实现了以词典分词为基础的正反向全切分算法,是Lucene Analyzer接口的实现,这个是.Net版本,含有源代码
src
- 基于词典的最大分词算法 达到很好的分词准确率
无词典分词
- 基于后缀数组的无词典分词算法,通过后缀和散列表获取汉字的结合模式,通过置信度筛选词
ictclas4j
- 基于词典的分词工具,用与对文本文件的分词-word parsing tools based on dictionary
imdict-chinese-analyzer
- imdict-chinese-analyzer 是 imdict智能词典 的智能中文分词模块,算法基于隐马尔科夫模型(Hidden Markov Model, HMM),是中国科学院计算技术研究所的ictclas中文分词程序的重新实现(基于Java),可以直接为lucene搜索引擎提供简体中文分词支持。-imdict-chinese-analyzer is a smart imdict Chinese Dictionary smart module segmentation algorithm
fenci
- 一个简单的基于词典分词的程序,lucene的分词程序不少,但有时候并不需要复杂的功能,只是需要简单的根据指定的词典分词。代码简单,可以作为学习参考-A simple dictionary-based word process, lucene procedures for sub-word a lot, but sometimes does not require complex functions, but only require a simple dictionary word accord
maxfenci
- 基于词典的最大正向/反向分词,C++的,最简单的学习分词算法的代码-Dictionary-based maximum forward/reverse word, C++, the most simple method of learning the code word
dictionary
- 基于四字hash的中文分词词典,将此条放在数据库中,利用memcache提高词典索引速度。实现文本词典到数据库中此条的自动转换。-Hash based on four characters of Chinese word dictionary, the clause on the database, dictionary use memcache to improve indexing speed. Text dictionary to the database to achieve the a
mySegment
- 类库程序,基于词典的简单分词,可分中英文混合的情况-Simple dictionary-based segmentation procedure
yinghanshuangxiangdianzicidian
- 英汉双向电子词典是数字化的辞书,在载体、编纂方式、设计过程、功能、使用者、查询手段、检索方法等各方面具有词典类软件特性。本课题设计英汉双向电子词典是一种基于Java语言开发的跨平台的词典类工具软件。检索方式采用开源的Lucene全文检索并实现中文分词的功能。具有查询、检索方便、快捷,查询种类齐全,可以即时翻译、准确的、详细地查阅英文、中文单词。同时为各种软件、网络、电子邮件等提供后台支持,从而大大提高了用户的工作效率,拓宽了学习途径。-English-to-Chinese a the book
fencisuanfa
- 用正向最大匹配发实现句子的分词。是基于词典的分词算法。该算法的特点是速度快,准确率高。-Made to achieve a positive match with a maximum sentence segmentation. Dictionary-based segmentation algorithm. The algorithm is characterized by fast and accurately.
splitword
- 基于VC++6.0的中文分词程序。内含词典。-VC++6.0 based Chinese word segmentation procedure. Embedded dictionary.
WordSegment
- 用C++开发的分词系统 运用基于哈希的逆向最大匹配算法 基于词典-Word in C development system uses a hash-based reverse maximum matching algorithm is based on dictionary
hanseg
- 1.该程序为基于词典的中文自动分词. 2.程序的运行编译环境是:VC6 3.详细信息请参见本目录下面的中文自动分词文档。-1 The procedure for dictionary-based Chinese automatic word segmentation program run the compiler environment: VC6 For more information please see the catalog below the automatic Chine
HmmPos
- 本文主要研究在给定的机械词频词典下的基于字符串匹配的中文分词系统,将一整段文字基本正确的切分成词,并标注上词性。在实现分词的过程中,最重要的两个因素就是分词速度和分词精度。因此,我们以分词速度、分词正确率和分词召回率作为中文分词评测标准,力求达到较高的分词速度和分词精度-word Tagging
fenci
- 中文分词算法双向最大匹配算法基于词典匹配的分词算法-Chinese word segmentation algorithm bidirectional maximum matching algorithm based on dictionary word matching algorithm
简单基于词典的分词(带txt语料库)
- 基于词典的分词,用于英文文本对文本进行词典的分词(Based on the word segmentation of the dictionary, used in the English text of the text of the dictionary word segmentation)