搜索资源列表
多种分词方法
- 含有多个分词算法。毕业设计的时候获得的,希望对大家在汉字处理中能用的到。 ICTCLAS算法,中科院,对名字识别能力很强。VC开发。 CSharp分词,向前匹配加向后最大匹配,C#开发,容易扩展。 小叮咚分词,由后向前最大匹配,C#开发。 xerdoc分词,基于ICTCLAS的Java版本分词。 文本分词词典,分词的词典,可以提供分词数据源。-containing more than Segmentation. Graduation was the time of hope
分词器
- 迷你分词器,解压缩后,在java环境下运行使用。
小叮咚分词
- 小叮咚中文分词java源码
庖丁分词工具
- 一个流行的java分词程序。
java编写的分词和分类工具
- 这是一个用java编写的分词和分类工具,很不错的,值得很多初学者借鉴
CJKAnalyzer.分词系统(JAVA开发
- 一个很好用的分词系统(JAVA开发),词表可以扩展。,A good word to use the sub-system (JAVA development), the term sheet can be extended.
java-cluster.zip
- 用java语言实现文本聚类,包括聚类前的数据预处理:分词、降维、建立向量空间模型等,Implementation using java language text clustering, including clustering of the data pre-processing before: segmentation, dimensionality reduction, set up, such as Vector Space Model
word-frequency
- java 编写的词频统计,包含极易分词软件的包,Lucene包,程序调试通过-java written word frequency, word that contains the software package easy points, Lucene package, program debugging by
WordSeg--JAVA
- 本程序采用正向 逆向最大匹配才实现汉字分词。-This procedure being used to achieve reverse maximum matching segmentation of Chinese characters.
WordSegmentation
- 基于java的一个分词程序 速度比较快 精确度比较高-A java-based segmentation procedures faster relatively high accuracy
KaiYuanIctclas
- ICTCLAC开源代码,可用在中文文本信息处理上,为信息抽取进行中文分词、词性标注处理,准确度达到85 以上,-failed to translate
imdict-chinese-analyzer
- imdict-chinese-analyzer 是 imdict智能词典 的智能中文分词模块,算法基于隐马尔科夫模型(Hidden Markov Model, HMM),是中国科学院计算技术研究所的ictclas中文分词程序的重新实现(基于Java),可以直接为lucene搜索引擎提供简体中文分词支持。-imdict-chinese-analyzer is a smart imdict Chinese Dictionary smart module segmentation algorithm
mmseg4j-1.7.3
- 中文分词技术 MMSeg1.7.3 最新版-Chinese word segmentation technology, the latest version of MMSeg1.7.3
IRSplit_new
- 用java实现的中文分词,是在哈工大IRSplit的基础上做的-With the java implementation in Chinese word segmentation, is based on the HIT IRSplit done
chinese_segment
- 一个中文分词算法的java语言实现,词典采用文本文件形式。-A Chinese word segmentation algorithm java language implementation
fenci
- 一个简单的基于词典分词的程序,lucene的分词程序不少,但有时候并不需要复杂的功能,只是需要简单的根据指定的词典分词。代码简单,可以作为学习参考-A simple dictionary-based word process, lucene procedures for sub-word a lot, but sometimes does not require complex functions, but only require a simple dictionary word accord
IKAnalyzer3.1.1_userguide
- java分词程序,能够精确分词,包含词库等-java word program, word accurately, including the thesaurus, etc.
jieba分词
- jieba 的java分词包,一般都是python的包,这个可用于java的jieba分词(Jieba Java word segmentation package, generally Python package, this can be used for the Java Jieba participle)
FMM
- java源码分词器,导入eclipse即可使用,无需修改代码,分词效果还行(Java source code word segmentation, import eclipse can use, without modifying the code, the word segmentation effect is OK)
Models_v1_v2
- 对中文文本进行分词,词性标注。训练模型,根据模型训练学习分词。(participle Part of speech tagging)