搜索资源列表
-
3下载:
一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Query Spell Checking)、兴趣短语检测(Interseting Phrase Detection)、聚类(Clustering)、字符语言建模(Character
-
-
0下载:
中文分词
支持对输出颗粒的控制,可以输出普通颗粒与用于检索的小颗粒;同时输出词串所在句号、段号、词号、词性等信息。
关于分词输出颗粒,我们认为各种应用对分词要求的颗粒度是不同的. 比如自动分类、关键词抽取比搜索需要的分词颗粒度要大, 因为这样表示文本语义特征时效果会更好, 而检索有一个查全率的要求, 就需要把分词单位做的更为细致, 不然就会造成漏查。
海量系统现在提供了两种颗粒的规则, 其中, 默认的为大颗粒接口, 主要用于自动分类、信息挖潜、机器翻译、语音合成、人工智能等领域,
-
-
0下载:
本系统使用java语言编写,采用机器学习的方法进行自然语言处理,对中文进行分词和词性标注。分词采用crf模型,词性标注用hmm模型,解码算法为Vertibi算法。-The system uses java language, using machine learning methods for natural language processing, for Chinese word segmentation and POS tagging. Segmentation using crf mod
-
-
0下载:
前NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。国内国际排名均为第一。
项目已经配置好环境,导入Eclipse即可使用,文件内src下的TestUTF8.java可以直接运行,提供了分词接口-Before NLPIR Chinese word segmentation system (aka I
-
-
0下载:
使用哈工大信息检索实验室LTP系统进行分词,词性标注,命名实体识别,依存句法分析,语义角色标注
同时是最新版API使用情况,JAVA版本,并且生成XML文件-Retrieval Laboratory LTP system segmentation, the use of Harbin Institute of technology information of part of speech tagging, named entity recognition, dependency parsi
-
-
0下载:
中文的分词,包括词性标注、关键词提取,Java文件(word segmentation and part of speech tagging)
-