搜索资源列表
SogouW.20061127
- 互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。 语料库统计的意义:反映了互联网中文语言环境中的词频、词性情况。 应用案例:中文词性标注、词频分析等。 词性分类: N 名词 V 动词 ADJ 形容词 ADV 副词 CLAS 量词 ECHO 拟声词
Chinese
- 用VB6.0开发的中文词频统计软件,可在word文档中自动找出所有的词语,并从按照词频高低排序。附测试文档。
ChineseSplit
- 一个基于VB.NET开发的中文分词及关键词提取系统,采用双向最大匹配、词频统计、快速排序等算法实现。-VB.NET developed based on Chinese word segmentation and Key Extraction System, the largest two-way matching, word frequency statistics, such as quick sort algorithm.
zhongwenfenci
- 使用字典的中文分词程序 输入: Dic.txt: 词典文件 Target.txt: 目标文件 输出: Result_back.txt:后向分词的结果 Result_front.txt:前向分词的结果 Result.txt: 双向扫描,对词频统计分析得到的结果 -The Chinese word dictionary program input: Dic.txt: dictionary file Target.txt: Target file output
UCChineses
- 用VB6.0开发的中文词频统计软件,可在word文档中中自动找出所有的词语,并从按照词频高低排序。附测试文档。 -VB6.0 to develop the Chinese word frequency statistics software, automatically find all the words in a word document, and from the word frequency level of sort. Attached to the test document.
wordfrequency
- 中文文档的词频统计程序,已经通过调试!可以正常使用。程序是用C#编写的-words frequency
Lucene
- Lucene中文词频统计,包括分词,统计,排序,运行高效,分词手段使用Lucene封装的类库,操作简便-Lucene Chinese word frequency statistics, including segmentation, statistics, sorting, efficient operation, word means using Lucene library package, easy to operate
THULAC_lite_java_v1
- 中文文本分词 词频统计,分词,去掉停词。 仅支持UTF-8编码-Chinese text segmentation To get the word frequency, word segmentation, remove stop words. Support only UTF-8 encoding
jiebacut.py
- 通过结巴分词处理中文分词问题【对文本进行分词以及词频统计处理】。(The problem of Chinese participle is dealt with by the branch word segmentation.)
wordseg
- 运用R语言进行中文分词处理,得到词频统计,并绘制词云图直观表示(Chinese word segmentation and word cloud drawing)
自然语言处理课程设计代码
- 一、宋词词频统计:语料库:ci.txt 要求:编程序,输入ci,自动分析统计ci.txt,统计宋词的单字词,双字词等。统计后,输出的是单字词和双字词的词典文件。文件中包括相应的词和频度(次数)。 二:宋词自动生成:语料库:ci.txt 要求:输入词牌,基于宋词的词典和宋词的词牌,可以随机或者按照语言模型,自动生成宋词。设计相应的Ui或者Web界面。 四、中文词法分析系统:语料库:1998-01-2003版-带音.txt 要求:根据构建的单词词典和双词词典,用n-gram模型,或者前向最