搜索资源列表
WordCount
- 关于中文词频统计的Perl源码,是RAR的压缩文件-Chinese phrases on the Perl source is the RAR compressed files
SogouW.20061127
- 互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。 语料库统计的意义:反映了互联网中文语言环境中的词频、词性情况。 应用案例:中文词性标注、词频分析等。 词性分类: N 名词 V 动词 ADJ 形容词 ADV 副词 CLAS 量词 ECHO 拟声词
wvtool-1.1
- 一个很不错的词频统计程序,目前只支持英文,中文的本人正在修改中.改好后上传给大家分享
Chinese
- 用VB6.0开发的中文词频统计软件,可在word文档中自动找出所有的词语,并从按照词频高低排序。附测试文档。
中文分词技术及最新发展
- 搜索引擎通常由信息收集和信息检索两部分组成。对于英文,由于英文中词 与词之间是用空格隔开,检索起来很方便,故计算机采用了词处理的方式,大大 减轻了用户与计算机的工作量:相对来讲,中文的情形就复杂得多。中文的词与 词之间是没有分隔符的,因此若想建立基于词的索引,就需要专门的技术,这种 技术被称之为“汉语词语切分技术”。根据是否采用词语切分技术,中文搜索引 擎又可分为基于字的搜索引擎和基于词的搜索引擎。由于中文信息处理的特殊 性,开发中文搜索引擎决不像西文软件的汉化那样简单。在实
中文词频统计软件
- 可以统计中文词汇的词频
ChineseSplit
- 一个基于VB.NET开发的中文分词及关键词提取系统,采用双向最大匹配、词频统计、快速排序等算法实现。-VB.NET developed based on Chinese word segmentation and Key Extraction System, the largest two-way matching, word frequency statistics, such as quick sort algorithm.
zhongwenfenci
- 使用字典的中文分词程序 输入: Dic.txt: 词典文件 Target.txt: 目标文件 输出: Result_back.txt:后向分词的结果 Result_front.txt:前向分词的结果 Result.txt: 双向扫描,对词频统计分析得到的结果 -The Chinese word dictionary program input: Dic.txt: dictionary file Target.txt: Target file output
UCChineses
- 用VB6.0开发的中文词频统计软件,可在word文档中中自动找出所有的词语,并从按照词频高低排序。附测试文档。 -VB6.0 to develop the Chinese word frequency statistics software, automatically find all the words in a word document, and from the word frequency level of sort. Attached to the test document.
wordfrequency
- 中文文档的词频统计程序,已经通过调试!可以正常使用。程序是用C#编写的-words frequency
23
- 词频统计就是统计一个句子或一篇文章中各种词出现的频率,它是中文信息处理的一项基本技术,在很多领域中都有重要的应用。例如在中文搜索引擎(如Google、百度)中,除特别常用的词以外,一篇文章中出现频率较高的词通常能反映这篇文章的主题,因此可以使用词频来对中文文章进行归类。本案例实现按词表对文章中的词语进行分析,并按字典序给出词表中各词语在文章中出现的次数。-Frequency Statistics is a statistical one sentence or an article in the
zhengdike
- (个人原创)《中文网页自动分类》 牵扯的技术有:分词,统计词频,踢出网页中一些特殊字符(用正则表达式),还有需要提取培训集等等!! 此软件禁止商业活动,版权所属“qyTT论坛--www.qyclass.org/bbs” 本文来自: qyTT论坛 http://www.qyclass.org/bbs 我们的使命:让世界认识qyTT,让qyTT认识世界! 结果分析的思想:就是把得到的词频与建立的词库里每一类进行比较,如果存在一个最大匹配程度,就去这个类作为结果,如果存
CutWords
- 程序自动读取文件,进行中文词频统计,有输出结果并存到本地文件-You can get the frequency of the Chinese words by using this code!
Lucene
- Lucene中文词频统计,包括分词,统计,排序,运行高效,分词手段使用Lucene封装的类库,操作简便-Lucene Chinese word frequency statistics, including segmentation, statistics, sorting, efficient operation, word means using Lucene library package, easy to operate
NlPIR
- 中文分词与词频统计 64位 为eclipse工程文件,可直接运行,效果不错-Chinese word and word frequency statistics 64
ICTCLAS2014
- 中文自然语言处理相关程序,包括中文词频统计、新词发现等功能,并含有示例文档。-Chinese Natural Language Processing related procedures, including Chinese word frequency statistics, new word detection and other functions, and contains a sample document.
THULAC_lite_java_v1
- 中文文本分词 词频统计,分词,去掉停词。 仅支持UTF-8编码-Chinese text segmentation To get the word frequency, word segmentation, remove stop words. Support only UTF-8 encoding
jiebacut.py
- 通过结巴分词处理中文分词问题【对文本进行分词以及词频统计处理】。(The problem of Chinese participle is dealt with by the branch word segmentation.)
wordseg
- 运用R语言进行中文分词处理,得到词频统计,并绘制词云图直观表示(Chinese word segmentation and word cloud drawing)
自然语言处理课程设计代码
- 一、宋词词频统计:语料库:ci.txt 要求:编程序,输入ci,自动分析统计ci.txt,统计宋词的单字词,双字词等。统计后,输出的是单字词和双字词的词典文件。文件中包括相应的词和频度(次数)。 二:宋词自动生成:语料库:ci.txt 要求:输入词牌,基于宋词的词典和宋词的词牌,可以随机或者按照语言模型,自动生成宋词。设计相应的Ui或者Web界面。 四、中文词法分析系统:语料库:1998-01-2003版-带音.txt 要求:根据构建的单词词典和双词词典,用n-gram模型,或者前向最