搜索资源列表
中文分词技术及最新发展
- 搜索引擎通常由信息收集和信息检索两部分组成。对于英文,由于英文中词 与词之间是用空格隔开,检索起来很方便,故计算机采用了词处理的方式,大大 减轻了用户与计算机的工作量:相对来讲,中文的情形就复杂得多。中文的词与 词之间是没有分隔符的,因此若想建立基于词的索引,就需要专门的技术,这种 技术被称之为“汉语词语切分技术”。根据是否采用词语切分技术,中文搜索引 擎又可分为基于字的搜索引擎和基于词的搜索引擎。由于中文信息处理的特殊 性,开发中文搜索引擎决不像西文软件的汉化那样简单。在实
23
- 词频统计就是统计一个句子或一篇文章中各种词出现的频率,它是中文信息处理的一项基本技术,在很多领域中都有重要的应用。例如在中文搜索引擎(如Google、百度)中,除特别常用的词以外,一篇文章中出现频率较高的词通常能反映这篇文章的主题,因此可以使用词频来对中文文章进行归类。本案例实现按词表对文章中的词语进行分析,并按字典序给出词表中各词语在文章中出现的次数。-Frequency Statistics is a statistical one sentence or an article in the
ICTCLAS2014
- 中文自然语言处理相关程序,包括中文词频统计、新词发现等功能,并含有示例文档。-Chinese Natural Language Processing related procedures, including Chinese word frequency statistics, new word detection and other functions, and contains a sample document.