搜索资源列表
分词051024
- 中文信息处理,例如将可含有汉字和拼音的将TXT文本中的汉字和拼音用空格隔开-Chinese information processing, for example, may contain characters and the alphabet will TXT version of the characters and the alphabet with a space separated
wordseg
- 中文文本分类中对文本进行分词处理,以降温本表示称词的集合,然后用词向量来进行分类。-Chinese text classification of text-word processing, said to cool the pool said the words, then word vector to classify.
中文分词函数库CipSegSDKV1.03
- 东大做中文分词的源代码,主要是用于搜索引擎的中文文本预处理-Tung Chinese-made version of the source code is mainly for the Chinese search engine Hypertext
zidongfenci3.0
- 这个是我们的中文信息处理的作业,我是用mfc结合sqlserver写的,可以自己一步一步的进行分词,并且可以对文本进行分词,还可以自己的找到其中的歧义字段,并自动保存到文件
taggingPOS
- 中文信息处理的源程序,用于设置词汇在文本中的位置信息,vc++编程,.cpp文件
基于KNN的中文文本自动分类研究
- 在介绍SVM和KNN分类算法的基础上,提出了一种新的、较简单的,但更为合理的基于表模型的文档表示方 法,阐述了一种基于表模型的分类算法———TableKNN算法。通过实验比较TableKNN算法与传统KNN算法应用于文 本分类的效果,证实了TableKNN算法在处理文本分类问题上的优越性。
中文网页自动分类器
- 利用knn算法实现了一个中文网页自动分类器, 包括网页预处理,ictclas中文分词,基于tf-idf的文本特征表示,基于df的特征选取和基于knn的分类算法,最后通过struts2框架web发布
LJClusterDemo
- 文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成特征主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。 灵玖Lingjoin(www.lingjoin.com)基于核心特征发现技术,突破了传统聚类方法空间消耗大,处理时间长的瓶颈;不仅聚类速度快,而且准确率高,内存消耗小,特别适合于超大规模的语料聚类和短文本的语料聚类。 灵玖文档聚类组件的主要特色在于: 1、速度快:可以处理海量规模
chinese
- 中文信息处理基础 第一讲VC环境编程简介 第二讲文件处理 第三讲字符编码 第四讲字频统计 第五讲文本断句 第六讲语料库-Basic information first deal with English-speaking environment for programming VC brief introduction stresses the second file handle character encoding the third stresses t
lingpipe-3.6.0
- 一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Query Spell Checking)、兴趣短语检测(Interseting Phrase Detection)、聚类(Clustering)、字符语言建模(Character
FileProgress1
- 文本结构化技术的初步实现及其中文信息处理的算法, 主要以论述为主!-text structure technology to achieve the initial and the Chinese information processing algorithm, based mainly discussed!
FileProgress2
- 文本结构化技术的初步实现及其中文信息处理的算法, 主要以论述为主!-text structure technology to achieve the initial and the Chinese information processing algorithm, based mainly discussed!
KaiYuanIctclas
- ICTCLAC开源代码,可用在中文文本信息处理上,为信息抽取进行中文分词、词性标注处理,准确度达到85 以上,-failed to translate
softwarecode
- 中文分词是中文信息处理中的重要环节,中文分词技术广泛应用于自动翻译、文本检索、语音识别、文本校对、人工智能以及搜索引擎技术等领域。中文分词算法的选择,中文词库的构建方式,词库中词条的完备性在很大程度上与中文分词系统性能紧密相关。-Chinese word segmentation in Chinese information processing is an important part of Chinese word segmentation technology is widely used
2
- 高 维 数 据 特 征降维研究综述-中文文本处理-Characteristics of high-dimensional data dimensionality reduction Survey
Chinese-text-categorization-Study
- 本文通过对Bayes、KNN、SVM 应用于中文文本分类进行比较实验研究。 应用ICTCLAS 对中文文档进行分词,在大维数,多数据情况下应用TFIDF 进行 特征选择,并同时利用它实现了对特征项进行加权处理,使文本库中的每个文本 具有统一的、可处理的结构模型。然后通过三类分类算法实现了对权值数据进行 训练和分类。-Based on the Bayes, KNN, SVM applied to compare the Chinese text ca
Chinese
- 是做文本预处理时候利用爬虫收集的500个中文文档,包括分词部分、去掉特殊符号部分以及最后的相似度计算等(It is the 500 Chinese document collected by a crawler for text preprocessing, including the part of the participle, the removal of the special part of the symbol, and the final similarity calculatio
ChineseChuLi
- 中文文本处理的python程序,包括分词、删除特殊字符、删除停用词、爬虫程序、PCA降维、Kmean聚类、可视化等(Python programs for Chinese text processing, including participle, deleting special characters, deleting disuse words, crawler programs, PCA dimensionality reduction, Kmean clustering, visuali
新建文件夹
- 文本处理,自然语言处理,包含中文和英文停用词(text processing,including chinese and english stopwords)
Python中文文本预处理
- 包括删除标点、分词、删除停用词、计算相似度、文本聚类等功能