搜索资源列表
wenbenwajue1232
- 关于文本挖掘的摘要,对各种聚类算法进行了分析,是个好的东西-on Text Mining summary of the various clustering algorithms to the analysis is a good thing
main.计算文本之间相似度的程序
- 计算文本之间相似度的程序,用于文本的聚类。是在已知各个文本的文本特征向量基础上进行计算的,利用余弦值计算,Calculation of similarity between the text of the procedures for text clustering. Are known at all the text of the text feature vector calculated based on the use of cosine values
WawaTextCluster
- 文本聚类算法源码-Source text clustering algorithm
TDIDF_Demo
- 基于k-means的文本聚类程序实现,希望对大家有帮助!-Based on the k-means clustering procedures for the realization of the text, I hope all of you help!
text-data-mining
- 此程序实现了如何在TXT或WORD文档中进行数据挖掘,在文本中提取有用信息-The realization of this procedure how to TXT or WORD document to carry out data mining, in the text to extract useful information
reuters21578
- 这是一个英文的语料库,可以用于进行文本的分类与聚类。是文本分类领域共用的一个语料库。-This is a corpus of English, can be used for text classification and clustering. The field of text classification is a common corpus.
IntroductiontoInformationRetrieval
- Introduction to Information Retrieval is the first textbook with a coherent treatment of classical and web information retrieval, including web search and the related areas of text classification and text clustering. Written from a computer sci
111
- 有关层次聚类的源码,对于文本聚类有一定作用。-Hierarchical clustering,Text Clustering
TextClusteringKmeans
- 从文本文件读入文本,分词,去停顿词,然后利用kmeans进行文本聚类-Text Clustering with K means
myfirst1
- 实现吉布斯采样,可用来处理文本,对文本聚类,分析文本主题,请用vs2010打开-Achieve Gibbs sampling, can be used to handle text, text clustering, analysis of text themes
1
- 基于WEKA平台的文本聚类研究与实现 文本聚类是文本挖掘领域的一个重要研究分支,是聚类方法在文本处理领域的应用。本文对基于空间向量模型的文本聚类过程做了较深入的讨论和总结,利用文本语料库,基于数据挖掘工具研究并实现了文本聚类的过程。本文首先给出了文本聚类的思想和过程,回顾了文本聚类领域的已有成果,列举了文本聚类领域在特征表示、特征提取等方面的基础研究工作。另外,本文回顾了现有的文本聚类算法,以及常用的文本聚类效果评价指标。在研究了已有成果的基础上,本文利用20 Newsgroup文本语料库,
optics_cos
- 基于余弦聚类的OPTICS聚类算法,能够用于文本聚类-This is the OPTICS clustering algorithm based on cosine distance which can be used in text clustering.
Cjulei
- 将文本文件中数据按照C均值聚类算法进行聚类-The text file data according to C-means clustering algorithm for clustering
PLSA
- PLSA能夠將文字利用主題語意分群 是一個很有用的工具-PLSA able to use the theme semantic clustering text is a useful tool
toolkit_for_words_En
- 处理英文中的停词、同词干词,不改变文章结构。适用于文本分类、文本聚类、推荐预处理。-Processing of stop words in English, with the stem word, does not change the structure of the article. Suitable for text categorization, text clustering, recommend pretreatment.
Cluster_DBSCAN_txt
- DBSCAN算法;读取文本数据;聚类表示;简单快速-DBSCAN algorithm read text data clustering representation simple and fast
cluster-test-VO.2
- 基于C++语言,利用K均值及其改进方法实现短文本的聚类,其中利用最远距离法实现的聚类中心初始化-Based on the C++ language, the use of K-means clustering and improved methods to achieve short text clustering centers which use the law to achieve the most remote initialization
CosineSimilarAlgorithmzf
- 这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。-Here will use the TF/IDF weight, with cosine angle calculation of text similarity, with the variance of the two data between the data of the European distance, with K-means data cluste
DBSCAN Clustering
- 基于matlab的dbscancluster的实现可用于文本聚类(The implementation of dbscancluster based on Matlab can be used for text clustering)
协同过滤算法
- 文本聚类(Text clustering)文档聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。(Text clustering document clustering is based on the well-known clustering assum