搜索资源列表
shuxinglun
- 基于属性论的文本相似度计算算法,利用java语言编程实现,有需要的下载,有问题大家一起讨论
JAVA实现文本聚类,用到TF/IDF权重
- JAVA实现文本聚类,用到TF/IDF权重,用余弦夹角计算文本相似度,用k-means进行数据聚类等数学和统计 知识。,JAVA realization of text clustering, using TF/IDF weight, calculated using cosine angle between the text of similarity, using k-means clustering for data such as mathematical and statistical
k-means_Program
- k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。 -k-means algorithm to accept input k then n-k of data objects into a cluster in order to make the cluster available to meet: t
(java)wenbenjulei
- 文本距离,文本相似度计算的java源代码,内含测试文档-Text from the text similarity calculation java source code, containing the test document
DesktopApplication_yichao
- java 图形界面实现ld算法 比较文本相似度-ld algorithm
ComputerDecision
- 计算文本的余弦相似度,进行文本分类 。两文本相似度越接近1,越有可能被分为1类-Calculated text cosine similarity for text classification
English-sentence-sim
- 英文文本的相似度计算,分别从词形、词序、词义等进行权重计算,得到相似度结果-English text similarity calculation were re-calculated from the word form, word order, meaning, etc. right, the similarity results
src
- 基于文本内容相似度查询的软件代码,Java开发语言。-Similarity-based software code text queries, Java development language.
SimHash
- simhash算法的使用,可以进行网页去重,文本的相似度计算等-Use simhash algorithm can go heavy pages, such as text similarity calculation
VSM
- 利用向量空间模型对两个文本的相似度进行计算的Java代码-The use of vector space model for the two text similarity calculation of the Java code
文本查重
- 类说明: 名称:Contrast 描述:用于两文本进行各种方法的相似度对比。 相似度对比方法: 1.EditDistance编辑距离 2.CosineSimilarAlgorithm余弦定理 3.JianDanMoHu模糊匹配 4.综合对比,三种方法皆对比一遍,取平局值 方法:String getDegree(文本1,文本2,使用方法id)返回值为:字符串型的,相似度百分比(Class descr iption: Name: Contrast Desc
Kmeans
- 算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法就可以实现文本聚类。源码为java实现(Algorithm idea: extract the TF/IDF weight of the document, then calculate the distance between two multidimensional vectors by cosine theorem, calculate the similarity