搜索资源列表
wenbenfenlei
- 中文文本分类的语料库,比较全面,可用于进行分类训练时-Chinese text classification of Corpus, more comprehensive, and can be used for classification of training
dbacl.tar
- dbacl是一个通用目的的digramic贝叶斯文本分类器。它可以学习你提供的文本,接着用 学到的类别来比较新的输入。它可以用于垃圾邮件过滤,或在你自己的外壳脚本中使用。 -dbacl is a general-purpose text digramic Bayesian classifier. It can learn to provide you with the text, then uses learned relatively new type of input. It can be
nerve
- 人工神经元分类模型,可以对短文本进行分类并且有比较高的准确率(训练文本正确时)-Artificial neural classification model can be classified on the short text and a relatively high accuracy rate (training text correctly)
vsm-and-cluster-kmeans
- 对文本聚类的向量空间模型机制VSM以及Kmeans等讲解比较详细,是研究文本聚类的好书籍-Clustering of text vector space model to explain the mechanism of VSM and Kmeans and other more detailed, study of text clustering is a good book
text_classification_using-svm
- 关于svm支持向量机的比较权威的论文,详细介绍了svm算法的原理及其在文本分类中的应用-Authoritative papers for Svm support vector machines , detailing the algorithm and its application in svm text classification application
onTextCategorization
- 本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增 益IG、互信息MI、V2分布CHI 四种不同的特征选取方法。采用支持向量机(SVM) 和KNN两种不同的分类 器以考察不同抽取方法的有效性。实验结果表明, 在英文文本分类中表现良好的特征抽取方法( IG、MI 和 CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因, 并分析了可能的 矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征
TMSVM
- TMSVM开源的文本挖掘代码,C++代码写的比较清楚,值得研究。-TMSVM opensource text mining code
initiabioation-recordset
- 这是一篇讲述聚类在文本挖掘中的应用的博士论文,个人认为讲述的还是比较细的()