文件名称:onTextCategorization
介绍说明--下载内容来自于网络,使用问题请自行百度
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增
益IG、互信息MI、V2分布CHI 四种不同的特征选取方法。采用支持向量机(SVM) 和KNN两种不同的分类
器以考察不同抽取方法的有效性。实验结果表明, 在英文文本分类中表现良好的特征抽取方法( IG、MI 和
CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因, 并分析了可能的
矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的
有效性。-Thispaper is a comparativestudy of feature selectionmethodsintext categorization. Four methods were
evaluated, including document frequency ( DF) , information gain ( IG) , mutual information ( MI) andV
2
-test
( CHI). ASupport Vector Machine ( SVM) anda k-nearest neighbor ( KNN) wereselectedastheevaluating class-i
fiers. We foundIG, MI andCHI hadpoor performance inour test, thoughthey behavewell inEnglishtext catego-rization. We analyzedthereasonstheoretically andput forwardedthe possible solutions. Afurthermore experiment
provedthat the combinedfeatureselectionmethodis effective.
益IG、互信息MI、V2分布CHI 四种不同的特征选取方法。采用支持向量机(SVM) 和KNN两种不同的分类
器以考察不同抽取方法的有效性。实验结果表明, 在英文文本分类中表现良好的特征抽取方法( IG、MI 和
CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因, 并分析了可能的
矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的
有效性。-Thispaper is a comparativestudy of feature selectionmethodsintext categorization. Four methods were
evaluated, including document frequency ( DF) , information gain ( IG) , mutual information ( MI) andV
2
-test
( CHI). ASupport Vector Machine ( SVM) anda k-nearest neighbor ( KNN) wereselectedastheevaluating class-i
fiers. We foundIG, MI andCHI hadpoor performance inour test, thoughthey behavewell inEnglishtext catego-rization. We analyzedthereasonstheoretically andput forwardedthe possible solutions. Afurthermore experiment
provedthat the combinedfeatureselectionmethodis effective.
(系统自动生成,下载前可以参看下载内容)
下载文件列表
中文文本分类中特征抽取方法的比较研究.pdf
本网站为编程资源及源代码搜集、介绍的搜索网站,版权归原作者所有! 粤ICP备11031372号
1999-2046 搜珍网 All Rights Reserved.