查看会员资料
用 户 名:x***
发送消息- Email:用户隐藏
- Icq/MSN:
- 电话号码:
- Homepage:
- 会员简介:
最新会员发布资源
onTextCategorization
- 本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增 益IG、互信息MI、V2分布CHI 四种不同的特征选取方法。采用支持向量机(SVM) 和KNN两种不同的分类 器以考察不同抽取方法的有效性。实验结果表明, 在英文文本分类中表现良好的特征抽取方法( IG、MI 和 CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因, 并分析了可能的 矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征