搜索资源列表
WordTest
- 本文阐述了一个基于K-Nearest Neighbor(KNN)算法的中文网页自动分类系统的体系结构、具体设计和实现过程。系统分成三个模块:中文网页的下载与过滤(王勋完成);KNN算法的训练与分类(黄健完成);算法评估以及分词系统的整合(吴亮完成)。 本人主要是实现算法的评估以及分词系统的整合:分词系统的整合利用爱博汉语分词系统(服务器版本—共享版),将下载下来的中文网页过滤后所得到的txt文件内容进行分词,以便提供给KNN算法进行训练和分类;算法的评估是将KNN算法后所得到的结果进行分析,