搜索资源列表
StopList
- Create stop list hashmap using stoplist file for removing stop words
DataMining3rd
- 评测数据在去掉停用词的 分类过程开放测试中,引入Good-Turing算法的分类性能比Laplace原则提高了3·05 ,比Lidstone方法提高 1·00 .而在交叉熵选择特征词的算法中,增加Good-Turing的贝叶斯分类方法可比最大熵分类性能高95 .通过这种数据平滑的算法,有助于克服因数据稀疏而引发的特征词缺失问题 -Evaluation data in the open test of the classification process to remove stop
cut-stopwords
- 语义网中,文本分析、信息检索常用的停用词!-The Semantic Web, text analysis, information retrieval used stop words!
fencizf
- 基于java编程,采用最大匹配算法实现简单的中文分词,并过滤停用词-The maximum matching algorithm based on java programming, simple Chinese word segmentation and filtering stop words
interest-profile-anonymization
- 本系统通技术运用主要采用Servlet实现,前台页面使用jsp技术,首先接受所要处理的数据集以及参数设置,对用户的搜索内容进行分词、去除停用词,形成用户的兴趣模型;进行用户兴趣模型匿名化:从用户兴趣模型集中选取模型,计算该模型与所有等价组模型的相似性以及计算该模型与其他所有模型的相似性,根据相似性的大小进行聚合成等价组,然后再计算各自兴趣模型的权值,以达到用户兴趣模型的匿名化以及权值的平衡,然后提交到后台进行匿名化操作,最后返回匿名化结果。-The system through the use
Engilsh-Chineas-StopWords
- 中文和英文的停用词词库,在信息检索方面能用到-this is the English and Chines Stop-words,you can use this in Information Searching program
To-stop-words
- 用于对文件的停用词删除,可以对文件中出现频率过高,没有用的字、词进行剔除-Stop words for file deletion,Can occur too frequently, no use of the word, the word of the document be removed
stopwords_en.txt
- English stop words for machine learning
stopwords
- 中文停用词表(停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。)(Chinese Stop Words List)