搜索资源列表
面向语言教学研究的汉语语料检索系
- 面向语言教学研究的汉语-research-oriented language teaching in Chinese
基于朴素贝叶斯方法的文本分类
- 本程序实现了基于朴素贝叶斯方法的文本分类,附有源代码、实验报告、可执行程序以及语料库(包括训练集和测试集) -This procedure implements the text-based Naive Bayes classification method, with source code, test reports, executables and corpus (including the training set and test set)
jzym
- 垃圾邮件过滤器,你可以将快捷方式直接放到桌面上就可以用了,很方便哦! 打开后先训练, 然后选择你需要测试的txt文件 进行测试 , 其中, 自带的那个“邮件测试文件夹”是用来测试用这个邮件库过滤邮件正确率的,当然你也可以自己用自己准备好的邮件进行测试,不过“邮件测试文件夹”“合法邮件”“垃圾邮件”这3个文件夹名字不能改变. 你可以直接向Sample这个文件夹下的 “合法邮件”与“垃圾邮件”里直接增加自己的语料,当然你的语料库越大测试越准确了!-Spam filters, you ca
BootCaT-0.1.2.tar
- 此软件是开源软件,主要用于中文信息处理,信息检索。本人主要用于网络获取双语语料库。此软件用perl编写,模块独立性强,在获得收集一些种子网址后,即可用于双语网络获取。-The perl scr ipts included in the BootCaT toolkit implement an iterative procedure to bootstrap specialized corpora and terms from the web, requiring only a list
bilingual-sentence-aligner.tar
- BILINGUAL SENTENCE ALIGNER 在获得双语平行文本后,希望得到句子级对齐语料库,这步往往决定了语料库的质量是否达标。此软件用perl编写,版权归Microsoft Corporation所有。可以用于非商业。-BILINGUAL SENTENCE ALIGNER (c) Microsoft Corporation. All rights reserved. Your use of the Microsoft software ("Software")
crawler
- 实习时做的网络爬虫程序,爬取“金融时报”和“ftchinese”网站的双语文本语料。带源码和可执行文件,并附使用说明。做自然语言处理方面的好例子-When the network attachment procedure reptiles, climb a " Financial Times" and " ftchinese" bilingual text corpora website. With source and executable files, a
GetURL
- 从URL中WEB挖掘,基于互联网双语语料的获取-web mining from URL,base on the getting the language resorces in internet
Javaspamfiltering
- java 过滤垃圾邮件 贝叶斯过滤 内含语料 有正常邮件 垃圾邮件 便以过滤-java Bayesian filter to filter spam e-mail containing a normal corpus will be to filter spam
java-text-classter-tool
- Java 实现的文本分类工具,包含语料库和实例代码。-Java implementation of text classification tools, including the corpus and the example code.
Yard0.2.0
- 用JAVA实现的中文语料分割。使用时直接点击yard批处理文件在DOS界面操作。 -Implemented with JAVA Chinese corpus segmentation. Click the yard when used directly in the DOS batch file interface operation.
geniuswiki
- 语料库管理系统功能齐全而强大,知识面广而且使用课程实际使用的毕业设计-Corpus management system has complete function and strong, broad knowledge and the use of the actual use of the graduate design course
TFIDF
- 语料库中计算tfidf的值。java开发完成。-Corpus tfidf calculated value. java development is completed.
JnaTest_V1
- 基于中科院NLPIR分词系统做的分词以及新词发现系统,第二十届全国信息检索学术会议(CCIR2014)题目2.3,微博新词发现与情感分析的源码,可处理大语料的微博出局-Based on NLPIR Chinese Academy of Sciences, to solve the problem CCIR2014,Blog content s new words discover and sentiment classify.
Segmenter.tar
- 基于条件随机场的越南语分词,语料来于越南语网站的新闻爬取-Vietnamese word segmentation based on conditional random field
bayes
- java实现朴素贝叶斯中文文本分类器。自带分类语料和实验报告。功能完整。-java implement Naive Bayes Chinese text categorization. Own classification corpus and test reports. Full-featured.
dataset_602123
- 酒店情感分析语料库,包含neg和pos的分类-Hotels Corpus sentiment analysis, including classification neg and pos
TF
- TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级- TF-IDF is a statistical method to assess the importance of a word for a file set or a corpus of the importan