搜索资源列表
语料库
- 一份很重要的语料库,为你的分词程序是一个很好用的资料库文件-a very important corpus, as your segmentation procedure is a very good use of the database file
wenbenfenlei
- 中文文本分类的语料库,比较全面,可用于进行分类训练时-Chinese text classification of Corpus, more comprehensive, and can be used for classification of training
svmcls
- 基于SVM的文本分类算法,有自己的语料库
ReadDir
- 该程序实现的是一个垃圾邮件过滤系统,方法采用的是NAIVE Bayes,语料库用的是LINspam—public,程序中有使用说明,希望大家一起探讨改进一下,
分词语料库
- 文本分词\分类的语料库
AIML-Verbot_Converter.rar
- 一款将AIML语料库转换为Verbot语料的软件,其中Verbot是国外非常流行的智能聊天软件。,A corpus will be converted to AIML software Verbot corpus, which Verbot is very popular abroad, intelligent chat software.
VoxForge
- 高级语音识别语料库,英语专用,HTK必备资料-Advanced speech recognition corpus, English dedicated, HTK essential information
AIMLTest
- 此程序采用AIML实现机器对话,当你问问题的时候,他会做做相应的回答。文件里面包含以下简单的语料库进行测试,如果做对话的可以了解下。-This program uses AIML machine dialogue, when you ask questions, he will be doing the appropriate answer. File which contains the following simple corpus for testing, if the dialogue
pu1
- 用于机器学习中垃圾邮件过滤的垃圾邮件语料库-For machine learning in spam filtering spam corpus
bayes-network-for-classication
- 利用朴素贝叶斯网络来训练语料库,得到理想模型-bayes network for classication
automatic-word-segmentation
- 实现一个中文自动分词程序,所使用的编程语言不限 选作:对人名,地名,机构名的识别 下载北大计算语言所标注的99年人民日报分词语料库,构建一个词表 实现正向、逆向最大分词算法-To implement a Chinese automatic word segmentation procedure, used by any programming language Chosen for: the person names, place names, organization name
natural-language-processing
- 统计自然语言处理PPT-刘挺 中科院自动化研究所、模式识别国家重点实验室的 介绍的内容有统计机器翻译、词法分析与词性标注、语料库与词汇知识库-Statistical Natural Language Processing PPT-Ting Liu Institute of Automation, Chinese Academy of Sciences, State Key Laboratory of Pattern Recognition content presentation of
aiml
- aiml python 版本 里面包含alice语料库 有需要的朋友可以下载一下-aiml python version
LSI
- 基于隐语义模型的新闻相似度分析,根据一片包含三千多篇的新闻语料库,做新闻相似度分析。-Based on the similarity news hidden semantic analysis of the model, according to a news article that contains more than three thousand corpus, do news similarity analysis.
DocumentSimilarity.py
- 基于向量空间模型的计算新闻相似度算法,根据一篇1998年的人民日报语料库,进行文章相似度计算,输出结果为一个上三角矩阵-News similarity algorithm to calculate the vector space model, according to a People' s Daily Corpus 1998, carried articles similarity calculation, output is an upper triangular matrix
chinese_text_classification-master
- 文本分类的一个基本项目,用到的是复旦大学中文语料库(a basic project for text classification,I use the corpus from fudan university as my training and testing corpus)
icwb2-data
- NLP中文语料库,backoff语料库,可以用来训练(A wiki (Listeni/ˈ wɪ ki/ WIK-ee) is a website that provides collaborative modification of its content and structure directly the web browser. In a typical wiki, text is written using a simplified markup language an
合工大自然语言处理报告代码
- 四、中文词法分析系统 1、实验要求 语料库:1998-01-2003版-带音.txt 要求:根据构建的单词词典和双词词典,用n-gram模型,或者前向最长匹配,或者后向最长匹配等算法,鼓励用更复杂一些的方法来进行,包括隐马尔科夫模型和条件随机场模型。 二、宋词自动生成 1、实验要求 语料库:ci.txt 要求:输入词牌,基于宋词的词典和宋词的词牌,可以随机或者按照语言模型,自动生成宋词。设计相应的Ui或者Web界面。 实现了隐马尔科夫模型分词