搜索资源列表
wenbenfenlei
- 中文文本分类的语料库,比较全面,可用于进行分类训练时-Chinese text classification of Corpus, more comprehensive, and can be used for classification of training
SogouW.20061127
- 互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。 语料库统计的意义:反映了互联网中文语言环境中的词频、词性情况。 应用案例:中文词性标注、词频分析等。 词性分类: N 名词 V 动词 ADJ 形容词 ADV 副词 CLAS 量词 ECHO 拟声词
AutoChatting.rar
- 用AIML语言开发的一款中文自动聊天软件,附加有部分AIML中文对话语料库,AIML language developed by a Chinese auto-chat software, additional dialogue, some Chinese Corpus AIML
chinese
- 中文信息处理基础 第一讲VC环境编程简介 第二讲文件处理 第三讲字符编码 第四讲字频统计 第五讲文本断句 第六讲语料库-Basic information first deal with English-speaking environment for programming VC brief introduction stresses the second file handle character encoding the third stresses t
Chinese--NER
- 基于CRF的中文机构名识别系统。使用北京大学1998年的人民日报语料库作为训练语料。除常用的特征模板,已经词性特征外,使用词语的最后一个字作为特征,提高了机构名识别的准确率, 调用了CRF++程序包训练模型。-CRF-based name recognition system of Chinese institutions. People' s Daily, Peking University in 1998 with corpus as training data. In additio
PoS-Tagging-based-on-HMM
- 基于隐马尔科夫的中文词性标注系统的C++源代码,包括训练集和测试集语料库,单词量和词性数目都没有写死,可适应任意大的训练和测试数据集,程序已经过优化,一次标注只需要不到10秒的时间。-Based on Hidden Markov of the Chinese part of speech tagging system in C++ source code, including the training set and test set corpus, vocabulary and speech
BootCaT-0.1.2.tar
- 此软件是开源软件,主要用于中文信息处理,信息检索。本人主要用于网络获取双语语料库。此软件用perl编写,模块独立性强,在获得收集一些种子网址后,即可用于双语网络获取。-The perl scr ipts included in the BootCaT toolkit implement an iterative procedure to bootstrap specialized corpora and terms from the web, requiring only a list
WekaTest
- weka包+eclipse完成中文语料库分词 分类-weka package+ eclipse complete classification of Chinese word segmentation corpus
qwvvfg
- 基于语料库的中文姓名识别方法研究 本文在大规模语料基础上提取和分析了中文姓氏和名字用字的使用频率,研究了 中文姓名识别的评价函数,动态地建立了姓名识别统计数据表和姓名阅值-Corpus-based Study of Chinese Names Recognition Based on the large-scale extraction and analysis of corpus based on the first and last name in Chinese character
master_thesis
- 音乐领域中文实体关系抽取研究 实体关系抽取的任务是从文本中抽取出两个或者多个实体之间预先定义 好的语义关系。本文将实体关系抽取定义为一个分类问题,主要研究内容是 中文音乐领域的实体关系抽取。针对这一问题,本文首先构建了中文音乐实 体关系语料库,然后分别采用了基于序列模式挖掘的无指导的方法和基于特 征提取的有指导的方法来解决这一问题。 -Dissertation for the Master Degree in Engineering urgently needed to de
pfr199801
- PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。为了促进中文信息处理研究的发展,我们三方计划公开PFR语料库。作为公开的前期工作,从4月3日起,在我们三方的主页上免费公开PFR语料库1月份的语料,欢迎大家下载。PFR语料库的制作规范参阅《现代汉语语料库加工――词语切分与词性标注规范》。如果您在研究或论文工作中使用PFR语料库,请注明来
fenci
- 利用HMM,针对《1998年人民日报》语料库进行研究,最终实现了中文语句的自动分词-By HMM, research, and ultimately the Chinese statement for the 1998 People' s Daily " Corpus automatic segmentation
ygrx
- 这是一个简单的中文分词程序,可以在没有语料库的情况下通过各个词语的相关度将中文词汇抽取出来-A simple Chinese segmentation procedures, speed is also good
automatic-word-segmentation
- 实现一个中文自动分词程序,所使用的编程语言不限 选作:对人名,地名,机构名的识别 下载北大计算语言所标注的99年人民日报分词语料库,构建一个词表 实现正向、逆向最大分词算法-To implement a Chinese automatic word segmentation procedure, used by any programming language Chosen for: the person names, place names, organization name
616341
- 中文文本语料库 适合中文文本分类使用 朴素贝叶斯算法整合 -Chinese text categorization corpus
tc-corpus-answer
- 复旦中文文本语料库,共十类文本,未分词,有兴趣可以-Fudan Chinese text corpus
hownet
- 知网完整版,附带相关的各种论文文档,中文语料库-see chinese descr iption
chinese_text_classification-master
- 文本分类的一个基本项目,用到的是复旦大学中文语料库(a basic project for text classification,I use the corpus from fudan university as my training and testing corpus)
icwb2-data
- NLP中文语料库,backoff语料库,可以用来训练(A wiki (Listeni/ˈ wɪ ki/ WIK-ee) is a website that provides collaborative modification of its content and structure directly the web browser. In a typical wiki, text is written using a simplified markup language an
BosoNnlp
- 玻森专注中文语义分析技术,拥有丰富的经验积累。自主研发千万级中文语料库,为精准和深度的中文语义分析提供坚实基础。一站式解决您的中文语义分析需求。多个语义分析API,从情感倾向、实体、分类等方面。官网只有python版本,现上传Java的实例。(He focuses on Chinese semantic analysis technology and has rich experience. Independently developing tens of millions of Chinese