搜索资源 - 中文语料 - 搜珍网

CDN加速镜像 | 设为首页 | 加入收藏夹

热门搜索： 源码 Android 整站插件识别 p2p OpenCV 网络编程游戏源码算法更多...

登陆 | 会员注册

当前位置：

搜索资源 - 中文语料

下载资源主分类

源码下载

Web源码

开发工具

文档下载

其它资源

资源分类

搜索资源列表

GIZA++.2003-09-30.tar

0下载：
GIZA++是德国Och提供的针对统计机器翻译模型的训练工具集。这个工具可以生成IBM统计翻译模型的第4和第5种模型，采用两种方向的训练（比如对同一个语料，从中文到英文和从英文到中文的训练），再配以适当的编码，可以提取出适合基于Phrase的统计机器翻译phrase table来，为后续的工作提供数据支持。
所属分类：Linux/Unix编程
- 发布日期：2013-03-28
- 文件大小：105.56kb
- 提供者：王天庆

wenbenfenlei

0下载：
中文文本分类的语料库，比较全面，可用于进行分类训练时-Chinese text classification of Corpus, more comprehensive, and can be used for classification of training
所属分类：人工智能/神经网络/遗传算法
- 发布日期：2008-10-13
- 文件大小：3.65mb
- 提供者：齐明

SogouW.20061127

1下载：
互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析，统计所进行的时间是2006年10月，涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词，除标出这部分词条的词频信息之外，还标出了常用的词性信息。语料库统计的意义：反映了互联网中文语言环境中的词频、词性情况。应用案例：中文词性标注、词频分析等。词性分类: N 名词 V 动词 ADJ 形容词 ADV 副词 CLAS 量词 ECHO 拟声词
所属分类：搜索引擎
- 发布日期：2008-10-13
- 文件大小：1.2mb
- 提供者：17521

AutoChatting.rar

2下载：
用AIML语言开发的一款中文自动聊天软件，附加有部分AIML中文对话语料库,AIML language developed by a Chinese auto-chat software, additional dialogue, some Chinese Corpus AIML
所属分类：网络编程
- 发布日期：2012-10-21
- 文件大小：1.19mb
- 提供者：易顺明

PFR199801.rar

0下载：
PFR人民日报标注语料，它是中文信息处理的重要训练样本,PFR marked the People' s Daily corpus, which is an important Chinese information processing training samples
所属分类：MultiLanguage
- 发布日期：2016-12-09
- 文件大小：2.12mb
- 提供者：weiwei

LJClusterDemo

0下载：
文本聚类是基于相似性算法的自动聚类技术，自动对大量无类别的文档进行归类，把内容相近的文档归为一类，并自动为该类生成特征主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。灵玖Lingjoin（www.lingjoin.com）基于核心特征发现技术，突破了传统聚类方法空间消耗大，处理时间长的瓶颈；不仅聚类速度快，而且准确率高，内存消耗小，特别适合于超大规模的语料聚类和短文本的语料聚类。灵玖文档聚类组件的主要特色在于： 1、速度快：可以处理海量规模
所属分类：software engineering
- 发布日期：2017-04-10
- 文件大小：1.05mb
- 提供者：lingjoin

chinese

1下载：
中文信息处理基础第一讲VC环境编程简介第二讲文件处理第三讲字符编码第四讲字频统计第五讲文本断句第六讲语料库-Basic information first deal with English-speaking environment for programming VC brief introduction stresses the second file handle character encoding the third stresses t
所属分类：SCSI/ASPI
- 发布日期：2013-06-06
- 文件大小：36.68mb
- 提供者：李明

Chinese--NER

1下载：
基于CRF的中文机构名识别系统。使用北京大学1998年的人民日报语料库作为训练语料。除常用的特征模板，已经词性特征外，使用词语的最后一个字作为特征，提高了机构名识别的准确率, 调用了CRF++程序包训练模型。-CRF-based name recognition system of Chinese institutions. People' s Daily, Peking University in 1998 with corpus as training data. In additio
所属分类：Speech/Voice recognition/combine
- 发布日期：2017-03-22
- 文件大小：25.77kb
- 提供者：paul

中文分词算法

0下载：
本程序使用给出的字典进行学习并对训练语料进行分词处理，采用C语言编写，高效易懂！
所属分类：中文信息处理
- 发布日期：2012-10-28
- 文件大小：2.01mb
- 提供者：jessica9421

Yard0.2.0

0下载：
用JAVA实现的中文语料分割。使用时直接点击yard批处理文件在DOS界面操作。 -Implemented with JAVA Chinese corpus segmentation. Click the yard when used directly in the DOS batch file interface operation.
所属分类：Java Develop
- 发布日期：2017-05-06
- 文件大小：1.38mb
- 提供者：成立

WekaTest

0下载：
weka包+eclipse完成中文语料库分词分类-weka package+ eclipse complete classification of Chinese word segmentation corpus
所属分类：Other systems
- 发布日期：2017-05-29
- 文件大小：10.97mb
- 提供者：陈蓉

hownet

0下载：
知网完整版，附带相关的各种论文文档,中文语料库-see chinese descr iption
所属分类：software engineering
- 发布日期：2017-12-10
- 文件大小：17.3mb
- 提供者：smith

电脑中的所有汉字

0下载：
所有中文的汉字，可以用于OCR训练等，需要自己写脚本。(all china words set, use for ocr training etc.)
所属分类：其他
- 发布日期：2017-12-31
- 文件大小：45kb
- 提供者：大帅1

Chinese

0下载：
是做文本预处理时候利用爬虫收集的500个中文文档，包括分词部分、去掉特殊符号部分以及最后的相似度计算等(It is the 500 Chinese document collected by a crawler for text preprocessing, including the part of the participle, the removal of the special part of the symbol, and the final similarity calculatio
所属分类：其他
- 发布日期：2018-04-19
- 文件大小：11.74mb
- 提供者：hello_spring

chinese_text_classification-master

0下载：
文本分类的一个基本项目，用到的是复旦大学中文语料库(a basic project for text classification,I use the corpus from fudan university as my training and testing corpus)
所属分类：人工智能/神经网络/深度学习
- 发布日期：2018-04-22
- 文件大小：12.14mb
- 提供者：dsldsl

chnsenticorp

3下载：
中文情感分析语料，包含三类：旅馆、书籍、商品评论(a corpus of chinese emotional)
所属分类：文章/文档
- 发布日期：2018-04-22
- 文件大小：5.57mb
- 提供者：json123

icwb2-data

3下载：
NLP中文语料库，backoff语料库，可以用来训练(A wiki (Listeni/ˈ wɪ ki/ WIK-ee) is a website that provides collaborative modification of its content and structure directly the web browser. In a typical wiki, text is written using a simplified markup language an
所属分类：matlab例程
- 发布日期：2018-11-30
- 文件大小：40.82mb
- 提供者：`casdfsf

HMM-master

1下载：
python实验中文词性标注,包括预处理，实验数据为新闻语料。(Chinese word pos-of-speech with python)
所属分类：Windows编程
- 发布日期：2019-05-06
- 文件大小：7.93mb
- 提供者：hebelu

BosoNnlp

1下载：
玻森专注中文语义分析技术，拥有丰富的经验积累。自主研发千万级中文语料库，为精准和深度的中文语义分析提供坚实基础。一站式解决您的中文语义分析需求。多个语义分析API，从情感倾向、实体、分类等方面。官网只有python版本，现上传Java的实例。(He focuses on Chinese semantic analysis technology and has rich experience. Independently developing tens of millions of Chinese
所属分类：Windows编程
- 发布日期：2020-09-29
- 文件大小：8.63mb
- 提供者：hhitkyA

icwb2-data

1下载：
中文分词数据，含有as、 cityu、msr、pku数据，包括测试集、训练集(Chinese word segmentation data)
所属分类：文章/文档
- 发布日期：2020-03-28
- 文件大小：45.81mb
- 提供者：万俟洛

« 12 3 »

搜珍网 www.dssz.com

本网站为编程资源及源代码搜集、介绍的搜索网站，版权归原作者所有！　　粤ICP备11031372号

1999-2046 搜珍网 All Rights Reserved.