CDN加速镜像 | 设为首页 | 加入收藏夹
当前位置: 首页 资源下载 搜索资源 - 中文语料

搜索资源列表

  1. GIZA++.2003-09-30.tar

    0下载:
  2. GIZA++是德国Och提供的针对统计机器翻译模型的训练工具集。这个工具可以生成IBM统计翻译模型的第4和第5种模型,采用两种方向的训练(比如对同一个语料,从中文到英文和从英文到中文的训练),再配以适当的编码,可以提取出适合基于Phrase的统计机器翻译phrase table来,为后续的工作提供数据支持。
  3. 所属分类:Linux/Unix编程

    • 发布日期:2013-03-28
    • 文件大小:105.56kb
    • 提供者:王天庆
  1. wenbenfenlei

    0下载:
  2. 中文文本分类的语料库,比较全面,可用于进行分类训练时-Chinese text classification of Corpus, more comprehensive, and can be used for classification of training
  3. 所属分类:人工智能/神经网络/遗传算法

    • 发布日期:2008-10-13
    • 文件大小:3.65mb
    • 提供者:齐明
  1. SogouW.20061127

    1下载:
  2. 互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。 语料库统计的意义:反映了互联网中文语言环境中的词频、词性情况。 应用案例:中文词性标注、词频分析等。 词性分类: N 名词 V 动词 ADJ 形容词 ADV 副词 CLAS 量词 ECHO 拟声词
  3. 所属分类:搜索引擎

    • 发布日期:2008-10-13
    • 文件大小:1.2mb
    • 提供者:17521
  1. AutoChatting.rar

    2下载:
  2. 用AIML语言开发的一款中文自动聊天软件,附加有部分AIML中文对话语料库,AIML language developed by a Chinese auto-chat software, additional dialogue, some Chinese Corpus AIML
  3. 所属分类:网络编程

    • 发布日期:2012-10-21
    • 文件大小:1.19mb
    • 提供者:易顺明
  1. PFR199801.rar

    0下载:
  2. PFR人民日报标注语料,它是中文信息处理的重要训练样本,PFR marked the People' s Daily corpus, which is an important Chinese information processing training samples
  3. 所属分类:MultiLanguage

    • 发布日期:2016-12-09
    • 文件大小:2.12mb
    • 提供者:weiwei
  1. LJClusterDemo

    0下载:
  2. 文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成特征主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。 灵玖Lingjoin(www.lingjoin.com)基于核心特征发现技术,突破了传统聚类方法空间消耗大,处理时间长的瓶颈;不仅聚类速度快,而且准确率高,内存消耗小,特别适合于超大规模的语料聚类和短文本的语料聚类。 灵玖文档聚类组件的主要特色在于: 1、速度快:可以处理海量规模
  3. 所属分类:software engineering

    • 发布日期:2017-04-10
    • 文件大小:1.05mb
    • 提供者:lingjoin
  1. chinese

    1下载:
  2. 中文信息处理基础 第一讲VC环境编程简介 第二讲文件处理 第三讲字符编码 第四讲字频统计 第五讲文本断句 第六讲语料库-Basic information first deal with English-speaking environment for programming VC brief introduction stresses the second file handle character encoding the third stresses t
  3. 所属分类:SCSI/ASPI

    • 发布日期:2013-06-06
    • 文件大小:36.68mb
    • 提供者:李明
  1. Chinese--NER

    1下载:
  2. 基于CRF的中文机构名识别系统。使用北京大学1998年的人民日报语料库作为训练语料。除常用的特征模板,已经词性特征外,使用词语的最后一个字作为特征,提高了机构名识别的准确率, 调用了CRF++程序包训练模型。-CRF-based name recognition system of Chinese institutions. People' s Daily, Peking University in 1998 with corpus as training data. In additio
  3. 所属分类:Speech/Voice recognition/combine

    • 发布日期:2017-03-22
    • 文件大小:25.77kb
    • 提供者:paul
  1. 中文分词算法

    0下载:
  2. 本程序使用给出的字典进行学习并对训练语料进行分词处理,采用C语言编写,高效易懂!
  3. 所属分类:中文信息处理

    • 发布日期:2012-10-28
    • 文件大小:2.01mb
    • 提供者:jessica9421
  1. Yard0.2.0

    0下载:
  2. 用JAVA实现的中文语料分割。使用时直接点击yard批处理文件在DOS界面操作。 -Implemented with JAVA Chinese corpus segmentation. Click the yard when used directly in the DOS batch file interface operation.
  3. 所属分类:Java Develop

    • 发布日期:2017-05-06
    • 文件大小:1.38mb
    • 提供者:成立
  1. WekaTest

    0下载:
  2. weka包+eclipse完成中文语料库分词 分类-weka package+ eclipse complete classification of Chinese word segmentation corpus
  3. 所属分类:Other systems

    • 发布日期:2017-05-29
    • 文件大小:10.97mb
    • 提供者:陈蓉
  1. hownet

    0下载:
  2. 知网完整版,附带相关的各种论文文档,中文语料库-see chinese descr iption
  3. 所属分类:software engineering

    • 发布日期:2017-12-10
    • 文件大小:17.3mb
    • 提供者:smith
  1. 电脑中的所有汉字

    0下载:
  2. 所有中文的汉字,可以用于OCR训练等,需要自己写脚本。(all china words set, use for ocr training etc.)
  3. 所属分类:其他

    • 发布日期:2017-12-31
    • 文件大小:45kb
    • 提供者:大帅1
  1. Chinese

    0下载:
  2. 是做文本预处理时候利用爬虫收集的500个中文文档,包括分词部分、去掉特殊符号部分以及最后的相似度计算等(It is the 500 Chinese document collected by a crawler for text preprocessing, including the part of the participle, the removal of the special part of the symbol, and the final similarity calculatio
  3. 所属分类:其他

    • 发布日期:2018-04-19
    • 文件大小:11.74mb
    • 提供者:hello_spring
  1. chinese_text_classification-master

    0下载:
  2. 文本分类的一个基本项目,用到的是复旦大学中文语料库(a basic project for text classification,I use the corpus from fudan university as my training and testing corpus)
  3. 所属分类:人工智能/神经网络/深度学习

    • 发布日期:2018-04-22
    • 文件大小:12.14mb
    • 提供者:dsldsl
  1. chnsenticorp

    3下载:
  2. 中文情感分析语料,包含三类:旅馆、书籍、商品评论(a corpus of chinese emotional)
  3. 所属分类:文章/文档

    • 发布日期:2018-04-22
    • 文件大小:5.57mb
    • 提供者:json123
  1. icwb2-data

    3下载:
  2. NLP中文语料库,backoff语料库,可以用来训练(A wiki (Listeni/ˈ wɪ ki/ WIK-ee) is a website that provides collaborative modification of its content and structure directly the web browser. In a typical wiki, text is written using a simplified markup language an
  3. 所属分类:matlab例程

    • 发布日期:2018-11-30
    • 文件大小:40.82mb
    • 提供者:`casdfsf
  1. HMM-master

    1下载:
  2. python实验中文词性标注,包括预处理,实验数据为新闻语料。(Chinese word pos-of-speech with python)
  3. 所属分类:Windows编程

    • 发布日期:2019-05-06
    • 文件大小:7.93mb
    • 提供者:hebelu
  1. BosoNnlp

    1下载:
  2. 玻森专注中文语义分析技术,拥有丰富的经验积累。自主研发千万级中文语料库,为精准和深度的中文语义分析提供坚实基础。一站式解决您的中文语义分析需求。多个语义分析API,从情感倾向、实体、分类等方面。官网只有python版本,现上传Java的实例。(He focuses on Chinese semantic analysis technology and has rich experience. Independently developing tens of millions of Chinese
  3. 所属分类:Windows编程

    • 发布日期:2020-09-29
    • 文件大小:8.63mb
    • 提供者:hhitkyA
  1. icwb2-data

    1下载:
  2. 中文分词数据,含有as、 cityu、msr、pku数据,包括测试集、训练集(Chinese word segmentation data)
  3. 所属分类:文章/文档

    • 发布日期:2020-03-28
    • 文件大小:45.81mb
    • 提供者:万俟洛
« 12 3 »
搜珍网 www.dssz.com