搜索资源列表
CJCorpus
- 一个日汉平行的双语语料库,含有4053个句子-a parallel to the Japanese and Chinese bilingual corpus, containing 4,053 Sentence
ictclas_Source_Code
- 计算所汉语词法分析系统ICTCLAS介绍 词是最小的能够独立活动的有意义的语言成分。 但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97
pspydict0[1].3src
- PSP YDICT ver0.3 改进的功能 1。在《牛津现代英汉双解词典》中,正确显示音标。 (对YDICT ver0.2版本的《牛津现代英汉双解词典》的词库,作了部分修正。) 2。在单词右侧标示出不同难度,CET4,CET6,TOEFL,GRE,方便记忆。 CET4及以下难度,绿色标记 CET6, 浅蓝色标记 TOEFL, 黄色标记 GRE, 紫色标记 3。可以标记已查过的单词,翻阅已查单词。类似标签功能。 在当前单词的解释最后一页,按一次“X”
TestCorpusyuliaoguanli
- 1. 这是一个简单的语料库管理系统 2. 可以添加和删除语料文件,统计语料中的字数 3. 可以查找语料中的汉字串以及重叠形式 4. 语料文件存放在corpus目录下,查询结果保存在跟语料库相同目录下 5. corpus目录下有4个文本文件(其中test1, test2是两个小文件)供测试用 6. 只能处理文本文件,GB内码-1. This is a simple Corpus management system 2. They can add and delete corpu
libdoc
- 中文编程语言——易语言(可视化编程,跨平台编程) 的支持库开发包(第一版) (VC源码)-Chinese programming language -- Yi languages (Visual Programming, cross-platform programming) supports the development kits (first edition) (VC-source)
libiconv
- libiconv是一个很不错的字符集转换库。程序接口也很简单,并且提供了详尽的说明文档。-libiconv is a very good character set conversion library. Program interface is also very simple, and to provide a detailed documentation.
DigitRec
- 基于神经网络的文字识别系统 本目录主要包括:文档和两个源代 其中源代码是识别程序的,另一个是矩阵类库的。已经保存了训练好的网络权值,所以第一次使用识别程序时,可以直接运行Release目录下的可执行文件,然后对图片目录中的测试图片进行读入、识别。当然也可以自行用训练样本训练网络,不过要注意训练样本的选择,否则可能识别率很低。训练样本选择的原则是,尽可能的有代表性,在训练时间不至于太长的情况下训练样本数目尽量多。
MyFirstProgram
- 中文分词演示,海量科技的中文分词的词库,第一次做这样的技术,希望和大家交流
tf-idf(chinese)
- ti-idf算法,实现对中文文档的检索,把多篇文档中的词,按照权值从小到大进行排列(词语以文本中的词库为准)
PcfgParser
- 1. 先打开规则库,读入规则集 (可比较两个规则文件rule1.txt 和 rule2.txt的差异) 2. 选择经过分词和词性标注的文件,进行句法分析 3. 分析结果文件与测试文件在同一个目录下,文件后缀名为 .pcfg 4. 分析结束后,同时产生一个新的规则文件,后缀名为.new, 可以观察规则概率值和期望次数的变化 5. 分析结果逐个以树形图方式显示,如果一个句子有多个结果,在显示框中同时显示。
TestMDB
- 中文信息处理方面的一个源码。此为一个拼音分析和生成软件功能强大,代码简洁易懂。 1 可执行程序TestLexicon.exe必须与数据库文件在同一个目录下 2 数据库文件名为: lexicon.mdb,可以是access 97版格式的数据库, 也可以是access 2000版格式的数据库 3 双击TestLexicon.exe启动程序 4 选择“词典数据库”下“词库查询1”等进行查询,状态栏显示每个查询的 区别。程序反馈消息框响应用户的查询。
E库多条件查询模块(带模糊查询)
- E库多条件查询模块(带模糊查询)\\E库多条件查询模块(带模糊查询)易语言可到http://www.dywt.com.cn/main.asp下载 本程序在易语言2.7版下开发 易语言支持Windows和Linux两大主流平台-E for many conditions Query Module (with the vague inquiries) \\ E for many conditions Query Module (with the vague inquiries) language c
NICTCLAS_Release
- 中科院分词程序 开源但是词库非开源 中科院分词程序 开源但是词库非开源-wordspilt
chinese-text
- 文本分类语料库,经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档-Text classification corpus, edited manually compiled and classification of news corpus and the corresponding classification information. Their classification system includes dozens of classi
SW_I_WordSegment
- SW-I中文分词算法,MFC程序,在visual studio 2008中调试通过。默认词库为mdb,由于较大未包含在源文件中,请自行下载mdb格式的词典。-SW-I Chinese word segmentation algorithm, MFC procedures, visual studio 2008 in debug through. Default thesaurus for the mdb, as a result of the larger not included in the
wordsegment1
- 中文分词算法,效率很高,使用词典树装搜索进行单词切割,并提供扩充词库的函数!-It s an arithmetc of word segment,it has a very high efficiency!
fenci
- 自己下载一个语料库,根据程序,计算权重,然后对语料库进行分词-Download a corpus itself, according to the procedures for calculating the weights, and then carried out on sub-word corpus
StringExtraction
- XML处理类库 1.遍历页面的 < > 中间的字符将中间的<> 字符替换位其他不影响操作的字符。 2.遍历页面中 > < 中的字符串,判断其中是否有中文 3.遍历页面中 " " 中的字符串,判断其中是否有中文 4.遍历页面中 中的字符串,判断其中是否有中文 5.将取得的中文字符存入ArrayList中-XML lib, using to deal with some xml files
aclImdb_v1.tar
- 英文影评语料库,用于英文情感分析。包含训练集和测试集,均为标注数据。(English movie reviews corpus)