搜索资源列表
CorpusDemo.exe
- 这是一个语料库查询系统,可以学习一下VC的文件操作和管理平台建设-This is a Corpus inquiry system, we can learn from what the VC operation and document management platform
Qwickconcordance-1.0
- 这是一个语料库检索的程序,可以学习一下CONCORDANCE以及它的实现-This is a Corpus retrieval procedures can learn about CONCORDANCE and its realization
tongyc
- 自然语言信息处理的语料库,非常好的测试语料-natural language information processing Corpus, very good testing corpus
word-segment-tool-for-chinese
- 基于北大语料库的分词器,简单,有使用说明-a chinese word segment tool
lda-c
- LDA是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。文档到主题服从Dirichlet分布,主题到词服从多项式分布。 LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为
Encrypt
- 单字母加密,基于特征值,英语 语料库(词汇量7万左右)-Single letter encryption, based on the characteristic values of English corpus (vocabulary 70000 or so)