搜索资源列表
文本信息提取技术
- 文本信息提取技术- Text information extraction technology
final++
- 文件编码转换程序,将email中的文本提取出来,并保存为文本-document transcoding process, the email text extracted, and the preservation of text
maxent-20041229[1].win32
- 文本分析中基于统计的方法中,最为常用的最大熵算法,该源码为Python版,广泛应用于词性标注,词义消岐等领域-text analysis based on statistical methods, the most commonly used of maximum entropy algorithm, the source code for Python version, widely used in tagging, Meaning Consumers divergent fields
classifier-1.12
- 能对从Google中搜索出来的文本进行聚类,提供了Java包,及调用源代码.-can right from the Google Search for the text clustering, a Java package, source code and call.
word-findANDcount
- 这是一个原创的文章信息自动标引和分类小程序。可以用于文本分析。功能还在不断完善中:)-This is an original article automatic indexing and classification of small programs. Text analysis can be used. Capabilities are also constantly perfected :)
qwm
- 在左边文本筐输入内容,确定后可得到它的其他形式的代码。-basket on the left text input, determine its availability after other forms of code.
TestCorpusyuliaoguanli
- 1. 这是一个简单的语料库管理系统 2. 可以添加和删除语料文件,统计语料中的字数 3. 可以查找语料中的汉字串以及重叠形式 4. 语料文件存放在corpus目录下,查询结果保存在跟语料库相同目录下 5. corpus目录下有4个文本文件(其中test1, test2是两个小文件)供测试用 6. 只能处理文本文件,GB内码-1. This is a simple Corpus management system 2. They can add and delete corpu
html2txt
- 从html文件提取可显示的文本内容。可用于windows和linux环境。-from html document can show that the extraction of text. Available for Windows and Linux environment.
ful2hlf
- 将文本中的全角转变为半角,供后续使用。主要可以用于对网页内容的预处理。-text of the entire half-angle of the angle changes for the use of follow-up. The main website can be used as pretreatment.
text2idngram
- 最注明的cmu语言模型工具箱中的将文本转化为trigram统计的工具。在linux下可用。用法可使用-help命令。-most of the annotated cmu language model kit of text into trigram statistics tool. Linux can be used in the next. Usage may use-help orders.
文字效果
- 文字效果VB源程序-VB source text effects
BiHZFreqCode
- 汉字二字组频度统计。可以统计汉字文本中二字组的频度。很好用。中文文本分词很有用的工具。-Chinese word frequency statistics group. Chinese statistics can text the word frequency group. Good use. Chinese text segmentation useful tool.
text_tfidf
- 文本相似度计算(tfidf),可用文本分类以及文本信息处理-Text Similarity Computing (tfidf), available for text classification and text information processing
TTS_VFP_OKOK
- 完整的TTS开发实例,可将文字变为语音。可供VB、Csharp、delphi、Vs.net、asp等程序参考。本人利用这个功能给自己的硕士毕业课题短信平台加入了语音功能,在毕业答辩时演示自己的毕业设计时,电脑读出系统获取的各项文字信息,达到了良好的效果,获得高分。该功能也帮我在毕业论文中也凑了七八页的字数。本源码基于SAPI5.1-A complete TTS development examples, can be text into speech. Available for VB, Csh
chinese-text
- 文本分类语料库,经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档-Text classification corpus, edited manually compiled and classification of news corpus and the corresponding classification information. Their classification system includes dozens of classi
supportvector
- 完成支持向量机方法的文本分类 用C++语言编写-The completion of support vector machine method of text categorization with C++ Languages
C99
- n algorithm for domain independent linear text segmentation This the Windows version of the C99 algorithm that was presented in my NAACL00 paper. [Directories] bin contains executables, JAR file and test files classes compiled code as
webcat
- 这是一个100 %纯Java库,您可以使用适用于N元 分析技术的过程分为文本文件。 该计划包括几个不同的分类算法, namelly 支持向量机,贝叶斯Logistic回归,神经网络分类和文本压缩 算法。如支持向量机和贝叶斯Logistic回归,一个 “一对一” 用于多类分类。更详细的说明这些学习算法和可用的选项,请提供的javadocs 。-It is a 100 pure Java library that you can use to apply N-Gr
Test Class By SVM
- 支持向量机实现的文本分类程序,过程如下,首先使用分词工具分词,这里使用的是计算所的分词工具,从而保证分词是最优秀的,接下来使用国际效率最高的文本IFIDF向量生成工具生成文本相量,最后使用台湾林智恒的效率最高的SVM实现软件包libsvm实现训练和分类,可以这么说,该文本分类是同类中效率最高最准确的-text classfication source code use 3 technology.words sementation,vector gerneration,and libsvm too
WordCounter
- 封装一个类CText, 并编写一个软件,它可以完成对任意一个文本文件的字符统计工作, 可以统计的信息有:中文字符数、英文单词数、行数、字符个数(不计空格)、空格数。 同时上述的字符统计信息,要求能写到一个Report.txt文件中,并且能显示出来。但是不要求界面,只要能以命令行的形式输入及显示即可,另外统计功能也可参考Word中 的“字数统计工具”。 序遵循题目的要求,采用Visual Studio 2008编译环境编写,使用C++语言来完成。其中主要功能封装在CText类当中,并利