搜索资源列表
wenben.txt
- 在一个文件中找到给定单词出现的位置并统计出现次数-documents in a given word to find the location and frequency statistics
ProbWordSeg1
- 基于最大概率的分词,首先读入.mdb数据库(字典与其统计词频),然后读入你要分词的.txt-based on the maximum probability of the word, first read into. Mdb database (with dictionary word frequency statistics). Then you should read into the word. txt
FormatChange
- MAPINFO各式转换极为TXT---->MID\\MIF-converted TXT ----
segment10_31
- 中文分词代码,对TXT文件进行分词,并组织分词结果-Chinese code word for TXT documents segmentation, and the organization of segmentation results
update10_31
- 对索引表中的TXT文本进行处理,删除冗余信息-right index table of TXT text, delete redundant information
pyformat
- pyformat.zip包中有两个文件夹,pyformat_src文件夹里的为源代码,pyformat_dist文件夹里的为编译后的exe可执行程序,另外每个文件夹里都放了一个名为“testfile.txt”的测试文件。 源码使用方法示例:执行\"python pyformat.py testfile.txt\"。 可执行程序使用方法示例:执行“pyformat testfile.txt”。 即可把文件名中的不带调拼音+声调记号转化为带调拼音输出到stdout。文件名可以有多个
PcfgParser
- 1. 先打开规则库,读入规则集 (可比较两个规则文件rule1.txt 和 rule2.txt的差异) 2. 选择经过分词和词性标注的文件,进行句法分析 3. 分析结果文件与测试文件在同一个目录下,文件后缀名为 .pcfg 4. 分析结束后,同时产生一个新的规则文件,后缀名为.new, 可以观察规则概率值和期望次数的变化 5. 分析结果逐个以树形图方式显示,如果一个句子有多个结果,在显示框中同时显示。
word
- 实现中文分词,词汇表记录在WORD.TXT文件中。待分词文档为article.txt。
wbx
- 一组处理五笔输入法码表文件的小程序 chpy.c 将中文字符串自动转换成拼音的形式. 将中文的文件名转换成拼音的文件名- PY_FILE为WIN95全拼输入法反转换生成的拼音编码文件 delsingle.c 删除包含单个汉字的行 gb2312.c 生成所有GB2312码汉字 genwbsig.c 生成所有GB2312码汉字的五笔编码 py.c 去除imegen反编译后的TXT文件中词的编码,只剩下字的编码 wbadd.c 在已经存在的五笔编码文件中加入新增词组, 五
system
- 一个基于PERL的语言处理工具包. 其中包含文本处理,词汇过滤及一个英语词汇词法处理工具(STEMMER),适用于处理一些基本的.TXT文件.
12131822509
- 中科院开源的ictprop源码,使用方法: 1、修改源码中的InputComboBox.cpp文件 InvokeAction里面的txt文件路径换成你的本地路径; 2、入口在帮助里面,先G_A,再G_B,然后P;结果就出来了,那几个子窗口不要关了,就可以看到句子的分析结果; 注:InvokeAction里面的txt文件都在压缩包里面;
2txt_ictclas
- pdf,html,ps等转txt的头文件和库。还包括ictclas中科院计算所的中文分词工具有.h和.lib和.d
WordSeg
- 这是一个中文分词程序。用户将中文文件(.txt)打开,点分词后可看到分词结果。开源。
doc2exe
- doc批量转为txt,使用vb编写,调用vba函数。一个简单易用的小程序。可以批量转换某个文件夹内的doc为txt。
cut-spaceline-in-document
- 有时从网上下载的WORD、txt等文档中含有很多的空行,则可用本程序将空行全部去掉
segment
- segment,一个简单的中文分词程序,命令行如下: java -jar segmenter.jar [-b|-g|-8|-s|-t] inputfile.txt -b Big5, -g GB2312, -8 UTF-8, -s simp. chars, -t trad. chars Segmented text will be saved to inputfile.txt.seg
zhuanye
- 读取保存在txt文件里面的字符,并作处理,输出为xml格式
Txt2Lrc
- 文本文件自动转换为歌词文件Lrc,自动加入之间。需要先设定整个txt文件对应音乐文件的时间长度。-Text file will automatically switch to the lyrics document Lrc, between the automatic accession. Need to set the entire txt file corresponds to the length of music files.
Separate_word_program
- 中文分词程序,能够在短时间内对中文内容进行分解split.txt中是要分解的内容而word.TXT则是分词表,分词表越完整最后结果越正确。-Chinese word segmentation process, can in a short time for Chinese content split.txt in decomposition is to decompose the content is word.TXT participle form, word form the final o
WordSeg
- 简单分词程序 读入一个pdf 输出一个分好词的txt-Reading of simple segmentation procedure into a pdf output of a good word txt