资源列表
pymmseg.用python写的分词程序
- 用python写的分词程序,实现的是最大匹配方法,简单易用,Using python to write the sub-term process of implementation is the largest matching method, easy-to-use
MKFON.为特定文本文件中的汉字生成小汉字库
- 为特定文本文件中的汉字生成小汉字库。目前,GBK取字模程序段有问题,请高手指正。,Generates a small hz lib for Chinese characters in a given text file. At present, GBK font data getting is problematic, please correct me master.
lucene.rar
- java中lucene的源代码,用于文本分类的一个很好的工具,是由一个著名的语言研究者编写的,lucene code for java
Free ICTCLAS 中科院的分词软件ICTCLAS
- 中科院的分词软件ICTCLAS,自己已经把他用到程序里了感觉效果很好,分享给大家-Chinese Academy of Sciences of the sub-word software ICTCLAS, he has used his program works well in a sense, we share
在WINDOWS把文本文件转化成二进制文件
- 在WINDOWS把文本文件转化成二进制文件,然后根据ID号码查找内容 ,The text file in the WINDOWS into binary file, and then under the ID number to find the content of
stopWord.是关于中文文本切词的资料
- 是关于中文文本切词的资料,排除了部分无意义的词,Chinese text on the segmentation of information, rule out the possibility of some meaningless words
EXCEL文件合并
- 批量EXCEL文件合并,并可以根据用户需要指定工作表。文件可使用拖放方式,实现不同位置同名EXCEL文件合并。
反射变换
- 四参数仿射变换
java实现汉字转拼音
- 该包内有一个完整的汉字转拼音的程序,用java实现的。如果想修改成其他的语言也是非常的容易。
相似度计算
- 中文相似度计算
中文分词系统
- 一个简单有效中文分词算法, 可以学习研究