搜索资源列表
SplitCNWord
- 一个中文分词的实现及演示程序,可用与中文和英文词组的分割.-a Chinese word achieve and demonstrate the procedure can be used with the Chinese and English phrase segmentation.
2006111
- 支持英文、数字、中文(简体)混合分词 常用的数量和人名的匹配 超过22万词的词库整理 实现正向最大匹配算法 智能数字,日期,人名识别。-support English, figures, Chinese (simplified) mixed at the number of commonly used words and the names of more than 220,000 matching word thesaurus finishing achieve the greatest po
FlexCRFs-0.3
- Hieu Xuan Phan & Minh Le Nguyen 利用CRF统计模型写的可用于英文命名实体识别、英文分词的工具(开放源码)。CRF模型最早由Lafferty提出,全名conditional random fields,该模型后来被广泛地应用在语言和图像处理领域,并随之出现了很多的变体。FlexCRF就是对CRF模型的一个实现应用工具,可用于文本信息处理
bogofilter-0.93.4.tar
- 开源项目BOGOFILTER的源码.该项目实现BAYES文本分类算法,不过该源码只支持英文的分词
IBMDict
- 四. 主要功能 === 屏幕取词: - 翻译屏幕上鼠标所指的英文单词、成语或短语,并实现中文取词翻译。 - 翻译屏幕上鼠标所指的英文句子,并可随时切换按词翻译和按句翻译这两种不同的 方式。 - 用户可以随时暂停或恢复屏幕取词功能。 - 通过热键进行屏幕取词,确保仅在需要时才弹出浮动翻译窗口,显示词意。 - 设置取词速度,调整浮动翻译窗口的响应时间。 - 可以选用或取消即指即译同步发音的功能。选择男、女发音和合适的语速。 - 在浮动翻译窗口中提供联机的智能匹配功能。 词典查询: - 翻译用户输入
lucene-1.4.3
- java分词技术,只实现英文分词,但是该分词算法很经典(来源于apache)-java-term technology, achieving only English Word, but the Word algorithm classic (from apache)
EasyXSpider
- EasyXSpider不仅仅是一个简单的Linux下的爬虫程序。更包括了,索引制作,检索,分词(英文及中文二元法切词),以及Google PageRank算法和CGI查询界面的实现。可以看做是一个完整的小型搜索引擎。
File_Search
- 中英文分词程序,在文本检索中要使用到得一个小程序哦-In English and Chinese word segmentation procedure, text retrieval, we should use to get a small program oh
pmqc
- 翻译屏幕上鼠标所指的英文单词、成语或短语,并实现中文取词翻译。 - 翻译屏幕上鼠标所指的英文句子,并可随时切换按词翻译和按句翻译这两种不同的 方式。 - 用户可以随时暂停或恢复屏幕取词功能。 - 通过热键进行屏幕取词,确保仅在需要时才弹出浮动翻译窗口,显示词意。 - 设置取词速度,调整浮动翻译窗口的响应时间。 - 可以选用或取消即指即译同步发音的功能。选择男、女发音和合适的语速。 - 在浮动翻译窗口中提供联机的智能匹配功能。 词典查询: - 翻译用户输入的中英文单词、成语、短语或句子。 - 对中
Bayes_1
- 首先,对CATEGORY中的txt文件分类; 其次,对多个txt文件中的英文文本进行分词; 最后,通过贝叶斯公式进行分类;-First, in the txt file CATEGORY classification Secondly, multiple txt files in English text word Finally, by Bayes formula to be classified
yinwenfenci
- 英文分词,根据字典的词对英文无空格的词序列进行分解-The English word, according to word dictionary of English words without spaces in the decomposition sequence
Filter3
- 英文分词过滤程序,先分词,然后用停用词处理过滤,完成预处理, 很好,很强大-stemming and filtering adaf ad aasdf asf adftgh gadgf aff
Tokenizer
- opennlp是自然语言处理的开源工具,它是JAVA写的,可以再Eclipse中直接调用。上传的这写代码实现了英文分词代码的功能。-Opennlp is an open tool for natural language processing. It is written in JAVA. It can be used in Eclipse directly . The code uploaded is used to token English words.
stanford-postagger-2013-11-12
- 英文分词工具,主要用于英文单词分词,是斯坦福大学的著作权,国外网站不好下,现已下好!-English word tool, mainly for the English word segmentation, Stanford University, copyright, foreign websites is not good, there is now just great!
简单基于词典的分词(带txt语料库)
- 基于词典的分词,用于英文文本对文本进行词典的分词(Based on the word segmentation of the dictionary, used in the English text of the text of the dictionary word segmentation)
Main
- 利用java的字符串分词实现英文文本的词频统计并进行输出(Using java string word segmentation to achieve English word frequency statistics and output)
work
- 贝叶斯下文本分类器,python语言,包括中文分词和英文分词(Bias's lower text classifier, python language, including Chinese participle and English participle)
English
- 包括了原始英文文档、删除特殊符号、分词、词干化、计算相似度等文本预处理后产生的文档,总的数量是500个英文文档(Including the original English document, delete special symbols, such as text segmentation, a preprocessed documents produced, the total number of 500 English document)
TFIDF算法的C#实现
- 支持英文分词,无中文分词。采用Centivus.EnglishStemmer.dll库
986D82099BFBF6C98B8B2F79ABD_64750624_D4D875
- 英文分词工具,主要用于英文单词分词,是斯坦福大学的著作权。(English word tool, mainly for the English word segmentation, Stanford University, copyright,)