搜索资源列表
FlexCRFs-0.3
- Hieu Xuan Phan & Minh Le Nguyen 利用CRF统计模型写的可用于英文命名实体识别、英文分词的工具(开放源码)。CRF模型最早由Lafferty提出,全名conditional random fields,该模型后来被广泛地应用在语言和图像处理领域,并随之出现了很多的变体。FlexCRF就是对CRF模型的一个实现应用工具,可用于文本信息处理
code1
- 我做了几个英文分词的程序,java实现的,这是第1个,共享给大家
code2
- 我做了几个英文分词的程序,java实现的,这是第2个,共享给大家
code3
- 我做了几个英文分词的程序,java实现的,这是第3个,共享给大家
code4
- 我做了几个英文分词的程序,java实现的,这是第4个,共享给大家
code5
- 我做了几个英文分词的程序,java实现的,这是第5个,共享给大家
lucene-1.4.3
- java分词技术,只实现英文分词,但是该分词算法很经典(来源于apache)-java-term technology, achieving only English Word, but the Word algorithm classic (from apache)
中文分词技术及最新发展
- 搜索引擎通常由信息收集和信息检索两部分组成。对于英文,由于英文中词 与词之间是用空格隔开,检索起来很方便,故计算机采用了词处理的方式,大大 减轻了用户与计算机的工作量:相对来讲,中文的情形就复杂得多。中文的词与 词之间是没有分隔符的,因此若想建立基于词的索引,就需要专门的技术,这种 技术被称之为“汉语词语切分技术”。根据是否采用词语切分技术,中文搜索引 擎又可分为基于字的搜索引擎和基于词的搜索引擎。由于中文信息处理的特殊 性,开发中文搜索引擎决不像西文软件的汉化那样简单。在实
File_Search
- 中英文分词程序,在文本检索中要使用到得一个小程序哦-In English and Chinese word segmentation procedure, text retrieval, we should use to get a small program oh
pmqc
- 翻译屏幕上鼠标所指的英文单词、成语或短语,并实现中文取词翻译。 - 翻译屏幕上鼠标所指的英文句子,并可随时切换按词翻译和按句翻译这两种不同的 方式。 - 用户可以随时暂停或恢复屏幕取词功能。 - 通过热键进行屏幕取词,确保仅在需要时才弹出浮动翻译窗口,显示词意。 - 设置取词速度,调整浮动翻译窗口的响应时间。 - 可以选用或取消即指即译同步发音的功能。选择男、女发音和合适的语速。 - 在浮动翻译窗口中提供联机的智能匹配功能。 词典查询: - 翻译用户输入的中英文单词、成语、短语或句子。 - 对中
yinwenfenci
- 英文分词,根据字典的词对英文无空格的词序列进行分解-The English word, according to word dictionary of English words without spaces in the decomposition sequence
javaTermFreq
- java中对英文分词后,去词干后进行词频统计的代码-stastic the frequency of english words after steming and looking up stopword list
Filter3
- 英文分词过滤程序,先分词,然后用停用词处理过滤,完成预处理, 很好,很强大-stemming and filtering adaf ad aasdf asf adftgh gadgf aff
Tokenizer
- opennlp是自然语言处理的开源工具,它是JAVA写的,可以再Eclipse中直接调用。上传的这写代码实现了英文分词代码的功能。-Opennlp is an open tool for natural language processing. It is written in JAVA. It can be used in Eclipse directly . The code uploaded is used to token English words.
stanford-postagger-2013-11-12
- 英文分词工具,主要用于英文单词分词,是斯坦福大学的著作权,国外网站不好下,现已下好!-English word tool, mainly for the English word segmentation, Stanford University, copyright, foreign websites is not good, there is now just great!
Twitter-LDA-master
- twitter-LDA算法的JAVA实现,LDA算法针对于微博短文本的改进算法,目前只是简单的英文分词功能,没有中文分词功能,-twitter-LDA algorithm JAVA implementation, LDA algorithm for improved algorithm for short text microblogging, now just a simple English word function, there is no Chinese word function,
简单基于词典的分词(带txt语料库)
- 基于词典的分词,用于英文文本对文本进行词典的分词(Based on the word segmentation of the dictionary, used in the English text of the text of the dictionary word segmentation)
Main
- 利用java的字符串分词实现英文文本的词频统计并进行输出(Using java string word segmentation to achieve English word frequency statistics and output)
work
- 贝叶斯下文本分类器,python语言,包括中文分词和英文分词(Bias's lower text classifier, python language, including Chinese participle and English participle)
English
- 包括了原始英文文档、删除特殊符号、分词、词干化、计算相似度等文本预处理后产生的文档,总的数量是500个英文文档(Including the original English document, delete special symbols, such as text segmentation, a preprocessed documents produced, the total number of 500 English document)