搜索资源列表
SegmentRAM
- 1.基于luncene倒排索引格式的高性能索引数据访问接口。 2. 实现若干中文分词的的分词算法。-1. Based on luncene inverted index format of high-performance data access interface Index. 2. A number of Chinese word segmentation algorithm of.
lunce-splitword
- 一个运用于lunce中的中文分词算法源码,与大家共享-a lunce applied to the Chinese word segmentation algorithm source code and share
SW-I
- 汉语分词算法,包含最大匹配和基于概率的分词算法-Chinese word segmentation algorithm, and contains the largest matching probability - based segmentation algorithm
dedesplit
- 采用的是一种用最小切分和逆向最大匹配法结合的一种复合分词算法,目前对岐义识别还处于初步研究阶段.
无词典分词
- 基于后缀数组的无词典分词算法,通过后缀和散列表获取汉字的结合模式,通过置信度筛选词
分词算法
- 分词算法
mmseg
- MMSEG 中文分词算法 内有说明及例子,源代码-failed to translate
RMM
- 基于rmm算法(逆向最大匹配)实现的中文分词系统,具体内容是一个mfc工程文件。-Rmm-based algorithm (reverse maximum matching) to achieve the Chinese word segmentation system, specific content is a mfc project file.
fenci
- PHP 织梦逆向最大匹配算法 中文分词 分词算法-PHP DedeCms reverse maximum matching algorithm for Chinese word segmentation algorithm
fen
- 基于后缀数组无词典分词算法,利用散列表获得汉字结合模式,通过置信度进行赛选。-Suffix array-based non-dictionary word segmentation algorithm, the use of hash table model was combined with Chinese characters, through the confidence to carry out the election race.
fenci
- 正向最大匹配算法分词,采用容器储存字典可提高一定的效率。-Forward Maximum Matching algorithm for word segmentation, using containers for storage dictionaries can improve a certain efficiency.
zdfc
- 对中文语句进行分词的一个源码,利用正向匹配算法进行处理-Statements for the Chinese word for a source
totsearchc
- 淘特站内搜索引擎是由淘特JSP搜索引擎发展而来,系统基于Lucene.Net核心,通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时,通过读取索引文件查询,避免了传统数据库查询在高并发及海量数据下的性能问题。因前台搜索不在连接数据库,为不希望数据库放到前台的特殊用户群体提供了数据快速查询解决方案。-Amoy Special Site search engine from the Amoy Te JSP search engine, developed from, sys
totsearch
- 淘特站内搜索引擎是由淘特JSP搜索引擎发展而来,系统基于Lucene.Net核心,通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时,通过读取索引文件查询,避免了传统数据库查询在高并发及海量数据下的性能问题。因前台搜索不在连接数据库,为不希望数据库放到前台的特殊用户群体提供了数据快速查询解决方案。 -Amoy Special Site search engine from the Amoy special JSP search engine developed fr
maxfenci
- 基于词典的最大正向/反向分词,C++的,最简单的学习分词算法的代码-Dictionary-based maximum forward/reverse word, C++, the most simple method of learning the code word
24190808280
- KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法-KTDictSeg KaiToo search by the development of a simple dictionary-based word segmentation algorithm for Chinese and English
worddiv
- 中文分词算法,用正向最大匹配算法实现的中文分词,包裹dao操作数据库。-Chinese word segmentation algorithm, the forward maximum matching algorithm of Chinese word segmentation, wrapped dao operations database.
Bbeiyessa
- 贝叶斯网络概率中文分词算法,,基于概率的分词算法可直接使用。 -Bayesian network probability Chinese word segmentation algorithm, probability-based segmentation algorithm can be used directly.
ngram模型分词与统计算法
- N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在NLP中,人们基于一定的语料库,可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面,N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。这是模糊匹配中常用的一种手段。本文将从此开始,进而向读者展示N-Gram在自然语言处理中的各种powerful的应用。(N-Gram (sometimes referred to as N metamodel) is a very important concept
HMM-master
- 隐马尔科夫模型进行中文分词 模型训练 python HMM_train.py RenMinData.txt_utf8 RenMinData.RenMinData_utf8 为人民日报已经人工分词的预料。 生成三个文件 * prob_start.py 为模型的初始概率 * prob_trans.py 为模型状态转移概率 * prob_emit.py 为发射概率 测试模型效果 python HMM.py reference 维特比算法:(python