搜索资源列表
HtmlAnylse
- 网页是组成互联网的基本数据单元,是各种面向互联网的应用系统最原始的数据源。网页内部含有大量噪音信息,如何从网页中有效地提取有价值的内容成为影响数据处理效果的关键。 网页正文提取指的是从原始网页中精确地提取出正文文本,比如提取新闻网页中的报道内容。能否高效地提取出网页的正文,是很多互联网应用系统如搜索引擎、新闻资讯系统等面临的一个重要问题。由于网页本身的无结构化的特点,通常采用的正文提取方法是针对目标网页的特点人工制定抽取模板,这类方法的优点是抽取精确,但其致命的缺点是模板建立和维护的工
prop200406
- 概率句法分析器对于统计自然语言处理的很多高层应用,如统计机器翻译、问答系统、信息抽取、文本挖掘等都是至关重要的,直接决定这些应用系统的最终性能。本系统是一个概率型的Chart分析器。系统的分析算法是采用了多种优化策略。分析结果是概率最大的一棵分析树。在概率模型方面,本系统在一定程度上突破了pcfg的上下文无关假设,引入了结构上下文条件,使得分析结果正确率有了明显提高。在使用宾州中文树库进行的实验中,我们的分析器的标记召回率和标记精确率平均在75%-80%左右。在使用一个短句树库进行的实验中,两个
FreeICTCLAS.rar
- 汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58 (973专家组评测),未登录词识别召回率均高于90 ,其中中国人名的识别召回率接近98 处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。该系
Free-Software
- 计算所汉语词法分析系统之免费版本ICTCLAS.非收费之源代码。 分词正确率高达97.58 (973专家组评测),未登录词识别召回率均高于90 ,其中中国人名的识别召回率接近98 处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。--Calculate the Chinese Lexical Analysis System ICTCLAS. Segmentation correc
accuracy--recall-Python
- Python代码编写的一个推荐算法的准确率/召回率得计算源码-Python code to write a recommendation algorithm accuracy/recall rate was calculated source
CSharp
- C#访问数据库;C#实现九宫格算法;C#实现天干地支算法;C#正则表达式查找汉语重叠词语并计算正确率召回率F值;C#比较三种泛型容器和排序速度-C# to access the database C# implementation squares algorithm C# implementation attribution algorithm C# regular expression search Chinese overlapping words and calculates the
conlleval
- CRF 准确率、精确率、召回率、F值计算程序-CRF accuracy, precision, recall, F value calculation program
6_29
- 基于逆向匹配的中文分词算法实现,产生词典和测试数据,分词后具有结果分析功能,计算精确度,召回率,F值, -Chinese word segmentation algorithm based on reverse matching, dictionary and test data, with the result after word analysis function, calculation precision and recall rate, F value,
jieba
- 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。(Accurate mode, trying to cut the sentence up to the most accurate, suitable for text analysis. The whole mode can scan all the words tha