搜索资源列表
ICTCLAS2009.对中文进行分词并对其词性标注
- 对中文进行分词并对其词性标注;命名实体识别;新词识别;同时支持用户词典,To be conducted in Chinese word segmentation and POS tagging Named Entity Recognition new word identification simultaneously support the user dictionary
Chinese-Lexical-Analysis
- 一种基于层叠隐马模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中.-An approach for Chinese 1exical analysis using cascaded hidden Markav model, which aims to incorporate segmentation, part-of-speech tagging, disambiguation and unknown words recognition int
design-documents
- 网页信息采集子系统: 网页采集:动态查找及实时分析新增网页,读取网页回帖信息。 网页过滤:,对获取的网页,通过网页清洗模块清除网页中的广告、导航信息、 图片、版权说明等噪声数据,萃取出相关网页的标题、正文、链接地址、采集时 间、回帖、发帖人数等数据。 网页信息预处理子系统: 网页审查脏字:主要功能包括中文分词、词性标注、命名实体识别、新词识别, 建立数据库说明每类词库,建立敏感词词库。 网页舆情监测:监测是否出现了一定影响的舆论,即回帖的回帖或支持、顶等 达到