搜索资源列表
ThesaurusAnalyzer
- lucene中文分词代码 带有19万字的词典 本分词程序的效果取决与词库.您可以用自己的词库替换程序自带的词库.词库是一个文本文件,名称为word.txt. 每一行一个词语,以#开头表示跳过改行.最后保存为UTF-8的文本.
Python-Spider
- 针对“天天美剧”,Coursera,豆瓣 Top 250 电影列表,“免费文档”,“糗事百科”以及“挖段子”等网站的 Python 爬虫。 主要实现网站资源链接和文本内容爬取及保存。 具体用法见代码注释。-Python Reptile for " everyday drama" , Coursera, watercress Top 250 list of movies, " free document" , " embarrassmen