资源列表
lucene-1.4.3
- java分词技术,只实现英文分词,但是该分词算法很经典(来源于apache)-java-term technology, achieving only English Word, but the Word algorithm classic (from apache)
rj588_tongyicjuniveralgatsy
- 统一搜集系统 Univeral Gather System(UGS) 是针对搜集程序设计的一套PHP类 ,使用方便 运行于各种Unix系统 linux系统和Win2000/XP/2003 系统中 类内函数 steal 用于搜集页面文字 cut/cutpro 用于剪切文字 filt/filtx用于过滤文字 change用于改变文字 getenterkey用于获得关键位置的链接Array _striplinks和_striptext 用于产生锚点的Array和文字-unified collectio
PDFBox-0.6.7a
- 采用java编写的处理PDF文档的程序,可从PDF文档中抽取txt文本,可与lucene搜索引擎相结合。-adopting the java programs compiled to dispose the PDF document, taking out the txt text from the PDF document, and combining with the lucene searcher.
信息检索报告
- Information Retrieval (IR) is the discipline that deals with retrieval of unstructured data, especially textual documents, in response to a query or topic statement, which mayitselfbeunstructured,e.g.,asentenceorevenanotherdocument,orwhichmay be s
Webloup
- WebLoupe is a java-based tool for analysis, interactive visualization (sitemap), and exploration of the information architecture and specific properties of local or publicly accessible websites. Based on web spider (or web crawler) technology. 开源搜索爬
EasyXSpider
- EasyXSpider不仅仅是一个简单的Linux下的爬虫程序。更包括了,索引制作,检索,分词(英文及中文二元法切词),以及Google PageRank算法和CGI查询界面的实现。可以看做是一个完整的小型搜索引擎。
google Search Engine
- google php 搜索引进,代码简易,功能强大。
搜索引擎
- vc编写的搜索引擎
支持向量机java实现
- 文本自动分类的java实现
luncene查询分析器中文词典
- 中文分词词库