资源列表
python-2.7.3-docs-html
- python 2.7 help guideance.
lucene-3.0.3-src
- 最新发布的Lucene源码,基于搜索引擎的开发平台-Latest Lucene source development platform based search engine
lucene-3.0.2-src
- 搜索引擎使用的API,现在都是很热门的,很难得的哦,我找了好久才找得到-Search engines use the API, are now very popular, hard to come by Oh, I' m looking for a long time to find one
lucene-3.0.0-src
- lucene-3.0.0-src.zip 纯java开源搜索引擎的源代码 初学者好好揣摩 apache家族的一个子项目 提供一个索引和搜索的框架,支持二次开发 Lucene的最新版本-lucene-3.0.0-src.zip pure java open source search engines try to figure out the source code for beginners a good family, an apache sub-project to provide a fr
WebScarab
- 基于python的web爬虫框架,适合新手学习。Scrapy-a web spider framework
luceneDktj131_4_2
- 基于社团划分算法的网页聚类算法,参考Dijkstra算法进行实现。-Page Societies partitioning algorithm-based clustering algorithm, the reference Dijkstra algorithm implementation.
findworlds
- 1.支付宝在线充值 2.交易记录 3.后台动态修改全站内容 4.开放平台,支持右侧推广和上下搜索推广 5.蜘蛛收录 6.数据库备份 7.联盟推广送分 8.关键词竞价排名 9.模版风格更换 10.静态表单管理 11.点卡功能 12.管理员功能限制分配-1 Alipay online recharge 2 transaction records 3 background dynami
firtex_beta102_src
- FirteX介绍 功能: 支持增量索引,差量索引,多字段索引,提供了3种前向索引方式; 支持纯文本,HTML,PDF等文件格式; 提供快速中文分词; 从底层到高层,提供了多种索引访问接口,灵活自由地使用索引文件; 提供丰富的检索语法,支持多字段检索,日期范围检索,检索结果自定义排序等。 性能: 在Pentium 4 2.8G 2GRAM的机器上超过200Mb每分钟的索引速度 在近7G的索引文件(100G网页,11G纯文本的索引)上检索,仅使用十几M内存在数毫
a
- 关于网络爬虫的论文集,涉及到搜取网页和网页解析技术的一些重要课题。对算法和搜索引擎的理解有一定的帮助
Search_Engine
- 课程作业 包含分词 前端 后台 爬虫等 网页数据直接用文本文件存储,倒叙表用二进制文件-Coursework includes reptiles and other sub-word front-back
08214942iobg
- lucene+nutch搜索引擎(lucene开发资料文档,各种功能实例)-lucene development information, features instances
heritrix-1.14.4
- heritrix-1.14.4 纯JAVA开发的,开源的Web网络爬虫-heritrix-1.14.4 pure JAVA development, open source Web crawler