资源列表
SearchEnginePrincipleTechnologyandSystems
- 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。
spider
- 网络蜘蛛Spider,实现了从网络的自动获取Url并保存。
JShuandeng
- JS实现的幻灯片,用于任何程序使用,方便搜索收录
lucene+mysql+eclipe
- lucene+mysql+eclipe开发实例,实现了分页和中文分词。欢迎交流qq:276367673
API_ImageSpider
- 从www.flickr.com上面下载图像的代码,可以根据输入的关键词进行检索
MSearch.Lib
- 我自己做的聚类搜索引擎,使用了K-mean和K-NN聚类算法
download
- 支持IIS6.0,能够在在线搜索你想要的下载的东西,功能还不少!
usebaidu
- 教你如何更好的用好百度,如何做好搜索引擎优化
3126
- PKU 3126 典型的广度优先搜索 用队列实现
hyperestraier-1.4.13
- 一个小型的分布式的搜索引擎,速度还快,并且内置了爬虫,能够处理CJK字符集(多字节字符),是个小型站内引擎的首选,能够运行在Unix/Linux平台
gsearch-linux-src-1.0
- 这是一款桌面文件搜索引擎,能够检索本地文件,速度非常快,索引1G文件只是需要一秒钟,能够运行在 Windows/Unix/Linux 等平台
heritrix-2.0.0-src
- Heritrix: Internet Archive Web Crawler The archive-crawler project is building a flexible, extensible, robust, and scalable web crawler capable of fetching, archiving, and analyzing the full diversity and breadth of internet-accesible content.