搜索资源列表
htmlparser
- HTML的解析器,是Majestic-12分布式搜索引擎的一部分。作者Alex Chudnovsky, Majestic-12 Ltd (UK)。这个是3.0版本,性能经过多次优化,文档也比较全。也可以到http://www.majestic12.co.uk下载。-HTML parser, Majestic-12 distributed search engine part. Author Alex Chudnovsky, Majestic-12 Ltd (UK). This is versio
xunlong0.6
- 完整的.net搜索引擎采用LUCENE.net为索引核心,分布式架构.包含wordnet,分词,spider,简单webserver等-complete. Net using search engines for indexing LUCENE.net core, Distributed framework. includes WordNet, participle, spider, a simple webserver, etc.
asp_searchengine
- 如何设计分布式搜索引擎-how to design a distributed search engine
802.16jModule
- Recently, IEEE 802.16j multi-hop relay network is proposed to increase data rate and coverage of the IEEE 802.16e networks. The Relay Station (RS) is introduced to relay the data from MR-BS to SS/MS or from SS/MS to MR-RS. We have studied the researc
hanhua_0425
- 面向Internet的分布式海量文件存储系统研究韩 华北京大学计算机科学技术系网络与分布式系统实验室2002-4-25-Internet-oriented Massive Distributed File Storage System Hanwha Beijing University of Science and Technology Department of Computer Networks and Distributed Systems Laboratory 2002-4-25
nut_source_1.0a6
- lucene + hadoop 分布式索引,希望对开发搜索引擎的同志有帮助-lucene+ hadoop distributed index, hope to develop a search engine to help comrades
GooglePageRankQuery
- 查询Google PageRank 破解全过程 1. 装个 google工具条 开启pagerank 2. 找个网络 sniffer 软件, 运行浏览器随便打开个网站, 3. sniffer将记录 google工具条发给 google的数据包 分析可得,传输协议是 http, 数据包内除了 有访问网站的地址, 关键还有个 ch参数 , ch参数根据网站地址不同 发生变化(看来关键是 ch怎么计算出来的!) 4.分析google工具条,得到计算 ch的汇编代码,然后翻
datascraper_zh
- DataScraper是网页信息提取(抽取)工具箱MetaSeeker中的一个工具,可以提取任何网站,为一个网站定制提取规则时不用编程,操作GUI,规则自动生成。适合做 1. 垂直搜索(或称为专业搜索)服务 2. 信息汇聚和门户服务 3. Mashup服务 4. 企业网信息汇聚 5. 商业情报采集 6. 论坛或博客迁移 7. 智能信息代理 8. 个人信息检索 9. 信息挖掘 有多个版本可以共享下载,下载完整工具箱,请访问:http:
GoogleFileSystem
- We have designed and implemented the Google File System, a scalable distributed file system for large distributed data-intensive applications.
webCrawler
- 一种高性能分布式W eb Craw ler 的设计与实现-A high-performance distributed W eb Craw ler Design and Implementation
Hadoop
- 基于Hadoop集群的分布式日志分析系统研究-Distributed Hadoop clusters based on log analysis system
SouYuan
- java开发的分布式搜索引擎,采用x-fire webservice的结构-java development distributed search engine, using x-fire webservice structure
SearchEngine-TheoryTechnologyAndSystem
- 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建 方案。从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及 其关键技术.-introducing the theory technology and plan of search engine.realizing large scale distributed search engine system.
lucenePnutchPmapreducePsearch-engine
- 三篇关于开源搜索引擎的硕士论文 1、基于Lucene的Web搜索引擎实现 2、基于MapReduce的分布式智能搜索引擎框架研究 3、基于Nutch的垂直搜索引擎的分析与实现-Three open source search engine on the master' s thesis 1, the Web search engine based on Lucene implementation 2, based on the MapReduce framework
TheDefinitiveGuidetoMongoDB
- mongodb是一个高性能的非关系型数据库,其底层还实现了一个分布式文件系统,可用于各种云计算。基于mongodb做搜索引擎也是非常好的选择,用它给数以亿计的网页建立反向索引也是轻而易举的事情!!!本书由维护mongodb的核心人员所写,详细且清晰的介绍了mongodb。-mongodb is a high performance non-relational database, the bottom also implements a distributed file system, can
cola-master
- Cola是一个分布式的爬虫框架,用户只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。-Cola is a distributed crawler frame, users only need to write a few specific functions, without attention to detail distributed operation. Tasks are automatically assigned to mult
elasticsearch
- ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。-ElasticSearch is an open-source and distributed search engine which is very much scalab
搜索引擎——原理技术与系统
- 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共 13 章内容,从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后面向主题和个性化的 Web 信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。(This book introduces the work principle, the realizat