搜索资源列表
SQLET_spider
- 网络机器人又称为Spider程序,是一种专业的Bot程序。用于查找大量的Web页面。它从一个简单的Web页面上开始执行,然后通过其超链接在访问其他页面,如此反复理论上可以扫描互联网上的所有页面。-network robot also known as Spider procedures, is a professional bot procedures. Looking for a large number of Web pages. From a simple Web pages to beg
free141full
- 这个系统属于自动化的搜索引擎,它可以从一个网址列表开始,自动寻找这些网址的下一级网页。可以让中小网站也有有自己特色的搜索引擎。适合与于对某一指定领域里的网站进行搜索,比如建立一个内网的搜索引擎。 升级内容: 1.增加屏蔽网址功能 。 2.修正上一版本处理网页重定向时判断部分网址的错误。 3.增加了删除重复数据功能,可选择是否采用重复页面删除模式,可定义索引重复数据的数据表。 4.首次采用注册码注册完全版本,共享版本限制每网址索引10个页面。 -this system i
firtex_beta102_src
- FirteX介绍 功能: 支持增量索引,差量索引,多字段索引,提供了3种前向索引方式; 支持纯文本,HTML,PDF等文件格式; 提供快速中文分词; 从底层到高层,提供了多种索引访问接口,灵活自由地使用索引文件; 提供丰富的检索语法,支持多字段检索,日期范围检索,检索结果自定义排序等。 性能: 在Pentium 4 2.8G 2GRAM的机器上超过200Mb每分钟的索引速度 在近7G的索引文件(100G网页,11G纯文本的索引)上检索,仅使用十几M内存在数毫
DoAcomActiveX
- com类型的代码。从设计到,测试的代码里面都有!王永写!谢谢大家!-com types of code. From design to test the code is inside! Wang Yong write! Thank you!
jw-spider
- 网络蜘蛛,从一个网址出发,搜索网络,功能包括设定搜索的深度,动态显示搜索的结果。-network spiders, from a website, the search network, including setting function of the depth of search. dynamic display of search results.
Topic_spider_bemjh
- 主题蜘蛛,用于下载与主题相关的蜘蛛,种子网站可从百度的搜索引擎下载.-theme of spiders, for download and relevant to the theme of spiders, seeds from the site search engine Baidu download.
lz_spidetytryryr
- 这个系统是属于自动化的搜索引擎,它可以从一个网址列表开始,自动寻找这些网址的下一级网页。可以让中小网站也有有自己特色的搜索引擎。 适合与于对某一指定领域里的网站进行搜索,比如仅搜索医学网站。 使用sql server 2000做数据库。 网络蜘蛛根据用户设定的入口网址自动收集网页数据 强大完备的后台管理 充分挖掘.net性能,百万数据瞬间搜索 完美的前台web页cc面媲美专业搜索 中文分词接口-The system is an automated search
search22
- 用C#编写的一个多线程搜索引擎的源代码,能够并行或串行从多个位置进行搜索。-C# prepared in a multi-threaded search engine source code to parallel or serial number from the location of the search.
theory_of_search_engine
- 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建 方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索 引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及 其关键技术;最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类 等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的 实验数据,具有学习和实用双重意义。
yahoocom
- 从yahoo.com上下载股票的报价,是编写股票程序的重要参考代码
Uindex.Src
- Uindex是一个开放源代码的搜索引擎,网页搜索量定位在千万量级,目前提供从蜘蛛程序、中文分词到建立全文索引的全部工具程序,FTP搜索提供基于文件名的检索,支持常见的FTP服务器。
SearchEngineer
- 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。
Arachnid_src0.40
- 利用JAVA实现的网络蜘蛛,具有从网络抓取网页的功能
SearchEnginePrincipleTechnologyandSystems
- 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。
spider
- 网络蜘蛛Spider,实现了从网络的自动获取Url并保存。
API_ImageSpider
- 从www.flickr.com上面下载图像的代码,可以根据输入的关键词进行检索
webharvest1-project
- Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作
SEDesign
- 一个搜索引擎的从设计到实现的过程,主要从设计上进行说明
IndexFiles
- 基于Lucene的网页生成工具,对于有网页爬行器从网络上下载下来的网页库,本软件可以对他们进行网页索引生成,生成网页索引是搜索引擎设计中核心的部分之一。也称网页预处理子系统。本程序用的是基于lucene而设计的。
webspider
- 用java写的一个网络蜘蛛,他可以从指定的URL开始解析抓取网页上的URL,对于抓取到的URL自动分成站内外URL,并可以设置抓取的深度。