资源列表
SogouLinkMini
- 搜狗实验室的网页链接关系迷你版!可用于搜索引擎的网页测试!-Sogou web link relationship lab mini version! Web search engine can be used to test!
sousuoyinqing
- 用mfc实现的一个简单的搜索引擎框架,用mfc实现的一个简单的搜索引擎框架-Mfc achieved with a simple search engine framework, with mfc to achieve a simple search engine framework
Wiley.SEO.Search.Engine.Optimization.Bible
- SEO(Search Engine Optimization),汉译为搜索引擎优化,为近年来较为流行的网络营销方式,主要目的是增加特定关键字的曝光率以增加网站的能见度,进而增加销售的机会。分为站外SEO和站内SEO两种.SEO的主要工作是通过了解各类搜索引擎如何抓取互联网页面、如何进行索引以及如何确定其对某一特定关键词的搜索结果排名等技术,来对网页进行相关的优化,使其提高搜索引擎排名,从而提高网站访问量,最终提升网站的销售能力或宣传能力的技术。-One of the grievous mista
HZ_Freq
- java中文分词系统,可供大家学习,祝成功路上越走越远!-Java wordseg program
kfeng
- K封搜索·好东西,下载用的·很不错·····下载实验下吧-K seal search a good thing, download download experiment with the very good under the bar
MetaSeeker-4.11.2
- 主要应用领域: • 垂直搜索(Vertical Search):也称为专业搜索,高速、海量和精确抓取是定题网络爬虫DataScraper的强项,每天24小时每周7天无人值守自主调度的周期性批量采集,加上断点续传和软件看门狗(Watch Dog),确保您高枕无忧 • 移动互联网:手机搜索、手机混搭(mashup)、移动社交网络、移动电子商务都离不开结构化的数据内容,DataScraper实时高效地 采集内容,输出富含语义元数据的XML格式的抓取结果文件,确保自动化
GooduSearchEngine
- 本程序实现了搜索引擎的基本功能,包括关键字搜索与批量搜索。-This program implements the basic functions of search engines, including keyword search and batch search.
Web-crawlers
- 《自己动手写网络爬虫》书籍的源码,欢迎下载。为了能够更好的利用资源,已经习惯了不做伸手党。-" Write your own Web Crawler" books source code, welcome to download. In order to better use of resources, had been accustomed to do for the party.
SolrSharpSearch
- 采用sorl.net编程SolrSharpSearch 基于SolrSharp的站内搜索-The programming SolrSharpSearch search based SolrSharp station
spider2006
- 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。 -C# spider.
crawler-on-news-topic-with-samples
- java做的抓取sohu所有的新闻;可以实现对指定站点新闻内容的获取;利用htmlparser爬虫工具抓取门户网站上新闻,代码实现了网易、搜狐、新浪网上的新闻抓取;如果不修改配置是抓取新浪科技的内容,修改配置可以抓取指定的网站;实现对指定站点新闻内容的获取-java do crawl sohu news access to the designated site news content using htmlparser reptiles tools crawl news portal, c
NWebCrawler
- 网络爬虫, * 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 * 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 * 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 * 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 * 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。-Web crawler