搜索资源列表
SubjectSpider_ByKelvenJU
- 1、锁定某个主题抓取; 2、能够产生日志文本文件,格式为:时间戳(timestamp)、URL; 3、抓取某一URL时最多允许建立2个连接(注意:本地作网页解析的线程数则不限) 4、遵守文明蜘蛛规则:必须分析robots.txt文件和meta tag有无限制;一个线程抓完一个网页后要sleep 2秒钟; 5、能对HTML网页进行解析,提取出链接URL,能判别提取的URL是否已处理过,不重复解析已crawl过的网页; 6、能够对spider/crawler程序的一些基本参数进行
heritrix-1.12.1-src
- Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。
robot
- 用robots.txt文件设置使BBS只有首页被搜索引擎收录
robotParser
- robots.txt的一个解析器, 功能很强大哦
Gallery
- 陈列馆问题: 1.问题描述 世界名画陈列馆有m*n个陈列室组成。为了防止名画被盗,需要在陈列室设置警卫机器人哨位,每算法个警卫机器人除了监视它所在的陈列室之外,还可以监视与它所在的陈列室相邻的上,下,左,右4个陈列室。 2.要求 试要求,设计一个安排警卫机器人哨位的算法,使得名画陈列馆的每个陈列室都在警卫机器人监视之下,切所用的警卫机器人数目最少。 3.结果输出 将计算的警卫机器人数及其最佳哨位安排输出到文件output.txt。文件的第1行是警卫机器人数;接下来的m行中
wget-1.9.1b
- GNU Wget is a free network utility to retrieve files from the World Wide Web using HTTP and FTP, the two most widely used Internet protocols. It works non-interactively, thus enabling work in the background, after having logged off. The recursi
LinkChecker-5.2.tar
- LinkChecker 是一个网页链接检查程序,主要特性: • 循环遍历和多线程检查 • 输出各种格式检查结果:text, HTML, SQL, CSV, XML • 支持 HTTP/1.1, HTTPS, FTP, mailto:, news:, nntp:, Telnet 和本地文件链接检查 • 可使用正则表达式对链接的url进行过滤 • 支持代理服务器 • 支持用户名和密码验证 ̶
SEOtutoril
- 既然是基础教程,讲的当然都是SEO 最基本的内容了,例如:佩奇等级、robots.txt 等相关知识,对于刚刚涉足于搜索引擎的朋友来说,可能对这些比较迷茫,但,通过本书能很快的了解这些内容
Elgg开源社交网络引擎1.11.0
- Elgg是一款免费开源的社会性网络引擎程序,以BLOG为中心实现社会网络化,从社会性来讲:Elgg以兴趣为核心的社交平台。支持多国语言,暂不支持中文。 Elgg 1.11.0 更新日志:2015-04-13 访问:通知用户何时访问变化将影响评价 联系:添加一个警告,当物理robots.txt的存在 注释: 在电子邮件通知链接,现在需要直接到正确的页面 可以通过设置挂钩每页意见 河评论/回复讨论去正确的页面 背景:增加了API获取/设置整个上下文堆栈 核心: