搜索资源列表
usdsi
- 本程序是用python编写,无需安装。运行Crawler.exe就可以看到效果。 如果不修改配置是抓取新浪科技的内容,修改配置可以抓取指定的网站。 配置文件采用ini的格式. spider_config.ini蜘蛛的配置 1. maxThreads 爬虫的线程数 2. startURL 爬虫开始的URL 3. checkFilter 爬虫只抓取指定的URL(采用正则表达式匹配) 4. urlFilter 爬虫提供给分析器的URL(采用正则表达式匹配) sucker
urlnorm
- 一个python的url规整化的模块 可以将很多种不同格式的url字符串规整化到一个标准的格式,很简单也很实用
download
- 一个十分简单的用于下载文件的小工具。 输入网络文件的URL,按go即可.-For a very simple little tool to download files. Enter the network file URL, you can go by.
smallreptile
- 一个类似爬虫的网页下载程序,还没有爬虫的全部特征,但可以分析某一主页上的全部url,并下载其文本内容-used to download the web page
python_mikezp59
- 读取url的内容, python 3.1.1开发。非常简单,只需要给定一个url作为参数,就可以读取网页内容-read the content of a url, very simple. You just need to give a url as parameter.
collect
- 简易采集爬虫 # 1.我只做了一个收集url的功能,如果需要将数据入库,可在 parseData 函数里面写处理代码 # 2.需要sqlite3或者pysqlite支持 # 3.可以在DreamHost.com空间上面运行 # 4.可以修改User-Agent冒充搜索引擎蜘蛛 # 5.可以设置暂停的时间,控制采集速度-Simple collection reptiles# 1. I have only had a collection of url feature, if y
photo
- 从网上下载图片,做成界面的工具,输入网址和保存图片地址,可以下载该网址的所有图片。-Download pictures from the Internet, made the interface tool, enter the URL address and save images, you can download all the pictures of the site.
GetGoogleMusic.py
- 批量下载GoogleMusic专辑音乐,根据需要选择不同的3种参数。url、歌曲名、专辑索引号。-GoogleMusic bulk download music album
1
- 修改config.ini文件中的cookie,为目标网站的cookie(通过抓包获取) 修改blacklist.py中的URL为目标按钮的URL;修改time.sleep()里面的时间可以调整点击间隔,单位时秒 通过该文件可以实现对目标网站特定按钮的点击测试(Modify the config.ini file in the cookie, as the target site of the cookie (through capture access) Modify the URL in
ToolsForHTML
- 自动下载起点网文档,只需要提供详细的网址(down file of qidian web, only need the url)
spider_baike-master
- 一个简单的初级爬虫程序通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子 URL 扩充到整个 Web,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。 由于商业原因,它们的技术细节很少公布出来。 这类网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新的页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面。 虽然存在一定缺陷,通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强的应用价
xiaozhuduanzuInfo
- 利用requests库和BeautifulSoup库对小猪短租网站进行爬取一系列信息,并自动获取下一页url 链接(Using requests library and BeautifulSoup library to crawl a series of information on the short rental website of piglets, and automatically obtain the next page URL link)
spider-master
- 能够爬取所有车辆的信息,并且保存起来json里面 爬取所有url(Family car of the reptile, crawling on all models car home, save as excel format)
豆瓣爬虫
- 爬取豆瓣top250电影资料, ①requests库获取html信息 getHTMLText(url)方法实现 ②通过BeautifuSoup库与re库整理筛除信息 stringTidy(string) parsePage(html)方法实现 ③最后读入文件中 getMovieInfo(movieList,fpath)方法实现(python use request method getHTMLText(url) get html BeautifulSoup and re)
get_baidu
- 使用python爬取百度搜索的关键字结果,URL,标题等信息,其余网站可使用类似的方式进行页面信息爬取。(Use Python to crawl the keyword results of Baidu search, like URL, title and other information, and the other web site can use a similar way to crawl page information.)
用Python写网络爬虫2
- 作为使用Python来爬取网络数据的杰出指南,讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外,本书还介绍了如何使用AJAX URL和Firebug扩展来爬取数据,以及有关爬取技术的更多真相,比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本书使用Scrapy创建了一个高级网络爬虫,并对一些真实的网站进行了爬取(As an excellent guide for using Python to crawl network data,
批量检测链接可用性
- 使用python写的,批量检测URL链接可用性的GUI工具.依赖库tkinter, Python3开发.
多线程爬虫
- 一个简单健壮的多线程爬虫程序,可以添加代理IP池、url池。并且已经构造好请求头和异常处理(A simple and robust crawler program, which can add agent IP pool and URL pool. And have constructed the request header and exception handling)
superl-url-master
- python小爬虫,学习借鉴使用,请勿用于其他用途(Python small crawler, learn from using)
python读取海康网络摄像头
- 实例简介 python读取海康网络摄像头视频 核心代码 #url="rtsp://admin:020wx12345@192.168.9.66/Streaming/Channels/1" #url="rtsp://admin:020wx12345@192.168.9.66/h264/ch1/main/av_stream"