搜索资源列表
spider_demo
- C#编写的spider demo 主要实现多线程的网页抓取及网页内容中URL的提取-prepared by the spider demo main multithreaded website crawls and website content URL Extraction
apache-tika-0.1-incubating-src.tar
- apache基金项目tika,是一个可以对内容进行分析、提取的开发包,结合正则开发包,可以开发基于垂直搜索引擎,目前正处于孵化阶段,这里是目前的最新版本
SearchEngine
- dySE 是个开源的 Java 小型搜索引擎。该搜索引擎分为三个模块:爬虫模块、预处理模块和搜索模块。其中详细阐述了: 多线程页面爬取、正文内容提取、文本提取、分词、索引建立、快照等功能的实现。-dySE is an open source Java small search engines. The search engine is divided into three modules: crawler module, pretreatment module and search module
用Python写网络爬虫
- 本书讲解了如何使用P川lOil来编写网络爬虫程序, 内容包括网络爬虫简 介, 从页面中抓取数据的三种方法, 提取缓存中的数据, 使用多个线程和进 程来进行并发抓取, 如何抓取动态页面中的内容, 与表单进行交互, 处理页 面中的验证码问题, 以及使用 Scarpy和Portia 来进行数据抓取, 并在最后使 用本书介绍的数据抓取技术对几个真实的网站进行了抓取, 旨在帮助读者活 学活用书中介绍的技术。 本书适合有一定Python 编程经验, 而且对爬虫技术感兴趣的读者阅读。(This book ex