搜索资源列表
searchenginecode.rar
- 主要工作是对web搜索程序进行研究;并且利用java语言实现了search crawler的搜索程序界面.,The main work is to study procedures for web search and the use of java language to achieve a search crawler search program interface.
webSpider
- GOOGLE查询分析注入系统 一,通过关键字检索把提取前10个网站的网址 二,通过提取的网站地址做为搜索关键字搜索该网站地址的所以查询结果 三,实现GOOGLE的自动分页排查所有结果直到末页; 四,根据查询后的结果对每一个结果链接做为索引进入网站分析当前页与当前页所有的站内链接页进行分析检测是否有留言板、论坛或其它有注入特征的页面如有发现则将可疑网站及表单信息记录到数据库中,在此环节中加入了多线程,用户在搜索时初始线程数,每个线程针对一个网站的索引页面,如有线程完成了单个网站
crawler-on-news-topic-with-samples
- java做的抓取sohu所有的新闻;可以实现对指定站点新闻内容的获取;利用htmlparser爬虫工具抓取门户网站上新闻,代码实现了网易、搜狐、新浪网上的新闻抓取;如果不修改配置是抓取新浪科技的内容,修改配置可以抓取指定的网站;实现对指定站点新闻内容的获取-java do crawl sohu news access to the designated site news content using htmlparser reptiles tools crawl news portal, c