搜索资源列表
WebSpider
- 一个抓取程序,可以对有关的基金网站的公布的基金进行抓取显示
DataAnalyse521
- 数据分析java程序,包含了原始数据的提前,网站数据抓取,数据库存取,文件过滤列表等-dataanalyse java,gui,crawl data
Java
- 是用纯Java开发的,用来进行网站镜像抓取的工具,可以使用配制文件中提供的URL入口,把这个网站所有的能用浏览器通过GET的方式获取到的资源全部抓取到本地,包括网页和各种类型的文件,如:图片、flash、mp3、zip、rar、exe等文件。可以将整个网站完整地下传至硬盘内,并能保持原有的网站结构精确不变。只需要把抓取下来的网站放到web服务器(如:Apache)中,就可以实现完整的网站镜像。-Is developed in pure Java, used to crawl Web site m
spiderRss
- 一个rss 搜索引擎,专门抓取各个rss 聚会网站信息用来分析。 此项目的目录结构、组织相当的规范,包括单元测试、linux shell脚本等等。对于学习java来说是一个非常正规、标准的写代码案例。-A rss search engine dedicated to capture all the information to analyze site rss gathering. The project directory structure, organization fairly stan
GetWeb
- 用Java实现网络爬虫,可自定义要抓到网站,可自定义要爬到深度-Using Java for network reptiles, can be customized to capture site can be customized to climb the depth of
a
- 企业网站抓取新闻的利器,在线新闻及时抓取系统-Web crawling tool for corporate news, online news and timely capture system
Webpagemonitoring
- 通过抓取页面并获得返回值来监控网站 通过conf配置要抓取的页面。 如果抓取失败,会调用IE浏览器打开再次确认。并音乐报警,具体看源码,很早的代码了,音乐报警的路径写死了,有兴趣的自己改改用。 log里有详细的失败日志,便于查询并处理。 该程序采取防死锁功能,即有线程监控主线程是否死锁——如果网站一直处于等待便是死锁。那么会报警,但有时仍然会发生死锁。这还是http无状态链接的问题。 很久以前的老程序,源代码没了,用java反编译工具反编译的源代码,凑合用吧。
NekoHtml
- 抓取网站内容,输入指定条件下,例如网址 www.google.com.cn-Grab website content, enter the specified conditions, such as site www.google.com.cn
javacrewhtml
- java解析html抓取网站数据,-Download html file with java
www
- 输入URL,可以下载指定URL的HTML文件,对于有不允许复制内容的网站有信息抓取功能-Enter the URL, you can specify a URL to download the HTML file, there may not copy the content for the website there is information capture function
metastudio_Linux_gcc_gecko1.8_zh
- MetaSeeker工具包V3是GooSeeker团队自主开发的网页抓取/数据抽取/信息提取软件,经历了垂直搜索、SNS等多个互联网浪潮的实战检验,已经发展到V3版本,并且分成企业版和在线版,对于不愿支付昂贵的企业版费用的用户可以免费下载使用在线版。 MetaSeeker工具包V3版本包括如下软件工具: 1,MetaStudio,网页数据结构定义工具,通过图形界面免编程定义网站数据抓取规则 2,DataScraper,数据抽取工具,能够连续大批量抓取网页内容,不是普通的网络爬虫,而是适应力-Me
Test
- 抓取页面内容,通过HttpURLConnection对指定路径的网站内容进行抓取-Crawl the page content, to crawl through the site content HttpURLConnection for the specified path
ip138
- 实现从ip138网站抓取手机号码存入mysql数据库当中,可以随时随地查询手机号的归属地。-Ip138 web site that captures the phone number in the database, you can always mysql of the number of ownership.
Hostel
- 网站抓取信息,通过jsoup和httpclient两种抓取方式-Site' s crawl through crawl in both jsoup and httpclient
MyCrawler
- 简单网络爬虫,可以设置一些自己喜欢的网站,会自动抓取图片。-Simple web crawler, you can set some of your favorite sites, and will automatically grab the picture.
jsoupAPI
- Java抓取网站数据,语法类似于jquery,很简单,很容易上手,比起用httpclient抓取数据方便的多-Java crawl Website data
MiddleWareTest
- 一个中间件的demo,比较简单。从网页(此处是自己搭建的网站)上抓取数据之后,转换成json对象以供调用。-A middleware demo, is relatively simple. Grab data from the website (here is to build their own website), convert the json object to call.
lzzSearch-0.4
- 1 完全基于人工收录,每个被收录的帖子都是我们认为不错的。 2 任何人都可以加入,别人也可以分享到你加入的内容 3 收录的内容,不是简单的抓取,而是只收录里面最有用的部分,比如主题,内容,作者,发言时间等 4 由于上一个的原因,所以不是任何网站都能加入,后面有目前支持的网站列表。 5 增加新的网站支持,需要写3个正则表达式,进行帖子内容的精确匹配 6 使用Lucene进行存储和查询 7 开源,可以在自己的机器上部署一个,拥有自己的收藏和搜索工具。 8 同
TeachManageSys
- 用户注册,登录程序在WEB开发中已经是较常见的了,在实现方法上不是难点,现在android流行了,如何在一些Android应用或网站上实现用户登录和注册呢?其实和WEB开发一样简单,只要您看了这个完整的例子,相信你会学会的,有编译环境的就请自己重新编译一下项目,然后拷贝到手机上运行一下,能看到效果。在此不再抓图了,如果你刚学android程序开发,就更应该看看了。-User registration, login procedures already in WEB development is
cnblogsLogin.java
- 使用httpclient模拟登陆博客网站cnblogs,抓取相关的网页-Using httpclient simulated landing blog site cnblogs, crawl relevant pages