搜索资源列表
SubjectSpider_ByKelvenJU
- 1、锁定某个主题抓取; 2、能够产生日志文本文件,格式为:时间戳(timestamp)、URL; 3、抓取某一URL时最多允许建立2个连接(注意:本地作网页解析的线程数则不限) 4、遵守文明蜘蛛规则:必须分析robots.txt文件和meta tag有无限制;一个线程抓完一个网页后要sleep 2秒钟; 5、能对HTML网页进行解析,提取出链接URL,能判别提取的URL是否已处理过,不重复解析已crawl过的网页; 6、能够对spider/crawler程序的一些基本参数进行
native2ascii-GUI-Tool
- 由资源文件(.properties)生成txt文件,生成的文件如果在Eclipse下打开为乱码则请用附件里的记事本打开该txt文件。更详细的资料请看说明文件。注意,只要安装了JDK才能运行。-From the resource file (. Properties) generated txt file, generated in the Eclipse open the file if garbled, please use the attachment in Notepad to open
tika
- Apache tika 可以解析各种富文本格式的文件,得到其中的文本内容字符串。如tika 可用于解析Office 97/2003/2007 格式、PDF 格式、HTML 等格式的文件。请参考tika-app-1.5.jar 的功能,实现一个GUI 界面的桌面程序,该程序可以打开以上几种格式的文件,调用tika 进行解析,在界面上展示txt 解析结果,并将结果保存成文本文件。该程序也可以同时打开一组文件,以多线程的方式对它们进行并行处理。注:请在程序中导入tika-core-1.5.jar 和t