搜索资源列表
网页搜索引擎
- K-PageSearch是由Kwindsoft在2007年自主研发的专为行业、专类信息检索设计的网页搜索引擎。主要功能特点:网络蜘蛛、定向采集、正文提取、中文分词、全文索引、相关度排序、网页快照、相关搜索、竞价排名;后台数据库采用Microsoft SQL Server,静态化搜索系统设计采用XML数据岛缓存搜索结果提高系统的稳定性和性能、节省服务器资源减轻系统负担。 网络蜘蛛 K风蜘蛛组件包括三大功能模块:链接采集、网页分析、无效网页扫描; 自动识别GB2312、BIG5、UTF-8、Unic
htmlparse
- 网页去标签算法,可以去除基本的常见的网页标签 从而达到正文提取-htmlparse (delete the tag of the html page)
html-extractor
- 发布一个HTML正文提取程序HTMLExtractor, 程序主要是基于内容统计的方法,暂不包含自学习能力,仅是 一个分析程序而以,网上也有别人实现了的正文提取程序,不过 大部人都当宝,都不愿意公开完整代码,有些大人实现了一些简 单的,不过分析能力和识别能力都不太理想。所以自己做了一个 简单的,本来想用PHP DOM分析器,不过大部份网页都不规范, 缺个标签啥的都很正常,所以自已又造了个简单的轮子分析HTML标 签,功能比较简单,每个元素都生成一个对象,内存方面占用比
Pro_Html
- 实现对HTML网页文件的主题内容的提取,主题包括<title>的内容,和正文的前10行内容-the code can be used to get the theme of the HTML.The conten is including of the title and the P.
Java-readability-master
- web 页面解析 1. web 页面抓取 2. html 正文提取-html context extractor
HtmlDBScanBuilder
- 从网页中提取正文,包括对网页源码的预处理,用聚类实现网页正文的提取。-extract text the html
Excel2html
- 将excel的内容转化为html格式,常用语邮件的excel提取为正文,用的jar是poi- Convert Excel to HTML
zb8
- 1、无限级多页采集,可以实现无限深度的采集 2、任务队列运行管理,支持Cron表达式 3、无限级分组任务管理,任务回收站功能 4、RSS地址采集功能 5、列表页分页采集获取功能 6、列表页附加参数获取功能 7、列表页及标签XPath可视化提取功能 8、标签纯正则替换功能 9、Http接口查看运行情况 10、导出记录为单个或多个Txt、html 文件 11、标签间自由组合功能 12、针对标签内容继续发送Http请求功能 13、无限级列表网址采集