搜索资源列表
网页搜索引擎
- K-PageSearch是由Kwindsoft在2007年自主研发的专为行业、专类信息检索设计的网页搜索引擎。主要功能特点:网络蜘蛛、定向采集、正文提取、中文分词、全文索引、相关度排序、网页快照、相关搜索、竞价排名;后台数据库采用Microsoft SQL Server,静态化搜索系统设计采用XML数据岛缓存搜索结果提高系统的稳定性和性能、节省服务器资源减轻系统负担。 网络蜘蛛 K风蜘蛛组件包括三大功能模块:链接采集、网页分析、无效网页扫描; 自动识别GB2312、BIG5、UTF-8、Unic
网页分析,提取网页上的数据
- 网页分析,提取网页上的数据 ,可以实现大量网页的自动分析,Web analytics, website data extraction can be achieved automatically analyze a large number of pages
HtmlParser.rar
- 实现网页文本的提取,解析网页文件。去除网页中的标记标签!,The realization of the page text extraction, analysis page document. Removal of the tag label page!
ContentAnalyzer
- 搜索引擎正文提取程序,通过html分析和正则,去掉html代码,保留网页正文,只针对中文有效。英文稍加修改即可使用。-The body of the search engine extraction process, through analysis and regular html remove html code to retain the page text, only effective against the Chinese. Slightly modified to use Engl
WebHarvest
- 网页提取工具,可以半自动化得提取出网页中的结构化数据。文档是的使用说明。-Web page extraction tool to extract a semi-automatic web page data structure. Note the use of the document is.
Access
- 网页搜索小程序,包含网页爬虫,网页提取等基本功能-web search
GetAirport
- 网上天气预报。通过提取天气预报网站的网页代码,来获取数据,实现对全国各个省会城市的天气预报。-Online weather forecasts. By extracting the weather forecast site code, to obtain data, to achieve the various capital cities of the country
getContent1.0
- 根据视觉识别系统进行的网页内容提取功能,作的不错-According to visual recognition system for web content extraction function for the good
albb
- 这是本人在公司上班时做的一个小软件,后台用的是ORACLE,是在下载到硬盘中的阿里巴巴网页是提取公司资料信息,放至库中.因编制较早,现在可能已不好用了,但稍加改动就行了(因为网站台为了防止别人下数据,经常改版,但方法不离其中),当时下得数据几十万条,编得不好,希望大家不要见笑.-This is when I do go to work in the company of a small software, the background is used in ORACLE, is download
GetWebSource
- 通过获取网页的源代码,可以对网页进行分析及修改,以提取有价值的信息-Through access to the page' s source code, you can analyze and modify web pages to extract valuable information
webSearch
- 网页搜索小程序,包含网页爬虫,网页提取等基本功能-web search
GetUrlFromWebPage
- 从特定URL的网页中提取其源码到本地计算机中,并且保存到用户设置的文件中-Pages from a specific URL to extract the source code to the local computer, and save the file to the user settings
Collection1.0
- 一个简单的网页采集系统,是一个为初学者提供实现网页数据采集思路的源码,通过请求网页来抽取源码,并用正则表达式提取内容以及转换为XML格式遍历内容并存入Access数据库中。-A simple web collection system is available for beginners to achieve a web page source data collection ideas, through the request page to extract source code, and
378
- MFC VC++6.0定时提取网页源码设计-dingshi
gekhtml
- 基于ekhtml,自动提取网页正文,将提取出来的title,author,正文text, 文章发布的时间存入mysql数据库.-Based on ekhtml, Automatic extraction of web page text, will be extracted out of the title, author, body text, the article published time into mysql database.
WebPages_WordSplitting
- 自动提取网页内容(附带简单的 HTTPAnalyzer 类),并根据词典进行分词。-Automatically get the content from webpages, and split the words based on the internal Chinese dictionary.
ReadHTMLContents
- java读取分析、解析网页内容,提取关键词,各个块的内容,网页格式可以是html, htmls等-java read the analysis, content analysis, extract keywords, the content of each block, the page format is html, htmls etc.
joyhtml-0.2.2
- 网页正文提取,利用超链接密度算法计算文本块的权重-Web text extraction algorithm using the hyperlink text block density, weight
QQ昵称_头像多线程批量提取器
- 提取QQ头像,获取QQ的头像,如何获取QQ头像(Extract QQ Avatar HOW TO Extract QQ Avatar)
提取源码实例
- 通过C#windous程序 提起网页源码,并且可以从源码中提取h2标头(C#windous program through the web page source code, and you can extract the H2 header from the source code)