搜索资源列表
EasyClass
- EasyClass是针对某大学Web选课子系统一个自动的课程检索程序。EasyClass允许用户对希望关注的课程自动检测空位,并且可以帮助学生自动选课。EasyClass根据课程号,模拟手动方式查询课程选课情况,从选课系统中提取出被关注课程的选课人数,通过对比后分析出该课程是否尚存空位,若可选,则对用户作出通报,或者直接把课程选上,从而实现完全自动化选课。主要是通过使用Borland C++Builder 6 内带的控件TNMHTTP和TCppWebBrowser,配合WinAPI函数和一些常用
Stringindexof
- 有时候我们拿到一个HTML文本的时候我们并不在意它的格式,而只是想提取其中包含的文本信息。例如说为了在手机上显示一个超文本,如果直接显示的话那肯定会收到一大堆的错误,很多手机根本没有能力显示HTML信息,因此我们需要把存在于HTML中的文本提取出来并使用WML来重新组合以便手机可以正确的查看,这样做虽然丢失了格式,但是毕竟这种情况下更关心的是数据。下面给出一段程序完成这个功能,很简单!-Sometimes we get an HTML version of the time we do not
html_2_text
- 提供以下功能:HTML->TXT转换、文件合并、TXT文件段落合并、TXT文件分行、编码(GB/GBK/Big5/Shift-JIS/Unicode)转换(只能用于Win 2k/XP)、文本替换、HTML代码整理、文件切分、文本提取、正则表达式、TCR批量压缩/解压,用于整理从Internet上下载的小说。软件原名FineReader,后更名为TextForever。
Pcap
- 对wincap及类似程序所保存的网络抓包程序(尤其针对Ethereal软件)做简单的读取处理,并以纯文本格式提取流和其他组信息。-Get the packet information from typical .pcap files saved from wincap, Ethereal or Wireshark.
knn
- knn分类器,能进行包括从网页下载、提取网页文本、文本分词、构建vsm、到knn分类的所有功能。开发语言为C++。-The knn classifier can download, extract from the web page text, the text word build vsm, knn classification.
Untitled-1
- 通过python写的网络爬虫 提取出网页的文本内容
perl_capture_package
- Perl使用网络抓包数据分析 1、系统提取数据中所有http的get和post数据包 2、需要对数据包内容已文本形式到处,用于后续分析 -Perl uses a network capture data analysis, the system extracts data for all http get and post data packet 2, the need for packet contents have been everywhere in text form
Untitled-1
- 通过python写的网络爬虫 提取出网页的文本内容
SimpleWebClass-V1.1
- 可以发生Post Get 可以提取html中的文本字符-Can occur Post Get to extract html text characters
SearchEngine
- dySE 是个开源的 Java 小型搜索引擎。该搜索引擎分为三个模块:爬虫模块、预处理模块和搜索模块。其中详细阐述了: 多线程页面爬取、正文内容提取、文本提取、分词、索引建立、快照等功能的实现。-dySE is an open source Java small search engines. The search engine is divided into three modules: crawler module, pretreatment module and search module
PhpGuest2002
- 系统是基于文本存储数据,系统登录采用了Cookie管理,网页的显示采用模板化管理,多用户留言管理系统,真实 IP 提取,使用代理也逃不出手心 :) 但这个功能对一些代理服务器没用,悄悄话功能(只有版主才可以看到),oicq 在线是否显示,可以设定注册是否开启,增加全文搜索功能,可以使用关键字对数据库全文进行搜索, 加入了图片自动缩进,对齐功能,自动URL分析-System is a text-based data storage, system login using the Cookie Ma
7287phpguest
- 文本存储数据,系统登录采用了Cookie管理,网页的显示采用模板化管理,多用户留言管理系统,真实 IP 提取,使用代理也逃不出手心 :) 但这个功能对一些代理服务器没用,悄悄话功能(只有版主才可以看到),oicq 在线是否显示,可以设定注册是否开启,增加全文搜索功能,可以使用关键字对数据库全文进行搜索,加入了图片自动缩进,对齐功能,自动URL分析 加入了类论坛树型显示-Text data storage, system login using the Cookie Manager, disp
libs
- 多年积累开发的Perl日常脚本操作库,主要用于字符串提取,文本操作,数据实验自动化。lib中各文件皆有注释。-Perl based text and data operation facility functions. Documentations are done in lib files.
ebookSpyder
- 小说类爬虫的集合,这类网页的特征是需要提取的文本特别多, 特别是中文,解析却相对简单,涉及的js较少 **思路**:爬目录页,解析各章节链接,爬各章节,解析,保存到txt里 大部分的小说当然不是自己看啦,主要拿来练习爬虫和做文本分析用(Novel collection of reptiles, the characteristics of such pages is the need to extract the text in particular, Especially in Chi