搜索资源列表
ful2hlf
- 将文本中的全角转变为半角,供后续使用。主要可以用于对网页内容的预处理。-text of the entire half-angle of the angle changes for the use of follow-up. The main website can be used as pretreatment.
SaveDoc
- 网页文档资料整理程序,便于日后用chm软件合并整理,优化了很多格式-website Documentation finishing process to facilitate future use chm software consolidate, and optimize many formats
txt2img
- 在制作网页时,将文本段自动变化成图片的工具。在php的基础功能基础上笔记实现了自动换行,高度自动设置,右标点不放在行首等功能,特别对汉字做了优化处理。 该文件使用unicode编码,如果用其他编码,其中汉字需要修改。 请参见: http://arl.mae.cuhk.edu.hk/-the production of the website, will automatically change the text of the pictures into a tool. P
4016
- 主要功能: 1. 多浏览器兼容,能够很好得兼容Mozilla,IE等浏览器 2. 功能强大的文章编辑器,同时兼容两种编辑方式,在线编辑器采用FckEditor. 3. PJBlog2采用的UBB编辑器由Blog作者独立开发,支持自定义面板和CSS,自带HTML转换UBB代码功能 4. 自定义模块,可以自己修改页面上的的布局,让不懂制作网页的用户也能自己增加和修改页面上的版块 5. Skin功能,随时可以给自己的Blog换上新的CSS样式界面 6. 自定义分类,可以
parse
- 本代码是用C#结合正则表达式处理字符串的源码,针对网页特殊html的源代码的替换,过滤,查找等强大功能.
HTMLtoTXT
- 将HTML网页格式中的正文提取出来 主要是小说网上下载的打包小说
webcollector2
- 本程序是专门用于从网页上自动收集cmi,cnki上的被引文献的数据,保存在本地的access数据库中。
lindatanetwork1.rar
- 主要是数据挖掘中的文本挖掘算法及其分析,其中包括层次聚类,空间向量模型等,处理对象有对于网页的也有针对纯文本的。,Mainly in data mining and analysis of text mining algorithms, including hierarchical clustering, vector space model to deal with subjects of the pages are for plain text.
chinese-text
- 文本分类语料库,经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档-Text classification corpus, edited manually compiled and classification of news corpus and the corresponding classification information. Their classification system includes dozens of classi
translation
- 调用GOOGLE网页翻译功能,截取网页源码。-GOOGLE page translation function call, interception of the page source.
spider
- 本系统为简易网络爬虫,输入初始url,系统自动在网上搜索网页信息,并记录下来做为搜索引擎的数据.-The system for the Simple Network reptiles, enter the initial url, system automatically searches the Web page information, and record data as a search engine.
doSearch
- 改写的小爬虫,希望大家多提意见,怎样使它下载的网页解析得更好-Rewrite small reptiles, I hope everybody do so, how to download web pages to make it a better analysis
spider
- 针对音乐论坛的爬虫程序 给出地址匹配特征,精确爬取用户需要的网页-Music forum for reptiles given address matches the characteristics of the procedure, precise climb pages users need to check
content_abstract
- 针对高校教师的个人网页的源文件进行的正文提取,也可应用于一般的网页的正文提取。-Colleges and universities for their personal web page of the source file to extract the body, but also can be applied to the general body of the page extraction.
SogouW.tar
- sougou在2006年统计的互联网词库,据说统计量有一亿网页。-sougou
UTF-8andGB2312
- 这是一种网页编码转换的方法。很实用的,希望大家工同学习。-This is a web transcoding methods. Very practical, and hope that we work with the study.
gekhtml
- 基于ekhtml,自动提取网页正文,将提取出来的title,author,正文text, 文章发布的时间存入mysql数据库.-Based on ekhtml, Automatic extraction of web page text, will be extracted out of the title, author, body text, the article published time into mysql database.
ROSTDM
- 网页文本抓取,通过设置XML可以批量抓取任意网站的任意数据-Web text crawl, crawl any website any data volume by setting XML