搜索资源列表
clucene_src_for_chinese
- 汉化CLucene今天,把CLucene的程序改了一下,可以支持汉字了。1.在vc 6编译 2.还不支持分词,但支持汉字,要索引的文本词与词之间用空格隔开。3.只是匆匆改了一下,见demo/IndexFiles.cpp,有问题可以与我联系。有空时改完善些。 -finished CLucene today, CLucene procedures changed a bit in support of the Chinese characters. 1. In vc 6 2 comp
rj588_tongyicjuniveralgatsy
- 统一搜集系统 Univeral Gather System(UGS) 是针对搜集程序设计的一套PHP类 ,使用方便 运行于各种Unix系统 linux系统和Win2000/XP/2003 系统中 类内函数 steal 用于搜集页面文字 cut/cutpro 用于剪切文字 filt/filtx用于过滤文字 change用于改变文字 getenterkey用于获得关键位置的链接Array _striplinks和_striptext 用于产生锚点的Array和文字-unified collectio
Crawler
- 该源码是用python写的一个简单的网络爬虫,用来爬取百度百科上面的人物的网页,并能够提取出网页中的人物的照片-The source code is written in a simple python web crawler, Baidu Encyclopedia is used to crawl the page above figures, and be able to extract the characters in the picture page
search_for_substring
- 此程序用于搜索从ES:1000开始的长度为100H的区域,是否存在给定的子字符串,其中,子字符串存放在以DS:1100开始的区域中,分别用DI,SI,指向它们。如果搜索到,在DS:1111处填写44(“是”的谐音),找不到,则填写55(“无”的谐音)。在本程序中,DS与ES相同。在本程序中,我们假设要搜索的子字符串的长度为3,字符可以自行设定。当然,可以改变BX来改变搜索的子字符串的长度-This program used to search from ES: 1000 100H length
domainSpider
- 自己用java写的一个域名扫描程序,扫描网络上未被注册的域名。可以在配置文件里配置字符组成、长度范围、域名机构名。扫描结果存放mysql数据库里同时输出log文件,建库语句压缩包里有。-Own a domain name written in java scanner scans the network is not registered on the domain name. Configuration characters in the configuration file, the len