资源列表
WPCrawler
- 网络爬虫,也叫网络蜘蛛,有的项目也把它称作“walker”。维基百科所给的定义是“一种系统地扫描互联网,以获取索引为目的的网络程序”。网络上有很多关于网络爬虫的开源项目,其中比较有名的是Heritrix和Apache Nutch。 有时需要在网上搜集信息,如果需要搜集的是获取方法单一而人工搜集费时费力的信息,比如统计一个网站每个月发了多少篇文章、用了哪些标签,为自然语言处理项目搜集语料,或者为模式识别项目搜集图片等等,就需要爬虫程序来完成这样的任务。而且搜索引擎必不可少的组件之一也
clucene-core-0.9.15
- 一个搜索引擎的基本代码,其算法有一定的参考价值,与大家共享 - A search engine basic code, its algorithm has the certain reference value, shares with everybody ,Visual C++,搜索引擎/Search Engine -a search engine's basic code, the algorithm has some reference value. and share - A s
IE
- 搜索引擎代码,主要应用于搜索引擎的初级开发者,具有一定的实用价值-Search engine code, search engines are mainly used in the primary developer, has some practical value! !
spider1_2
- 一个简单的搜索引擎爬虫系统,可以通过简单的配置架设一个爬虫集群
GetWebSource
- 检测网页中的连接,并获取其所在的语句,有利于网页内容检索,是网络爬虫的一部分-Detection of the page to connect, and access to their statements, in favor of Web content retrieval, is part of network of reptiles
SearchEngine
- 1.这是一个简单的采用了Lucene的搜索引擎,本例子采用lucene+struts+ibatis的框架进行开发,使用的数据库是Oracle,搜索源是jpetstore的product表,大家在使用的时候请根据实际情况修改database.properties文件的配置。 2.本例子支持中文搜索,相关的源码包在cnSolution目录。
clucene-core-0.9.13
- 一个搜索引擎的基本代码,其算法有一定的参考价值,与大家共享 - A search engine basic code, its algorithm has the certain reference value, shares with everybody ,Visual C++,搜索引擎/Search Engine -a search engine's basic code, the algorithm has some reference value. and share - A s
JBother-MacOSX
- 空件菜单添加授权源码,文件传输代码,搜索引擎源码,文件传输代码。
Spider
- 采用c#写的SPider源代码,可用来做定向采集或蜘蛛.有问题可联系fancy_blue@163.com,欢迎交流
google-blog-CodePub.tar
- Google “解放数据”(Data Liberation)团队今天正式发布 Google Blog Converters 1.0,该开源工具可以让你在不同博客服务之间自由转移文章和评论数据。第一个版本提供了 Python 程序库及相关可执行脚本,用于相互转换 Blogger、LiveJournal、MovableType 和 WordPress 导出的各种数据文件格式。-Google " the liberation of Data" (Data Liberation) te
craw
- It is used to search the website. It acts as a search engine.
liechechaxun
- 啊彬列车查询系统 v2.0查询列车运行时刻以 及车次信息.-Train Inquiry System v2.0 inquiries trains run time information and vehicle trips.