资源列表
仿谷姐源代码 v2.01
- 仿谷姐源代码 v2.01
天网抓取程序
- 北大天网搜索引擎的抓取程序
google与flickr两大图片搜索引擎
- google与flickr两大图片搜索引擎
游戏检索程序lunece
- 基于lunece,垂直搜索,java应用,能快速对游戏资源进行检索
本程序可以实现对已有网页的信息提取和分词
- 本程序可以实现对已有网页的信息提取和分词,结果会导入叫做res.txt的文件中。本程序是开发搜索引擎的前期工作。-This procedure can be achieved on existing Web information extraction and segmentation, the results into a file called res.txt. This program is the development of the preliminary work the searc
similarity.文本相似度计算余弦相似度代码
- 文本相似度计算余弦相似度代码,计算文本相似度,用于搜索引擎,Cosine similarity of text similarity computation code, the text of the similarity calculation for the search engine
Crawler.不错的网络爬虫源码
- 一个不错的网络爬虫源码,用vc++编写。,Reptile a good source of network
parker.rar
- 一个FTP搜索引擎,CGI界面、后台自动更新数据。运行在linux等标准Unix。,A FTP search engine, CGI interface, the background to automatically update data. Running on linux standard Unix.
开放源代码的全文检索引擎Lucene .NET
- 开放源代码的全文检索引擎Lucene .NET Lucene是apache软件基金会[4] jakarta项目组的一个子项目,是一个开放源代码[5]的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。,open source Lucene tex
heritrix.rar
- web 网络爬虫 用户可以使用它从网络上抓取想要得资源,开发者还可以扩展它的各个组件,来实现自己的抓取逻辑。,Reptile web network users can use it from the network you want to crawl resources, developers can also extend its various components, to achieve their own logic crawl.
inverted_index.rar
- 简单的文件倒排实现,搜索引擎实现的步骤之一。大量使用STL,实现简单容易理解。效率一般。,Simple realization of inverted files, search engines to achieve one of the steps. Extensive use of STL, the realization of simple and easy to understand. Efficiency in general.
clucene-core-0.9.21.rar
- 这个是用C++语言实现的lucence—搜索引擎,含有所有的源代码,This is C++ Language achieved lucence-search engine, contains all the source code