搜索资源列表
aspseek
- ASPSeek是一个C++编写的互联网搜索引擎,并使用了STL库。它主要包括一个检索机器人,一个搜索守护程序,和一个搜索前端(CGI或者是Apache模块)。它大概可以检索几百万个URLs,来查找给定的短语和单词,并使用通配符,进行布尔搜索。搜索结果可以限定在给定的时间或站点,站点空间,并按照相关性或者时间进行排序(这里面使用了一些非常酷的技术)。ASPSeek可以应用于很多语言和编码中(甚至包括多字节语言如中文)。它为多个站点做了优化。(多线程检索,同步DNS查询, 按站点将结果分组, Web
SearchEngineCore
- 搜索引挚内核 SearchKernel.ocx控件被加载过10万个以上不同地址,通过了稳定性测试. 在VC, VB, Office, Web页上分别测试通过. SeKel.h是控件的接口说明. test目录中是控制的调用源代码. 控件内置多线程下载. 内置html完全解释.(解释了90%左右html脚本, 容错控制采用仿ie的技术) 内置javascrip有限解释.(解释了基本循环, 字符操作运算和整型运算) 内置正文分析的分解.(只仅中文简体)
search_engine
- 搜索引擎 控件内置多线程下载. 内置html完全解释.(解释了90%左右html脚本, 容错控制采用仿ie的技术) 内置javascrip有限解释.(解释了基本循环, 字符操作运算和整型运算) 内置正文分析的分解.(只仅中文简体) 后三项可以关掉, 采用第三方技术.
multhread
- vc++多线程技术实现的文件搜索工具,仅供参考,版权他人所有-vc++ multi-threading technology file search tool
spider
- 网络蜘蛛,用于搜索引擎在网上自动搜集网页。 是一个用抢先式多线程技术实现在网上用网络蜘蛛/机器人聚集信息的程序-Web spider, web search engine for automatic collection of Web pages.
multi-threaded
- 基于Java的多线程网络爬虫设计与实现,应用的是JAVA技术,制作网络爬虫-Java-based multi-threaded Web crawler design and implementation, the application is JAVA technology, production of web crawlers
01
- 本文在本课题 组开发基于内容图像搜索引擎系统V1.0研究基础上,引入多线程技术,提出多线程Web 图像搜索器的磁盘I/O缓冲方法。在深入分析和比较几种常见的搜索策略基础上,探索 出适合于多线程Web图像搜索器的新搜索策略。最后开发了多线程Web图像搜索器子 系统,完成与图像检索子系统的融合,构建出基于内容的图像搜索引擎系统V2.0。 -Using content-based image retrieval technology on internet for searchin
用Python写网络爬虫
- 本书讲解了如何使用P川lOil来编写网络爬虫程序, 内容包括网络爬虫简 介, 从页面中抓取数据的三种方法, 提取缓存中的数据, 使用多个线程和进 程来进行并发抓取, 如何抓取动态页面中的内容, 与表单进行交互, 处理页 面中的验证码问题, 以及使用 Scarpy和Portia 来进行数据抓取, 并在最后使 用本书介绍的数据抓取技术对几个真实的网站进行了抓取, 旨在帮助读者活 学活用书中介绍的技术。 本书适合有一定Python 编程经验, 而且对爬虫技术感兴趣的读者阅读。(This book ex