搜索资源列表
一种新的基于统计的自动文本分类方法
- 一种新的基于统计的自动文本分类方法-based on a new statistical method of automatic text classification
43554TheResearchandDesignofSearchEngine
- 搜索引擎的研究与设计.rar The Research and Design of Search Engine 吉 林 大 学 硕 士 学 位 论 文 搜索引擎(Search Engine)是一个对互联网上的信息资源进行搜集整理, 然后供用户查询的系统,它包括信息搜集、信息整理和用户查询三部分,以目 录分类或全文检索的方式来提供查询服务。本文提出了一种简化的向量空间检 索模型,通过统计主题词条对文档的贡献度来建立倒排序索引库,为用户提供 智能的检索服务。-search
SogouW.20061127
- 互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。 语料库统计的意义:反映了互联网中文语言环境中的词频、词性情况。 应用案例:中文词性标注、词频分析等。 词性分类: N 名词 V 动词 ADJ 形容词 ADV 副词 CLAS 量词 ECHO 拟声词
Multiplycounter
- 可以记录来访客的来源IP地址和来源页面信息,在线人数,每月、每天和每小时的访问数据统计,搜索引擎统计,还可以自己定义搜索引擎-record visitors to the source IP address and source of pages of information, the number of online per month, daily and hourly visit statistical data, the search engine statistics, but als
bookMing.tar
- BookMng书签程序源代码 书签转换程序,基于浏览器,可进行地址统计,内建搜索引擎,强大的自定义功能,支持组区分,个人密码设定,类别排序 -BookMng Bookmark Bookmark source code conversion program, based on the browser, which can carry out address statistics, Built-in search engine, a powerful custom functions, suppor
KeyWordSCount
- 曾经有人问:在程序中输入关键字,能找出百度或谷歌中搜索的页面总数,并且统计该关键字社会关心程.这些VC源代码就实现了这些功能.代码注释详尽.
xiangliangmoxing
- 实现中文分词的向量模型统计,是实现搜索引擎的一项基本技术
OurplusCounter105
- 采用PHP+Mysql开发的网站流量统计分析系统 详细记录24小时内的每次访问 准确记录24小时内的IP访问数量以及流量次数 统计所有来路 统计搜索引擎来路 统计搜索引擎来路的搜索关键字 统计来访者中Alexa工具条安装数量 统计来访着地区,以及电脑各种参数设置
Ourplus_Counter_1.05
- 功能介绍 Ourplus统计将是最强大的PHP网站流量统计分析系统 采用PHP+Mysql开发的网站流量统计分析系统 详细记录24小时内的每次访问 准确记录24小时内的IP访问数量以及流量次数 统计所有来路 统计搜索引擎来路 统计搜索引擎来路的搜索关键字 统计来访者中Alexa工具条安装数量 统计来访着地区,以及电脑各种参数设置
mov
- 1、改善网页界面,加速网页读取熟读 2、增加了几款模版样式。 3、增加了明星专辑搜索。 4、增加了电影页面评论功能。(评论系统请仔细看说明) 5、增加后台首页公告功能。 6、修改友情链接跟统计代码的生成方法,增加了图片友情链接功能 7、修正V2.X所有的错误。
renew
- 文件扩展名更改程序的功能:在命令行中输入renew dir old new,应用程序的名字为renew.exe,后面的dir,old和new是三个命令行参数,dir代表一个全路径名,old和new代表文件扩展名,在路径为dir中搜索所有扩展名为old的文件,如果找到将扩展名改为new而文件名不变。在读入参数的过程中检验路径是否合法,若不合法则输出提示并退出,如果用户输入的参数不符合要求也输出提示并且退出程序;在修改文件扩展的过程中如果遇到重名的文件,提示用户是否覆盖,若选择覆盖则删除原文件,更改
SogouT.mini.tar
- 百度搜索引擎具有响应速度快、查找结果准确全面、时效性强、无效链接少、符合中文语言特点和中国人使用习惯等优点。 1...这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定- IHTMLDocument3* pHTMLDoc3 HRESULT hr = m_pHTMLDocument2->QueryInterface(IID_IHTMLDocument3, (LPVOID*)&pHTMLDoc3)
split
- 简单分割单词,输入后可以一个单词一个单词统计-Simple split words, you can enter a word after a word statistics
WANNENGSOUSHOU
- 万能超级搜索引擎V8.0(赚钱版)绝对是目前全国功能最优秀的超级搜索引擎,可跟任何同类程序比较。 经数据统计,全国已超过20000个网站和超过3000家网吧正在使用本程序 而且有部分网站和网吧的站长已经达到日收入过千了 google已经成为全球最大的网站,百度已成为中国最大的网站,两者都是搜索引擎,已经证明搜索引擎已经成为每位网民日常必须的网站了,但因为百度和google已经垄断了全球大部分用户了,就算您有财力去做一个和百度一样的搜索引擎出来,也没有办法从百度手上抢到用户,要从百度手
ProgrammingPCollectivePIntelligence
- 本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过
SearchCount
- 使用java实现的对与搜索引擎搜索结果的统计。包括jxl、搜索、爬虫等多种功能。-Using java implementation of the search engine results and statistics. Including jxl, search, reptiles and other functions.
spider2006
- 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。 -C# spider.
crimble
- 用户可以每日统计蜘蛛爬行记录,可以对搜索引擎的访问记录进行日志查询-Users can record the daily statistics spider
wordbag
- 根据一个人物名单文件,查找wekipedia上相应网页,读取网页文本,并统计每个人物在每个网页上出现的次数,最终形成word bag,人物500人,运行时间6分钟左右。-from a namelist making a word bag
zhizhu_v1.0
- 扎鸟搜索引擎蜘蛛爬行统计系统。搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,360,雅虎,Bing,有道,Alexa,搜索引擎蜘蛛,能准确抓取并记录。-Tie bird search engine spiders crawl the statistical system. The track record of the search engine spiders Baidu, Google, Soso, Sogou, 360, Yahoo, Bing, the proper way,