搜索资源列表
jspider-0.5.0-dev
- 一个由java实现的搜索引擎代码。实现对网页内容的分析和采集功能-a realization by the search engine code. Achieving the right Web content collection and analysis functions
基于Web链接挖掘和内容相关性分析的智能检索
- 一个基于Web 链接挖掘和内容相关性分析的智能信息检索系统-links to a Web-based mining and content analysis of the Intelligent Information Retrieval System
tmdGOOGLE
- 深度解析GOOGLE之实用篇!!! 深度解析GOOGLE之实用篇!!1-depth analysis of pragmatic chapter! ! ! Google depth analysis of pragmatic chapter! ! 1
clucene-0.8.13-src
- CLucene 搜索引擎的C++版本.对其分析有助于了解搜索引擎设计的内幕-CLucene search engine C version. Their analysis helps to understand the search engine design Insider
PageParser
- 对网页进行解析的两个源码,结构代码比较清晰,容易上手.-pages of the two-source analysis, structural code clearer and easier to get started.
websearch14566
- HTML页面分析利器,可定制所需求的信息,通过直搜客理有的放矢获得海量的网络信息。-HTML pages analysis weapon, which can be customized to the needs of information, Direct Search through targeted customer Jimmy was a flood of Internet information.
CSahrpLuceneClient
- Highlighter.cs 高亮显主处理类 HighlighterAnalyzer.cs 高亮显字符分析处理 HighlightFilter.cs 高亮显过滤 MainForm.cs 窗体主类 MainForm.resx 窗体资源 Search.cs Lucene 搜索类-Highlighter.cs highlighted significant main class HighlighterAnal yzer.cs highlighted significant char
SearchEngineParser
- 搜索引擎分析器,对搜索引擎进行分析的一个软件-search engine analyzers, the search engine for the analysis of a software
SogouW.20061127
- 互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。 语料库统计的意义:反映了互联网中文语言环境中的词频、词性情况。 应用案例:中文词性标注、词频分析等。 词性分类: N 名词 V 动词 ADJ 形容词 ADV 副词 CLAS 量词 ECHO 拟声词
sousyinqing
- 搜索引擎技术的研究论文,本文阐述了搜索引擎的基本原理,着重分析了中文分词的设计与实现。-search engine technology research papers, the paper deals with the search engine's basic principles focused on analysis of the Chinese word Design and Implementation.
NetCrawler
- :把网络爬虫爬取的网页加以分析,去除网页中的控制命令和格式,只保留内容-: Reptile climb the network's website for analysis by removing the website of control commands and format, retaining only content
Nekohtml_0.9.5(Java)
- 网页分析的源代码,用java编写!对于开发搜索引擎有一定的帮助。-website analysis of the source code, prepared with java! For the development of search engines is certainly helpful.
htmlparser
- Csharp编写网页分析源代码!对于做搜索引擎有一定的帮助。-Csharp prepared analysis website source code! Search engines for so helpful to a certain extent.
paoding-analysis-2.0.4-alpha2
- 一款基于java的分词软件,用来把中文文章分成有意义的单词。
je-analysis-1.5.3
- java lucene 开源全文检索,中文分词组件之 je-analysis-1.5.3
Webloup
- WebLoupe is a java-based tool for analysis, interactive visualization (sitemap), and exploration of the information architecture and specific properties of local or publicly accessible websites. Based on web spider (or web crawler) technology. 开源搜索爬
开放源代码的全文检索引擎Lucene .NET
- 开放源代码的全文检索引擎Lucene .NET Lucene是apache软件基金会[4] jakarta项目组的一个子项目,是一个开放源代码[5]的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。,open source Lucene tex
ContentAnalyzer
- 搜索引擎正文提取程序,通过html分析和正则,去掉html代码,保留网页正文,只针对中文有效。英文稍加修改即可使用。-The body of the search engine extraction process, through analysis and regular html remove html code to retain the page text, only effective against the Chinese. Slightly modified to use Engl
Analysis-Based-on-Multi-Agent-Search
- 为解决传统搜索引擎个性化的局限性问题,在研究用户感兴趣搜索引擎现状基础上,通过多Agent较全面记录、分析用户搜索的行为,提出了一种新的综合用户搜索行为,构建用户感兴趣搜索引擎研究框架—— 基于多Agent搜索行为分析的用户兴趣模型。研究结果表明,依据用户搜索行为构建用户兴趣模型,使搜索引擎返回结果更贴近用户需求。满足用户个性化服务,提高了信息搜索的查全率和查准率。-In order to solve the limitations of search engine personalizat
nutch-analysis
- 开源搜索引擎nutch的爬虫部分分析。包括Nutch数据集的基本组成和流程。-Open source search engine nutch reptiles part analysis. Nutch data set includes the basic components and processes.