搜索资源列表
K-means
- 经典的K-means对非链接主题无关网页关键资源页面判定-Classical K-means to link the theme of non-critical resources not related to the page to determine page
TraversingGraph
- 数据结构中的图的遍历问题。 设计一个网络蜘蛛系统,用有向网表示网页的链接网络,其中,顶点表示某个网页,有向弧表示网络之间的链接关系。并且分别以a. 深度优先搜索,b. 广度优先搜索的策略抓取网页。-The graph data structure traversal problem. Design a web spider system, with a link to the web page that network, where vertices a page, there is the
HMM(matlab)
- MATLAB的hmm工具箱,可以计算连续HMM和离散HMM。里面有使用说明的网页链接,直接点击一下(Download HMMtoolbox)就可以了,很简单。-Hmm toolbox of MATLAB, you can calculate the continuous the HMM and discrete HMM. There are instructions for use of the web links, directly click the (Download HMMtoolbox
ThemeCrawler
- 现在常见的搜索策略主要分为两种:一种是基于网页链接结构的搜索策略,另一种是基于内容评价的搜索策略。第一种是通过网页之间的链接关系来确定网页的重要性,从而决定链接访问的顺序。此方法虽然考虑了网页链接结构和网页之间的链接关系,但忽略了网页内容与主题的相关度,容易出现网页搜索“主题漂移”。第二种主要考虑网页内容,好处就是思路清晰且计算简单。但这种方法忽略了网页的链接关系,故在预测链接网页价值方面存在不足。考虑到这些问题,提出将布谷鸟搜索算法应用到主题爬虫中。-Now the common search
pachongtest2
- 运用python爬取知乎日报的内容,对知乎日报网页中的每一个子链接进行爬取,并对内容进行修改,运用re,urllib2,BeautifulSoup模块。-Use python to crawl the contents of daily news, to know every page in the daily sub-links to crawl, and to modify the content, the use of re, urllib2, BeautifulSoup module.
crawler1
- 网络爬虫,抓取链接,提取网页文本,链接队列中不会出现样式和特效链接-crawler that can catch links in web pages