大数据十大经典算法PageRank-讲解课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据十大经典算法PageRank-讲解课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 经典 算法 PageRank 讲解 课件
- 资源描述:
-
1、PageRank算法算法一小组:王高翔,李渠,刘晴,柳永康,刘昊骋二小组: 王飞,李天照,赵俊杰,陈超,陈瑾翊基本PageRank面向主题PageRankLink Spam与反作弊导航页与权威页一一.Pagerank定义及终点,自连接点的概念定义及终点,自连接点的概念早期搜索引擎的弊端Pagerank的定义终止点自连接点Page 21.早期搜索引擎的弊端早期搜索引擎的弊端早期很多搜索引擎根本不评价结果重要性,而是直接按照某自然顺序(例如时间顺序或编号顺序)返回结果。一旦结果集变大,简直就是一场灾难,这也注定这种方法不可能用于现代的通用搜索引擎基于检索词评价的思想非常朴素:检索关键词出现次数越多
2、的页面匹配度越高,而匹配度越高的页面重要性越高作弊者可在他网页上增加一个词项,并将该词项重复千百次,搜索引擎可能以为该网页与检索关键词高度相关而把该网页放在搜索结果的前列Page 3 Pagerank思想: “被越多优质的网页所指的网页,它是优质的概率就越大”2.Pagerank的定义的定义Page 4 Pagerank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于,网页的Pagerank越高,那么它就越“重要”。 首先,我们将Web做如下抽象:1、将每个网页抽象成一个节点;2、如果一个页面A有链接直接链向B,则存在一条有向边从A到B。因此,整个Web被抽象为一张有向图。2.P
3、agerank的定义的定义Page 5一个N维矩阵,其中i行j列的值表示用户从页面j转到页面i的概率。这样一个矩阵叫做转移矩阵、对应的转移矩阵如左图Page 6设初始时每个页面的rank值为1/N,这里就是1/4。按A-D顺序将页面rank为向量v:第一步之后,冲浪者的概率分布为Mv; 第二步之后,冲浪者的概率分布为Mv; 第i步之后,依次类推,可得冲浪者经过i步之后的位置概率分布向量为Miv。 我们可以从初向量v出发,不断左乘矩阵M, 直到前后两轮迭代产生的结果向量差异很小时停止,从而得到M的主特征向量。 实际上,对于Web本身而言,迭代50-75次已经足够收敛。 Page 73.终止点终止
4、点一个没有出链的网页称为终止点。这里D页面不存在外链,是一个终止点。由矩阵论的知识可推知,迭代结果将最终归零。那么该如何处理终止点呢?迭代拿掉图中的终止点及终止点相关的边(之所以迭代拿掉是因为当目前的终止点被拿掉后,可能会出现一批新的终止点),直到图中没有终止点。对剩下部分计算rank,然后以拿掉终止点逆向顺序反推终止点的rank值。Page 84.自连接点自连接点如下图,D有外链所以不是终止点,但是它只链向自己(注意链向自己也算外链,当然同时也是个内链)。这种节点叫做自连接点,如果对这个图进行计算,会发现D的rank越来越大趋近于1,而其它节点rank值几乎归零。Page 9单击添加击添加为
5、了克服这种问题,需要对PageRank计算方法进行一个平滑处理,具体做法是加入“跳转因子(teleporting)”。所谓跳转因子,就是我们认为在任何一个页面浏览的用户都有可能以一个极小的概率瞬间转移到另外一个随机页面。当然,这两个页面可能不存在超链接,因此不可能真的直接转移过去,跳转因子只是为了算法需要而强加的一种纯数学意义的概率数字。Page 10单击此处添加段落文字内容单击此处添加段落文字内容其中往往被设置为一个比较小的参数(0.2或更小),e为N维单位向量,加入e的原因是这个公式的前半部分是向量,因此必须将/N转为向量才能相加。这样,整个计算就变得平滑,因为每次迭代的结果除了依赖转移矩
6、阵外,还依赖一个小概率的心灵转移。如果按这个公式迭代算下去,会发现自连接点的问题解决了,从而每个页面都拥有一个合理的pagerank。Page 11单击此处添加段落文字内容单击此处添加段落文字内容分块式Pagerank算法:原来的算法存在的问题:原来的算法存在的问题:1.时间开销大。每次迭代就算时间开销为2.因特网中数据大部分是分布式的,计算过程需要多次传递数据,网络负担太大。3.n维矩阵式一个稀疏矩阵,无论计算还是存储都很浪费资源。能否考虑先算出局部的Pagerank值?Page 12单击此处添加段落文字内容单击此处添加段落文字内容分块式Pagerank算法:1.分数据块,计算每一个网络图G
7、i的的Local Pagerank。算法实现步骤:2.根据各数据块之间的相关性,计算缩略图p的Blockrank。3.将所得Local Pagerank和Blockrank按照一定原则进行计算,得到一个新的n维Pagerank. 4.将n维Pagerank多次迭代,得到最后收敛的pagerank向量。Page 13面向主题面向主题PageRank动机动机n 不同的人有不同的兴趣,而有时完全不同的兴趣却采用相同的查询词项来表达。如果搜索引擎能够推断出用户的兴趣,那么在返回相关页面的时候会表现得更好n 比如用户搜索苹果理想情况实际情况做法做法每个用户有一个私人的PageRank向量对每一个主题方向
8、建立偏向该主题的一个PageRank向量Open Directory(DMOZ)分16个顶层类别Page 15思路及公式思路及公式假定我们知道某些网页代表一个主题(体育),为了构建面向主题的PageRank,我们可以安排随机冲浪者只到达一个随机的体育类网页,而不是到达任意类别的一个网页。这种做法的后果是,随机冲浪者很可能停留在已知的体育类网页上,或者从这些已知的体育类网页上通过较短的路径就可到达的网页上。体育类网页链向的网页很可能与体育类相关,随着离已知体育类网页的距离的增加,这些网页离体育相关的概率也随之降低。假定S是一个网页的集合,其中的网页属于类别S(随机跳转集合)。es是一个向量,如果
9、其分量对应的网页属于S,则该分量置为1,否则为0。于是S的面向主题的PageRank的迭代公式如下:M 是Web的转移矩阵,|S|是集合S的大小Page 16例子例子n 假设 = 0.8 S=B,D.于是转移矩阵乘以得:那么(1 )eS/|S| 的第二和第四个分量是 1/10,其它分量为0.因为1 =1/5,S的大小为2,向量es中B和D对应的分量为1,A和C 对应分量为0Page 17n 迭代过程:初始VPage 18面向主题的面向主题的PageRank的使用的使用n 为了将面向主题的PageRank集成到搜索引擎中,我们必须1.确定哪些主题需要构建特定的PageRank2.对每个主题选择一
展开阅读全文