社会网络与Web分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《社会网络与Web分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 社会 网络 Web 分析 课件
- 资源描述:
-
1、社会网络与Web分析(social network analysis)Mining the Web(第七章)1社会网络(social network)任何一种用于建立个体之间联系的自然现象、社会活动或技术机制都可能形成一张网“朋友关系”(对称,无向图)“知晓关系”(不对称,有向图)“文献引用关系”(不对称,有向图)co-author关系(对称,无向图,成块“clique”)通电话,通信 病毒传染(生物、计算机)网页链接关系(不对称,有向图)还可以考虑不同的“尺度”:网站之间,城市之间,省份之间,国家之间,2研究这些“关系图”有什么意义?一阶指标(“入度”)知晓关系:社会知名度引用关系:认可程度
2、“高阶指标”和一个著名人物“共同发表”论文的“距离”:越短似乎显得越“有荣誉”(例如,Erdos number,http:/www.oakland.edu/enp)仅仅是“结构”就可以带来丰富的“语义”例如省份之间的链接数差别可能有有意义的解释3知名度,声望,重要性,reputation,prestige,importance,完全靠“入度”来评价可能显得比较粗燥(即这种评价模型不一定很准)认识甲的人可能和认识乙的人一样多,但认识乙的人都是些“重要人物”,于是通常应该认为乙比甲重要不仅是人,论文也是一样,被重要的文章引用的文章可能就比较重要些例子:按照入度,节点1,3同样重要;2,4同样重要。
3、但我们似乎感到3比1重要些,2比4重要些。如何用一个模型来刻画这种感觉,使算出来的如何用一个模型来刻画这种感觉,使算出来的“重要性重要性”反映这种感反映这种感觉?觉?4在Web之前就有社会网络分析学术领域 文献计量学(bibliometry)研究文献的贡献程度哪些文章是“有影响的”文章?研究文献的聚类,从而可能得到一个领域发展的状况co-citation分析,如果a引用了b和c,称b和c有co-citation关系 流行传染病学,侦察、谍报学发现那些关键节点,删除它们使得其他节点之间的距离显著扩大 模型、指标体系的“合适性”取决于应用目标5图论、线性代数若干概念回顾 图,有向图,邻接矩阵,两节
4、点间的距离(d),节点的半径(r),图的中心(c),图的连通,有向图的强连通,连通分支d(u,v):从u到v的最短路径的长度r(u):最大的距离c(G):具有最短半径的节点 矩阵(A),矩阵的转置(AT),行列式(|A|),特征值,特征向量,线性相关性0)(,xAIxAx6应用举例:Co-citation分析 给定一个文献的集合,希望表达这些文献两两被同时(同一篇文章)引用的情况coci,j越大,表示这两篇文章的相关性越强 形成文章之间的邻接矩阵E,使得Ei,j=1,当且仅当文章i引用了j;否则Ei,j=0。这意味着,E的第i列反映文章i被引用的情况;同时引用文章i和文章j的文章数量等于E*,
5、i和E*,j在相同的行出现1的个数。考虑到E元素的0,1特性,即coci,j=Ek,iEk,j,k=1,2,n或者coc=ETE7关于声望模型 给定一个群体S,及其在上面的一个“知晓”关系R,于是定义了一个有向“关系图”G。用邻接矩阵E表示,E(i,j)=1,当且仅当i“听说过”j(注意这里没有程度之分)。我们希望确定p(i):所有个体iS的“声望”模型一:p(i)=Ek,i,k=1,n,即i在G上的“入度”,亦即E的第i列的1的个数清楚、好计算;但是“不够好”模型二:p(i)=Ek,ip(k),k=1,n,即i的声望等于知晓他的人的声望之和清楚、显得要更“精确些”;但是,好计算吗?8声望模型
6、二(续)对于所有i,p(i)=Ek,ip(k),k=1,n 也就是,记p=(p(1),p(2),p(n)T,p=ETp 问题是:这个方程存在解吗?如果存在,如何得到?如果不存在,该怎么办?一般来讲:这个方程的非0解是不存在的!9p=ETp 的不存在例 S=1,2,3,R=,E=(0,1,1),(0,0,1),(0,0,0)ET=(0,0,0),(1,0,0),(1,1,0)不难看到:方程的成立p(1)=0p(2)=0p(3)=0一般来讲,p=ETp,意味着要求ET有特征值1,这是很难得的。10先前那4个点的例子也无解 p p=ETp p (I I ET)p p=0 0 线性代数讲,此方程组有非
7、0解,仅当行列式|I ET|=0 但我们算得|I ET|=-211即使有解,还有可能不唯一!S=1,2,3,R=,不难看出任何 p(1)=p(2)=p(3)都是解怎么办?12修改模型 模型三:让i的声望等于知晓他的人的声望之和乘以一个常数(对所有i相同)p(i)=cEk,ip(k),k=1,n 与模型二的关系效果上感觉应该差不多,因为是“共同的常数”,而对我们有意义的只是“相对声望”但并不完全等价!还是要问:非0解存在吗?如果存在,如何计算?p=c*ETp13解的存在性 这就是特征值、特征向量的定义方程注意到c只需要在一个系统中保持常量,不同的系统是可以不一样的,1/c就是ET的特征值,可以随
8、p同时求出来 但这问题就来了!ET最多可能有n个不同的特征值如果是有多个不同的特征值,取那一个为好?不同的特征值对应有不同的特征向量,我们没有理由认为这不同的特征向量反映出来的节点声望序是一致的即使是同一个特征值,对应的特征子空间中也可能有多个向量(我们也没理由认为它们反映出来的节点声望序是一致的),应该取哪一个?还有,特征值、特征向量不是实数怎么办?p=c*ETp14The Perron-Frobenius Theorem 如果有向图G是强连通的,则它的邻接矩阵A有一个唯一的元素全为正实数的特征向量v,且该特征向量属于模最大的特征值。注:这个特征向量的唯一性成立在忽略常数因子前提下由于A是非
展开阅读全文