《商业智能：方法与应用》课件第4章数据挖掘.pptx

上传人（卖家）：momomo

文档编号：7673754

上传时间：2024-06-30

格式：PPTX

页数：57

大小：1.54MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《《商业智能：方法与应用》课件第4章数据挖掘.pptx》由用户（momomo）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 商业智能：方法与应用商业智能：方法与应用课件第4章数据挖掘商业智能方法应用课件数据挖掘

资源描述：: 1、4.1 数据挖掘概述4.2 分类4.3 聚类目录O N T E N T S数据挖掘概念与任务数据挖掘领域的经典算法分类的方法以决策树为例分类概述聚类分析概述聚类分析方法以K-Means算法为例4.4 关联分析关联分析概述关联分析算法以Apriori算法为例4.5 PageRank算法PageRank算法概述PageRank算法原理PageRank算法的应用4.1 数据挖掘概述数据挖掘概念与任务数据挖掘领域的经典算法数据挖掘概念与任务背景应用领域定义n 信息系统的广泛使用n 系统产生数据规模与复杂性的极速增长n 传统数据处理方式数据分析师充当数据与用户接口的产品已无法适应现代需要n 指通过特定
2、算法从大量的数据中揭示数据的模式特征或相互关系的过程，它是数据库知识发现（简称为KDD）过程的一个步骤。n 商业智能管理n 生产控制n 市场分析n 工程设计数据挖掘概念与任务01 回归使用一系列的现有数值确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，是一种预测性的建模技术。02 异常检测帮助识别不寻常的数据记录（离群点），这些不寻常的对象、事件或观测结果有可能是最值得特别关注的数据。03 分类根据已分类数据的特征建立模型对其他未经分类或是心得数据做预测的过程，是一种有监督的学习过程。04 聚类对数据记录分组，把相似的记录归集在一个簇（或类）中05 关联规则搜索变量之间的关系数据
3、挖掘区别：是否依赖于预先定义好的类数据挖掘概念与任务相同点不同点联系数据挖掘V.S.数据仓库都是商业智能的重要技术两者均是决策支持工具目标不同数据仓库：为决策提供数据依据；数据挖掘：为决策提供逻辑依据；方法不同数据仓库：搜集多个信息系统数据，整合并存放于专门储存空间；数据挖掘：在数据中寻找规律或发现新的知识；数据仓库提供数据数据挖掘数据挖掘V.S.OLAP均可用于发现信息背后的规律目标不同 OLAP：发现假设；数据挖掘：验证假设；方法不同 OLAP：先提出假设和数据验证任务，再验证正确性；数据挖掘：通过算法和工具探索结果 OLAP 数据挖掘数据挖掘V.S.KDD 数据知识发现（KDD）
4、是从数据集中识别出有效的、新颖的、有潜在价值的以及最终可理解的模式的非平凡过程，其核心环节是数据挖掘技术验证结果提供分析模式数据挖掘KDD数据挖掘概念与任务KDD流程图数据挖掘经典算法方法二方法一方法四方法三C4.5算法通过学习数据来建立决策树，是一种有监督的学习过程。它特点是用的是信息增益率帮助选择属性和进行剪枝，能够对非离散数据和不完整数据进行处理。K-Means算法是一种聚类算法，它把数据点到原型的某种距离作为优化的目标函数，通过迭代运算试图找到数据中自然聚类的中心。支持向量机（SVM）通过将向量映射到一个更高维的空间并构造一个超平面来分析数据和识别模式，用来做数据分类和回归分析，是一种
5、有监督的学习过程。Apriori算法一种挖掘关联规则的算法，其核心思想是通过候选集生成和检测两个阶段来挖掘频繁项集，找到数据之间的关联关系。数据挖掘经典算法方法六方法五方法八方法七最大期望算法（EM）是在概率模型中寻找参数最大似然估计或者最大后验估计的算法。该算法常用与机器学习和计算机视觉等领域的数据聚类分析。PageRank算法PageRank算法根据网页的外部链接和内部链接的数量和质量来衡量网页的价值。PageRank算法可以比较客观地体现网页的相关性和重要性。Adaboost算法该算法通过用同一个训练集多次训练不同的弱分类器，基于弱分类器的加权错误率更新权重向量，从而进行下一次迭代。多次
6、迭代后将各分类器融合起来，构成最后的决策分类器。K邻近算法算法的思路是：如果一个样本在特征空间中的k个最邻近的样本中的大多数属于某一个类别，则该样本也属于这个类别。该算法适用于类域的交叉或重叠较多的待分样本集。数据挖掘经典算法方法九方法十朴素贝叶斯以贝叶斯定理为基础，假设一个属性值对给定类的影响独立于其它属性的值，通过已有数据样本的统计规律预测未知类别样本的分类概率分类与回归（CART）是一种构建决策树的算法。CART算法假设决策树是二叉树，左右子树分别是取值为“是”和“否”的分支。通过递归地二分每个特征，将特征空间划分为有限个单元，并在这些单元上确定预测的概率分布。4.2 分类分类概述分类
7、方法以决策树为例分类概述分类定义分类模型n 分类是对现有数据进行学习，得到一个目标函数或规则f，把每个属性集x映射到一个预先定义的类标号y（即最终分为的几个类别）n分类是一种有监督的学习，根据不同的情况可以使用（朴素）贝叶斯、决策树、逻辑回归、KNN、SVM、神经网络、随机森林等算法来实现n 分类模型分类描述性分类模型：获知哪些特征对哪些类别有决定性的作用预测性分类模型：用于预测未知记录的类标号分类模型分类概述n 一个具体例子：根据表4-1所示，某银行借贷部门统计了10个客户目前的基本情况（属性集包括是否拥有房产、婚姻情况以及年收入），并已知这些客户是否有能力偿还债务。ID拥有房产（是/否
8、）婚姻情况（单身/已婚/离婚）年收入（单位：千元）可以偿还债务（是/否）1是单身125是2否已婚100是3否单身75否4是已婚120是5否离婚95是6否已婚60是7是离婚220是8否单身80否9否已婚75是10否单身90是分类概述If-then规则决策树If 拥有房产Then 可以偿还债务ElseIf 婚姻情况=已婚Then 可以偿还债务Else If 年收入=85Then 可以偿还债务Else 无法偿还债务End if可视化根据这些数据可以建立分类的判断标准如下：分类概述训练集数据训练集由类标号已知的记录组成，用于建立模型；描述性分类模型要求模型可以最大程度上符合训练集测试集由类标号未知的记
9、录组成，用于检验模型的泛化能力。测试集除了分类模型，建立其他有监督的模型算法时一般也是需要划分训练集和测试集。分类概述划分数据集进行模型的训练和测试分类概述二元分类问题的混淆矩阵n假设有一种罕见的病毒X，在人群中的感染率为0.01%（万分之一）。而目前已有仪器可以比较准确地化验出人体是否携带此病毒，其中病毒携带者被正确检验出来的概率为99.9%，非病毒携带者被正确排除的概率为99.99%。如果在人群中随机对一人进行检验，且检验结果为“病毒携带者”，试问此人确实为“病毒携带者”的概率有多大？为什么？分类概述二元分类问题的混淆矩阵正确率：正确预测数除以预测总数，即(a+d)/(a+b+c+d
10、)；错误率：错误预测数除以预测总数，即(b+c)/(a+b+c+d)；精确率：正确预测为正类的样本数除以实际正类的数目，即 a/(a+c)；召回率：正确预测为正类的样本数除以预测正类的数目，即a/(a+b)。评价指标二元分类问题的混淆矩阵n分类模型的性能根据模型正确和错误预测的检验记录计数进行评估，这些计数存放在称作混淆矩阵(confusion matrix)的表格中。分类方法以决策树为例二元分类问题的混淆矩阵n事例说明：本事例数据选自SPSS Moderler 中提供的示例数据（文件名为tree_credit.sav）,包含客户基本信息和银行贷款历史数据等6个字段，共2646条数据。字段
11、类型定义如下表所示n分析目标：利用C5.0算法，建立决策树分类模型并进行评估，研究哪些因素显著影响用户性用的好坏,具体操作如下：字段标签测量值角色Credit_ratingCredit rating名义0,Bad、1,Good目标AgeAge度量24.12,31.8,43.03,.输入IncomeIncome level有序1,Low、2,Medium、3,High输入Credit_cardsNumber of credit cards名义1,Less than 5、2,5 or more输入EducationEducation名义1,High school、2,College输入Car_lo
12、ansCar loans名义1,None or 1、2,more than 2输入表4-3字段类型定义分类方法以决策树为例首先导入源文件“tree_credit.sav”，然后设置数据类型，将“Cresit_rating”设置为输出变量，除“ID”以外的变量为输入变量。01 导入源文件并设置数据类型将数据分为70%训练数据以及30%测试数据。根据训练集进行构建模型，在多次反复训练模型后，根据输入变量重要性的排序，并移除相对较不重要的变量。数据分区完成后，就完成了数据准备工作。02 对数据进行分区操作分析节点中我们勾选重合矩阵选项，因此除了分析节点原本就提供的正确错误率比较，可进一步了解实
13、际值与预测值的比较矩阵。03 建立决策树C5.0分类模型，加入分析节点和评估图表分类方法以决策树为例建立决策树C5.0分类模型分类方法以决策树为例文字树状包括分类结果、实例数字和置信度，当分类的实例置信度较高，则可导出预测规则。04 用文字树状展开模型结果导出决策树模型，研究哪些因素显著影响用户信用的好坏，如本例中用户收入水平（Income level）是影响信用好坏（Cresit_rating）的最关键因素，其次是所持信用卡数量（Credit_cards）和使用时间（Age）05 软件导出决策树模型从训练集和测试集的混淆矩阵中分别计算训练集合测试集的正确率、错误率、精确率、召回率。本例
14、中不论是训练数据还是测试数据，决策树分类模型的正确率、精确率和召回率都较高，错误率较低，说明模型性能较好。06 评估决策树分析模型4.3 聚类聚类分析概述聚类分析方法以K-Means算法为例聚类概述聚类定义聚类分类n聚类分析是对一组对象进行分组，使得同一组（称为簇）中的对象与其他组中的对象相比相似性更高。n组内的相似性越大，组间差别越大，聚类结果就越好n聚类分析是一种探索性数据挖掘，可用于机器学习、模式识别、图像分析、信息检索、生物信息学、数据压缩和计算机图形学等众多领域。n 聚类本质上是一组包含数据集中的所有对象的簇，它可以指定集群彼此的关系，聚类可以大致区分为：硬聚类：每个对象都属于一个
15、簇；软聚类（也称模糊聚类）：每个对象在一定程度上属于一个簇。聚类概述聚类过程示意图（a）原来的点（b）两个簇（c）三个簇聚类概述方法二方法一方法四方法三基于连通性的聚类（层次聚类）核心思想：与附近对象的关系比与远处的对象更相关。这些算法根据距离将“对象”连接起来形成“簇”。基于连通性的聚类算法不提供数据集的单个分区，而是提供广泛的层次结构，基于质心的聚类在基于质心的聚类中，聚类由中心向量表示，该中心向量不一定是数据集的成员。代表方法有K-Means算法。是与统计最密切相关的聚类模型。数据集可以很轻松的划分到最可能的同一分布。该方法非常类似于人工数据集的生成方式通过从分布中随机抽取样本。在基于密
16、度的聚类中，密度高于数据集其余部分的区域为簇，低密度区域中的对象通常被认为是噪声点。最典型的基于密度的聚类方法是DBSCAN。基于分布的聚类基于密度的聚类聚类概述K-Means算法原理随机选择 k 个点作为初始质心；将每个点指派到最近的质心，形成 k 个簇；根据每个簇包含的对象，重新计算每个簇的质心；重复步骤（2）、（3），直到质心不发生改变。K-Means方法聚类的过程二元分类问题的混淆矩阵聚类分析方法以K-Means算法为例01n由样本的分布形成两个簇 C1=X1，X2，X4 C2=X3，X5 这两个簇的质心是M1，M2：M1=1.66，0.66 M2=3.25，1.00n样本初始随
17、机分布之后，方差是：E22=8.12 总体的平均误差是：E2=E12+E22=27.4802例4.1：对坐标表示的5个二维样本点X1，X2，X3，X4，X5作聚类分析，其中X1=（0，2），X2=（0，0），X3=（1.5，0），X4=（5，0），X5=（5，2）。假设要求的簇的数量k=2。36.19)66.00()66.15()66.00()66.10()66.02()66.10(E22222221聚类分析方法以K-Means算法为例03n取距离其中一个质心（M1或M2）距离最小的样本，将簇内样本的重新分布 D(M1，X1)=2.14 D(M2，X1)=3.40 X1 C1 D(M1，X2)
18、=1.79 D(M2，X2)=3.40 X2 C1 D(M1，X3)=0.83 D(M2，X3)=2.01 X3 C1 D(M1，X4)=3.41 D(M2，X4)=2.01 X4 C2 D(M1，X5)=3.606 D(M2，X5)=2.01 X5 C2 形成新簇：C1=X1，X2，X3 C2=X4，X5n计算新的质心 M1=0.5，0.67 M2=5.0，1.0 相应的方差及总体平方误差分别是：E12=4.17 E22=2.00 E2=6.17 可以看出第一次迭代之后,总体误差显著减小，依次迭代下去，直到点所属的簇不发生改变为止。04 二元分类问题的混淆矩阵n事例说明：本书使用K-Mea
19、ns方法对Modeler自带数据BASKETS1n进行聚类分析。该数据是由超市购买者的信息和购买的商品信息组成，一共有1000条数据，包含如下18个字段，如表4-7所示。n分析目标：期望通过该数据明确经常来购物的超市顾客的种类，便于超市日后进行营销活动时能精准定位目标客户，具体操作如下：字段测量值角色字段测量值角色cardid度量10150，109884输入dairy标志T/F输入value度量10.007，49.8863输入cannedveg标志T/F输入pmethod名义CARD,CASH,CHEQUE输入cannedmeat标志T/F输入sex标志M/F输入frozenmeal标志T/F
20、输入homeown标志YES/NO输入beer标志T/F输入income度量10200,30000输入wine标志T/F输入age度量16,50输入softdrink标志T/F输入fruitveg标志T/F输入fish标志T/F输入freshmeat标志T/F输入confectionery标志T/F输入字段类型定义聚类分析方法以K-Means算法为例聚类分析方法以K-Means算法为例1读入数据。由“可变文件”读入数据，使用数据“BASKETS1n”，读入数据方式聚类分析方法以K-Means算法为例2数据理解。本例仅分析购买者的信息，故过滤掉所有的商品字段，通过编辑“类型”节点对数据字段进行设
21、置。在聚类方法中所有参与聚类的字段在设置字段格式时角色均为“输入”。过滤后的数据如表4-8所示。Card-idvaluepmethodsexhomeownincomeage3980842.7123CHEQUEMNO27000466736225.3567CASHFNO30000281087220.6176CASHMNO13200362674823.6883CARDFNO12200269160918.8133CARDMYES11000242663046.4867CARDFNO15000356299514.0467CASHFYES20800303876522.2034CASHMYES24400222
22、893522.975CHEQUEFNO29500464179214.5692CASHMNO2960022表4-8 过滤后的购物篮数据聚类分析方法以K-Means算法为例3数据准备。对K-Means节点进行编辑，在编辑K-Means节点时我们重点需要设定要得到的簇的个数，簇的个数在“聚类数”中设定，如图所示。数据准备聚类分析方法以K-Means算法为例4运行模型。数据流建立好之后，运行K-Means节点执行该数据流，执行结果将以与K-Means同名的节点显示在数据流中。由预测变量的重要性可再次过滤掉cardid、value、income、age四个字段，仅保留pmethod、sex、homeow
23、n三个字段进行聚类分析。最终的模型数据流图如图所示。数据流图（a）模型概要（b）聚类大小模型概要聚类分析方法以K-Means算法为例结论：该超市的购物者大体可以分为两类：无房男士（以现金为主要支付方式）和有房女士（以信用卡为主要支付方式）。（a）模型聚类结果（b）聚类大小结论，该超市的购物者大体可以分为两类：无房男士（以现金为主要支付方式）和有房女士（以信用卡为主要支付方式）。聚类分析方法以K-Means算法为例4.4 关联分析关联分析概述关联分析算法以Apriori算法为例关联分析概述基本概念相关算法n关联规则（Association Rule）算法是一种基于规则的机器学习方法，用于在
24、大量数据中发现变量之间的关系。n事务：关联规则的分析对象称为事务（Transaction）。n项集：包含0个或者多个项的集合被称为项集（itemset）。如果一个项集包含k个项，则称它为k-项集。n 关联规则：形如X Y的蕴涵式，其中 X，YI，XY=n Apriori 算法n 基于划分的算法n FP-树频集算法关联分析概述01 规则支持度（Support）判断指标定义：表示项目集在数据集中出现的频率。数学表达式：判断标准：低支持度的规则多半是无意义的02 规则置信度（Confidence）定义：对关联规则准确度的测量，描述了通过规则进行推理的可靠性数学表达式：判断标准：置信度越高，Y在包
25、含X的事务中出现的可能性越大03 规则提升度（Lift）定义：规则置信度和后项支持度的比值。它反映了相比于总体，后项Y受到前项X的影响程度。数学表达式：判断规则：Lift（XY）1时，表示前项对后项具有正相关关系；当Lift（XY）1时，认为前项对后项具有负相关关系；当Lift（XY）=1时，表示前项与后项相互独立n在进行关联分析时，需要借助有效性指标来帮助判断该规则是否有效。最常用的指标主要有以下三个：支持度（Support）、置信度（Confidence）和提升度（Lift）。mYXuup）（）（YXS）（）（）（XYXYXConf）（）（）（）（YXYXYXLift关联分析算法以Apri
26、ori算法为例n频繁项集：指包含k个项目的项集N，如果其支持度大于指定的最小支持度，则称项集N为频繁项集，也称频繁k-项集，记为Fk。n先验原理：如果一个项集是频繁的，则它的所有自己一定也是频繁的。假定b,c,d 是频繁项集，显而易见，任何包含项集b,c,d 的事务一定包含它的子集b,c，b,d，c,d，b，c和d。这样，如果b,c,d 是频繁的，则它的所有子集（下图中的阴影项集）一定也是频繁的。先验原理图示n 一个具体例子：以下表为例，给定最小支持度计数为1，最小置信度为70%，则其具体步骤如下：超市购物数据示例生成频繁项集。具体生成过程如图所示；生成关联规则。对于每个频繁项集，计算其所有
27、子集的置信度，最终生成关联规则。关联分析算法以Apriori算法为例交易编号牛奶面包黄油啤酒尿布111000200100300011411100501000频繁项集生产过程关联分析算法以Apriori算法为例1创建“可变文件”结点，以读取数据，如图所示；关联分析算法SPSS Modeler 关联分析实例2创建“表”结点，部分信息如表所示：cardidfruit-vegfresh-meatdairycanned-vegcanned-meatfrozen-mealbeerwinesoft-drinkfishconfect-ionery39808FTTFFFFFFFT67362FTFFFFFFFFT
28、10872FFFTFTTFFTF26748FFTFFFFTFFF91609FFFFFFFFFFF26630FTFFFFFTFTF62995TFFFFFFFTFF38765FFFFFFTFFFF28935TFFFFTFFFFF41792TFFFFFFFFTF部分数据展示关联分析算法SPSS Modeler 关联分析实例3创建“类型”结点。类型结点显示和设置数据每个字段的类型、格式和角色。把“方向”选项卡中一些关于客户基本信息的字段设置为“无”，需要分析的客户购买行为的字段方向设置为“两者”，说明该角色既可作为前项，也可作为后项，如图所示：“类型”结点编辑窗口关联分析算法SPSS Modeler
29、关联分析实例5将“网络”结点加入流中，与“类型”结点连接起来，运行结果如图所示；下图中，线的粗细和深浅代表联系的强弱，可以直观的看到beer和frozenmeat，cannedveg联系程度比较强。关联分析算法SPSS Modeler 关联分析实例4创建“Apriori”模型结点并运行。关联规则模型的整个流如图1所示。运行结果如图2所示，得到结果如下：图1 关联规则模型流图图2“Apriori”窗口模型查看器关联分析算法SPSS Modeler 关联分析实例4.5 PageRnak算法 PageRank算法概述PageRank算法原理PageRank算法的应用PageRank算法概述算法背景算
30、法概念n在万维网的巨大规模和垃圾信息的打击下，之前搜索引擎采用的基于内容的评分不再适用。nGoogle解决了此前搜索引擎的最大难题，即利用基于超链接排序的PageRank算法对搜索结果进行重要性排序。n 定义：PageRank又称网页级别，是一种由根据网页之间相互的超链接计算网页重要性的技术，Google的创始人拉里佩奇（Larry Page）之姓来命名。n 核心：根据网页的外部链接和内部链接的数量和质量来衡量网页的价值。n PageRank值（简称PR值）：用来评价网页的重要性，PageRank值越大越重要。PageRank算法原理n网页的入链：那些其它网页中指向网页A的超链接，通常不包括来
31、自同一站点内网页的超链接。n网页的出链：那些由网页A指向其它网页的超链接，通常不包括指向同一站点内网页的超链接。n网络有向图：将万维网的超链接结构定义成一个有向图。其中结点代表网页，有向弧或者连接表示超链接。入链可以表示为由其它页面引出的代表超链接的有向弧指向结点，而出链可以表示为由结点通过有向弧指出到其它页面。如图所示为一个由网页构成的有向图，它由6个网页组成。134562由结点1的出链至结点2的入链图1 由6个网页组成的网络有向图PageRank算法原理核心思想nPageRank的核心思想：如果一个网页被很多其它网页链接到（由入链所体现），则说明这个网页很重要，也就是PageRank值会相
32、对较高；如果一个PageRank很高的网页链接到一个其它的网页（由出链所体现），则被链接到的网页的PageRank 值会相应的提高。n举例说明：如图所示，每个球代表一个网页，球的大小反应了网页的PageRank值的大小。其中指向网页B和网页E的链接很多，所以网页B和网页E的PageRank值较高，而虽然很少有网页指向网页C，但是最重要的网页B指向了网页C，所以网页C的PageRank值比网页E还要大。网页链接关系及PR值的相互影响01n最初求和公式根据核心思想，一个网页的PR值应该由所有链接到该网页的所有网页的PR值的总和所决定，同时该网页的PR值应被它所链接到的所有页面分享，即应以出链的数量
33、加以调节。由此，设I(i)为指向网页i的页面集合，P(j)为页面j的PR值，N(j)为页面j发出的出链数量，一个网页i的PR值用P(i)表示，则公式如下：n迭代计算公式设定所有网页的PR初始值都是相等的（即1/n，其中n为谷歌索引中的网页的总数），将前一次计算得到的PR值带入下一次计算中，利用迭代过程便可以不断计算出每个页面的PR值。令Pk+1（i）为页面i在第k+1次循环时的PR值，则：其中所有页面都从P0（i）=1/n开始，并一直循环迭代，直到PageRank值不再显著变化或收敛到某些稳定值。02PageRank算法原理原始求和公式 iIjjNjPiP iIjk1kjNjPiPPageRa
34、nk算法原理原始求和公式迭代0迭代1迭代2迭代2时的排名P0(1)=1/6P1(1)=1/18P2(1)=1/365P0(2)=1/6P1(2)=5/36P2(2)=1/184P0(3)=1/6P1(3)=1/12P2(3)=1/365P0(4)=1/6P1(4)=5/36P2(4)=11/723P0(5)=1/6P1(5)=1/4P2(5)=17/721P0(6)=1/6P1(6)=1/6P2(6)=14/722n 以图1中的网络图为例，应用迭代计算公式计算，几个循环后可以得出如下表所示的PageRank值。PageRank算法原理矩阵表示0100002/102/10002/12/10000
35、003/103/13/10000000002/12/10AARR1kk第i行的非零元素对应网页i的出链，第j列的非零元素对应页面j的入链。设行向量Rk代表第k次循环时网页的PageRank值，则迭代计算公式可以用矩阵表示为：具体步骤将求和符号去掉，每次循环计算一个PageRank向量来表示所有页面的PR值。010203引入一个n维行向量R和nn阶矩阵A。假定R=(P(1)，P(2)P(n)为第1个、第2个第n个网页的网页排名PR值。矩阵A代表网页之间的链接数目，若从结点i指向结点j存在一条链接，则Aij=1/N(i)，否则为0。以图1为例，该图的A矩阵为：排名下沉：在实际中的很多网页并没有出链
36、，这种情况在矩阵A中表现为有些行全部由0组成，这样的网页叫做悬挂网页。排名下沉就是指在多次迭代中遇到悬挂网页的结点，它们会累积越来越多的PageRank，最终垄断了排名得分形成等级沉积。循环：指网页之间形成了一个无限的环路或者循环，最终迭代不会收敛。迭代计算存在的问题影响PageRank的马尔科夫理论：当A矩阵是一个随机、不可约且非周期性的矩阵时，应用马尔科夫矩阵的幂法可以使得PageRank向量收敛到唯一的稳态正向量。随机性调整：将矩阵A中的全0行的元素都替换为1/n，使得A成为随机矩阵。素性调整：将使得矩阵A成为不可约且非周期的，即从任一页面出发，到每个页面都加上一条链接，并给这一链接分
37、配一个由参数d控制的微小转换概率。修正方法n理想的PageRank向量应为一个正向量，而对于迭代计算的矩阵方程，利用（其中e为所有元素都为1的行向量）开始迭代计算会遇到两个问题使得PageRank的求解变得困难。PageRank算法原理修正公式en1 R0PageRank算法原理修正公式改进后的PageRank模型：其中E是一个nn的元素全为1的矩阵。n是网页总数，即网络有向图中的结点总数，1/n是跳转到一个随机网页的概率。阻尼因子（d）：定义为用户不断随机点击链接的概率，取值在0到1范围内设定，通常取d=0.85。d的值越高，用户根据网页的超链接结构继续点击链接的概率就越大。而用户停止点
38、击并随机跳转至另一页面的概率用常数(1-d)表示。修正后的PageRank模型加入阻尼因子后，任一网页i的PageRank算法公式为：幂法：最终的Web网页的PageRank值可以用幂迭代方法来计算，即赋予任意的PageRank初始值，当PageRank值不再显著变化或者趋近收敛时，迭代算法就可结束。任一网页的PageRank公式dAnEd1RRk1k）（iIjjNjPd)d1(iP文献研究应用领域将论文看做是结点，论文之间的引用关系看做是超链接，那么论文引用网络也可以看做是一系列结点与链接构成的网络图谱。根据论文引用网络中不同论文的出入度或者发表论文的时间改进 PageRank 算法模型，
39、能够很好的找到论文引用网络中的高质量文献，并对网络中的高质量文献进行重要性排序。社交网络分析基于微信、微博等应用的社交网络分析，可以评估社交网络节点影响力，寻找社交网络中的高影响力用户或关键意见领袖，例如通过追随者的数量对其发布消息的质量和影响力进行评估，有助于社会舆论的预警和监控。另外，电商等也可利用社交关系，在一定程度上协助风险控制。推荐系统构建在推荐系统中，目标一般是向用户推荐未接触过的商品。基于PageRank算法的变种PersonalRank是将用户行为数据表示成二部图，用户对物品产生过行为（包括购买或浏览行为），则在图中表现为有边相连。通过对每个结点打分，对用户进行推荐物品，就转化为计算用户结点与所有物品结点之间的相关性，然后取与用户没有直接相连的物品，按照相关性的高低生成推荐列表。PageRank算法的应用

展开阅读全文