埃森哲大数据分析方法培训资料课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《埃森哲大数据分析方法培训资料课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 埃森 数据 分析 方法 培训资料 课件
- 资源描述:
-
1、路漫漫其悠远路漫漫其悠远2022-6-8埃森哲大数据分析方法埃森哲大数据分析方法培训资料培训资料路漫漫其悠远路漫漫其悠远目录目录概述概述数据分析框架数据分析框架数据分析方法数据分析方法数据理解数据理解& &数据准备数据准备数据分析支撑工具数据分析支撑工具关联分析关联分析聚类分析聚类分析分类与回归分类与回归时序模型时序模型结构优化结构优化路漫漫其悠远路漫漫其悠远数据分析即从数据、信息到知识的过程,数据分析需要数数据分析即从数据、信息到知识的过程,数据分析需要数学理论、行业经验以及计算机工具三者结合学理论、行业经验以及计算机工具三者结合分析分析误区误区数据数据挖掘挖掘工具支撑数学&统计学知识行业经
2、验传统传统分析分析机器机器学习学习数学数学&统计学知识统计学知识数据分析的基础,将整理、描述、预测数据的手段、过程抽象为数学模型的理论知识工具支撑工具支撑各种厂商开发了数据分析的工具、模块,将分析模型封装,使不了解技术的人也能够快捷的实现数学建模,快速响应分析需求。行业经验行业经验行业经验可在数据分析前确定分析需求,分析中检验方法是否合理,以及分析后指导应用,但行业特征不同,其应用也不同,因此本文不展开介绍传统分析传统分析在数据量较少时,传统的数据分析已能够发现数据中包含的知识,包括结构分析、杜邦分析等模型,方法成熟,应用广泛,本文不展开介绍分析误区分析误区不了解分析模型的数学原理,会导致错误
3、的使用模型,而得出错误的分析结论,影响业务决策,因此在选用分析模型时,要深入了解该模型的原理和使用限制机器学习机器学习不需要人过多干预,通过计算机自动学习,发现数据规律,但结论不易控制。数据挖掘数据挖掘数据挖掘是挖掘数据背后隐藏的知识的重要手段路漫漫其悠远路漫漫其悠远随着计算机技术发展和数据分析理论的更新,当前的数据随着计算机技术发展和数据分析理论的更新,当前的数据分析逐步成为机器语言、统计知识两个学科的交集分析逐步成为机器语言、统计知识两个学科的交集(备选)(备选)数据数据挖掘挖掘计算机技术统计学、人工智能业务数据数据挖掘数据挖掘就是充分利用了统计学和人工智能技术的应用程序,并把这些高深复杂
4、的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。信息处理信息处理信息处理信息处理信息处理基于查询,可以发现有用的信息。但是这种查询的回答反映的是直接存放在数据库中的信息。它们不反映复杂的模式,或隐藏在数据库中的规律。传统分析传统分析数据分析数据分析工具工具传统分析传统分析在数据量较少时,传统的数据分析已能够发现数据中包含的知识,包括结构分析、杜邦分析等模型,方法成熟,应用广泛,本文不展开介绍数据分析工具数据分析工具各种厂商开发了数据分析的工具、模块,将分析模型封装,使不了解技术的人也能够快捷的实现数学建模,快速响应分析需求。路漫漫其悠远路漫漫其悠远
5、随着计算机科学的进步,数据挖掘、商务智能、大数据等随着计算机科学的进步,数据挖掘、商务智能、大数据等概念的出现,数据分析的手段和方法更加丰富概念的出现,数据分析的手段和方法更加丰富一系列以事实为支持,辅助商业决策的技术和方法,曾用名包括专家系统、智能决策等一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成对数据分析的体系化管理,数据分析的主体依然是数据挖掘结构分析分组分析杜邦分析预警分析常规分析常规分析揭示数据之间的静态关系分析过程滞后对数据质量要求高商务智能商务智能数据挖掘数据挖掘大数据技术大数据技术数据可视化数据可视化统计学和计算机技术等多学科的结合揭示数据之间隐藏的关系将数
6、据分析的范围从“已知”扩展到“未知”,从“过去”推向“将来”从多种类型的数据中,快速获取知识的能力数据挖掘技术的衍生大数据时代,展示数据可以更好辅助理解数据、演绎数据本文在描述数据分析的流程后,重点介绍通用的数据分析方法和主流的应用工具、软件。随着数据量的不断扩大,数据分析理论正处于飞速发展期,因此本文的方法侧重于基础原理介绍。数据数据分析分析路漫漫其悠远路漫漫其悠远目录目录概述概述数据分析框架数据分析框架数据分析方法数据分析方法数据理解数据理解& &数据准备数据准备数据分析支撑工具数据分析支撑工具关联分析关联分析聚类分析聚类分析分类与回归分类与回归时序模型时序模型结构优化结构优化路漫漫其悠远
7、路漫漫其悠远1. 1.业务理解业务理解(business understanding(business understanding) 确定目标、明确分析需求2. 2.数据理解(数据理解(data understandingdata understanding) 收集原始数据、描述数据、探索数据、检验数据质量3. 3.数据准备数据准备(data preparation)(data preparation) 选择数据、清洗数据、构造数据、整合数据、格式化数据4. 4.建立模型建立模型(modeling(modeling) 选择建模技术、参数调优、生成测试计划、构建模型5. 5.评估模型评估模型(e
8、valuation)(evaluation) 对模型进行较为全面的评价,评价结果、重审过程6. 6.部署部署(deployment)(deployment) 分析结果应用数据分析标准流程数据分析标准流程CRISP-DM为90年代由SIG组织(当时)提出,已被业界广泛认可的数据分析流程。路漫漫其悠远路漫漫其悠远数据分析框架数据分析框架业务理解业务理解数据理解数据理解数据准备数据准备建立模型建立模型理解业务背景,评估分析需求模型评估模型评估应用应用 理解业务背景:理解业务背景:数据分析的本质是服务于业务需求,如果没有业务理解,缺乏业务指导,会导致分析无法落地。 评估业务需求:评估业务需求:判断分析
9、需求是否可以转换为数据分析项目,某些需求是不能有效转换为数据分析项目的,比如不符合商业逻辑、数据不足、数据质量极差等。数据收集数据清洗 数据收集:数据收集:抽取的数据必须能够正确反映业务需求,否则分析结论会对业务将造成误导。 数据清洗:数据清洗:原始数据中存在数据缺失和坏数据,如果不处理会导致模型失效,因此对数据通过过滤“去噪”从而提取出有效数据数据探索数据转换选择方法、工具,建立模型建模过程评估模型结果评估分析结果应用分析模型改进 探索数据:探索数据:运用统计方法对数据进行探索,发现数据内部规律。 数据转换:数据转换:为了达到模型的输入数据要求,需要对数据进行转换,包括生成衍生变量、一致化、
10、标准化等。 建立模型:建立模型:综合考虑业务需求精度、数据情况、花费成本等因素,选择最合适的模型。在实践中对于一个分析目的,往往运用多个模型,然后通过后续的模型评估,进行优化、调整,以寻求最合适的模型。 建模过程评估:建模过程评估:对模型的精度、准确性、效率和通用性进行评估。, 模型结果评估:模型结果评估:评估是否有遗漏的业务,模型结果是否回答了当初的业务问题,需要结合业务专家进行评估。 结果应用:结果应用:将模型应用于业务实践,才能实现数据分析的真正价值:产生商业价值和解决业务问题。 模型改进:模型改进:对模型应用效果的及时跟踪和反馈,以便后期的模型调整和优化。 路漫漫其悠远路漫漫其悠远业务
11、理解数据理解数据准备建立模型模型评估开始是否明确需求否否数据探索结构分析分布特性特征描述分类与回归聚类分析时序模型关联分析结构优化分析结果应用数据分析框架数据分析框架图例流程概要方法分类处理方法模型检验理解业务背景,评估分析需求是是否满足要求收集数据否是是建立模型贝叶斯神经网络C4.5决策树指数平滑支持向量机灰色理论K均值算法FP-growth算法Apriori算法均方根误差均方误差正概率统计群间差异度群内相似度业务符合度支持度置信度均方根误差均方误差正概率统计灰色理论遗传算法数据清洗数据转换SVM算法KNN算法路漫漫其悠远路漫漫其悠远目录目录概述概述数据分析框架数据分析框架数据分析方法数据分
12、析方法数据理解数据理解& &数据准备数据准备数据分析支撑工具数据分析支撑工具关联分析关联分析聚类分析聚类分析分类与回归分类与回归时序模型时序模型结构优化结构优化路漫漫其悠远路漫漫其悠远数据清洗数据清洗& &数据探索数据探索 数据收集的方法多种多样,本文不再详述。在对收集的数据进行分析前,要明确数据类型、规模,对数据有初步理解,同时要对数据中的“噪声”进行处理,以支持后续数据建模。数据清洗数据清洗 异常值判别 缺失值处理 数据结构统一(人为因素较多,无统一方法,本文不详述)数据探索数据探索 特征描述 分布推断 结构优化数据探索数据探索数据清洗和数据探索通常交互进行数据清洗和数据探索通常交互进行数
13、据探索有助于选择数据清洗方法数据探索有助于选择数据清洗方法数据清洗后可以更有效的进行数据探索数据清洗后可以更有效的进行数据探索路漫漫其悠远路漫漫其悠远给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值。常用的方法(数据来源于同一分布,且是正态的):拉依达准则、肖维勒准则、格拉布斯准则、狄克逊准则、t检验。根据人们对客观事物、业务等已有的认识,判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,判断异常值。比较困难数据清洗的第一步是识别会影响分析结果的“异常”数据,然后判断是否剔除。目前常用的识别异常数据的方法有物理判别法和统计判别法数据清洗:
14、数据清洗:1. 1.异常值判别异常值判别物理判别法统计判别法慎重对待删除异常值:慎重对待删除异常值:为减少犯错误的概率,可多种统计判别法结合使用,并尽力寻找异常值出现的原因;若有多个异常值,应逐个删除,即删除一个异常值后,需再行检验后方可再删除另一个异常值检验方法以正态分布为前提,若数据偏离正态分布或样本较小时,则检验结检验方法以正态分布为前提,若数据偏离正态分布或样本较小时,则检验结果未必可靠,果未必可靠,校验是否正态分布可借助W检验、D检验注意注意路漫漫其悠远路漫漫其悠远判别方法判别方法判别公式判别公式剔除范围剔除范围操作步骤操作步骤评价评价拉依达准则拉依达准则(33准则)准则)大于+3小
15、于-3求均值、标准差,进行边界检验,剔除一个异常数据,然后重复操作,逐一剔除适合用于n185时的样本判定肖维勒准则肖维勒准则(等概率准则)(等概率准则)大于 + Zc(n)小于 - Zc(n)求均值、标准差,比对系数读取Zc(n)值,边界检验,剔除一个异常数据,然后重复操作,逐一剔除实际中Zc(n) f(n,),说明x(n)离群远,则判定该数据为异常数据将数据由小到大排成顺序统计量,求极差,比对狄克逊判断表读取 f(n,)值,边界检验,剔除一个异常数据,然后重复操作,逐一剔除异常值只有一个时,效果好;同侧两个数据接近,效果不好当n处于 3 ,25时,判别效果较好T T检验检验最大、最小数据与均
16、值差值大于分别检验最大、最小数据,计算不含被检验最大或最小数据时的均值及标准差,逐一判断并删除异常值异常值只有一个时,效果好;同侧两个极端数据接近时,效果不好;因而有时通过中位数代替平均数的调整方法可以有效消除同侧异常值的影响常见统计判别法常见统计判别法路漫漫其悠远路漫漫其悠远由包含m个插补值的向量代替每一个缺失值,然后对新产生的m个数据集使用相同的方法处理,得到处理结果后,综合结果,最终得到对目标变量的估计在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望(E步),后用极大化对数似然函数以确定参数的值,并用于下步的迭代(M步)基于完整的数据集,建立回归
17、方程(模型),对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充;但当变量不是线性相关或预测变量高度相关时会导致估计偏差先根据欧式距离或相关分析确定距离缺失数据样本最近的K个样本,将这K个值加权平均来估计缺失数据值取所有对象(或与该对象具有相同决策属性值的对象)的平均值来填充该缺失的属性值数据清洗:数据清洗:2. 2.缺失值处理缺失值处理平均值填充平均值填充K最近距离法最近距离法回归回归极大似线估极大似线估计计多重插补法多重插补法 在数据缺失严重时,会对分析结果造成较大影响,因此对剔除的异常值以及缺失值,要采用合理的方法进行填补,常见的方法有平均值填充、K最近距离法
18、、回归法、极大似线估计法等随着数据量的增大,异常值和缺失值对整体分析结果的影响会逐渐变小,因此在“大数据”模式下,数据清洗可忽略异常值和缺失值的影响,而侧重对数据结构合理性的分析路漫漫其悠远路漫漫其悠远数据探索数据探索 通过数据探索,初步发现数据特征、规律,为后续数据建模提供输入依据,常见的数据探索方法有数据特征描述、相关性分析、主成分分析等。 结构优化描述已有数据特征- 数据分布特征描述- 数据探索要遵循由浅入深、由易到难的步骤数据探索要遵循由浅入深、由易到难的步骤概率分布特征描述推断整体数据特征- 参数检验- 非参数检验- 探索数据之间的关系- 相关性分析- 主成分分析- 路漫漫其悠远路漫
19、漫其悠远数据特征描述数据特征描述中心位置中心位置DiagramDiagram 2 2DiagramDiagram 2 2DiagramDiagram 3 3图形特征图形特征分散程度分散程度中心位置中心位置v 众数众数v 中位数中位数/四分位数四分位数v 均值均值分散程度分散程度v 方差和标准差方差和标准差v 极差、四分位差极差、四分位差v 标准分数标准分数 z-scorev 离散系数离散系数图形特征图形特征v 偏度偏度数据分布偏斜程度的测度v 峰度峰度数据分布扁平程度的测度左偏分布右偏分布扁平分布尖峰分布路漫漫其悠远路漫漫其悠远数据概率分布数据概率分布 概率分布可以表述随机变量取值的概率规律,
20、是掌握数据变化趋势和范围的一个重要手段。离散分布离散分布均匀分布二项分布几何分布离散型均匀分布是一个离散型概率分布,其中有限个数值拥有相同的概率1.在每次试验中只有两种可能的结果,而且是互相对立的;2.每次实验是独立的,与其它各次试验结果无关;3.结果事件发生的概率在整个系列试验中保持不变,则这一系列试验称为伯努力试验。以下两种离散型概率分布中的一种:在伯努利试验中,得到一次成功所需要的试验次数X。X的值域是 1, 2, 3, . 在得到第一次成功之前所经历的失败次数Y=X 1。Y的值域是 0, 1, 2, 3, . 泊松近似泊松近似是二项分布的一种极限形式。其强调如下的试验前提:一次抽样的概
21、率值相对很小,而抽取次数值又相对很大。因此泊松分布又被称之为罕有事件分布。泊松分布指出,如果随机一次试验出现的概率为p,那么在n次试验中出现k次的概率按照泊松分布应该为连续分布连续分布均匀分布指数分布正态分布如果连续型随机变量具有如下p=1/(b-a)的概率密度函数,其中Xa,b,则称服从上的均匀分布指数分布可以用来表示独立随机事件发生的时间间隔,比如指数分布还用来描述大型复杂系统(如计算机)的平均故障间隔时间MTBF的失效分布正态分布若随机变量X服从一个数学期望为、方差为2的高斯分布,记为N(,2)。其概率密度函数为正态分布的期望值决定了其位置,其标准差决定了分布的幅度。因其曲线呈钟形,因此
22、人们又经常称之为钟形曲线。我们通常所说的标准正态分布是 = 0, = 1的正态分布路漫漫其悠远路漫漫其悠远数据分布初步推断数据分布初步推断参数检验:数据的分布已知的情况下,对数据分布的参数是否落在相应范围内进行检验 假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法,可以分为参数检验和非参数检验。非参数检验:一般是在不知道数据分布的前提下,检验数据的分布情况检验方法名检验方法名称称问题类型问题类型假设假设卡方检验检测实际观测频数与理论频数之间是否存在差异观测频数与理论频数无差异K-S检验检验变量取值是否为正态分布服从正态分布游程检验检测一组观测值是否有明显变化趋势无明显变化趋势二项
23、分布假设检验通过样本数据检验样本来自的总体是否服从指定的概率为P的二项分布服从概率为P的二项分布检验方法名称检验方法名称问题类型问题类型假设假设适用条件适用条件抽样方法抽样方法单样本T检验判断一个总体平均数等于平均数等于已知数总体平均数等于A总体服从正态分布从总体中抽取一个样本F检验判断两总体方差方差相等两总体方差相等总体服从正态分布从两个总体中各抽取一个样本独立样本 T检验判断两总体平均数平均数相等两总体平均数相等1、总体服从正态分布2、两总体方程相等从两个总体中各抽取一个样本配对样本T检验判断指标实验前后平均数相等指标实验前后平均数相等1、总体服从正态分布2、两组数据是同一试验对象在试验前
24、后的测试值抽取一组试验对象,在试验前测得试验对象某指标的值,进行试验后再测得试验对象该指标的取值二项分布假设检验随机抽样实验的成功概率的检验总体概率等于P总体服从二项分布从总体中抽取一个样本总结1、参数检验是针对参数做的假设,非参数检验是针对总体分布情况做的假设。 2、二者的根本区别在于参数检验要利用到总体的信息,以总体分布和样本信息对总体参数作出推断;非参数检验不需要利用总体的信息。路漫漫其悠远路漫漫其悠远相关系数是考察变量之间的相关程度的变量,相关分析是优化数据结构的基础相关系数是考察变量之间的相关程度的变量,相关分析是优化数据结构的基础0 00.40.40.60.60.80.81.01.
25、00.20.2负相关负相关正相关正相关极强相关强相关中等相关弱相关弱相关或无(线性)相关适适用用条条件件结构优化结构优化相关性分析相关性分析 用于分析的多个变量间可能会存在较多的信息重复,若直接用来分析,会导致模型复杂,同时可能会引起模型较大误差,因此要初步探索数据间的相关性,剔除重复因素。Spearman秩相关系数秩相关系数衡量两个变量之间联系(变化趋势)的强弱在秩(排序)的相对大小基础上得到,对异常值更稳健Pearson相关系数相关系数衡量两个变量线性相关性的强弱在方差和协方差的基础上得到的,对异常值敏感Kendall相关系数相关系数基于协同思想得到,衡量变量之间的协同趋势对异常值稳健特特
展开阅读全文