书签 分享 收藏 举报 版权申诉 / 45
上传文档赚钱

类型大数据的统计和挖掘理论课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4106898
  • 上传时间:2022-11-11
  • 格式:PPT
  • 页数:45
  • 大小:1.92MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《大数据的统计和挖掘理论课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 统计 挖掘 理论 课件
    资源描述:

    1、大数据的统计和挖掘理论数据统计分析什么是数据挖掘数据挖掘流程数据挖掘任务数据挖掘应用统计是什么统计是什么n统计是人类思维的一个归纳过程n站在一个路口,看到每过去20辆小轿车时,也有100辆自行车通过n而且平均每10个轿车载有12个人n于是,你认为小汽车和自行车在这个路口的运载能力为24:100n这是一个典型的统计思维过程统计学统计学n统计学研究的对象是客观事物的数量关系和数量特征,是关于数据收集、整理、归纳和分析的方法论科学,是实证研究的一种最重要方法。统计方法广泛地用于各个领域,起着信息功能、咨询功能、监督功能、辅助决策功能的作用。各个部门要做出决策、执行计划、检查监督、宏观调控等都需要充分

    2、、灵通、可靠的统计资料为基础。部分统计数字部分统计数字n“明天降水概率为40”n“我冬天去新加坡度假的概率为10”n“该节目收视率是30%”n“调查结果表明20%的观众喜欢某节目”n“抽样调查结果的误差为3%”n“支持率的95置信区间为(25%,30%)”n“某学校排名第一”n“某县是贫困县”统计分析的做法统计分析的做法n统计可以指导我们收集数据n当拥有来自一些变量(指标)的数据或记录,但缺乏模型来描述这些变量之间关系的情况下,可用统计方法建立模型n在有了一定的模型时,统计可以确定手中数据是否令人信服地支持某种论点.模型也用来对未来进行预测n统计直观的图表展示,可以使各个领域的专家容易理解数据

    3、统计分析方法数据统计分析方法n描述统计:n主要指获得数据后,通过分组、有关图表、统计指标等对现象加以描述;n推断统计:n指通过抽样调查等非全面调查,在获得样本数据的情况下,以概率论和数理统计为依据,对总体情况进行科学判断;n建立模型对现象之间的联系进行模拟,对未来情况进行预测。总体与样本n总体(母体):是指在某一次统计分析中研究对象的全体。n个体:组成总体的每个单元(产品)叫做个体。n总体含量(总体大小):总体中所含的个体数,常用N表示。n样本容量(样本大小):样本中所含的样品数目,常用n表示。n抽样:是指从总体中随机抽取样品组成样本的活动过程。n随机抽样:是指要使总体中的每一个个体(产品)都

    4、有同等机会被抽取出来组成样本的活动过程。n样本(子样):是指从总体中随机抽取出来并且要对它进行详细研究分析的一部分个体(产品);样本是由1个或若干个样品组成的。抽样方法n简单随机抽样法n又叫随机抽样法,是指总体中的每个个体被抽到的机会是相同的。n系统抽样法n又叫等距抽样法或机械抽样法。n分层抽样法n也叫类型抽样法。它是从一个可以分成不同于总体的总体(或称为层)中,按规定的比例从不同层中随机抽取样品(个体)的方法。n整群抽样法n又叫集团抽样法。是将总体分成许多群,每个群由个体按一定方式结合而成,然后随机抽取若干群,并由这些群中的所有个体组成样本。抽样例子某种成品零件分装在20个零件箱装,每箱各装

    5、50个,总共是1000个。如果想从中取100个零件作为样本进行测试研究。简单随机抽样:将20箱零件倒在一起,混合均匀,并将零件从1 1000编号,然后用查随机数表或抽签的办法从中抽出编号毫无规律的100个零件组成样本。系统抽样:将20箱零件倒在一起,混合均匀,并将零件从1 1000编号,然后用查随机数表或抽签的办法先决定起始编号,按相同的尾数抽取100个零件组成样本。分层抽样:20箱零件,每箱都随机抽取5个零件,共100个组成样本。整群抽样:先从20箱零件随机抽出2箱,该2箱零件组成样本。提纲数据统计分析什么是数据挖掘数据挖掘流程数据挖掘任务数据挖掘应用什么是数据挖掘n数据挖掘是从大量数据(包

    6、括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。什么是数据挖掘大量的资料型态或规则里面要有矿!信用卡消费资料:假设每人平均有1.5张信用卡,每月平均消费10笔,该行约有150万的客户。就资料量而言,每月约有2,250万笔消费记录,每年约有2亿7千万笔消费记录客户的消费型态或规则数据挖掘和数据统计分析的区别n数据挖掘是数据统计分析的演化和扩展。数据统计分析侧重于人为的被动分析,而数据挖掘侧重于系统根据一些算法主动的发现一些有用的相关信息。数据挖掘需要人工智能、数据库、机器语言和统计分析知识等很

    7、多跨学科的知识。为什么需要数据挖掘n企业内产生了大量业务数据,这些数据和由此产生的信息是企业的财富,它如实记录了企业运作的本质状况。n数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果。n“数据挖掘”已成为企业保持竟争力的必要方法。为什么需要数据挖掘n分析和执行能力远跟不上信息的增长提纲数据统计分析什么是数据挖掘数据挖掘流程数据挖掘任务数据挖掘应用数据挖掘工业标准CRISP-DM业务理解n业务理解(Business Understanding)n定义企业目标(Determine Business Objective)n评估企业状况(Assess Situation)n定义数据挖掘

    8、目标(Determine Data Mining Goals)n制定项目方案(Produce Project Plan)数据数据理解理解n数据理解(Data Understanding)n收集数据(Collect Initial Data)n描述数据(Describe Data)n探索数据(Explore Data)n验证数据质量(Verify Data Quality)数据准备n数据准备(Data Preparation)n数据集(Data Set)n选择数据(Select Data)n清理数据(Clean Data)n构造数据(Construct Data)n集成数据(Integrate

    9、Data)n格式化数据(Format Data)模型建立n模型建立(Modeling)n选择建模技术(Select Modeling Techniques)nDT,NN,NB,TS,SC,CL,AR,LR,LR,Text Miningn产生测试方案(Generate Test Design)n构建模型(Build Model)n评估模型(Assess Model)模型评估n模型评估(Evaluation)n评估结果(Evaluate Results)n回顾数据挖掘过程(Review Process)n确定下一步(Determine Next Steps)布署与应用n将挖掘的分析结果部署到商业模

    10、型中,达到自动化预测的效果,以提升营运利润、改善商业流程n使用对象n决策者n营销单位n财务分析n质量保障单位提纲数据统计分析什么是数据挖掘数据挖掘流程数据挖掘任务数据挖掘应用数据挖掘的任务n预测任务n使用某些变量预测其他变量未知的或者未来的变量值n描述性任务n找出人类可以理解的,能描述数据的模式数据挖掘的基本任务n分类 预测n聚类 描述n回归分析 预测n关联规则挖掘 描述分类与预测n分类(classification)就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别(class),即将未知事例映射到某种离散类别之一。分类模型(或函数)可以通过分类挖掘算

    11、法从一组训练样本数据(其类别归属已知)中学习获得。n一般使用分类来表示对有限离散值的预测。使用预测(predication)来表示对连续数值的预测分类与预测示例n一个商场销售主管可能会对影响商品销售的主要因素很感兴趣,若将顾客对商品的感觉分为三类,即:积极、一般和消极。那么利用分类挖掘对商场销售商品情况进行挖掘,就可以获得利用商品特征来预测顾客对其的感觉的分类知识,相关的商品特征通常包括:价格、品牌、产地、类型和种类等。而所获得的分类规则显然将帮助商场主管更有效开展商品的促销活动分类:应用1n直销n目标:识别出可能购买某种新型手机产品的顾客,从而降低营销成本.n方法:使用已有的类似产品的数据

    12、已知哪些顾客购买了,而哪些没有,这个 买,不买 的决策构成了类标签.收集这些顾客的各种人口的、生活方式和与公司业务有关的信息 行业类型,居住地方,收入等.使用这些信息作为输入属性来学习分类器模型分类:应用2n欺诈检测n目标:预测出信用卡交易中的欺诈行为n方法:使用信用卡交易和持卡人信息作为属性 标注以往的交易为正常或者欺诈交易,形成了类别标签 针对交易类别学习模型.针对某些信用卡账户交易情况,使用该模型来检测是否欺诈交易聚类分析n给定聚类分析的数据,以及度量数据对象之间相似度的计算公式,对象划分为若干组或簇(clusters),使得:n各簇(clusters)内部数据对象间的比较相似n各簇(c

    13、lusters)对象间不相似分类与聚类n分类预测方法学习获取分类预测模型所使用的数据是已知类别归属(class-labeled data),属于有指导的学习方法;n聚类分析所分析处理的数据均是无(事先确定)类别归属,类别归属标志在聚类分析处理的数据集中是不存在的。因此聚类分析属于无指导的学习方法。聚类:应用1n市场细分 目标:将一个市场划分为若干个客户群体,将每个群体分别作为营销目标,使用不同的营销组合手段进行营销 方法:收集客户的不同属性,包括地理信息、生活方式相关信息等 找出相似客户的群体 通过观察并比较相同簇的客户的购买模式和不同簇的客户的购买模式,评价聚类的质量聚类:应用2n文档聚类

    14、目标:根据文档中包含的重要关键词,将文档集合划分为若干个组.方法:找出每个文档中频繁出现的词,基于词的频率,构建相似性度量,使用该相似性度量公式来聚类回归分析:定义n回归分析(regression analysis)是研究变量之间的相关关系的一种统计方法。一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数。n通俗地讲,回归分析是研究一个或几个影响因素与结果之间的数学关系,即经验公式。例如,人的身高和体重之间是否有数学关系,即是否有经验公式?这就是回归分析法。回归分析的类型n从自变量的数量分为:一元回归是指一个可以精确观测或严格控

    15、制的变量X,即自变量与因变量Y之间的回归关系。多元回归的统计思想与处理方法与一元回归基本相同,只不过自变量不止一个。n从是否满足线性关系分为:如果回归曲线是线性的(如y=a*x1+b*x2+c),称为一元线性回归。更复杂的回归:有时一元回归曲线不是线性,这时需要用多项式回归或指数回归建立数据模型。回归分析的例子一元线性回归方程用一条直线来模拟两个变量间的关系关联规则挖掘的定义n给定一个记录集合,每个记录由若干项(item)构成n产生依赖规则,使得根据一些项的出现可以预测另一些项的出现TID 项项 1 面包面包,可乐可乐,牛奶牛奶 2 啤酒啤酒,面包面包 3 啤酒啤酒,可乐可乐,尿布尿布,牛奶牛

    16、奶 4 啤酒啤酒,面包面包,尿布尿布,牛奶牛奶 5 可乐可乐,尿布尿布,牛奶牛奶 关联规则挖掘:应用1n市场促销 假设发现的一条规则是面包,-薯条 薯条作为后件=可以用于确定如何才能提升其销量 面包作为前件=可以知道如果商店不卖面包的话,哪些商品会受到影响 面包作为前件,而薯条作为后件=可以用于确定将什么商品和面包一起销售可以提升薯条的销量关联规则挖掘:应用2n超市货架管理 目标:找出被很多用户一起购买的商品 方法:对POS数据进行处理,发现商品之间的依赖规则 经典规则-如果一个顾客买了尿布和牛奶,那么他很有可能也会买啤酒 智力玩具与减肥药提纲数据统计分析什么是数据挖掘数据挖掘流程数据挖掘任务

    17、数据挖掘应用数据挖掘在各产业的应用n金融服务业客户贡献度分析、信用评分、风险评估、客户划分、交叉营销等。n保险业顾客贡献度分析、信用评分、风险评估、客户划分、交叉营销、客户流失分析和诈欺侦测等。n电信业 顾客贡献度分析、信用评分、客户区隔、交叉营销、客户流失分析、销售预测和诈欺侦测等。数据挖掘在各产业的应用n制造业客户贡献度分析、质量管理、营销绩效分析、生产分析和存货分析等。n零售业客户忠诚度、客户区隔、购物篮分析、定价分析、交叉营销和销售预测等。n生物科技、医疗保健、航天空业、环境、法律等习题1.数据统计分析有哪几种方法?2.简述数据统计分析的各种统计特征数的含义。3.数据统计分析和数据挖掘有什么区别?4.陈述分类、聚类、回归分析、关联规则挖掘的区别。5.思考数据挖掘的可能应用场景。

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:大数据的统计和挖掘理论课件.ppt
    链接地址:https://www.163wenku.com/p-4106898.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库