大数据的统计和挖掘理论课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据的统计和挖掘理论课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 统计 挖掘 理论 课件
- 资源描述:
-
1、大数据的统计和挖掘理论数据统计分析什么是数据挖掘数据挖掘流程数据挖掘任务数据挖掘应用统计是什么统计是什么n统计是人类思维的一个归纳过程n站在一个路口,看到每过去20辆小轿车时,也有100辆自行车通过n而且平均每10个轿车载有12个人n于是,你认为小汽车和自行车在这个路口的运载能力为24:100n这是一个典型的统计思维过程统计学统计学n统计学研究的对象是客观事物的数量关系和数量特征,是关于数据收集、整理、归纳和分析的方法论科学,是实证研究的一种最重要方法。统计方法广泛地用于各个领域,起着信息功能、咨询功能、监督功能、辅助决策功能的作用。各个部门要做出决策、执行计划、检查监督、宏观调控等都需要充分
2、、灵通、可靠的统计资料为基础。部分统计数字部分统计数字n“明天降水概率为40”n“我冬天去新加坡度假的概率为10”n“该节目收视率是30%”n“调查结果表明20%的观众喜欢某节目”n“抽样调查结果的误差为3%”n“支持率的95置信区间为(25%,30%)”n“某学校排名第一”n“某县是贫困县”统计分析的做法统计分析的做法n统计可以指导我们收集数据n当拥有来自一些变量(指标)的数据或记录,但缺乏模型来描述这些变量之间关系的情况下,可用统计方法建立模型n在有了一定的模型时,统计可以确定手中数据是否令人信服地支持某种论点.模型也用来对未来进行预测n统计直观的图表展示,可以使各个领域的专家容易理解数据
3、统计分析方法数据统计分析方法n描述统计:n主要指获得数据后,通过分组、有关图表、统计指标等对现象加以描述;n推断统计:n指通过抽样调查等非全面调查,在获得样本数据的情况下,以概率论和数理统计为依据,对总体情况进行科学判断;n建立模型对现象之间的联系进行模拟,对未来情况进行预测。总体与样本n总体(母体):是指在某一次统计分析中研究对象的全体。n个体:组成总体的每个单元(产品)叫做个体。n总体含量(总体大小):总体中所含的个体数,常用N表示。n样本容量(样本大小):样本中所含的样品数目,常用n表示。n抽样:是指从总体中随机抽取样品组成样本的活动过程。n随机抽样:是指要使总体中的每一个个体(产品)都
4、有同等机会被抽取出来组成样本的活动过程。n样本(子样):是指从总体中随机抽取出来并且要对它进行详细研究分析的一部分个体(产品);样本是由1个或若干个样品组成的。抽样方法n简单随机抽样法n又叫随机抽样法,是指总体中的每个个体被抽到的机会是相同的。n系统抽样法n又叫等距抽样法或机械抽样法。n分层抽样法n也叫类型抽样法。它是从一个可以分成不同于总体的总体(或称为层)中,按规定的比例从不同层中随机抽取样品(个体)的方法。n整群抽样法n又叫集团抽样法。是将总体分成许多群,每个群由个体按一定方式结合而成,然后随机抽取若干群,并由这些群中的所有个体组成样本。抽样例子某种成品零件分装在20个零件箱装,每箱各装
5、50个,总共是1000个。如果想从中取100个零件作为样本进行测试研究。简单随机抽样:将20箱零件倒在一起,混合均匀,并将零件从1 1000编号,然后用查随机数表或抽签的办法从中抽出编号毫无规律的100个零件组成样本。系统抽样:将20箱零件倒在一起,混合均匀,并将零件从1 1000编号,然后用查随机数表或抽签的办法先决定起始编号,按相同的尾数抽取100个零件组成样本。分层抽样:20箱零件,每箱都随机抽取5个零件,共100个组成样本。整群抽样:先从20箱零件随机抽出2箱,该2箱零件组成样本。提纲数据统计分析什么是数据挖掘数据挖掘流程数据挖掘任务数据挖掘应用什么是数据挖掘n数据挖掘是从大量数据(包
6、括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。什么是数据挖掘大量的资料型态或规则里面要有矿!信用卡消费资料:假设每人平均有1.5张信用卡,每月平均消费10笔,该行约有150万的客户。就资料量而言,每月约有2,250万笔消费记录,每年约有2亿7千万笔消费记录客户的消费型态或规则数据挖掘和数据统计分析的区别n数据挖掘是数据统计分析的演化和扩展。数据统计分析侧重于人为的被动分析,而数据挖掘侧重于系统根据一些算法主动的发现一些有用的相关信息。数据挖掘需要人工智能、数据库、机器语言和统计分析知识等很
7、多跨学科的知识。为什么需要数据挖掘n企业内产生了大量业务数据,这些数据和由此产生的信息是企业的财富,它如实记录了企业运作的本质状况。n数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果。n“数据挖掘”已成为企业保持竟争力的必要方法。为什么需要数据挖掘n分析和执行能力远跟不上信息的增长提纲数据统计分析什么是数据挖掘数据挖掘流程数据挖掘任务数据挖掘应用数据挖掘工业标准CRISP-DM业务理解n业务理解(Business Understanding)n定义企业目标(Determine Business Objective)n评估企业状况(Assess Situation)n定义数据挖掘
8、目标(Determine Data Mining Goals)n制定项目方案(Produce Project Plan)数据数据理解理解n数据理解(Data Understanding)n收集数据(Collect Initial Data)n描述数据(Describe Data)n探索数据(Explore Data)n验证数据质量(Verify Data Quality)数据准备n数据准备(Data Preparation)n数据集(Data Set)n选择数据(Select Data)n清理数据(Clean Data)n构造数据(Construct Data)n集成数据(Integrate
展开阅读全文