探索性数据分析模板课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《探索性数据分析模板课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 探索 数据 分析 模板 课件
- 资源描述:
-
1、探索性数据分析(2)探索式数据分析统计推理总体和样本建立模型概率分布探索式数据分析科学数据处理数据科学家的角色案例研究探索性数据分析 所谓探索性数据分析(Exploratory Data Analysis,以下简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。数据每天都在产生我们生活的世界是复杂的,随机的和不确定的。同时它又是一个生成大数据的机器。当我们通勤于地铁和出租车时,当我们的血液流经我们的身体时,当我们通过浏览器在因特网购物、发邮件、完成工作和看股票时,当我们行
2、动、饮食、与朋友谈话时,当工厂生产出产品时,所有这一切都在生成数据。1.统计推理一旦你持有了全部数据,你就某种程度上掌握了这个世界或抓住了世界的轨迹。但是你不可能在一个有几百万数据的大型Excel表或数据库上遍历,获取图形,理解现实和处理它所生成的数据。故你需要一个新的理念,去简化这些捕获的数据,使之更加容易理解,方法更加简洁,使得数据适合于建立数学模型和函数。这就是大家知道的统计方法。从现实到数据又从数据回到现实的全过程就叫统计推理。2.总体与样本总体是指某一事物的全体成员。它可以是任何对象,如推特、照片或星球的全体。如果我们可以测度这些对象的特征,我们就要有一个完整的观测集。通常用常数N来
3、表示对于总体的观测数量。总体中的N个单独个体就是样本。获取样本的过程叫采样。3.抽样 当我们抽样时,我们是抽取总体中的一个大小为N的子集,以便对总体进行推理和得出某种结论。从总体取得子集有各种不同的方法。你要确保合理的采样机制,因为它可能为数据带来偏差并扭曲结果。所以样本并不是总体收缩了的“小我”版本。一旦发生这种情况,你的所有结论都是错误的和歪曲了的。抽样案例研究 在BigCorp公司邮件的案例中,你可以制作一个全体雇员的表,然后从所有他们已发送的邮件中随机选择十分之一。这些邮件就是你的样本。你也可以每天从发送的邮件中随机抽取十分之一作为你的样本。两个方法都是有道理的,两方法也都抽取了同样样
4、本个数。但是如果你用得到的样本计算平均每个人发送的邮件个数和用样本来估算BigCorp公司每个雇员发送邮件数的概率分布,你也许会得到完全不同的答案。4.大数据时代的总体和样本 大数据时代我们无时不在地记录所有用户的行为,我们就可以观察所有的事物吗?还需要考虑总体和样本吗?上例中如果我们取得了所有的邮件,我们还需要抽样吗?大数据也需要抽样 在当前大数据的热门讨论中,人们主要聚焦于用Hadoop这样的企业解决方案来应对大数据引起的工程和计算挑战,忽略了抽样这一合理的解决方法。可是在Google公司软件工程师,数据科学家和统计学家一直在使用抽样方法。你需要多少数据取决于你的目标是什么。对于目标为分析
5、和推理来说没必要取得全部时间的全部数据。而在有的情况下,出于服务目的,为了取得正确的信息以润色一个用户界面时(可视化图形),对于特殊的用户就需要全部信息。案例研究:大数据隐含的偏见如果你在飓风桑迪之前和之后立即分析数据。你会认为大部分人在桑迪前在超市购物,桑迪后在举办派对。可是事实是大部分推特用户是纽约人,首先他们比海岸新泽西人用户多得多。其次是海岸新泽西人在担心他们的房子受损去找维护材料,他们没有时间去上推特。换言之,你使用推特的数据来理解的话你会认为飓风桑迪没有那么糟糕。你得出这样的结论是因为你采用了飓风桑迪的推特用户数据的一个子集(他们不能代表全体美国人)。缺席的人因为形势所迫没时间去上
6、推特。如果你没有结合实地情况和充分了解飓风桑迪,你将无法对结果做出正确的解释。5.样本与采样分布 在统计学中我们经常用数学模型来模拟总体与样本之间的关系。故我们总是要做一些能反应真实的简化了的假设。用过程产生的数据来建立数学模型和图形。我们只观察生成过程中特殊的一部分数据,这就叫样本。由这种采样产生的不确定性有个名字叫:采样分布。6.采样取得的新数据类型(传统:十进制数值,二进制)文本:电邮,推特,报刊文章记录:用户级数据,时间戳事件数据,格式化登录文件地理位置信息:网络数据传感器数据图像、视频数据对建立、实施和改进质量管理体系,以增强顾客满意为目标,定期进行管理评审以确保质量管理体系的持续适
7、宜性、充分性和有效性。郑重承诺如下:3、删除资料:从基础资料列表中选择一个准备删除的资料,然后单击【-】,再单击【保存】按钮,则相应的资料将被彻底删除。如果没有单击【保存】按钮而直接单击【退出】按钮,则放弃删除该基础资料的操作;2.1 本合同条款适用于招标邀请书中所述货物及服务的招标项目。3三分笑、期末账务处理的功能:包括月末结转损益;31.5 评标委员会将确定每份投标文件是否完整以及是否对招标文件的要求作出了实质性的响应,没有重大偏离或保留。重大偏离或保留是指:(1)合同货物的图纸、设计或技术规范;4、询标5.7按规定认真填写各项记录,做到资料齐全,数据准确,不得弄虚作假。(1)“合同”系指
8、买方和卖方签署的、合同格式中载明的买卖双方所达成的协议,包括所有的附件、附录和上述文件所提到的构成合同的所有文件。服务人员要注意手部的修饰和保养。手伸出来要干净、整洁,与人握手的时候力度和时间适中,握手要表达诚意和温暖。陪同参观和展示商品的时候手势要简练、准确。此外,还要充分研究客户心理,体现服务的内涵。建立服务价值观7.大数据的定义“大”是相对的。构造一个类似于1PB这样的阈值是没有意义的,它听起来太绝对。只有当数据的数据量大的成为一种挑战时才能称之为“大”。它是一个由于数据量大已经无法求解(内存,外存,复杂性,处理速度都无法满足)时的相对的术语。上世纪七十年代与现在的“大”意义完全不同。“
9、大”指你无法在一台计算机上调试它。不同的公司和个人有不同的适合于他们的计算资源。若作为一个科学家他不能把数据匹配到一个计算机上时就可称之为大,一旦发生它必须去学习新的工具和方法。8.大数据时代不再需要采样吗?有人认为大数据时代特征是:搜集和使用大量的数据而不是采集少量样本可承受数据的混乱放弃追究原因他们进一步认为大数据不需要理解原因,只要给定足够大数据就行了。他们还认为不需要担心采样错误,因为它从字面上讲是沿着真理的轨迹走的。因为在大数据研究中:令样本个数“N=ALL”。真的能做到“N=ALL?事实上是从来做不到。我们往往失去了我们最应该关心的东西。例如就像有人说的那样,因特网监督从来未实施过
10、。因为我们最想抓的非常聪明和技术精良的罪犯从来没有抓住过。因为他们总是先我们一步。大量例子中一个是选举夜间民意测验,即使我们绝对调查了每一个离开测验站的人,我们也任然没有把握谁会决定不来投票。对这些人我们本应该与之谈话使之了解投票意愿的。进一步说,我们关于N=ALL的假设是大数据时代最大的问题。上述案例中,人们不投票的原因包括没有时间,没有意愿和各种未说明的放弃投票的非正常原因。有些人可能做兼职工作并花费时间于通勤中,没有出现而使得统计投票时没有他们。9.数据不是客观的另外一个关于假定N=ALL的依据是数据是客观的。相信数据是客观的或“数据会说话”是完全错误的。而且要当心他们变换其他说法。你试
11、图比较一下以完全相同的资格招收的男雇员和女雇员。你会发现女雇员更容易毫无前兆的离职。与男性比较她们会对工作环境提出更多负面反馈意见。你的模型将在下次招聘时在同样条件下倾向于男性。而没有去检讨你的公司在对待女性方面存在的不足。N=1 对于N=ALL的一个极端说法是N=1。意思是样本的个数为1。在过去样本个数为1是很荒唐的事。你从一个单个的实体上无从做出任何推理。它是如此荒唐。但是N=1在大数据时代具有新的含义。对于一个人我们可以记录海量的信息。事实上,我们为了推理可能从他们的行为和事件上进行了采样(如电话,击键)。这就是用户级的模拟化。10.建立模型 人类用不同表达方式来试图理解他们周围的世界,
12、建筑物的体系属性通过蓝图和缩小的三维形式来表示。分子生物学家用三维可视化连接形式表示蛋白质的结构。数据科学家和统计学家则用代表数据的图形和结构的数学函数来描述数据生成过程中的不确定性和随机性。这种形式就是模型的概念。统计模型 在你进行编程以前最好勾画一张图来显示怎么来处理与你的模型相关的内容。思考一下应首先考虑那些因素?谁影响了谁?什么引起了什么?如何检验它们等?但是不同的人有不同的思维方式。有的人就喜欢用数学术语来表示这些关系。数学表达式一般会含有一些参数,但是参数的值是未知的。在数学表达式中常数用希腊字母表示,数据用拉丁字母表示。例如你有两个数据x和y,它们之间具有线性关系,可以记作y=+
13、x。不知道 和 的实际值。所以它们是参数。有的人喜欢首先用箭头画一个数据流图。显示事物间如如何相互影响和什么事多次发生。这在选择方程前给他们一个形象的图形理解。建模是一种艺术 你有什么诀窍可以生成数据模型吗?事实上建模一半是科学,一半是艺术。尽管建模是所有事情的关键,遗憾的是你在哪里也得不到多少指导。你必须假定许多现实的隐含结构。这也是模型工作的一部分。我们应该有一个标准答案告诉你们如何做出选择和解释,但是现在还没有一个公认的标准。我们只能深思熟虑并反复地去修改它。11.探索性数据分析(Exploratory Data Analysis)一个启动的好方法是做探索性数据分析(EDA)。这就意味着
14、对你的数据集通过绘图来建立直观感觉。EDA很有用,只要你不断尝试,出错和再尝试必有效果。最好的办法就是由浅入深,由简到繁。做你能想到的也许是最愚蠢的事,但它最终结果可能并不坏。比如你可以通过画直方图和散点图来开始观察数据。然后你就记下结果。也许结果会是错误的,但是这没有什么关系。接着按图形选择一个函数。写下来后你自己要仔细想:对这函数有什么感觉吗?为什么没有?将会有什么样的发展?一开始简单,逐步复杂化,做出假设并去验证。你可以使用发散的语句如“我假设我的用户自然地形成5个簇,因为我听到销售代表谈到他们时与五种不同类型人谈话。”。接着你就可以用你自己的话找出方程并开始编程。力求模型简单 记住从简
15、单开始总是好的。在模型的简单和精确之间有一个权衡。简单模型易于解释和理解。通常一个粗放的,简单的模型可达到你90%的目的且只花几个小时就可建立和匹配好。而作一个复杂的模型花几个月也就达到92%的目的。12.样本概率分布没有计算机的时代,科学家观察实际世界现象,对其进行检测,并且记下它频繁出现的数据的表现图形。经典的例子是人类的身高遵从正态分布,形状想一个锺的形状。也叫也叫哥西分布,这是由数学家高斯命名的。其他常用的形状在它们被观察到后都被命名(如普尔森分布和韦伯分布)。其他像伽马分布和指数分布由相应的数学对象而得名。一般是通过实验检测获取的形状来近似逼近于一个带有参数的数学函数。参数可以通过数
展开阅读全文