大数据思维-培训课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据思维-培训课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 思维 培训 课件
- 资源描述:
-
1、大数据思维Big Data Thinking杜小勇中国人民大学信息学院2015年6月13日大数据?大数据是因信息技术特别是数据获取技术的革命性进步而形成的信息爆炸现象,因其规模巨大、类型复杂、产生速度快、价值密度低等因素,对现有信息技术产生巨大挑战,需要运用新理念新理念、新技术、新方法对其进行全生命周期的创新管理和应用,从而促进国民经济的转型升级、社会管理的模式更新,乃至国家综合竞争力的全面提升。数据获取技术的革命性进步 传感器等自动采集的数据 WEB2.0等用户生成数据(UGC)日志等系统自动生成数据Apache Web Server Log 大数据现象Source:Exabytes:Doc
2、umenting the digital age and huge growth in computing capacity,The Washington Post 新理念?大数据时代,我们需要什么样的“新理念”?在思考问题和解决问题的方法上有什么新的特点 通过一些案例来说明大数据时代我们应有的一些思维模式大数据?容量大真实性变化快类型多传统数据库的4个要求 大型:Large Volume 共享:Shared (multi-user)持久:Durable(durability)可靠:Reliable(Reliability)ACID(Atomicity,Consistency,Isolatio
3、n,Durability)High performance:TpmC 类型多(Variety)数据类型多样:结构化、半结构化、非结构化 数据形态各异:流数据、图数据、关系数据 处理要求不同:批处理、联机处理、流式处理 在一个大数据应用 中共存。变化快(Velocity)不是静态的大数据,而是动态变化的数据 不是低频,而是高频 不是更新,而是插入真实性 GIGO是MIS时代的金科玉律 大数据是真实反映,也可能是虚假反映。数据质量问题是新的巨大的挑战用大数据解决问题的新思路 航线网络:顶点3k,边50k 联程设计:根据联程航班搭配规则生成联程航班Model-based approachBig da
4、ta based approach?大数据的价值 大数据将逐渐成为现代社会基础设施的一部分,就像公路、铁路、港口、水电和通信网络一样不可或缺。大数据是信息时代的“石油”,是推动信息经济发展的动力。大数据的价值在于应用 产业转型与升级 提升政府治理能力 促进社会创新发展大数据思维 数据思维 互联网思维 计算思维 1“数据数据”思维思维量化、决策、整合量化、决策、整合1.1量化思维:一切皆可量化!数据是指存储在某种介质上能够识别的物理符号,是对客观事物性质和状态的描述.先有数据再说应用 Stephen Beck 每一天,我们的身后都拖着一条由个人信息组成的长长的“尾巴”点击网页 切换电视频道 驾车
5、穿过自动收费站 用信用卡购物 使用手机 而雅虎、Google这样的公司,正在以平均每人、每月2500条信息的速度,捕获我们的详细数据。科学=数据 科学发专刊,“科学就是数据,数据就是科学”“数据推动着科学的发展”科学2011年2月11日基因测序数据 在人体的基因中,有30亿个碱基对,每个人的不同,就是由碱基对排列差异造成的大数据、大科学 饶毅先生 vs 华大基因的杨焕明院士 之争跟帖评论:生命科学由实验科学正向理论科学转变。大数据,大科学研究思路必然会导致生命科学的变革。人类基因组计划就是一个典型案例。脑科学的一些数字 大脑由数十亿神经元组成,通过数千个突触相互连接;仅大脑皮层中的突触连接数量
6、就超过了160万亿个(万亿1012)用电子显微镜来重建1mm3的大脑(大约一根针的针头)中的所有突触回路,信息量大约在1015字节(1PB)人类大脑包含约106个这样大小的神经组织eScience eScience是信息技术与科学家相遇而催生的新的学科,科学家利用许多不同的方法收集或产生了数据,如何从这些积累起来的海量数据中分析发现科学规律?正是这门学科的目的和任务。如何对海量的数据进行组织、管理和分析挖掘?第四研究范式的提出 数据本身的价值越来越被认识,基于数据的科学发现,被认为是第四研究范式。科学实验 理论推导 仿真计算 基于数据的分析Microsoft Research,2009年10月
7、 James(Jim)Gray 数据库技术和事务处理专数据库技术和事务处理专家家 1944年生,加州大学伯克利分校计算机科学系博士。数据库和事务处理研究专家 1998年获图灵奖(时任微软研究员)2007年1月失联至今个大数据应用 TerraServer:与美国地质调查局合作。引领了基于互联网的地图服务 SDSS斯隆数字巡天项目:与天体物理研究联合会(ARC)合作.后来发展为WWT(world wide telecsope)全球望远镜,全球百性均可观看第四科学范式 几千年前 科学以实验为主 描述自然现象 过去数百年 科学出现了理论研究分支 利用模型和归纳 过去数十年 科学出现了计算分支 对复杂现
8、象进行仿真第四科学范式 今天 将理论、实验和计算模拟统一起来 由仪器收集或者计算模拟产生数据 由计算机存储和处理数据 科学家通过数据分析挖掘软件分析数据,发现规律人文社会学科 马克思说:“人的本质不是单个人所固有的抽象物,在其现实性上,它是一切社会关系的总和。”(马克思恩格斯选集第2版第1卷第60页)人与动物的区别就是人会劳动,而劳动就形成了一定的社会关系。人文社会学科 机理不清 模型难以建立 信息系统客观地记录了大量的”社会关系”,这些大数据库本身可以看作是一个”模型”.BAT 大数据企业企业大数据大数据应用应用百度百度网页数据网页数据搜索数据搜索数据公众行为公众行为阿里阿里电商数据电商数据
9、信用计算信用计算腾讯腾讯社交数据社交数据关系营销关系营销政府治理 业务层次:管理层次:决策层次:例:网格化管理 对社区进行网格化划分 通过视频监控、传感器,以及配置网格管理员,收集信息。将信息上传到一个统一的平台上进行分享和管理大数据治理(Governing)数据质量 数据隐私 数据安全 数据标准 数据溯源1.2 决策思维:让数据说话 决策模式:直觉驱动的决策 拍脑袋的决策,有随意性 逻辑驱动的决策 基于逻辑分析的推理 经验驱动的决策 用数据说话、用数据来 管理、用数据来决策、用数据来创新如何看待大数据?概率论和统计学将经验变成了“科学”数据分布(均匀分布,正态分布,高斯分布,泊松分布,。)数
10、据抽样 假设检验 大数定理大数定理 在随机事件的大量重复出现中,往往呈现几乎必然的规律。在独立同分布的假设下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。例子:抛硬币试验,硬币落下后哪面朝上是偶然的,但是当抛硬币的次数足够多之后就会发现,硬币朝上的次数约占总次数的二分之一。统计机器学习训练训练测试测试预测预测模型线性回归大数定理的假设 这个定理有前提 独立同分布 试验的次数非常大 在很多情况下,这些假设不一定能满足 问题空间的参数太大,训练数据对问题空间的覆盖度不大 试验条件在变化,不能满足独立同分布“经验”思维 崇尚“经验主义”、让数据本身说话要全部数据,不要抽样!模型
11、不再那么重要,让数据说话 “All models are wrong,but some are useful.”-统计学家George Box “All models are wrong,and increasingly you can succeed without them.”-Peter Norvig案例:语言翻译 通过搜索去找到相同或者相似的句子,直接返回结果百度:如果你不离开我,我们会死在一起四级:你如果不离开我,我就和你同归于尽。六级:你若不离不弃,我必生死相依。If you do not leave me,we will die together.搜索引擎案例:IBM沃森问答系统
展开阅读全文