大数据与数学研究课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据与数学研究课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 数学 研究 课件
- 资源描述:
-
1、大数据与数学研究大数据与数学研究目录目录第一部分大数据及其面临的挑战第二部分大数据分析与处理中的关键科学问题第三部分关于若干大数据科学问题的研究第四部分结语什么是大数据?什么是大数据?数据数据l历史的记录、交易的轨迹、过程的监控、 经验的累积、l数据: 以编码形式存在的信息载体,是真实世界的碎片化反映记录文件报告表格视频图片歌曲ZB(1021),EB(1018),PB(1015),TB(1012),GB(109),MB(106)数据的常见形式什么是大数据?什么是大数据?常规定义常规定义大数据是指无法在容许的时间内用常规的软件工具对其内容进行抓取、管理和处理的数据集合,大数据规模的标准是持续变化
2、的,当前泛指单一数据集的大小在十几TB和PB之间。(维基百科)l 具有数量大、增长快、类型多、价值密度低等4V特征的数据集。Volumel PBZB 量级l 不可能集中存储l 不可能集中处理l 动态增长、时变l 以数据流呈现,有时 效性l 形式、来源多样l 冗余、不完全并存l 非结构化 l 存在大价值l 但依赖整体 l 价值密度低VelocityVarietyValue大数据=现有数据处理技术难以处理的超大规模数据什么是大数据?什么是大数据?泛化定义泛化定义泛指一个时代、一项技术、一种文化、一个挑战。(通常也是大数据集、大数据技术与大数据应用的总称)拥有大数据是时代特征、解读大数据是时代任务、
3、应用大数据是时代机遇!(大数据时代)能够对复杂海量数据进行实时获取、传输、存储、加工和利用的高新技术!(大数据技术)我们信奉上帝,除了上帝任何人都要以数据说话!(大数据文化)现有的数据采集、传输、存储、处理与分析技术己无法适用于现有的需要!(大数据挑战)什么是大数据?什么是大数据?更本质的定义更本质的定义“大”是一个相对的概念反映真实世界的数据(碎片)其量己达到可以从一定程度上反映其真实面貌的程度。大数据(量变 质变)为什么大数据会热?为什么大数据会热?是必然还是炒作?是必然还是炒作?数字化(Digitization) 数据化(Datafication)物联网作为联接人、机、环境的基本交互方式
4、大数据处理与分析是信息处理的基本形式新一轮信息技术革命互联网、云存储作为基本的基础设施服务计算作为计算机应有的基本模式l 新一轮信息技术革命与人类社会经济活动交汇融合必然产生大数据;l 大数据从信息载体这一底层 (一个更普适、更本质的角度)捕捉到了信息化的共性基础、未来发展与普适技术。大数据及其面临的挑战大数据及其面临的挑战 发展大数据技术是国家战略重要性:社会媒体、人口流动、居住交通数据交通流、医疗、商业、环境、劳动力等数据医疗、医保、健康、影像等大数据环境、气象、交通、社会发展等大数据突发事件预测、关键人群监测城市智慧管理环境治理医疗诊断方案大数据技术:有关如何收集、整理(存储)、解读和应
5、用大数据的理论与方法l 大数据技术是解决众多国家重大现实需求问题的共性基础大数据及其面临的挑战大数据及其面临的挑战l 大数据技术是一个国家创新能力的核心要素及核心竞争力指标:它能帮助人们从大数据中发现新知识,创造新价值,形成新理念,因而是认知世界与改 造 世 界 的 能 力 (即国家创新驱动发展的一种能力) 大数据具有重大的科学社会经济价值价值:大数据及其面临的挑战大数据及其面临的挑战 在大数据技术中,分析与处理是核心核心:数据是基础、平台是支撑、分析是核心、效益是根本领域科学问题一:大数据资源管理与公共政策领域科学问题二:大数据高效获取、 存储、调用与处理的信息技术领域科学问题三大数据分析与
6、处理的统计学与计算基础领域科学问题四大数据工程(结合领域的大数据应用)数据获取与数据管理数据存储与处理数据分析与理解结合领域的大数据应用l 大数据技术需要多学科综合研究数据价值(MIT Technology Review, 2015)大数据及其面临的挑战大数据及其面临的挑战统计(电商、语音识别等)查询(google翻译、风险、信用评估等等)比对(电商等)排序(网页排序、推荐系统等)融合(互联网)预处理(对齐、配准、标准化等)发展趋势预测(负荷预测等)共性结构发现(电力客户细分等)模式识别(设备故障诊断等)关联性(设备交叉故障等)关键要素分析(售电量影响因素分析等)优化与控制(电力调度等)处理分
7、析大数据及其面临的挑战大数据及其面临的挑战l 聚焦大数据分析与处理具有紧迫性 据IDC统计数据显示,中国目前拥有的数据量占全球的14%(己收集),但数据利用率不到0.4%,大量的数据“沉睡”在各个角落,未发挥应有作用。大数据大分析大垃圾大价值公众要的是答案、不是数据!大数据及其面临的挑战大数据及其面临的挑战分析目标的改变数据特征的改变中小规模、固定尺寸、非时变、单一结构、集中存储超大规模、分布存储、流数据、超高维、多源异构等;寻找统计规律,因果分析为主关联性分析,支持智能决策l 样本等于母体?l 相关性能替代因果性?l 大数据推出来的才是真的?l 数据足够多可代替理论? Big Data or
8、 Big Mistake?- Financial times,2014- Science,2014认识论上的困惑(从数据到模式、从模式到知识、从知识到决策每一个阶段都需要猜想、假设和理论的支撑)! 认识论上的困惑 挑战一:方法论上的冲击l 分析基础被破坏(统计学基础、计算理论基础、逻辑等)l 计算模式受拷问(异构环境下的多粒度分布并行计算)l 处理算法不可用(必须采用新计算模式,形成新方法论)l 真伪性更加难以判定(基础不牢,地动山摇!)大数据及其面临的挑战大数据及其面临的挑战l 独立同分布被破坏l 大数定理和中心极限定理的条件(样本数 维数) D. Lazer, et al., The Pa
9、rable of Google Flu: Traps in Big Data Analysis, Science, 2014Google Flu Trends: 大量误报流感爆发规模。(Estimating high 100 out of 108 weeks)l P值检验的基础被破坏 Statically Hypothesis Inference Testing (SHIT!). 对于一大类问题应用,P = 0.01 导致11%的误报率; 而P = 0.05 导致29%的误报率! R. Nuzzo, Statistical Errors, Nature, 2014 方法论上的冲击挑战二:立项依
10、据立项依据(为什么聚焦分析与处理?)(为什么聚焦分析与处理?)谣言比真理多、科学内涵的探讨少、局部有进展(偏重架构、应用与实践方面探索),但缺少对科学问题的系统研究。核心基础和共性技术尚未建立起来。国内外处于同一水平。l以压缩感知为代表的处理高维数据的稀疏性理论与方法(L1, L1/2, SCAD)l以卷积神经网络为代表的深度学习算法(尤其对于图像大数据)l以经验级联贝叶斯(EHB)方法为代表的多粒度并行计算模式和结构发现方法l以hadoop、spark、神经计算机为代表的分布式计算架构l以排序与搜索、排序学习、参数服务器等为基础的互联网应用实现全球首部稀疏微波成像验证性原理样机深度网络 对于
11、上述挑战性问题,近年来科学界与产业界都开展了广泛的探索与实践,取得一批令人振奋的结果。 动态:大数据及其面临的挑战 聚焦大数据分析与处理的核心基础与共性关键技术研究,力求在分析基础、处理算法、真伪性判定、结合典型领域的示范应用等方面取得突破,为各行各业大数据应用提供科学支撑和共性技术支撑。 国家应有大数据重大战略对策建议:大数据及其面临的挑战l 切入好:大数据技术涉及方方面面,但分析与处理是核心。经过近几年的“期望膨胀期”之后的冷思考,对其中科学问题有了更准确的把握,对研究方法有了初步尝试 有了开展研究的基础。大数据及其面临的挑战l 机遇多:数据分析与处理是中国人擅长领域,有优良传统和较深厚的
12、积累,尤其是通过近年来的反复研讨与实践,对解决大数据分析中关键科学问题有了一些新的解决思路,再加之,国家重视、产业倒逼都是难得机遇,为该领域的突破带来了可能 有了取得突破的可能。“在大数据科学平台、干细胞与再生医学等满足国家重大需求的领域方向、我国可能实现重大科技突破的领域以及世界可能发生重大科技事件的领域加快或加强重大科技布局”。认为大数据科学平台是满足国家重大需求的领域方向和我国可能实现重大科技突破的领域。良好积累,有取得突破、占据领先的可能中央重视,有体制优势产业倒逼,有创新驱动的原始驱动力大数据及其面临的挑战l 正当时:“研究大数据、投资大数据”已是当下蜂踴而至、热情至高的价值取向与选
13、择。谁为如此高涨的大众热情负责?解决大数据发展基础与共性技术问题,引导大数据产业健康可持续发展是国家责任。NSFC应有的承担 学界期盼为此共同努力!目录目录第一部分大数据及其面临的挑战第二部分大数据分析与处理中的关键科学问题第三部分关于若干大数据科学问题的研究第四部分结语大数据关键科学问题大数据关键科学问题(挑战的进一步分析)(挑战的进一步分析)方法论上的冲击l 分析基础被破坏(统计学基础、计算理论基础、逻辑等)l 计算模式受拷问(异构环境下的多粒度分布并行计算)l 处理算法不可用(必须采用新计算模式,形成新方法论)l 真伪性更加难以判定(基础不牢,地动山摇!)挑战一挑战二挑战三分析基础被破坏
14、处理模式需革新决策应用缺基础挑战一(分析基础被破坏)l 统计学基础被破坏 (Nature,2014)l 计算理论必须重建n 对大数据计算如何定义可解?n 对大数据计算如何区别难和易?n 对大数据如何度量计算复杂性? (时间十存储十通讯十能耗?)基于线性的相关性不再能完全刻画随机变量之间的相关;破坏表示基底的无关性假设 破坏建模f(x,y,z)中对x,y,z的独立性假设!数据可能随时间变化( ), 具有了生命周期且活性发生变化,分析结果(如聚类 Cluster( ))对t具有某种稳定性吗?(t)D(t)D目标一科学问题一大数据分析与处理的统计学与计算基础 在大数据分析与处理的统计学与计算基础方面
15、取得突破性进展,建立起若干新的理论,推动形成数据科学的基础理论体系。以线性回归为例, 中 对于高维未必总是成立(原因:高维时 难保证 与X中某些分量不相关;或者在线性相关的意义下,所选变量X无法完全刻画响应) 变量选择与预测失效! Y=aTX+e E(Xe)= 0 X=(x1,x2,xp)e破坏p/n-0的假设(典型例子:DNA的维度p=30亿碱基对,样本个数n = 病人数,显然p/n为很大的数,并不趋于0!) 大数定律和中心极限定理不再成立!大数据关键科学问题大数据关键科学问题(挑战的进一步分析)(挑战的进一步分析)挑战二(处理模式需革新)n 环境:单一结构(CPU,MIC) 混合结构(CP
16、UGPUMIC共存协作计算)n 程序:串行程序设计 MPI并行 多粒度异构分布并行 n 模式1:计算密集型 数据密集型 混合型(计算密集型数据密集型)n 模式2:传统并行 分布式并行l 计算模式更新l 传统算法失效n 分布式计算可行吗? n 解什么时候可组装?n 流数据如何高效处理?n 随机计算高效吗?n 异构并行可靠吗? (大数据基础算法)基于基于Hadoop的处理可行吗?所出现的几个算的处理可行吗?所出现的几个算法并没有理论上的可行性支持!法并没有理论上的可行性支持!X X1 1X X2 2X X3 3X Xn n随机机制随机机制D1DkDm.聚合聚合机制机制1f2fmff目标二科学问题二
17、大数据分析与处理的新型计算模式与高效算法 提出适应异构计算环境下多粒度分布并行计算模式的系列高效算法(大数据算法),形成大数据处理的领先核心技术。大数据关键科学问题大数据关键科学问题(挑战的进一步分析)(挑战的进一步分析)目标三科学问题三挑战三(决策应用缺基础)面向典型领域的基于大数据的科学发现及其方法论依据 在国家重大需求的若干典型领域,形成大数据分析与处理的行业核心技术,促进相应领域科学发现新模式的形成,推动各行各业利用大数据的能力与水平。n 大数据行业应用需求旺盛,但缺乏有效的共性技术支撑与理论指导;n 基于大数据的科学发现(所谓的第四范式)仍缺乏有效的方法论支撑与理论基础;n 基于大数
18、据的科学发现真伪性判定更加困难l 决策分析少基础 (Financial Times,14)n 以查询、简单模型为基础的大数据决策方式其逻辑基础何在?n 如何评价其有效性、可靠性?l 行业应用缺支撑大数据关键科学问题大数据关键科学问题(挑战的进一步分析)(挑战的进一步分析)大数据关键科学问题大数据关键科学问题 如何从大数据中获取知识、支撑决策、赢得价值? l支持大数据分析与处理的统计学基础与计算基础;l大数据分析与处理的新型计算模式与高效算法;l面向典型领域的基于大数据的科学发现及其方法论依据。科学问题科学问题(1个中心个中心3个问题)个问题) 数据表示与数据建模 分析理论与分析方法 计算模式与
19、计算方法 决策分析与真伪评价 主要研究大数据的高效表示及相应的计算建模方法论:主要研究内容1: 大数据表示与大数据建模 l 大数据的表示理论与方法(新型编码、基于特征的表示、隐结构表示、异构数据的统一表示)l 大数据抽样理论(对样本总体的推断、数据的集约表示、支持分布随机处理的抽样理论)l 稀疏建模的理论与方法(高阶、非线性稀疏性理论与方法)l 高维数据建模的理论与方法(降维、高维统计推断等)l 高不确定性数据的建模(统计、概率、逻辑、认知模型等)1大数据关键科学问题大数据关键科学问题 主要研究大数据分析的统计学、计算理论基础与共性分析方法等:主要研究内容2: 大数据分析理论与大数据分析方法
20、l 大数据分析的统计学新理论(相关性问题、伪相关问题、超高维问题、内生性问题、稳定性问题等)l 大数据计算的复杂性理论(重建可解性理论、复杂性理论、设计可行近似算法等)l 大数据机器学习与数据挖掘新方法(针对流数据、分布式数据、超高维数据、高度不确定性数据的基础算法,等)l 大数据可视分析方法(高维特征提取、几何空间化方法等)2大数据关键科学问题大数据关键科学问题 主要研究分布式环境下的大数据分析与处理的新型计算模式与基础算法:主要研究内容3: 大数据计算模式与大数据计算方法 l 分布实时计算问题(分布并行的计算架构与编程新模型、分布式计算的可行性理论、大数据算法设计等)l 现代超算问题(异构
21、计算环境下的计算优化、多粒度分布式并行环境下的新编程模型、大数据超算算法等)l 非结构化信息处理(异构数据的统一表示与分析方法、基于认知的非结构化信息处理方法等)l 多源异构信息融合(多模态异构数据的融合表示与推理、多母体数据的统计推断、跨领域迁移学习等)3大数据关键科学问题大数据关键科学问题 结合典型领域,验证并展示所发展的新理论与新方法的有效性,形成相应领域基于数据科学发现的方法论:主要研究内容4: 大数据决策分析与结果真伪评价 l 基于大数据分析决策的逻辑基础l 大数据科学发现的可证实性方法与验证方法l 典型领域的基于大数据的科学发现:4n 社会安全(基于多源数据融合的群体监测与事件发现
22、) n 医疗健康(医疗影像数据分析处理、医保与体检数据分析)n 电力调控(市场环境下电网运营、运行、调度策略)n 高铁安全(高铁运行监控、安全态势评估等)大数据关键科学问题大数据关键科学问题 解决若干统计学基础、计算理论基础方面的关键问题;提出一批新概念、新理论和新方法,形成数据科学基础理论体系。 创立大数据算法设计方法学,提出大数据分析与处理的系列基础算法,形成具有独立自主知识产权的核心技术族。 选择23个国家重大需求牵引的典型领域,提出大数据问题解决系统方案并在应用上取得突破,形成领域相关的科学发现新模式与行业应用核心技术。大数据分析基础大数据处理算法大数据应用示范大数据关键科学问题大数据
23、关键科学问题(期望突破)(期望突破) 提出大数据相关性新度量; 提出并发展稀疏性超高维统计推断和检验新理论; 建立伪相关判定准则和基于内生性的超高维统计建模理论; 提出流数据、分布数据情形下的可解性与难解性理论及方法。 在异构分布式计算模式下,系统建立聚类、分类、回归、相关性分析、大规模线性代数问题求解等大数据处理基础算法。 在国家安全、医疗健康、电力调控、高铁安全等国家重大需求领域, 应用大数据技术取得突破性成果,形成领域相关的科学发现新模式与行业应用核心技术。 大数据分析基础大数据处理算法大数据应用示范大数据关键科学问题大数据关键科学问题(期望突破)(期望突破)目录目录第一部分大数据及其面
24、临的挑战第二部分大数据分析与处理中的关键科学问题第三部分关于若干大数据科学问题的研究第四部分结语关于若干大数据科学问题的研究关于若干大数据科学问题的研究 大数据分析与处理是传统统计学分析、智能信息处理(机器学习、数据挖掘)、数据库技术的延伸和发展。在这些领域,国内己经形成了一批优势的研究群体,并取得一批国际领先/先进水平的研究成果。马志明院士徐宗本院士鄂维南院士李国杰院士高文院士李未院士关于若干大数据科学问题的探索关于若干大数据科学问题的探索西安交大课题组的研究l 超高维问题:稀疏建模理论与方法l 大数据算法设计问题:方法论与分布式计算l 非结构化信息处理问题:视觉模拟算法关于超高维问题大数据
25、超高维问题大数据超高维问题大数据超高维问题:“决策要素()伴随大数据规模(n)呈现更高量级”所引起的解的不适定性与经典统计推断失效问题。经典统计学:np;高维问题:pn; 大数据高维问题:p=O(exp(n), n -.y=b1x1+b2x2+,bpxp线性模型:数据:D=(x1,y1),(x2,y2),(xn,yn)p 基本科学问题 l如何补足信息使问题可解?l高维统计推断l超高维数据的低维特征表示 研究热点:利用稀疏性先验(压缩感知、低秩分研究热点:利用稀疏性先验(压缩感知、低秩分解、高阶与非线性稀疏)解、高阶与非线性稀疏)关于高维问题的研究关于高维问题的研究(稀疏性先验)(稀疏性先验)(
展开阅读全文