天文大数据课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《天文大数据课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 天文 数据 课件
- 资源描述:
-
1、大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。在维克托迈尔-舍恩伯格及肯尼斯库克耶编写的大数据时代1 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。图为:图为:2014年年6月月9日,中国科学院第十七次院士大会、中国工程院第十二次院士大会在北京人民大会堂隆重开幕。习近平出席会议并发表重要讲话。日,中国科学院第十七次院士大会、中国工程院第十二次院士大会在北京人民大会堂隆重开幕。习近平出席会议并发表重要讲话。图为:图为:2017年,李克强总理在两会政府工作报告的发言。年,李克强总理在两会政府工作报告的发言。Dat
2、a is the sword of the 21st century,those who wield it well,the Samurai.“数据是数据是21世纪的利剑,谁善于驾驭世纪的利剑,谁善于驾驭它,谁就是武士!它,谁就是武士!Gareth James教授教授南加州大学马歇尔商学院副院长南加州大学马歇尔商学院副院长 George Djorgovski教授教授 加州理工学院天文系教授 高级计算研究中心联合主任 计算天体物理元研究所所长大数据大数据人工智能人工智能截止截止20142014年,数据日产量年,数据日产量2.3ZB2.3ZB(2.31021)截止截止20122012年,数据日产量
3、年,数据日产量2.5EB2.5EB(2.51018);10未标注数据缺口未标注数据缺口:大部分有用的数据没有标注大部分有用的数据没有标注或分析或分析-部分来自技术的缺部分来自技术的缺乏。乏。IDC 预测预测:从从2005年年2020年年,数字宇宙每数字宇宙每两年增长一倍,从两年增长一倍,从30 exabytes涨到涨到 40,000 exabytes或者到或者到2020年人均数据年人均数据量量 5,200 GB.BitBit1 1或或0 0ByteByte8 8位位KBKB2 21010或或10241024字节字节MBMB2 22020或或10241024千字节千字节GBGB2 23030或或
4、10241024兆字节兆字节TBTB2 24040或或10241024吉字节吉字节PBPB2 25050或或10241024太字节太字节EBEB2 26060或或10241024拍字节拍字节ZBZB2 27070或或10241024艾字节艾字节YBYB2 28080或或10241024泽字节泽字节除了上帝,任何人都必须用数据说话除了上帝,任何人都必须用数据说话。-涂子沛著涂子沛著“大数据大数据”The Data GapDPOSSThe Palomar Digital Sky SurveyFinished3 TB2MASSThe Two Micron All-Sky SurveyFinished
5、10 TBGBTGreen Bank TelescopeFinished20 TBGALEXThe Galaxy Evolution ExplorerOperating30 TBSDSSThe Sloan Digital Sky SurveyOperating40 TBSkyMapper Southern Sky SurveyOperating500 TBPanSTARRSThe Panoramic Survey Telescope and Rapid Response SystemOperating 40 PB expectedLSSTThe Large Synoptic Survey Te
6、lescopeIn Plan 200 PB expectedSKAThe Square Kilometer ArrayIn Plan 4.6 EB expectedn在各个领域,数据产生率、数据量和数据的复杂性呈指数级增长(摩尔规律),每1.5年增长一倍。n这为如何从如此巨大的数据中得到新的发现提供了新的机遇和挑战n在天文学领域,数字化巡天是大数据产生的源泉,目前正步入PB级阶段n第一范式 实验或测量n第二范式 理论分析n第三范式 数值模拟n第四范式 数据密集型科学Data Fusion+DM+ML2007年年1月图灵奖得主、月图灵奖得主、关系数据库的鼻祖关系数据库的鼻祖Jim Gray消失消
7、失假设/理论实验理解理解假设/理论数据探索模式发现数据集数据流两种方法互补两种方法互补数据量指数级增长数据量指数级增长 数据复杂性数据复杂性摩尔规律增长摩尔规律增长 复杂现象的理解需要复杂的数据复杂现象的理解需要复杂的数据数据的变化数据的变化数据匮乏数据匮乏 数据过剩数据过剩数据集数据集 数据流数据流静态数据静态数据 动态演化数据动态演化数据任意时刻任意时刻 实时数据实时数据数据集中数据集中 数据分布数据分布数据所有权数据所有权 领域所有权领域所有权n信息量的指数增长导致大多数数据大的人们无法看信息量的指数增长导致大多数数据大的人们无法看n这就需要存储技术、网络技术、数据库相关技术和标准等这就
8、需要存储技术、网络技术、数据库相关技术和标准等n数据的复杂性导致许多知识被掩盖而难以获得数据的复杂性导致许多知识被掩盖而难以获得n大多大多(不是所有的不是所有的)经验关系是建立在经验关系是建立在3 3维参数空间基础上的,如椭圆维参数空间基础上的,如椭圆 和核球星系的基平面。宇宙就是这么简单还是人类认知的偏见?和核球星系的基平面。宇宙就是这么简单还是人类认知的偏见?n信息日益复杂性导致大部分数据人们是无法直接理解信息日益复杂性导致大部分数据人们是无法直接理解n这就需要数据挖掘、知识发现、数据理解技术、超高维可视化、这就需要数据挖掘、知识发现、数据理解技术、超高维可视化、人工智能人工智能/机器帮助
9、的发现机器帮助的发现天文统计学和天文信息学的兴起!天文统计学和天文信息学的兴起!“手工时代”“工业时代”“信息时代”“大数据时代”信息技术的进步带动天文学的发展信息技术的进步带动天文学的发展望远镜和仪器仅仅是获得数据的前端设备望远镜和仪器仅仅是获得数据的前端设备1980 1990 2000 2010 2020 MB GB TB PB EBCCDs Surveys VO AstroInfo Image Proc LSST Pipelines SKA Databases Machine Learning AI天文数据的特点天文数据的特点n空间性空间性n多波段性多波段性n海量性海量性n非线性非线性n
10、异构性异构性n缺值性或坏标记缺值性或坏标记n分布性分布性n高维性高维性n时序性时序性n开放性开放性n光谱数据光谱数据n图像数据图像数据n星表数据星表数据n时序数据时序数据n模拟数据模拟数据早型星早型星晚型星晚型星气体气体气体气体星系星系l矮星光谱分类O B A F G K M L T l恒星光谱序列(温度序列):恒星光谱序列(温度序列):O B A F G K M L T O B A F G K M L Tn基于多波段数据,应用了基于多波段数据,应用了K K近邻近邻 方法预测类星体的测光红移预测,方法预测类星体的测光红移预测,发现随着波段的增多,红移预测发现随着波段的增多,红移预测 精度有所增
展开阅读全文