书签 分享 收藏 举报 版权申诉 / 64
上传文档赚钱

类型天文大数据课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:3494976
  • 上传时间:2022-09-07
  • 格式:PPT
  • 页数:64
  • 大小:14.79MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《天文大数据课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    天文 数据 课件
    资源描述:

    1、大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。在维克托迈尔-舍恩伯格及肯尼斯库克耶编写的大数据时代1 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。图为:图为:2014年年6月月9日,中国科学院第十七次院士大会、中国工程院第十二次院士大会在北京人民大会堂隆重开幕。习近平出席会议并发表重要讲话。日,中国科学院第十七次院士大会、中国工程院第十二次院士大会在北京人民大会堂隆重开幕。习近平出席会议并发表重要讲话。图为:图为:2017年,李克强总理在两会政府工作报告的发言。年,李克强总理在两会政府工作报告的发言。Dat

    2、a is the sword of the 21st century,those who wield it well,the Samurai.“数据是数据是21世纪的利剑,谁善于驾驭世纪的利剑,谁善于驾驭它,谁就是武士!它,谁就是武士!Gareth James教授教授南加州大学马歇尔商学院副院长南加州大学马歇尔商学院副院长 George Djorgovski教授教授 加州理工学院天文系教授 高级计算研究中心联合主任 计算天体物理元研究所所长大数据大数据人工智能人工智能截止截止20142014年,数据日产量年,数据日产量2.3ZB2.3ZB(2.31021)截止截止20122012年,数据日产量

    3、年,数据日产量2.5EB2.5EB(2.51018);10未标注数据缺口未标注数据缺口:大部分有用的数据没有标注大部分有用的数据没有标注或分析或分析-部分来自技术的缺部分来自技术的缺乏。乏。IDC 预测预测:从从2005年年2020年年,数字宇宙每数字宇宙每两年增长一倍,从两年增长一倍,从30 exabytes涨到涨到 40,000 exabytes或者到或者到2020年人均数据年人均数据量量 5,200 GB.BitBit1 1或或0 0ByteByte8 8位位KBKB2 21010或或10241024字节字节MBMB2 22020或或10241024千字节千字节GBGB2 23030或或

    4、10241024兆字节兆字节TBTB2 24040或或10241024吉字节吉字节PBPB2 25050或或10241024太字节太字节EBEB2 26060或或10241024拍字节拍字节ZBZB2 27070或或10241024艾字节艾字节YBYB2 28080或或10241024泽字节泽字节除了上帝,任何人都必须用数据说话除了上帝,任何人都必须用数据说话。-涂子沛著涂子沛著“大数据大数据”The Data GapDPOSSThe Palomar Digital Sky SurveyFinished3 TB2MASSThe Two Micron All-Sky SurveyFinished

    5、10 TBGBTGreen Bank TelescopeFinished20 TBGALEXThe Galaxy Evolution ExplorerOperating30 TBSDSSThe Sloan Digital Sky SurveyOperating40 TBSkyMapper Southern Sky SurveyOperating500 TBPanSTARRSThe Panoramic Survey Telescope and Rapid Response SystemOperating 40 PB expectedLSSTThe Large Synoptic Survey Te

    6、lescopeIn Plan 200 PB expectedSKAThe Square Kilometer ArrayIn Plan 4.6 EB expectedn在各个领域,数据产生率、数据量和数据的复杂性呈指数级增长(摩尔规律),每1.5年增长一倍。n这为如何从如此巨大的数据中得到新的发现提供了新的机遇和挑战n在天文学领域,数字化巡天是大数据产生的源泉,目前正步入PB级阶段n第一范式 实验或测量n第二范式 理论分析n第三范式 数值模拟n第四范式 数据密集型科学Data Fusion+DM+ML2007年年1月图灵奖得主、月图灵奖得主、关系数据库的鼻祖关系数据库的鼻祖Jim Gray消失消

    7、失假设/理论实验理解理解假设/理论数据探索模式发现数据集数据流两种方法互补两种方法互补数据量指数级增长数据量指数级增长 数据复杂性数据复杂性摩尔规律增长摩尔规律增长 复杂现象的理解需要复杂的数据复杂现象的理解需要复杂的数据数据的变化数据的变化数据匮乏数据匮乏 数据过剩数据过剩数据集数据集 数据流数据流静态数据静态数据 动态演化数据动态演化数据任意时刻任意时刻 实时数据实时数据数据集中数据集中 数据分布数据分布数据所有权数据所有权 领域所有权领域所有权n信息量的指数增长导致大多数数据大的人们无法看信息量的指数增长导致大多数数据大的人们无法看n这就需要存储技术、网络技术、数据库相关技术和标准等这就

    8、需要存储技术、网络技术、数据库相关技术和标准等n数据的复杂性导致许多知识被掩盖而难以获得数据的复杂性导致许多知识被掩盖而难以获得n大多大多(不是所有的不是所有的)经验关系是建立在经验关系是建立在3 3维参数空间基础上的,如椭圆维参数空间基础上的,如椭圆 和核球星系的基平面。宇宙就是这么简单还是人类认知的偏见?和核球星系的基平面。宇宙就是这么简单还是人类认知的偏见?n信息日益复杂性导致大部分数据人们是无法直接理解信息日益复杂性导致大部分数据人们是无法直接理解n这就需要数据挖掘、知识发现、数据理解技术、超高维可视化、这就需要数据挖掘、知识发现、数据理解技术、超高维可视化、人工智能人工智能/机器帮助

    9、的发现机器帮助的发现天文统计学和天文信息学的兴起!天文统计学和天文信息学的兴起!“手工时代”“工业时代”“信息时代”“大数据时代”信息技术的进步带动天文学的发展信息技术的进步带动天文学的发展望远镜和仪器仅仅是获得数据的前端设备望远镜和仪器仅仅是获得数据的前端设备1980 1990 2000 2010 2020 MB GB TB PB EBCCDs Surveys VO AstroInfo Image Proc LSST Pipelines SKA Databases Machine Learning AI天文数据的特点天文数据的特点n空间性空间性n多波段性多波段性n海量性海量性n非线性非线性n

    10、异构性异构性n缺值性或坏标记缺值性或坏标记n分布性分布性n高维性高维性n时序性时序性n开放性开放性n光谱数据光谱数据n图像数据图像数据n星表数据星表数据n时序数据时序数据n模拟数据模拟数据早型星早型星晚型星晚型星气体气体气体气体星系星系l矮星光谱分类O B A F G K M L T l恒星光谱序列(温度序列):恒星光谱序列(温度序列):O B A F G K M L T O B A F G K M L Tn基于多波段数据,应用了基于多波段数据,应用了K K近邻近邻 方法预测类星体的测光红移预测,方法预测类星体的测光红移预测,发现随着波段的增多,红移预测发现随着波段的增多,红移预测 精度有所增

    11、加。精度有所增加。n聚类问题聚类问题:n在数据集中查找聚类的天体n统计意义和科学意义上各个类别的重要性是什么?n找“朋友的朋友”或近邻的最优算法?nN 1010,如何有效地排序、分类?n维数 1000 因此,若干子空间搜索问题n是否存在两点或更高阶的相关性?nN 1010,N-point 相关怎么做?n与N2logN成正比的算法显然不能用n寻找相关性和参数 的基平面 维数成千上万维数成千上万 维灾维灾 !参数之间的相关性?线性或参数之间的相关性?线性或非线性混合非线性混合?本征值或紧致表示是否可以本征值或紧致表示是否可以代表整个数据集的性质代表整个数据集的性质?n在高维参数空间中如何找到复杂的

    12、多变量函数的最优解(最佳拟合、全局最大似然)变星、超新星、类星体、双星、变星、超新星、类星体、双星、伽玛射线暴等的发现伽玛射线暴等的发现 在时序数据中寻找周期性变化在时序数据中寻找周期性变化LSSTLSST是未来是未来天文时序研天文时序研究的最佳试究的最佳试验场验场n科学社区对大数据带来的 的挑战和机遇的应对措施n面向具体领域,不是以单位为基础,分布的 -人员、数据、计算资源等都是分布的 -新型的科学组织n虚拟天文台:为天文大数据提供了一个完整的研究环境 n所有数据以电子形式收集n精通计算机技术和数据技术人员n制定标准格式n收集的大数据都是有资金资助、机构授权的数据集n建立了数据共享的文化n动

    13、机来源于指数增长的数据n联合机构的支持/资助n数据没有商业价值和隐私n优点 -互操作、标准等的进步 -全球的天文数据网格 -助力天文社区的科研 -提供有用的网页服务 -社区的培训、科普教育 -优于其他领域的虚拟组织n不尽完美之处 -数据探索和挖掘工具 这正是科学产出之所在天文信息学nX-Informatics兴起(X=天文、生物、地球等)-多学科领域的交叉(科学+计算机+信息技术)-更广泛的社区参与(贡献者和用户)-提供了交叉科学方法共享的机制 -提供有用的网页服务n挑战 -数据预处理 -特征选择和降维 -算法和模型的选择 -数据不完备 -不确定性估计 -可扩展性 -可视化 -机器学习是关键技

    14、术机器学习是关键技术分类、聚类、相关分析、离群探测n人们需要借助图像 加深理解和认识n人们获得的知识百分之八九十通过观察n许多复杂数据存在超维结构(聚类、相关性,),维数到百维甚至万维,还在持续增长n不只是数据理解的问题,也是选择合适的挖掘算法和对挖掘结果的解释n我们人类仅仅可以理解3-12维?如果我们不能从数据中提取知识,那么数据对我们还有何用?人们必须认识到自身的缺陷。-Dirty Harryn数据处理 -自动化目标和事件的分类、模式识别 -自动数据质量控制(异常/虚假探测和修复)n数据挖掘、分析和理解 -聚类、分类、离群/异常检测 -模式识别、隐含关系的发现 -降维有助于可视化 -以网格

    15、或云为基础的应用的工作流控制n数据工厂和数据发现:语义网等n编码的设计和应用:从手工到科学?“As We May Think“As We May Think“诚若所思 is a 1945 essay by Vannevar Bush。美国的一位杰出思想家预言了人造计算机将会像人一样思考“Man-Computer Symbiosis”is a“Man-Computer Symbiosis”is a work by work by J.C.R.LickliderJ.C.R.Licklider,which,which was published during the year was publish

    16、ed during the year 19601960。人机协同1915-19901890 1974n应用符号回归来找到数据的最佳拟合函数,同时给出参数n应用的理论基础:代数算子、解析函数、常数nGraham et al.2013Lipman et al.http:/creativemachines.cornell.edu/eureqan对大多数的数据科学(如计算、IT、ML、统计学等)而言,都面临着共同的挑战,同时一些方法可以共享。n我们如何将信息架构的发展、经验和解决方案从一个领域挪用到另一个领域?计算机科学、计算机科学、工程、统计工程、统计学等学等DataDat打他farming数据工厂

    17、数据工厂仪器仪器处理流程处理流程数值数值模拟模拟存档存档数据分析数据分析发表发表学科(天文、生物等)学科(天文、生物等)其他学科领域其他学科领域方法迁移方法迁移n加州理工学院新成立的研究中心-服务于全校的研究项目(天文、物理、生物、地球物理等)n新的Caltech-JPL联合数据科学和技术中心的一部分n目标是帮助员工推进和执行数据密集项目,共享交叉学科的方法、思想、项目实施等成果。nhttp:/oodt.apache.orgn用于获取和共享分布的 资源n1998年获NASA资助n应用:行星科学、射电天文、地球科学、医疗、气候、癌症等n获得2003年度NASA软件比赛的第二名 -第一个NASA天

    18、文开源项目n基于Apache软件基金会的顶级项目n利用兴起的虚拟现实和触觉接口、商用的软硬件可以实现沉浸式的互动、合作的数据分析和探索。n现在数据集的高信息量足以驱动 有价值的数据挖掘n数据融合可以发现那些仅靠单数 据集无法发现的知识n数据的复杂性要求人工智能帮助 人们理解和认识第四范式=数据融合+数据挖掘+机器学习n所有的信息和工具都可以通过网页联系在一起,网页已成为人们彼此联系、工作、学习的主要方式-网络代替了电报、电话、邮件、出版公司、音乐公司、电视电影等。将代替古老的研究方式。n包含了现代社会、科学和学术的方方面面,获得的数据、方法、论文发表、教育等等都可以通过网络空间来实现-继虚拟现

    19、实之后会是什么?n知识发现工具知识发现工具 -可用性、可扩展性、互动的DM+Visualization -ML/AL,协作的人机发现n超维数据的可视化超维数据的可视化 -加强人们的理解和认知力 -可视化的数据探索和发现n社区的参与和事业规划社区的参与和事业规划 -克服智能和方法的惰性 -奖励和鼓励机制n新型的发表和合作方式新型的发表和合作方式 -超出发表论文的范畴:较好的合作工具n培养下一代的科学家培养下一代的科学家 http:/class.coursera.orgn天文学家需要与数据工程师、数据分析师和数据科学家携手共同完成这幅“大数据时代”鸿篇巨作。n共同努力拟定数据平台要求,基础和高级算

    20、法,提供数据分析和展示所需的可视化工具,并将价值创造以易于理解,富于见解的方式反馈给科学家。大数据大科学大智慧n观念观念 -独立独立 vs.vs.合作(不同学科、科学界和企业界)合作(不同学科、科学界和企业界)n技术技术 -机器学习、人工智能、云计算、云存储、可视化技术等机器学习、人工智能、云计算、云存储、可视化技术等n人才人才 -数据科学家、数据工程师、数据分析师,以及提出正确数据科学家、数据工程师、数据分析师,以及提出正确问题、运用大数据分析结果的大问题、运用大数据分析结果的大 数据相关管理人才(数据相关管理人才(20182018年美国市场年美国市场1919万万 vs.150vs.150万缺口)万缺口)n教育教育 -培养下一代面向大数据的科学家培养下一代面向大数据的科学家n以历史、发展的眼光认识大数据以历史、发展的眼光认识大数据 n以合理、专业的视角解读大数据以合理、专业的视角解读大数据n以跨界、融合的理念驱动大数据以跨界、融合的理念驱动大数据n以开创、继承的思维培育大数据以开创、继承的思维培育大数据 -第一届大数据科学与工程国际会议主旨第一届大数据科学与工程国际会议主旨大数据时代,标着着天文学家独自搞科研的时代结束!大数据时代,标着着天文学家独自搞科研的时代结束!分享、合作、共赢是大数据时代的主旋律!分享、合作、共赢是大数据时代的主旋律!

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:天文大数据课件.ppt
    链接地址:https://www.163wenku.com/p-3494976.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库