并行处理技术和GIS大数据的碰撞课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《并行处理技术和GIS大数据的碰撞课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 并行 处理 技术 GIS 数据 碰撞 课件
- 资源描述:
-
1、欢迎光临 并行处理技术和GIS大数据的碰撞 2014 地理学 林鹏 指导老师 张晓祥大数据处理大数据GIS与大数据展望未来内容提要大数据大数据-除了上帝,任何人都必须用数据来说话除了上帝,任何人都必须用数据来说话 由于浩瀚的数据量及复杂的处理方式,天文学和基因学率先创造出了“大数据”这一概念,并迅速被广大学者们所接受。自然2008年大数据专刊大数据的起源一张哈勃望远镜捕捉下来的高清相片,高达数十个G字节 一个人体内 400万亿个细万亿个细胞,每个细胞核都由胞,每个细胞核都由46种染色种染色体组成,而构成染色体的体组成,而构成染色体的DNA又由又由ATGC四种核酸排列组成。四种核酸排列组成。早期
2、,这个概念是指需要处理的信息量过大,已经超出了一般电脑在处理数据时所能使用的内存量。后来,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。现在,对于“大数据”(Big data)研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有的更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的定义 百度每天处理的数据量将近100个PB,相当于5000个国家图书馆的信息量的总和大数据洪流 Facebook每天更新的相片超过1000万张,每天人们发送的“赞”或者书写的评论超过三十亿次。Twitter每天发布的微博超过4亿条。2013年6月,前中情局
3、(CIA)职员爱德华斯诺顿将两份绝密资料交给英国卫报和美国华盛顿邮报。2013年6月5日,英国卫报先扔出了第一颗舆论炸弹:美国国家安全局有一项代号为“棱镜”的秘密项目,要求电信巨头威瑞森公司每天上交数百万用户的通话记录。2013年6月23日,斯诺顿抵达莫斯科棱镜门事件名称:Utah Data Center(犹他数据中心)全称:Intelligence Community Comprehensive National CybersecurityInitiative Data Center(情报体系综合性国家计算机安全计划数据中心)所属机构:NAS(美国国家安全局)Utah Data Center
4、大数据海量数据大数据与海量数据 =大数据海量数据 大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的认知、创造新的价值的源泉;大数据是改变市场、组织机构,以及政府与公民关系的方法。我们对大数据的认知处理大数据Processing of large data 全体数据模式 我们不需要动辄使用超级计算机,而应试着结合使用更多计算机系统。格蕾丝莫里霍珀(Grace Murray Hopper)(1906-1992)更多或者更大Google通过他天才的软件架构设计,把成千上万台普通的PC机做成了一个廉价大型的集群,用以处理他面向“星球”级别
5、的搜索服务。谷歌的廉价PC集群Google每天需要处理超过24PB的数据等于美国国家图书馆书籍总量的上千倍一个 Vs 一堆Hadoop(中文译名:海杜普)hadoop是一个分布式系统基础架构,是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框。用户可以在不了解分布式底层细节的情况下,开发分布式程序,从而充分利用集群的威力高速运算和存储。在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。hadoop的应用范围Hadoop处理原理假设系统每秒处理4000个文件处理4千万个文件=10000秒约为2.7小时处理4千万个文件处理400万个文件处理40
6、0万个文件处理400万个文件切分成十台机器处理约为17分钟=约为17分钟=约为17分钟=结果合并输出Hadoop(中文译名:海杜普)Hadoop核心:HDFS和MapReduce.HDFS为海量的数据提供了存储 MapReduce为海量的数据提供了计算。HDFS是一种框架,MapReduce是一种模式,Hadoop是一个实现了MapReduce模式的开源的分布式并行框架结构。什么是 HDFS?Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它是一个高度容错性的系统,适合部署在廉价的机器上。同时他能提供高吞吐量的数据访问
7、,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS 集群组成Secondary NameNodeDataNodeDataNodeTaskTrackerTaskTrackerDataNodeTaskTrackerNameNode JobtrackerNameNode中记录了文件中记录了文件是如何被拆分成是如何被拆分成block以及以及这些这些block都存储到了那些都存储到了那些DateNode节点节点.NameNode同同时保存了文件系统运行的状时保存了文件系统运行的状态信息态信息.DataNode中存储的是被拆分的blocks.Se
8、condary NameNode帮助NameNode收集文件系统运行的状态信息.JobTracker当有任务提交到Hadoop集群的时候负责Job和task的调度.TaskTracker负责某一个task的执行.HDFS用户端NameNodeDataNodeMetadataDataNode数据1数据2用户DataNodeHadoop为每一个input split创建一个task调用Map计算,在此task中依次处理此split中的一个个记录(record)。map会将结果以key-value 的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Tas
9、k的输出为整个job的输出,保存在HDFS上.什么是MapReduce?MapReduce原理 split1split2split3MapMapMapreducepartsortcopymergeHDFSreplicationMap:映射Reduce:约束(简化)Input HDFS Output HDFSHDFS Block1HDFS Block1Hadoop处理大数据的流程HDFS Block1HDFS Block1HDFS Block2HDFS Block2HDFS Block2HDFS Block3HDFS Block3HDFS Block3 Map Map MapreduceDATA
10、data data data data data datadata data data data data datadata data data data data datadata data data data data datadata data data data data datadata data data data data datadata data data data data datadata data data data data dataComputer clusterResultDatadatadatadataDatadatadatadataDatadatadatada
11、taDatadatadatadataHDFS Block14V特性Volume 数据量Velocity 速度Variety 多样性Value 价值数据量数据量 Volume根据统计,仅在根据统计,仅在2013年中国生产的数据年中国生产的数据就超过就超过0.8ZB(相当于(相当于8亿亿TB),当中有),当中有超过超过80%与空间位置有关。目前,各种与空间位置有关。目前,各种地图和地理位置紧密相关信息每年在数地图和地理位置紧密相关信息每年在数万万TB,而,而GIS软件每天处理的数据量就软件每天处理的数据量就会达到会达到200TB之多。之多。影像数据影像数据多样性 VarietyParcel Fab
展开阅读全文