《大数据基础与应用》教学课件06大数据的存储.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《大数据基础与应用》教学课件06大数据的存储.pptx》由用户(最好的沉淀)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据基础与应用 数据 基础 应用 教学 课件 06 存储
- 资源描述:
-
1、模块六大数据的存储CONTENTS01.必 备 知 识02.扩 展 知 识03.实训学习要点大数据的存储数据存储的概念。数据存储的方式。如何保证数据存储的可靠性?如何使用Oracle数据库?必 备 知 识1大数据存储概述大数据的存储模型大数据存储的问题大数据的存储方法大数据存储概述大数据时代,数据呈爆炸式增长。对数据存储也提出了新的要求。从存储服务的发展趋势来看,一方面,对数据的存储量的需求越来越大;另一方面,对数据的有效管理提出了更高的要求。大数据对存储设备的容量、读/写性能、可靠性、扩展性等都提出了更高的要求,需要充分考虑功能集成度、数据安全性、数据稳定性、系统可扩展性、性能及成本各方面的
2、因素。数据存储是指数据流在加工过程中产生的临时文件或需要查找的信息的存储。数据以某种格式记录在计算机内部或外部存储介质上。数据存储要命名,这种命名要反映信息特征的组成含义。数据流反映了系统中流动的数据,表现出动态数据的特征;数据存储反映系统中静止的数据,表现出静态数据的特征。大数据应用的一个主要特点是实时性或近实时性。数据通常以每年增长50%的速度快速激增,尤其是非结构化数据。随着科技的进步,有越来越多的传感器采集数据、移动设备、社交多媒体等,所以数据只可能继续增长。对大数据存储的要求也和普通存储不一样,大数据需要高性能、高吞吐率、大容量的基础存储设备。111关系型数据库2列式数据库大数据的存
3、储模型3键值存储4文档存储5图形数据库大数据主要的存储模型有关系型数据库、列式数据库、键值存储、文档存储、图形数据库五大存储模型。关系型数据库大数据的存储模型关系型数据库是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。现实世界中的各种实体及实体之间的各种联系均用关系模型来表示。关系模型是由埃德加科德于1970年首先提出的,并配合“科德十二定律”。如今,虽然对此模型有一些批评意见,但它还是数据存储的传统标准。标准数据查询语言SQL就是一种基于关系数据库的语言,这种语言执行对关系型数据库中数据的检索和操作。关系模型由关系数据结构、关系操作集合、关系完整性约束三部
4、分组成。关系模型就是指二维表格模型,因而一个关系型数据库就是由二维表及其之间的联系组成的一个数据组织。当前主流的关系型数据库有Oracle、DB2、PostgreSQL、Microsoft SQL Server、Microsoft Access、MySQL、浪潮KDB等。关系型数据库把一行中的数据值串在一起存储起来,然后存储下一行的数据,以此类推。例如,表6-1所示为某学生的成绩趋势表。1关系型数据库大数据的存储模型1在该表中数据存储的方式为:数学,100,104,110,108,120,121;语文,90,92,95,85,99,100;英语,102,110,120,100,134,125;
5、综合,190,198,204,190,207,220。这种存储方式根据以行相关的存储体系架构进行空间分配,适合于小批量的数据处理,常用于OLTP(联机事务型数据处理),不适合分布式、高并发和海量数据处理。列式数据库大数据的存储模型列式数据库是以列相关的存储体系架构进行数据存储的数据库,主要适合于批量数据处理和即时查询。相对应的是行式数据库,数据以行相关的存储体系架构进行空间分配,主要适合于大批量的数据处理,常用于联机事务型数据处理。当前常见的列式数据库有 Sybase IQ、CStore、Vertica等。表61所示数据在列式数据库中的存储方式是:数学,语文,英语,综合;100,90,102,
6、190;104,92,110,198;110,95,120,204;108,85,100,190;120,99,134,207;121,100,125,220。这种数据库因为查询需要读取的块少,使用它查询快;因为同一类型的列存储在一起,数据压缩比高,所以适合大量的数据。但是这种数据库插入更新慢,不太适合数据总是变化的小数据,不适合做含有删除和更新的实时操作。所以,它是进行DSS(决策支持系统)、BI(商业智能)的优秀选择,但是并不适合进行OLTP。1键值存储大数据的存储模型键值存储机制采用键值对形式存储,值可以是任意不定长数据。键值存储的主要思想来自于哈希表:在哈希表中有一个特定的key和一个
7、value指针,指向特定的数据。对于海量数据存储系统来说,键值存储最大的优势在于数据模型简单,易于实现,非常适合通过key对数据进行查询和修改等操作。但是,若对整个海量数据存储系统需要侧重于批量数据的查询和更新操作,则键值存储在效率上处于明显的不足。同样,键值存储不支持特别复杂逻辑的数据操作。基于键值存储的高性能海量数据存储系统的主要特点是具有极高的并发读写性能,常见的有Redis、Dynamo。1文档存储大数据的存储模型文档存储的目标是在键值存储方式(提供高性能和高伸缩性)和传统的关系数据系统(丰富的功能)之间架起一个桥梁,集两者的优势于一身。其数据主要以JSON或类JSON格式的文档来进行
8、存储,是有语义的。文档型数据库可以看作键值数据库的升级版,允许在存储的值中再嵌套键值,且文档存储模型一般可以对其值创建索引,方便上层应用,而这一点是普通键值数据库无法支持的。常见的文档存储有MongoDB、CouchDB。与关系型数据库不同的是,文档存储模型支持嵌套结构。例如,文档存储模型支持XML和JSON文档,字段的“值”又可以嵌套存储其他文档。文档存储模型也支持数组和列值键。与键值存储不同的是,文档存储关心文档的内部结构。这使得存储引擎可以直接支持二级索引,从而允许对任意字段进行高效查询。支持文档嵌套存储的能力,使查询语言具有搜索嵌套对象的能力,XQuery就是一个例子。MongoDB通
9、过支持在查询中指定JSON字段路径实现类似的功能。1图形数据库大数据的存储模型图形数据库是一种非关系型数据库,它应用图形理论存储实体之间的关系信息。最常见的例子就是社会网络中人与人之间的关系。相对于关系型数据库中的各种关联表,图形数据库中的关系可以通过关系包含属性这一功能来提供更为丰富的关系展现方式。因此,相较于关系型数据库,图形数据库的用户在对事物进行抽象时将拥有一个额外的优势,即丰富的关系。常见的图形数据库有Neo4j、FlockDB、AllegroGrap、GraphDB、InfiniteGraph等。111容量2延迟大数据存储的问题3安全问题4成本随着大数据存储的应用,人们也总结出了大
10、数据存储需要考虑以下问题。5数据保存6灵活性7应用感知8小用户容量大数据存储的问题大数据的容量通常可达到PB级的数据规模,因此,对于海量数据存储系统需要有相应等级的扩展能力,且存储系统的扩展一定要简便,可以采用叠加的方式来完成扩容。例如,在不断电的情况下,通过增加模块或磁盘柜来增加容量。在数据容量解决方面,IBM公司的GPFS采用条带化技术,单个文件跨节点和存储系统分布,提高必发访问性能,并且支持最大数千节点的集群规模和每秒超过数百GB的I/O吞吐,而且可以在不停止服务的情况下向集群添加和删除节点,向文件系统加入和删除磁盘,修改文件系统inode数目,这种技术非常适合于大数据分析和处理。1延迟
11、大数据存储的问题大数据应用还存在实时性的问题。特别是涉及网上交易或金融类相关的高实时、高敏感的应用,大数据应用的实时性问题就突显出来了。为了满足对延迟的要求,有很多“大数据”应用环境需要较高的IOPS性能,如HPC高性能计算。此外,服务器虚拟化的普及也造成了对高IOPS的需求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质的可扩展存储系统等都在蓬勃发展。1安全问题某些特殊行业的应用,如政府机关、金融机构及医疗信息等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,且都是必须遵从的。但是,具
12、体的大数据分析往往需要多类数据相互参考,而过去并不会有这种数据混合访问的情况,在涉及混合访问时,除了防止信息泄露,还要考虑不同机构不同的安全体系。因此,大数据应用也催生出一些新的、需要考虑的安全性问题。成本大数据存储的问题“大”也可能意味着代价不菲。对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。要想控制成本,就意味着要让每一台设备都实现更高的“效率”,同时还要减少使用那些昂贵的部件。目前,像重复数据删除等技术已经进入主存储市场,而且现在可以处理更多的数据类型,这都可以为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百
13、分点,都能够获得明显的投资回报。此外,自动精简配置、快照和克隆技术的使用也可以提升存储的效率。对成本控制影响最大的因素是那些商业化的硬件设备。因此,很多初次进入这一领域的用户及那些应用规模最大的用户都会定制他们自己的“硬件平台”,而不是用现成的商业产品,这一举措可以用来平衡他们在业务扩展过程中的成本控制战略。为了适应这一需求,现在越来越多的存储产品都提供纯软件的形式,可以直接安装在用户已有的、通用的或现成的硬件设备上。此外,很多存储软件公司还在销售以软件产品为核心的软硬一体化装置,或者与硬件厂商结盟,推出合作型产品,如IBM公司提出的IBM云服务器等。1数据保存大数据存储的问题许多大数据应用都
14、需要保存几年甚至更久。例如,医疗信息通常是为了保证患者的生命安全和对患者长期建档,这样的数据可能需要保存几十年,而财务信息通常要保存7年。即使一些看起来不需要长期保持的数据,使用大数据存储的用户却也希望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分析大都是基于时间段进行的。要实现长期的数据保存,就要求存储厂商开发出能够持续进行数据一致性检测的功能及其他保证长期高可用的特性。同时,还要实现数据直接在原位更新的功能需求。1灵活性大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容或扩展。在大数据存储环境中,
15、已经没有必要再做数据迁移了,因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用,就很难再调整了,因此它必须能够适应各种不同的应用类型和数据场景。应用感知大数据存储的问题最早一批使用大数据的用户已经开发出了一些针对应用的定制的基础设施,如针对政府项目开发的系统、大型互联网服务商创造的专用服务器等。在主流存储系统领域,感知技术的使用越来越普遍,它也是改善系统效率和性能的重要手段,所以,应用感知技术也应该用在大数据存储环境里。1小用户依赖大数据的不仅仅是那些大型用户群体,作为一种商业需求,小型企业未来也一定会应用到大数据。我们看到,有些存储厂商已经在开发一些小型的“大数据”
16、存储系统,主要吸引那些对成本比较敏感的用户。11在线存储2近线存储大数据的存储方法3离线存储4异地备份常见的数据存储方式有在线存储、近线存储、离线存储和异地备份四种。不同的存储方式提供不同的获取便利性、安全性和成本开销等级。在大多数场景中,四种存储都不是单独使用,经常被混合使用以达到最有效的存储策略。在线存储大数据的存储方法在线存储(online storage)有时也称为二级存储,是工作级的存储。在线存储的最大特征是存储设备和所存储的数据时刻保持“在线”状态,可以随时读取和修改,以满足前端应用服务器或数据库对数据访问的速度要求。其中最主要的在线存储是磁盘存储。早期的在线存储设备主要是服务器内
17、置硬盘,随着存储设备的发展,现在在线存储设备还包括光纤磁盘阵列或SCSI磁盘阵列等磁盘设备。这种存储方式提供最好的数据获取便利性,大磁盘阵列是其中最典型的代表之一。这种存储方式的好处是读/写非常方便、迅捷,缺点是相对较贵,且容易因为误操作或防病毒软件的误删除而使数据受到损害。1近线存储大数据的存储方法近线存储(nearline storage)是随着存储环境的细化所提出的一个概念,其外延相对较广泛,主要定位于在线存储和离线存储之间的应用,就是指将那些并不是经常用到或数据的访问量并不大的数据存放在性能较低的存储设备上,对这些的设备要求是寻址迅速、传输率高,如客户一些长期保存的不常用的文件的归档。
18、因此,近线存储对性能要求相对来说并不高,但又要求相对较好的访问性能。同时,多数情况下由于不常用的数据要占总数据量比较大的比重,这也就要求近线存储设备的容量相对较大。主要的近线存储设备主要为DVDRAM光盘塔和光盘库设备。但随着存储设备的不断发展,根据客户存储需求的不同,我们也会把低端的磁盘阵列(DS4100)或高端的磁带设备(3592)作为近线存储应用设备。近线存储设备主要有磁盘、磁带和光盘三种。磁盘包括3.5 in和各种可移动材料,如iomega zip disk和syquest disk。磁带的种类不计其数。CD的种类有可写CD(CDR)、可擦写CD(CDRW)和数字通用可擦写光盘(DVD
19、)。近线存储提供便宜、可靠、无限制的数据备份并能减少集成在线存储访问量。对于个人和小型商户来说,如果用户可以忍受一些存储或检索数据时产生的时间延迟,近线存储将是一个理想的解决方案。近线存储媒体在架时是不会被病毒感染的,因为这时的媒体在物理上是不连接在计算机、服务器和因特网上的。当近线存储介质拿来覆盖设备时,它可以通过写保护来防止感染。如果用一台被感染计算机病毒的计算机来向近线存储介质写入数据,那么介质很可能会被感染。所以,推荐在使用前用杀毒软件程序扫描一下近线存储介质。1离线存储大数据的存储方法离线存储(offline storage)和近线存储类似,这种存储方式指的是每次在读/写数据时,必须
20、人为地将存储介质放入存储系统。离线存储用于永久或长期保存数据,而又不需要介质当前在线或连接到存储系统上。离线存储的介质通常可以方便携带或转运,如磁带和移动硬盘。因此,离线存储主要用于数据的备份和恢复。在大多数情况下,会尽量少地访问光盘、磁带上的数据。1异地备份异地备份(remote backup)就是将数据在另外的地方实时产生一份可用的副本,此副本的使用不需要做数据恢复,可以将副本立即投入使用,图6-1所示为某高校异地备份系统的示意图。异地备份大数据的存储方法异地备份的数据复制目前有如下实现方式。(1)基于主机。对于基于主机的数据复制技术,可以不考虑存储系统的同构问题,只要保持主机是相同的操作
21、系统即可,而目前也存在支持异构主机之间的数据复制软件,如BakBone NetVault Replicator就可以支持异构服务器之间的数据复制,可以支持跨越广域网的远程实时复制。其缺点是需要占用一点主机资源。(2)基于存储系统。利用存储系统提供的数据复制软件,复制的数据流通过存储系统之间进行传递,和主机无关。这种方式的优势是数据复制不占用主机资源,不足之处是需要灾备中心的存储系统和生产中心的存储系统有严格的兼容性要求,一般需要来自同一个厂家的存储系统,这样对灾备中心的存储系统的选型带来了限制。(3)基于光纤交换机。这项技术正在发展中,利用光纤交换机的新功能,或利用管理软件控制光纤交换机,对存
22、储系统进行虚拟化,然后管理软件对管理的虚拟存储池进行卷管理、卷复制、卷镜像等操作,来实现数据的远程复制。比较典型的有StoragAge、Falcon等。为了防止灾难或其他可能影响到整个站点的问题,许多人选择将重要的数据发送到其他站点来作为灾难恢复计划的一部分。这种存储方式保证即使站内数据丢失,其他站点仍有数据副本。异站保护可防止由自然灾害、人为错误或系统崩溃造成的数据丢失。1扩 展 知 识2大数据存储概述大数据的存储模型大数据存储的问题大数据存储的问题大数据的存储方法随着大数据应用的飞速发展,现已出现了独特的框架,直接推动了存储的发展、网络及计算技术的发展。由于大数据处理的需求是一个新的挑战,
23、硬件的发展最终还是需要软件的推动,因而大数据分析应用需求正在影响和促进数据存储基础的发展。随着数据量的持续增长,以及被分析数据的来源多元化,现在的存储系统的发展已经跟不上大数据存储发展的需求。基于存储设施的研究也越来越重要,其研究技术主要有以下几个方面。21全息存储23D XPoint下一代数据容量技术3五维数据存储技术全息存储下一代数据容量技术全息存储是利用全息照相的技术原理来实现数据记录的。这一概念是Dennis Gabor在1947年为提高电子显微镜的分辨率而提出的。它的最大优点是超高密度,不仅如此,全息存储还具有极大的提升潜力,只要控制芯片具有足够强的数据处理能力,全息存储技术甚至可以
24、提供高达1 000 TB的容量。相比之下,目前硬盘的最大容量才6 TB,这个容量只相当于全息存储的“立方体糖块”的一个小碎片所提供的存储能力。1)全息存储的原理全息存储是受全息照相的启发而研制的,在拍摄全息照片时,对应的拍摄设备并不是普通照相机,而是一台激光器。该激光器产生的激光束被分光镜一分为二,其中一束被命名为“物光束”,直接照射到被拍摄的物体,另一束则被称为“参考光束”,直接照射到感光胶片上。当物光束照射到所摄物体之后,形成的反射光束同样会照射到胶片上,此时全息影像完整信息就能被胶片记录下来,全息照相的摄制过程就这样完成了。初看过去,全息照片上只有一些乱七八糟的条纹,但当我们使用一束激光
25、去照射这张照片时,真实的原始立体图像就会栩栩如生地展现出来。2全息存储下一代数据容量技术全息存储技术同样需要激光束的帮忙,研发人员要为它配备一套高效率的全息照相系统。首先利用一束激光照射晶体内部不透明的小方格,记录成为原始图案后,再使用一束激光聚焦形成信号源,另外还需要一束参考激光作为校准。当信号源光束和参考光束在晶体中相遇后,晶体中就会展现出多折射角度的图案,这样在晶体中就形成了光栅。一个光栅可以存储一批数据,称为一页。使用全息存储技术制成的存储器称为全息存储器,全息存储器在存储和读取数据时都是以页为单位的。2)全息存储的优势与目前的存储技术相比,全息存储在容量、速度和可靠性方面都极具发展潜
展开阅读全文