45大数据存储与管理课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《45大数据存储与管理课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 45 数据 存储 管理 课件
- 资源描述:
-
1、数据中国“百校工程”项目系列教材数据科学与大数据技术专业系列规划教材第4章 大数据存储与管理 本章主要内容如下。本章主要内容如下。(1 1)数据的存储模式。)数据的存储模式。(2 2)大数据时代的存储管理系统。)大数据时代的存储管理系统。4.1 数据存储概述4.1.1 4.1.1 数据的存储介质数据的存储介质 存储介质是数据存储的载体,是数据存储的基础。存储介质存储介质是数据存储的载体,是数据存储的基础。存储介质并不是越贵越好、越先进越好,我们要根据不同的应用环境,合并不是越贵越好、越先进越好,我们要根据不同的应用环境,合理选择存储介质。早期的存储介质有纸带、卡片、磁带等,目前理选择存储介质。
2、早期的存储介质有纸带、卡片、磁带等,目前常见的数据存储介质有机械硬盘、固态硬盘、可记录光盘、常见的数据存储介质有机械硬盘、固态硬盘、可记录光盘、U U盘、盘、闪存卡等。闪存卡等。1 1机械硬盘机械硬盘 组成:机械硬盘即传统普通硬盘,主要由盘片、磁头、磁头组成:机械硬盘即传统普通硬盘,主要由盘片、磁头、磁头停泊区、磁头臂等组成,如图停泊区、磁头臂等组成,如图4-14-1所示。所示。图4-1 机械硬盘 读读/ /写原理:机械硬盘的磁头可沿盘片的半径方向运动,加上盘写原理:机械硬盘的磁头可沿盘片的半径方向运动,加上盘片每分钟几千转的高速旋转,磁头就可以定位在盘片的指定位置进片每分钟几千转的高速旋转,
3、磁头就可以定位在盘片的指定位置进行数据的读行数据的读/ /写操作。机械硬盘中所有的盘片都装在一个旋转轴上。写操作。机械硬盘中所有的盘片都装在一个旋转轴上。每张盘片之间是平行的,在每个盘片的存储面上有一个磁头,磁头每张盘片之间是平行的,在每个盘片的存储面上有一个磁头,磁头与盘片之间的距离比头发丝的直径还小,所有的磁头连在一个磁头与盘片之间的距离比头发丝的直径还小,所有的磁头连在一个磁头控制器上,磁头控制器负责各个磁头的运动。另外,机械硬盘在读控制器上,磁头控制器负责各个磁头的运动。另外,机械硬盘在读取的时候,各个部件在做机械运动,所以会产生一定的热量和噪声。取的时候,各个部件在做机械运动,所以会
4、产生一定的热量和噪声。 稳定性:机械硬盘都是磁碟型的,数据存储在磁碟扇区里,所稳定性:机械硬盘都是磁碟型的,数据存储在磁碟扇区里,所以机械硬盘不能摔,通电不能移动,否则易损坏。以机械硬盘不能摔,通电不能移动,否则易损坏。 优缺点:优点在于便宜,性价比高,可以用较少的花费获得较优缺点:优点在于便宜,性价比高,可以用较少的花费获得较大容量,使用寿命长;缺点是相对固态硬盘来说,读大容量,使用寿命长;缺点是相对固态硬盘来说,读/ /写速度较慢;写速度较慢;防震性也没有固态硬盘好。防震性也没有固态硬盘好。2 2固态硬盘固态硬盘 组成:固态硬盘(组成:固态硬盘(Solid State DriveSolid
5、 State Drive,SSDSSD)是用固态电子)是用固态电子存储芯片阵列制成的硬盘,由控制单元和存储单元(存储芯片阵列制成的硬盘,由控制单元和存储单元(FlashFlash芯片、芯片、DRAMDRAM芯片)组成,如图芯片)组成,如图4-24-2所示。所示。图4-2 固态硬盘 读读/ /写原理:与普通磁盘的数据读写原理:与普通磁盘的数据读/ /写原理不同,固态硬盘的写原理不同,固态硬盘的读取直接由控制单元读取存储单元,不存在机械运动,因此读取读取直接由控制单元读取存储单元,不存在机械运动,因此读取速度非常快。相对机械硬盘,固态硬盘的读取速度提高了两倍多。速度非常快。相对机械硬盘,固态硬盘的
6、读取速度提高了两倍多。由于固态硬盘属于无机械部件及闪存芯片,所以具有发热量小、由于固态硬盘属于无机械部件及闪存芯片,所以具有发热量小、散热快等特点,而且没有机械马达和风扇,工作噪声值为散热快等特点,而且没有机械马达和风扇,工作噪声值为0 0分贝。分贝。 稳定性:固态硬盘使用闪存颗粒(即内存、稳定性:固态硬盘使用闪存颗粒(即内存、MP3MP3、U U盘等存储盘等存储介质)制作而成,所以内部不存在任何机械部件,这样即使在高介质)制作而成,所以内部不存在任何机械部件,这样即使在高速移动甚至伴随翻转倾斜的情况下,也不会影响正常使用。而且速移动甚至伴随翻转倾斜的情况下,也不会影响正常使用。而且在发生碰撞
7、和震荡时,能够将数据丢失的可能性降到最小。相较在发生碰撞和震荡时,能够将数据丢失的可能性降到最小。相较机械硬盘,固态硬盘更可靠。机械硬盘,固态硬盘更可靠。 优缺点:固态硬盘的优点是读取和写入速度快,缺点是价格优缺点:固态硬盘的优点是读取和写入速度快,缺点是价格较高,有写入次数的限制,读较高,有写入次数的限制,读/ /写有一定的寿命限制。写有一定的寿命限制。 3 3可记录光盘可记录光盘 常使用的可记录光盘分为常使用的可记录光盘分为CD-RCD-R、CD-RWCD-RW、DVDDVDR/RWR/RW多种格式,多种格式,如图如图4-34-3所示。所示。图4-3 可记录光盘(1 1)CD-RCD-R是
8、一次刻录、可多次读取的光盘,标准容量为是一次刻录、可多次读取的光盘,标准容量为650MB650MB,现在常用的刻录容量为现在常用的刻录容量为720MB720MB。(2 2)CD-RWCD-RW是可以多次刻录、反复擦写的光盘,容量为是可以多次刻录、反复擦写的光盘,容量为650MB650MB。(3 3)目前主流的)目前主流的DVDDVD刻录盘有两种刻录盘有两种DVD-R/RWDVD-R/RW和和DVD+R/RWDVD+R/RW。4 4U U盘盘 U U盘是一种盘是一种FlashFlash存储设备,是用存储设备,是用FlashFlash芯片(芯片(Flash RAMFlash RAM,电,电可擦写存
9、储器)作为存储介质制作的移动存储器,如图可擦写存储器)作为存储介质制作的移动存储器,如图4-44-4所示。所示。U U盘采用通用串行总线(盘采用通用串行总线(Universal Serial BusUniversal Serial Bus,USBUSB)接口,可)接口,可反复擦写的性能大大加强了数据的安全性。反复擦写的性能大大加强了数据的安全性。U U盘使用极为方便,无盘使用极为方便,无须外接电源,支持即插即用和热插拔,只要用户计算机的主板上须外接电源,支持即插即用和热插拔,只要用户计算机的主板上有有USBUSB接口,就可以使用。由接口,就可以使用。由U U盘发展起来的盘发展起来的MP3MP3
10、、MP4MP4播放机也可播放机也可当数据存储设备使用。当数据存储设备使用。图4-4 U盘5 5闪存卡闪存卡 闪存卡一般用于数码类的产品中,如用于手机、数码照相机、闪存卡一般用于数码类的产品中,如用于手机、数码照相机、数码摄像机、数码录音笔等。常用类型有数码摄像机、数码录音笔等。常用类型有SDSD卡、卡、MiniSDMiniSD卡、卡、MicroSDMicroSD(TFTF)卡、)卡、CFCF卡、记忆棒等,如图卡、记忆棒等,如图4-54-5所示。所示。图4-5 闪存卡6 6数据存储介质的选择原则数据存储介质的选择原则 数据存储介质的选择主要考虑如下原则。数据存储介质的选择主要考虑如下原则。(1
11、1)耐久性)耐久性 耐久性能高的存储介质不容易损坏,降低了数据损失的风险。耐久性能高的存储介质不容易损坏,降低了数据损失的风险。因而存储数据应选用对环境要求低、不容易损伤、耐久性能高的因而存储数据应选用对环境要求低、不容易损伤、耐久性能高的介质。介质。(2 2)容量恰当)容量恰当 介质的高容量不仅有利于存储空间的减少,还便于管理,但介质的高容量不仅有利于存储空间的减少,还便于管理,但会使存储的成本增加。对大容量数据,如果存储介质容量低,将会使存储的成本增加。对大容量数据,如果存储介质容量低,将不利于存储数据的完整。介质的存储容量最好与所管理的数据量不利于存储数据的完整。介质的存储容量最好与所管
12、理的数据量大小相匹配。大小相匹配。(3 3)低费用)低费用 介质的价格低,可以减少存储管理与系统运行的费用。介质的价格低,可以减少存储管理与系统运行的费用。(4 4)广泛的可接受性)广泛的可接受性 为减少为减少ITIT业界对存储介质不支持的风险,我们应当选用具有业界对存储介质不支持的风险,我们应当选用具有广泛可使用性的存储介质,特别应注意选用能满足工业标准的存广泛可使用性的存储介质,特别应注意选用能满足工业标准的存储介质。储介质。 4.1.2 4.1.2 数据的存储模式数据的存储模式 目前,数据有目前,数据有3 3种常见的存储模式(见图种常见的存储模式(见图4-64-6),它们被广泛应),它们
13、被广泛应用于企业存储设备中:附加直接模式(用于企业存储设备中:附加直接模式(Direct-Attached StorageDirect-Attached Storage,DASDAS);附加网络模式();附加网络模式(Network-Attached StorageNetwork-Attached Storage,NASNAS);存储);存储区域网络模式(区域网络模式(Storage Area NetworkStorage Area Network,SANSAN)。)。图4-6 数据的存储模式1 1DAS DAS DAS DAS 将存储设备通过将存储设备通过 SCSI SCSI 接口直接连接到
14、一台服务器上使接口直接连接到一台服务器上使用,如图用,如图 4-7 4-7所示。所示。 DAS DAS是通过小型计算机系统接口(是通过小型计算机系统接口(Small Computer System Small Computer System InterfaceInterface,SCSISCSI),在计算机与外部设备之间进行连接。),在计算机与外部设备之间进行连接。图4-7 DAS(1) DASDAS依赖主机的操作系统来实现数据的读依赖主机的操作系统来实现数据的读/ /写、管理、备份等写、管理、备份等工作,如图工作,如图4-84-8所示。所示。图4-8 DAS(2)(1 1)DASDAS的优点
15、的优点 配置简单:配置简单:DASDAS购置成本低,配置简单,仅仅是一个外接的购置成本低,配置简单,仅仅是一个外接的SCSISCSI接口。接口。 使用简单:使用方法与使用本机硬盘并无太大差别。使用简单:使用方法与使用本机硬盘并无太大差别。 使用广泛:在中小型企业中,应用十分广泛。使用广泛:在中小型企业中,应用十分广泛。(2 2)DASDAS的缺点的缺点 扩展性差:在新的应用需求出现时,需要为新增的服务器单扩展性差:在新的应用需求出现时,需要为新增的服务器单独配置新的存储设备。独配置新的存储设备。 资源利用率低:不同的应用服务器存储的数据量随着业务发资源利用率低:不同的应用服务器存储的数据量随着
16、业务发展出现不同,有部分应用存储空间不够,而另一些却有大量的存展出现不同,有部分应用存储空间不够,而另一些却有大量的存储空间。储空间。 可管理性差:数据分散在应用服务器各自的存储设备上,不可管理性差:数据分散在应用服务器各自的存储设备上,不便于集中管理、分析和使用。便于集中管理、分析和使用。 异构化严重:企业在发展过程中采购不同厂商、不同型号的异构化严重:企业在发展过程中采购不同厂商、不同型号的存储设备,设备之间的异构化严重,使维护成本很高。存储设备,设备之间的异构化严重,使维护成本很高。 I/O I/O瓶颈:瓶颈:SCSISCSI接口处理能力会成为数据读接口处理能力会成为数据读/ /写的瓶颈
17、。写的瓶颈。2 2NAS NAS NAS NAS存储设备是一种带有操作系统的存储设备,也叫作网络文件存储设备是一种带有操作系统的存储设备,也叫作网络文件服务器。服务器。NASNAS设备直接连接到设备直接连接到TCP/IPTCP/IP网络上,网络服务器通过网络上,网络服务器通过TCP/IPTCP/IP网络存取与管理数据。网络存取与管理数据。 应用:文档、图片、电影的共享等。应用:文档、图片、电影的共享等。 典型的典型的NASNAS架构如图架构如图4-94-9所示。所示。图4-9 典型的NAS架构(1 1)NASNAS的优点的优点 即插即用:容易部署,把即插即用:容易部署,把NASNAS设备接入以
18、太网就可以使用。设备接入以太网就可以使用。 支持多平台:可以使用支持多平台:可以使用LinuxLinux等主流操作系统。等主流操作系统。(2 2)NASNAS的缺点的缺点 NAS NAS设备与客户机通过以太网连接,设备与客户机通过以太网连接,NASNAS使用网络进行数据的使用网络进行数据的备份和恢复,因此数据存储或备份时都会占用网络带宽。备份和恢复,因此数据存储或备份时都会占用网络带宽。 存储数据通过普通数据网络传输,因此容易产生数据泄漏的存储数据通过普通数据网络传输,因此容易产生数据泄漏的安全问题。安全问题。 只能以文件级访问,不适合块级的应用。只能以文件级访问,不适合块级的应用。3 3SA
19、N SAN SAN SAN是一个采用网状通道(是一个采用网状通道(Fibre ChannelFibre Channel,FCFC)技术,通过)技术,通过FCFC交换机连接存储阵列和应用服务器,建立专用于数据存储的区交换机连接存储阵列和应用服务器,建立专用于数据存储的区域网络,如图域网络,如图4-104-10所示。所示。 SAN SAN支持数以百计的磁盘,提供了海量的存储空间,解决了大支持数以百计的磁盘,提供了海量的存储空间,解决了大容量存储问题;这个海量空间可以从逻辑层面上按需要分成不同容量存储问题;这个海量空间可以从逻辑层面上按需要分成不同大小的逻辑单元,再分配给应用服务器。大小的逻辑单元,
20、再分配给应用服务器。SANSAN允许企业独立地增加允许企业独立地增加它们的存储容量。它们的存储容量。SANSAN的结构允许任何服务器连接到任何存储阵列,的结构允许任何服务器连接到任何存储阵列,这样不管数据放在哪里,服务器都可以直接存取所需的数据。这样不管数据放在哪里,服务器都可以直接存取所需的数据。图4-10 SAN(1 1)SANSAN的优点的优点 传输速度快:传输速度快:SANSAN采用高速的传输媒介,并且采用高速的传输媒介,并且SANSAN网络独立于网络独立于应用服务器系统之外,因此存取速度很快。应用服务器系统之外,因此存取速度很快。 扩展性强:扩展性强:SANSAN的基础是一个专用网络
21、,增加一定的存储空间的基础是一个专用网络,增加一定的存储空间或增加几台应用服务器,都非常方便。或增加几台应用服务器,都非常方便。 磁盘使用率高:整合了存储设备和采用了虚拟化技术,因而磁盘使用率高:整合了存储设备和采用了虚拟化技术,因而整体空间的使用率大幅提升。整体空间的使用率大幅提升。 (2 2)SANSAN的缺点的缺点 价格贵:不论是价格贵:不论是SANSAN阵列柜还是阵列柜还是SANSAN必需的光纤通道交换机,必需的光纤通道交换机,其价格都是十分昂贵的,就连服务器上使用的光通道卡的价格也其价格都是十分昂贵的,就连服务器上使用的光通道卡的价格也是不易被小型企业所接受的。是不易被小型企业所接受
22、的。 异地部署困难:需要单独建立光纤网络,异地扩展比较困难。异地部署困难:需要单独建立光纤网络,异地扩展比较困难。4 4不同应用场景对应的存储选择不同应用场景对应的存储选择 CPU CPU 密集的应用环境:某种应用极其消耗密集的应用环境:某种应用极其消耗CPUCPU资源,其程序内资源,其程序内部逻辑复杂而且对磁盘访问量不高。这种程序在运行时根本不用或部逻辑复杂而且对磁盘访问量不高。这种程序在运行时根本不用或只需少量读取磁盘上的数据,只是在程序载入的时候读入一点点程只需少量读取磁盘上的数据,只是在程序载入的时候读入一点点程序数据而已。进程运行后便会使序数据而已。进程运行后便会使CPUCPU的核心
23、处于全速状态,这会造的核心处于全速状态,这会造成其他进程在同一时间只能获得少量的执行时间,进而严重影响性成其他进程在同一时间只能获得少量的执行时间,进而严重影响性能。能。 I/OI/O密集的应用环境:某种程序的内部逻辑并不复杂、耗费的密集的应用环境:某种程序的内部逻辑并不复杂、耗费的CPUCPU资源不多,但要随时读取磁盘上的数据,如资源不多,但要随时读取磁盘上的数据,如FTPFTP服务器。服务器。 对高并发随机小块对高并发随机小块I/OI/O或共享访问文件的应用环境:我们往往或共享访问文件的应用环境:我们往往会采用会采用NASNAS。因为对小块的。因为对小块的I/OI/O读读/ /写并不会对网
24、络造成大的影响,写并不会对网络造成大的影响,并且并且NASNAS提供了网络文件共享协议。提供了网络文件共享协议。4.2 大数据时代的存储管理系统 在普通在普通PCPC中,目前已经被广泛使用的存储管理系统有普通的中,目前已经被广泛使用的存储管理系统有普通的文件系统、键文件系统、键- -值数据库和关系型数据库。值数据库和关系型数据库。 在大数据时代,普通在大数据时代,普通PCPC的存储容量已经无法满足大数据需求,的存储容量已经无法满足大数据需求,需要进行存储技术的变革,我们采用分布式平台来存储大数据。需要进行存储技术的变革,我们采用分布式平台来存储大数据。 4.2.1 4.2.1 文件系统文件系统
25、1 1文件系统简介文件系统简介 在计算机中,文件系统(在计算机中,文件系统(File SystemFile System)是提供了命名文件及放置文)是提供了命名文件及放置文件的逻辑存储和恢复等功能的系统。件的逻辑存储和恢复等功能的系统。DOSDOS、WindowsWindows、OS/2OS/2、MacintoshMacintosh和和UNIX-basedUNIX-based操作系统都有文件系统。在此系统中,文件被放置在分等级操作系统都有文件系统。在此系统中,文件被放置在分等级的(树状)结构中的某一处。文件被放进目录(的(树状)结构中的某一处。文件被放进目录(WindowsWindows中的文
展开阅读全文