云存储现状及其关键技术课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《云存储现状及其关键技术课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 存储 现状 及其 关键技术 课件
- 资源描述:
-
1、云存储现状与关键技术.概要云存储背景与发展现状云存储中的关键技术分布式文件系统 服务等级协议(SLA)云服务接口技术云安全技术云清华大学.云存储背景与发展现状.什么是云?X as a Service(XaaS)Software as a ServiceHardware as a serviceInfrastructure as a servicePlatform as a serviceUtility Computing云计算与云用户(A Berkeley View of Cloud).云的分类公用云 提供通用操作任意用户可以使用用户不可信私用云 提供专用操作企业内部用户可以使用用户可信 混合
2、云基于公用云提供私用云服务.工业界发展现状存储数据库计算虚拟化.什么是云存储?云存储专注于向用户提供以互联网为基础,几乎可以无限扩展的高可靠在线存储服务,很好的满足了新兴Web2.0应用的存储需求用户无需考虑存储容量的大小、数据存储的位置、以及数据的可用性、可靠性和安全性等繁琐的技术细节用户只需要按需付费就可以从云存储服务提供商那里获得近乎无限大的存储空间和可靠的服务质量,即用即付,节约投资,从而完全专注于自身应用与业务的发展.云存储的基本特征和应用领域基本特征分布于网络(互联网或局域网、公有云和私有云)易于扩展易于管理应用范围:大规模数据处理:MapReduce数据共享与分发:GigaVox
3、 Media、Jamglue、SmugMug、.数据归档与备份:37signals、Altexa、BeInSync、Sonian、Zmanda、.已有的商业应用:Amazon S3、Microsoft Live SkyDrive、EMC Atmos、.设计云存储系统面临的技术挑战异构性:云存储系统必须基于多种不同的存储设备、网络、操作系统、计算机硬件和编程语言,云存储平台中间件需要能够屏蔽这些不同。分布性:单一的数据中心存储模式无法满足云存储在数据访问效率、数据可靠性和系统负载均衡方面的需求,云存储平台底层的存储资源池中将包含多个地理位置分布的数据中心用来进行数据冗余和负载均衡。扩展性:简单高
4、效的存储空间扩容是云存储系统的基本特点,存储节点的加入和退出必须以热插拔的方式进行;透明性:包括存储位置透明和用户访问透明,用户不需要关心数据存储的具体位置,就能够就近访问到数据的副本,对于用户而言,数据总是可用的。并发性:云存储系统中多个用户可能会对共享数据资源产生并发请求,每个云存储组件必须被设计成在并发环境中是安全的。可靠性:任一进程、计算机和网络都有可能独立的发生故障,因此每个云存储组件需要清楚所依赖的组件可能出现故障的方式,组件要设计成能适当的处理每个故障。效率:用户访问云存储系统中共享数据的算法应该避免性能瓶颈,频繁访问的数据需要复制更多的副本,用户能够就近获得最快的访问时间,同时
5、用户使用云存储服务的接口应该尽可能简单。.典型的云存储服务HDFS是IBM,Yahoo,FaceBook是(PC)大规模数据存储与处理GFS否Google是(PC)大规模数据存储与处理KFS是CloudStore是(PC)大规模数据存储与处理Sector是Sector-Sphere是(PC)大规模数据存储与处理S3否Amazon是(NAS)数据存储(文件5GB)SkyDrive否Microsoft未知数据存储Upline否HP未知数据存储N否Sun未知数据处理Atoms否EMC是(NAS)数据存储.云存储关键技术.云存储体系结构.云存储关键技术分布式文件系统 服务等级协议(SLA)云服务接口技
6、术云安全技术.分布式文件系统最常用的分布式系统之一共性目标:以分布式方式实现统一的文件逻辑视图实例:NFS(Suns Network File System)Andrew File System(AFS)Google File System&others,.分布式文件系统关键技术命名服务元数据管理缓存文件访问语义(接口)副本.DFS-命名服务Naming 在物理目标和逻辑目标之间形成映射关系映射目标:位置透明使用单一的文件命名空间。GFS集群只有一个Master来负责文件系统命名空间的管理,文件的chunk可以重新分布复制,chunk可以增加或者减少副本,副本可以跨机架存储,而这一切对客户端都
7、是透明的。用户能通过相同的操作来访问本地文件和远程文件资源位置无关 文件经常由于节点的失效、增加或者副本的改变或者重新均衡等进行着复制或者移动,对系统来说,物理存储位置改变无需改变逻辑文件名,使文件在服务器之间自由移动而不影响到客户端程序的运行达到平衡服务器负载的目的.DFS-元数据管理元数据是关于数据的数据包括文件名、文件大小、时间戳、访问控制信息、用户、组、.In-band Mode(带内模式)-元数据与数据放在一起元数据访问效率低大数据量操作容易形成瓶颈Out-of-band Mode(带外模式)-使用专门的服务其存放元数据.DFS 文件访问性能本地或者服务器缓存元数据 优化元数据操作效
8、率提高并发度本地或者服务器缓存数据优化数据访问效率减少网络流量带来严重的一致性问题.DFS-数据缓存内存缓存访问速度快开销大硬盘缓存支持文件离线访问(e.g.,AFS、SVN、GIT)支持大文件.DFS-缓存一致性当缓存中的数据与服务器中的版本不一致时,如何解决?Client-initiated approachClient发起有效性检测,由Server进行仲裁。E.g.,时间戳,版本号,.Server-initiated approach由服务器端记录所有被缓存的数据记录。当服务器探测到潜在的不一致时,发起通知。.DFS 文件访问语义Stateless Service-无状态服务每一个发起的
9、请求都是自包含的,避免服务器记录状态信息。请求消息包大,请求处理时间长。在并发访问时,无法支持锁操作。Stateful Service-有状态服务服务器记录请求的会话信息以提高性能,包括元信息、TCP连接、历史请求等等E.g.,预读取数据、文件Handle、文件锁需要更多的服务器开销.DFS-副本副本-将同一文件在不同的机器上放置多份实现数据冗余保证可靠性保证可用性实现负载均衡副本位置对用户透明同样面临一致性问题,系统可以选择性使用:强一致性弱一致性.DFS-Seek Problem内存文件系统随机访问分布式文件系统HDFS随机访问机械硬盘的物理构造决定了seek problem无法解决.Th
10、e Google File SystemSOSP 2003.GFS的需求分析组件失效是常态文件规模一般都在几个G以上Write once read many负载模型文件写入后,基本不需要重写操作文件被大量地连续读操作,随机读很少发生允许大量客户端并行追加写同一个文件,追加写操作必须是原子操作对海量数据处理来说,带宽是稀缺资源.接口(API)提供文件系统接口 非标准的POSIX API 仅仅提供几种最基本的操作create,delete,open,close,read,write 利用写时拷贝(copy-on-write)技术实现快照功能.GFS体系结构文件被切割成固定大小的块(Chunk)一个
11、主Master,多个Shadow Master多个chunkserver 多client.Master设计特点主master 将所有元数据保存在内存中,实现快速访问同时提供chunk令牌管理、孤立块垃圾回收、块迁移、副本管理功能定期与chunkserver发送心跳消息,收集chunkserver状态任何对元数据的写操作都会保存到日志中元数据在一段时间内会缓存在clients中Shadow mastersMaster的状态(checkpoint和log)会定期复制到shadow masters中,以保证系统的可靠性。当master失效后,系统会尝试从shadow master中读取checkpo
12、int和log进行数据恢复,恢复周期一般为秒级 即使master失效,shadow也能提供文件的只读访问。.Chunkserver设计特点在linux系统中以实体文件存放chunk默认放置3个chunk副本,2个在同一个机架的不同机器,1个在另外的机架平衡访问负载平衡存储空间提供可用性和可靠性 块数据不缓存块大小为64MB 优点:减少元数据,每chunk对应64Bytes元数据,2P数据需要2G内存减少网络开销,因为client往往对一个chunk进行多次操作,所以chunkserver可以在一段时间之类保持住一个client和chunkserver之间的TCP连接缺点:小文件容易形成访问热点
展开阅读全文