1、云平台存储系统的性能优化研究重庆邮电大学课题目的及意义论文工作情况阶段性总结下一步工作计划云平台存储系统的性能优化研究本课题来自于实习期间所参与的项目安检机项目。在此项目中,本人与团队负责搭建用于存储安检机设备数据的云平台存储系统,包括集群的搭建,数据的获取、传输与接收,数据的简单分析与展示。本课题主要是对云平台存储系统的传输和存储性能的优化研究与改进,从而提升整个集群的运作效率。重庆邮电大学目录重庆邮电大学大数据时代 如今,数据伴随着我们生活中的一切。交通运输、网上购物、智能家居都伴随大量的数据产生与交互。随着“数据驱动”的时代到来,各种各样的海量数据在物与物,物与人以及人与人之间互相传递。
2、这些数据有着大致的一些特性:数据信息量大、高并发和非结构化。然而,信息的价值在于其实时性,过时的信息也许可能一文不值。因此,在处理这些数据时,效率问题也就随之产生。云平台存储系统的性能优化研究课题目的及意义重庆邮电大学课题目的 本课题主要是从数据的传输机制入手,对数据传输机制进行研究与优化。从而提升文件的传输与存储效率,提升整个平台集群的运作性能。云平台存储系统的性能优化研究课题目的及意义重庆邮电大学Hadoop/HBase集群各部分简介云平台存储系统的性能优化研究Riakerlang Hadoop,一个由Apache基金会所开发的分布式系统基础架构,是一个能够对大量数据进行分布式处理的软件框
3、架,它可以一种可靠、高效、可伸缩的方式进行数据处理。HBase,一个分布式的,基于Hadoop的NoSQL。其构想来自于Google论文“Bigtable”。它是面向列存储的,适合存储非结构性数据。Riak,一个由erlang编写的高可扩展的分布式数据库,以Key-Value键值对的形式存储,支持原生的erlang界面对其进行操作。erlang,一个面向并发的函数式编程语言,由爱立信实验室开发。其最为突出的特性就是支持分布式,支持高并发。重庆邮电大学集群架构云平台存储系统的性能优化研究Hadoop-MapReduceHBaseHBaseHBaseHBaseHDFSZookeeperErlang
4、:ETSErlang:ETSErlang:ETSData云平台存储系统架构图RiakRiakRiakRiakRiakHash重庆邮电大学云平台存储系统的性能优化研究Hadoop集群搭建操作系统:Ubuntu 14.04.2 LTSHadoop版本号:Hadoop 2.6.5在这里由于实验条件的限制,采用的是Hadoop伪分布式集群,及各个节点均运行在同一机器上。该机器既是namenode,也是datanode。重庆邮电大学云平台存储系统的性能优化研究HBase搭建HBase版本号:HBase 0.98.23-hadoop2我们可以通过Web查看HBase的相关状态,也可以通过其自带的shell
5、向数据库中插入数据。重庆邮电大学云平台存储系统的性能优化研究Riak搭建Riak版本号:riak 2.2.0通过将其他节点加入设定的初始节点,可以将分布在不同机器上的Riak节点连接起来,构成一个Hash环。重庆邮电大学03MapReduce思路云平台存储系统的性能优化研究 MapReduce是hadoop的核心组件之一,hadoop分布式包括两部分,一部分是分布式文件系统hdfs,一部分是分布式计算框,也就是MapReduce,缺一不可。也就是说,可以通过MapReduce很容易在hadoop平台上进行分布式的计算编程。不过,一样重要的是,Mapreduce也是一种编程模型,是一种编程方法,
6、抽象理论。split0mapsplit0mapsplit0mapsortmergereducereducepart0part1重庆邮电大学03并发式编程云平台存储系统的性能优化研究 大数据时代,数据的一大特点就是并发量大。也就是说,几乎是在同一时间,或者是在很短的时间间隔内,就会有大量的数据从不同的数据源传入,传统的顺序编程当然是无法满足这一需求。而在对文件的操作上,在对一定数量的文件进行操作和计算时,并发式编程的效率也要高出很多。多进程多进程多线程多线程数据共享与同步数据共享复杂,需要用IPC;数据是分开的,同步简单因为共享进程数据,数据共享简单,但也是因为这个原因导致同步复杂内存与CPU占
7、用内存多,切换复杂,CPU利用率低占用内存少,切换简单,CPU利用率高创建销毁与切换创建销毁、切换复杂,速度慢创建销毁、切换简单,速度很快编程和调试编程简单,调试简单编程复杂,调试复杂可靠性 进程间不会互相影响一个线程挂掉将导致整个进程挂掉分布式 适应于多核、多机分布式;如 果一台机器不够,扩展到多台 机器比较简单适应于多核分布式重庆邮电大学03erlang云平台存储系统的性能优化研究 作为一款函数式语言,erlang的最大特性在于它可以很好地应对大并发环境。由于erlang的自身特点,通过spawn函数可以很轻松的创建一个轻量级的进程。每个进程都有其特定的pid,进程与进程之间通过发送消息来
8、通信。重庆邮电大学文件传输云平台存储系统的性能优化研究 利用erlang语言的特性,并吸取MapReduce的编程思想,可以对文件传输机制进行优化和改进。DataMapReduceCache1Cache2Basemap1map2map3map4Piece of data重庆邮电大学文件传输云平台存储系统的性能优化研究实验测试:在同一机器上建立两个用于通信的erlang节点node1和node2,通过两个节点之间传输文件来进行实验。这里设定的是由node1节点向node2节点发送图片包,图片包由数量不等的PNG和JPG图片组成,最终将对应的图片存入对应的文件夹中。第一组传输机制是将图片包一起传输
9、,并逐个写入缓存;第二组传输机制是利用MapReduce的思想,将图片包切分,每片数据各由一个进程向node2传输。重庆邮电大学文件传输云平台存储系统的性能优化研究Time/sP 500P 1000P 2000P 3000P 5000P 10000SingleProcess2.5124.9149.59415.66329.73467.237MapReduce2.5294.7269.68613.46423.11847.314020406080500100020003000500010000SPMR重庆邮电大学云平台搭建完成了云平台的搭建,包括Hadoop集群的搭建,Hbase数据库与Riak数据库的部署优化传输机制数据传输对云平台存储系统的功能进行了简单的测试,可以进行简单的文件传输,存储与读取.安全性研究加入了ETS表作为缓存机制,提升了效率的同时也一定程度提高了安全性能阶段性总结云平台存储系统的性能优化研究结合MapReduce的编程思想,对文件的传输机制进行优化与改进,较大地提升了数据传输的效率重庆邮电大学云平台存储系统的性能优化研究下阶段的工作16.12.116.12.1517.1.117.2.117.6.1发表小论文完成系统安全性能的优化研究并对平台做系统性的测试开始毕业论文的撰写完成论文初稿对论文内容进行补充与修改,准备毕业答辩