书签 分享 收藏 举报 版权申诉 / 30
上传文档赚钱

类型大数据分析一体机概述课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:2979196
  • 上传时间:2022-06-18
  • 格式:PPT
  • 页数:30
  • 大小:4.97MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《大数据分析一体机概述课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 分析 一体机 概述 课件
    资源描述:

    1、1目录1大数据概述大数据概述2一体机概述一体机概述3研发思路研发思路4应用分析应用分析大数据的4V特征“4V”是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。大数据大数据将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不

    2、明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大数据的特征大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大量化(volumes)、多类别(variety)的数据中提取价值(value),属于IT 领域新一代的技术与架构 用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合数据分析的价值 分

    3、析技术:数据处理:自然语言处理技术统计和分析:A/B test; top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真 大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等 存储结构化数据:p 海量数据的查询、统计、更新等操作效率低非结构化数据p 图片、视频、word、pdf、ppt等文件存储p 不利于检索、查询和存储半结构化数据p 转换为结构化存储p 按照非结构化存储 解决方案:Hadoop(MapReduce技术)流计算(twitte

    4、r的storm和yahoo的S4)一些相关技术1、对现有数据库管理技术的挑战传统的数据库部署不能处理数TB 级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。2、经典数据库技术并没有考虑数据的多类别(variety)SQL(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。3、实时性的技术挑战:一般而言,像数据仓库系统、BI应用,对处理时间的要求并不高。因此这类应用往往运行1、2天获得结果依然可行的。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。网络架构、数据中心、运维的挑战:技术架构的挑战:人们每天创建的

    5、数据量正呈爆炸式增长,但就数据保存来说,目前的技术改进不大,而数据丢失的可能性却不断增加。如此庞大的数据量首先在存储上就会是一个非常严重的问题,硬件的更新速度将是大数据发展的基石。领域共性问题大数据处理大数据处理技术手段技术手段String ConvertCountFilterString TruncateSortIndexingJoinSequenceExtractAggregateSocial MediaMachine&Sensor DataMediaWeb ClickstreamMobile AppsCall LogSplunkBI/ ReportingCustomizedSolutio

    6、nsDatabase /Data Warehouse较常见的较常见的解决方案解决方案大数据储存大数据储存大数据处理大数据处理数据分享数据分享数据检索数据检索数据分析数据分析数据展现数据展现分布式软件架构并行计算框架分布式存储横向扩容(Scale-out) 架构存储与运算合一Big Data 运算与存储,单一架构解决8传统并行计算架构并行计算 + 分布式存储运算存储传统存储架构计算与存储一体,计算向数据靠拢,高效专用存储模式为程序员屏蔽通性、并发、同步与一致性等问题任务之间无依赖(share-nothing),具有高系统延展性 (scale-out)利用利用Hadoop 的特性的特性9目录1大数

    7、据概述大数据概述2一体机概述一体机概述3研发思路研发思路4应用分析应用分析10一体机概念和分类一体机是软件与硬件相结合的集成系统产品,其一般集数据处理、数据传输、数据存储三方面于一体。一体机通过预先集成、测试、优化,能够实现快速部署、简化IT基础架构,节省资源,提升系统高可用性和可扩展性。服务器服务器软件软件存储存储网络网络管理管理从IT基础设施发展角度看,复杂的系统集成模式已经成为业务创新的“绊脚石”简化(预集成)、优化的基础设施才能为业务应用“云化”提供更好的保障大型机一体化、预集成系统集成 一体化预集成 专有技术标准 运行专有软件 运维成本极高 分层(服务器、网络、存储) 现场集成 通用

    8、平台,缺乏对平台软件优化 开放的技术标准 集成及运维成本高 简化,将平台软件需要的基础设施预集成 优化,针对平台软件非功能需求进行优化 沿用开放的技术标准 运维成本低 平台即服务 软件即服务 数据即服务云云Gartner Data Center Conference presentationGartner数据中心大会专题讲座Will Fabric Computing Change the Concept of the Traditional Server?”, December 2011光纤运算是否会颠覆传统服务器的概念光纤运算是否会颠覆传统服务器的概念 2011年年12月月“By 2015,

    9、 35% of total server shipped value will be as integrated systems.” “到2015年,35%的服务器都将以集成系统方式交付”Unified Computing System (UCS)2012.42012.9FusionCubeExadata数据库一体机数据库一体机Exalogic中间件一体机中间件一体机Exalytics内存分析机内存分析机Big Data 大数据机大数据机从2008年开始,基于开放的技术标准,国内外厂商纷纷开始研制一体机。Oracle率先推出数据库、中间件、数据分析以及大数据等多款一体机产品14一体机架构负载均

    10、衡中间件数据库服务器存储单机,集群单实例,多实例横向、纵向扩展能力CPU/内存比高I/O配置单机HA,群集高随机,高顺序读写性能存储单机,多机串行,并行交易应用 数据应用 管理应用其他系统高端中端PC服务器刀片存储传统架构一体机架构一体机通过把传统架构中的主机、存储、网络、管理软件、数据仓库或数据库或中间件或虚拟化软件进行集成打包,形成一体化解决方案,降低总拥有成本(TCO),提升整体性能。一体机不是简单的将软硬件进行堆砌,而是在软硬件架构上对硬件性能、软件性能进行平衡优化,以克服传统解决方案在数据管理、I/O读写等方面的瓶颈,针对性的增强系统整体处理能力。15一体机发展背景(一)-海量数据分

    11、析驱动 随着信息技术在人类各项生产生活中的应用不断拓展,可分析的数据呈现出爆炸式增长。高效高效、迅速迅速地从海量数据中挖掘出潜在价值并转化为决策依据已经成为各行业信息化面临的重大挑战挑战。16一体机发展背景(二)-大并发承载能力驱动随着信息系统的深入应用以及企业对信息系统的依赖程度增加,对软硬件平台的并发处理能力、海量数据处理能力、系统响应速度、软硬件平台稳定性、软硬件平台可扩展性等方面的能力有了更高的要求,且呈上升趋势。并发处理能力海量数据处理能力系统响应速度软硬件平台稳定性软硬件平台可扩展性17一体机发展背景(三)-简化IT需求驱动由于前期IT技术与理念的局限性,信息化发展过程中形成了许多

    12、复杂的“竖井式”应用,对信息化管理带来极大挑战。通过简化IT基础架构,提高硬件资源利用率,减少投资采购成本、降低设备能耗和运维成本等措施提升信息化水平已成为共识。设备品牌型号繁杂集成复杂度高资源利用率低运维管理难度大面临挑战面临挑战设备型号标准化工业化预集成负载动态均衡统一管理平台解决思路解决思路机房空间不足电力能耗大运维成本高面临挑战面临挑战简化IT架构提升软硬件集成度减少设备数量选用绿色节能设备解决思路解决思路18软硬件资源池软硬件资源池应对简化IT架构需求,目前业界有软硬件资源池与专业化一体机两种主流技术路线可供选择,相比较一体机产品适用于单一化(数据库、中间件、虚拟化之一)的场景,软硬

    13、件资源池适用于多用途的通用场景。海量数据分析简化IT 适用于专业性要求低的通用场景 开放性强 耦合度低 可采购软硬件自行集成搭建 适用于专业性强的场景 开放性弱 耦合度高 由专业厂商预集成封装专业化一体机专业化一体机一体机发展背景(四)-技术路线19目录1大数据概述大数据概述2一体机概述一体机概述3研发思路研发思路4应用分析应用分析存储管理分析可视化软硬件一体的创新数据处理平台针对不同应用的系列化产品业务支持团队提供全国产的自主可控方案数据获取重新设计软件体系结构研发思路:基于开源软件和国产硬件构建应用级一体机采用浪潮的设备做一体机的硬件支撑适用于大数据处理的计算单元有针对性设计和开发的适用于

    14、大数据处理的通用计算单元、轻量计算单元和重载计算单元。l 计算随数据分布l 弹性可扩展l 业务连续性保证在Hadoop上有一定拓展JobTrackerDataNodeCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUDataNodeDataNodeDataNodeNameNode主备备主备备主备备主备备数据本地化(计算随数据分布)是指并行计算框架智能地将计算任务指派到存储着该任务所需数据的节点,从而避免传统分布式计算中严重的数据传输瓶颈。Job MapCPU计算和存储合一DataNodeCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUC

    15、PUCPUCPUCPUDataNodeDataNodeDataNode主备备主备备主备备主备备CPU业务连续性保证 是传统分布式计算中最为复杂的开发目标。通常当系统规模扩展至百节点以上时,就必须应对计算单元失效,显式地保存和恢复失败任务。浪潮大数据一体机能够智能识别失败任务,自动将其转移到备份数据节点。使用浪潮的底层保障优化系统任务调度策略,对任务实现实时监控,并动态调整任务执行资源,减少慢任务数量,提高整体性能专注性能提升和优化目标:数据分析一体机(业务级)全环节覆盖存储、管理、展现、分析视频处理等行业关键数据处理系统27设备到位基础环境搭建 概念规划2013.11.1-12.31一体机规划

    16、研究思路确定一体机0.1版2014.3.1-5.31一体机产品工艺完善10.1-12.312015.1一体机批量生产6.1-9.30软件平台测试、提升一体机整体设计概念验证2013.12-2014. 2熟悉、掌握一体机研发组织实施包含测试环境搭建、技术验证、产品规划、一体机原型详细设计、一体机试生产、一体机规模生产等六个阶段。目前以人数上以学生主体,如果有应急需要,则以社会招聘为主体。28目录1大数据概述大数据概述2一体机概述一体机概述3研发思路研发思路4应用分析应用分析Exadatav具有业内普遍认同的最强OLTP处理能力、产品成熟度较高、采用shared-nothing+shared-di

    17、sk的混合架构, IO吞吐能力强、存储智能化扫描、存储索引; v适用于OLTP与OLAP两种系统、与公司信息系统数据对接程度高;v性能扩展方面介于线性扩展与非线性扩展之间,最多可扩展至8个满配机柜(64台计算服务器);vOLTP场景测试表现良好,高传输性能,业界成功案例丰富,产品开放性较低,兼容性有待测评,整体拥有成本(TCO)相对较高。n华为FusionCube遵循开放架构标准,于12U机框中融合刀片服务器、分布式存储及网络交换机. 并预集成了虚拟化平台及云管理软件;n实现了一站式交付、家电化安装;资源可按需调配、线性扩展;n合作伙伴:SAP,TRS等。案例:拓尔思-华为信息采集一体机是一款

    18、软件与硬件集成并优化整合的产品,可实时监控、采集Internet网站内容,自动对信息进行过滤、分类、排重等智能化处理,全方位信息查询等功能。一体机软硬件进行了优化整合,在空间占用、采集性能、能耗、成本、管理等多方面具有优势。该信息采集一体机可用于政府、媒体、科研院所、军工、企业等各个应用行业和领域。30IBM 的大数据平台大数据企业引擎IBM 大数据解决方案大数据解决方案Internet 规模分析流分析开发人员开发人员最终用户最终用户管理员管理员大数据用户环境将大数据引入企业客户和合作伙伴解决方案客户和合作伙伴解决方案开源基础性组件Eclipse Hadoop HBase Pig Lucene Jaql 代理代理集成集成信息服务器市场营销市场营销仓库设备仓库设备数据仓库数据仓库数据库数据库内容分析内容分析业务分析业务分析主数据管理主数据管理InfoSphere 仓库Netezza/InfoSphere MDMDB2Cognos 和 SPSSUnicaECM数据增长管理数据增长管理InfoSphere Optim

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:大数据分析一体机概述课件.ppt
    链接地址:https://www.163wenku.com/p-2979196.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库