XXX大数据平台产品介绍课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《XXX大数据平台产品介绍课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- XXX 数据 平台 产品 介绍 课件
- 资源描述:
-
1、,Inc.All rights reserved.1提纲数据正在驱动行业的发展以Hadoop为核心的大数据平台企业数据平台(Enterprise Data Hub)大数据安全平台大数据管理平台大数据技术支持总结无所不在的数据物联网及智能终端数据用户交互行为数据企业运营数据数据正成为企业的核心资产,数据可以帮助企业实现商业价值。数据价值挖掘体量大速度快多样性价值密度低日志社交数据 用户行为 机器数据 图片音频 视频 传感器运营数据Value 更好地理解并服务客 户 精细化运营管理 个性化医疗健康服务 公共事业服务 安全和合规性检查 用户标签 行为分析 文本分析 情感分析 图片分析 音频分析 轨迹
2、分析 DataSourcesData SystemsDataAccessBusinessAnalyticsCustomApplicationsExisting DataDatabases/WarehouseOperationalApplicationsNew DataLimited DataNot efficient to keep existing data,let alone handle new data sources.Time consuming to transform datafor analysis in existing systems.Limited InsightsPow
3、er users struggle with data.Many users have no data.Compliance and PrivacyMore data,more users,and more tools create complexity.Need to balance business agilitywith security and governance.传统架构的劣势DataSourcesData SystemsDataAccessBusinessAnalyticsCustomApplicationsExisting DataDatabasesOperationalApp
4、licationsNew DataKeep Unlimited DataFrom disparate and limited views,to unlimited information access.Unlock Value from DataFrom analytics for some,to insights for all.Manage ComplianceFrom risk due to regulations and customer privacy concerns,to trust in a secure and compliant platform.Unlimited Sto
5、rageEnterprise Data HubProcessDiscoverModelServeSecurity and Administration亟需新的数据平台架构企业级数据平台稳定性严格的测试被客户和开发者证明开源的模式易用性标准的API(Java,SQL,Python,Rest)标准的工具集成(MS,Qlikview,Tableau,Teradata,Netezza,Quest)一站式管理解决方案安全性企业安全标准集成统一的访问安全控制全面的数据保护,密钥管理可管理性部署、管理、监控、警告可治理性数据溯源数据发现数据生命周期管理灵活性不同的问题可以有不同的技术选择性能高吞吐的NoSQ
6、L存储原生的大规模数据处理引擎内存计算为X86平台做的原生优化最具创新的开源核心CDH Distribution for Apache Hadoop100%开源且开放标 准的Hadoop核心数据采集多样化的可扩展存储资源(负载)管理框架灵活多样的处理引擎全面的安全技术体系易用的Hadoop交互界面Workload ManagementProcessIngest Sqoop,Flume,KafkaTransform MapReduce,Hive,Pig,SparkDiscoverAnalytic Database ImpalaSearch SolrModelMachine Learning R,
7、Spark Mlib,MahoutServeNoSQL DatabaseHBaseStreaming Spark StreamingUnlimited Storage HDFS,HBaseYARNSentryCDHCDH全球最流行的Hadoop发行版最完整且稳定的版本,经过严格的行业检验具有最快的更新,更多新的功能方便开发者和集成商使用Hadoop和其他一些Hadoop发行版提供商对比做Hadoop开发的,其他厂商仅是做Hadoop集成或CDH集成和Hadoop trunk最快的同步,能保证业务的前向兼容性;其他厂商在Hadoop上做的定制优化或修复,无法保证兼容性所有组件的开发和专业支持能力
8、,其他厂商也仅仅跟随包含的版本进行集成,缺乏问题修复和专业支持能力HDFS分布式文件系统灵活性多样化数据的统一存储多样化数据的统一存储可扩展性良好的线性可扩展性良好的线性可扩展性高容错性设计之初就考虑了高容错性设计之初就考虑了高容错性开放性存储的数据格式和内容完全存储的数据格式和内容完全可见可见适合大文件的顺序读写,写一 次读多次Unlimited StorageEnterprise Data HubProcessDiscoverModelServeSecurity and AdministrationApache HBase构建在分布式存储上的NoSQL数据库和HDFS紧密结合,适合高并发随
9、机读写具有分布式存储的所有优点灵活性多样化数据的统一存储多样化数据的统一存储可扩展性良好的线性可扩展性良好的线性可扩展性开放性存储的数据格式和内容完全存储的数据格式和内容完全可可见见+在线数据服务Security and AdministrationUnlimited StorageEnterprise Data HubProcessDiscoverModelServeApache Kafka 每个节点称为 Broker 数据以 Topics方式写入Kafka 每一个Topic都可以被分片 分片分布在Broker上 分片可以有多个副本,其中一个 为Leader Producer,Consume
10、r都与partition直接进行数据交换Broker 1Broker 2Broker 3Partition 1 (Leader)Partition 2Partition 3Partition 2 (Leader)Partition 1Partition 3Partition 3(Leader)Partition 1Partition 2ProducerProducerConsumerConsumerKafka ClusterKafka+Apache Flume Kafka 可以被配置为 Flume 的Channel Flume Sources 和 Sinks 可以配置成Kafka的Consum
11、er和ProducerFlume Sources Consume from Kafka:Write data to HDFS,HBase,or SearchFlume Sinks Write to Kafka:Read from logs,files,jms,http,rpc,thrift,etc and write events to Kafka多样的工作引擎批处理引擎(MapReduce,Hive,Spark)-适合长时间的数据处理作业,高度 成熟可靠实时数据处理(Spark Streaming)-实时的数据同时,异常检测,预测分析等自助BI分析/交互式SQL(Impala)准实时的分析作
12、业,高效的数据探索式 分析,高并发的自助BI功能搜索(Search)-快速的跨应用数据搜索能力数据挖掘(Spark Mllib,R,Mahout)-适合数据分析人员的快速模型创建,迭 代在线服务(HBase)-提供实时的数据服务能力交互式分析引擎Impala构建于HDFS上的原生的分析型SQL易用性利用现有利用现有的的SQL语法,和绝大语法,和绝大多数多数BI工具完美集成工具完美集成高并发为高并发的随机分析而优化,为高并发的随机分析而优化,用用C+编写编写交互性提供交互式的体验提供交互式的体验原生和和Hadoop栈深度融合栈深度融合Enterprise Data HubSecurity and
13、 AdministrationUnlimited StorageProcessDiscoverModelServeApache Spark适合数据科学家的分布式内存计算引擎灵活多种接口,多种算法多种接口,多种算法高效内存计算,适合迭代是计算内存计算,适合迭代是计算易用好用且丰富的好用且丰富的API安全集成和数据平台的其他功能无缝和数据平台的其他功能无缝集成集成适合批处理、流计算以及迭代 式计算Enterprise Data HubSecurity and AdministrationUnlimited StorageProcessDiscoverModelServeSQL的实现途径Hive是一
14、个SQL解析和优化层,底层引擎可以是MapReduce或 是SparkSparkSQL是Spark生态系统的一 个SQL解析和优化层,也需要借 助于Spark引擎Impala就是一个原生的SQL解析、优化以及内存执行引擎,直接 操纵HDFSUnlimited Storage HDFSImpalaHiveMapReduceSparkSparkSparkSQL数据处理和分析多样化的SQL解决方案不同的需求需要不同的技术互补而不是替代实时监实时监控控交互式分析和探交互式分析和探和分和分析析索式分析索式分析批处理批处理时延要求时延要求 数秒到分钟 几十分钟以上数据源数据源交互式SQL性能0501001
15、50250200300PrestoHive-on-TezTime(in seconds)350Single User vs 10 User Response Time/ImpalaTimes Faster(Lower bars=better)Single User,510 Users,11Single User,2510 Users,12010 Users,30210 Users,202Single User,37Single User,775.0 x10.6x7.4x27.4x15.4x18.3xImpalaSpark SQLIndependent validation by IBM Res
16、earch SQL-on-Hadoop VLDB paper:“Impalas database architecture provides significant performance gains”Search大数据平台内的搜索引擎易用性实现了企业内数据平台的搜索引擎实现了企业内数据平台的搜索引擎标准化基于基于Solr的标准搜索实现的标准搜索实现灵活性实现了多种索引的构建方式实现了多种索引的构建方式安全和集成和企业级功能的紧密集成和企业级功能的紧密集成|Search所有人都知道怎么搜索Enterprise Data HubSecurity and AdministrationUnlimit
17、ed StorageProcessDiscoverModelServe实时数据处理实时搜索HDFSOnline Streaming DataEnd User Client App(e.g.Hue)FlumeRaw,filtered,or annotated dataSolrCloud Cluster(s)Indexed dataMapReduce Batch Indexing w/MorphlinesGoLive updatesHBase ClusterNRT Replication Events indexed w/MorphlinesOLTP Data ManagerSearch quer
18、iesNRT Data indexed w/Morphlines企业消息总线Hue专门为Hadoop打造的用户界面HDFS的浏览以及管理HBase的管理作业流设计,作业提交以及管理SQL操作前端定制化的搜索前端访问权限配置界面CDH发布模式领先于开源的版本 包含社区版本尚未发布的创新和稳定性功能更快获取问题的修复 强大的Committer团队保证客户问题得到更快的修复最广泛的测试 活跃的开源社区能让所有功能得到最全的测试CDH凝聚在开源的贡献有89位Hadoop以及相关生态的Committer,涵盖:Hadoop,HBase,Hive,Spark,Lucene/Solr,Flume,Sqoop
19、等项目提供了最多的企业级Hadoop功能HDFS/YARN HA,Hadoop Secure Communication,HDFS Short-Circuit,HDFS Caching,HDFS Transparent EncryptionHBase snapshots,HBase multi-tenancyHiveServer 2,Hive-on-SparkSpark Streaming exactly-once,Spark Shuffle OptimizationSolr+Hadoop Integration大数据安全安全的挑战越来越多的开发人员和业务人员会使用大数据平台企业数据平台正成为
20、黑客的主要目标Hadoop及衍生的众多项目缺乏统一的安全解决方案传统的应用层安全方案难以胜任新平台平台有多种接口给用户使用传统方案中各应用系统相对独立用户一旦突破应用层安全,数据平台就完全暴露数据没有任何保护访问没有任何限制全面的安全管控Apache Sentry,HDFS Encryption,Navigator,Key Trustee数据平台的安全不可或缺:多样化的数据导入方式多种引擎的协同工作多业务的并发多用户的访问和企业的基础设施集成符合行业的安全审查1.Perimeter Standards-based AuthenticationProcessDiscoverModelServe2
21、.Access Unified Role-based AuthorizationSecurity and Administration3.Visibility Auditing&GovernanceUnlimited Storage4.Data Encryption&Key Management安全技术架构认证,授权,审计,以及行业监管规范Perimeter限制什么样的用户可以访问集群Technical Concepts:Authentication Network isolationAccess定义用户或者应用可以访问什么数据Technical Concepts:Permissions Au
22、thorization ManagerApache SentryVisibility数据从什么地方来 以及数据是怎么被 用的Technical Concepts:Auditing Lineage NavigatorData敏感数据保护以防止为授权的访问Technical Concepts:Encryption,Tokenization,Data maskingNavigator Encrypt&Key Trustee|Partners多层次的安全多层级的身份认证(Manager,Kerberos,AD,Hue)管理平台,运维人员,客户端,BI工具统一的授权访问控制(Apache Sentry)
23、在平台上提供统一的访问安全控制策略数据保护(HDFS At-Rest Encryption,Navigator Encrypt,Navigator KeyTrustee)On-the-wire和at-rest数据保护,并内置有Key Management方案全面的审计(Navigator)不管以什么方式进行访问集群,都会得到审计使用者视图认证和授权认证和授权HiveServer2AuthNLDAPKerberosAuthZIdentityManagementKDCSentryBindingSentry ServicePolicy Definition/RetrievalEnforcementG
展开阅读全文