欢迎来到163文库! | 帮助中心 精品课件PPT、教案、教学设计、试题试卷、教学素材分享与下载!
163文库
全部分类
  • 办公、行业>
  • 幼教>
  • 小学>
  • 初中>
  • 高中>
  • 中职>
  • 大学>
  • 招考、培训>
  • ImageVerifierCode 换一换
    首页 163文库 > 资源分类 > PPTX文档下载
    分享到微信 分享到微博 分享到QQ空间

    《商业智能:方法与应用》课件第10章 大数据技术与应用.pptx

    • 文档编号:7673700       资源大小:720.78KB        全文页数:21页
    • 资源格式: PPTX        下载积分:15文币     交易提醒:下载本文档,15文币将自动转入上传用户(momomo)的账号。
    微信登录下载
    快捷注册下载 游客一键下载
    账号登录下载
    二维码
    微信扫一扫登录
    下载资源需要15文币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    优惠套餐(点此详情)
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、试题类文档,标题没说有答案的,则无答案。带答案试题资料的主观题可能无答案。PPT文档的音视频可能无法播放。请谨慎下单,否则不予退换。
    3、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者搜狗浏览器、谷歌浏览器下载即可。。

    《商业智能:方法与应用》课件第10章 大数据技术与应用.pptx

    1、8.1大数据概述目 录O N T E N T S8.2.2数据存储与检索技术Hive8.2.1分布式文件系统HDFS8.2大数据关键技术8.3大数据应用8.2.3大数据分析技术MapReduce8.1 大数据概述大数据的产生与发展大数据的产生与发展大数据的概念与数据结构大数据的概念与数据结构大数据的特征大数据的特征 8.1 大数据概述-大数据的产生和发展数据体量膨胀存储成本降低数据整合简单数据复杂性提高数据成本降低数据类型总类增加数据空间维度增加大数据的产生和发展 8.1 大数据概述-大数据的产生和发展数据量的增长与数据复杂度的提高概念n 数据量大:通常定义10TB的数据量为是大型数据集,但是

    2、在现实企业中,多个数据集集合在一起,就已经达到了远远超于10TB的数量n 数据种类多,数据来源多:这些数据生产于不同的系统,不同的应用,不同的行业背景,并且数据的种类和格式也各种各样,呈现出多元化的特点。面临挑战n大量的数据可以为统计分析提供依据,但数据复杂性的提高也导致数据处理和分析过程中的低准确性和低效率。n大数据所面临的挑战包括数据捕获、数据存储、数据分析、搜索、共享、传输、可视化、查询、更新、信息隐私和数据源等方面。8.1 大数据概述-大数据的概念及数据结构8.1 大数据概述-大数据的概念及数据结构结构化数据数据是第一次数据大潮,一直扮演不可缺少的角色,并在信息化和互联网发展中得到广泛

    3、应用。半结构化数据是第二次数据大潮,它仍是以内容为基础的,可以用来被查找,比如邮件数据,HTML页面信息。非结构化数据是第三次数据大潮,并且有愈演愈烈的势头,必须要有对应的软件来支撑,比如音频、视频数据。体量大速度快多样性通过各种设备产生的海量数据,其数据规模极为庞大,远大于传统组织产生的信息流量,PB级别将是常态。大数据的种类繁多,包含结构化和非结构化的数据,并在编码方式、数据格式、应用特征等多个方面存在差异,多信息源并发形成了大量的异构数据。指处理数据的速度必须很快,设计到感知、传输、决策、控制开放式循环的大数据,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能

    4、已经没有价值。8.1 大数据概述-大数据的特征价值密度低价值密度的高低与数据总量的大小成反比。以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。8.2 大数据关键技术分布式文件系统分布式文件系统HDFS数据存储与检索技术数据存储与检索技术Hive大数据分析技术大数据分析技术MapReduce 8.2 大数据关键技术 大数据产业链全景图 8.2 大数据关键技术Hadoop生态图 8.2.1 分布式文件系统HDFS HDFS是一个服务于需要海量分布式数据的框架文件系统。HDFS遵循了传统的Master/Slave的主从架构。NameNode作为Master指导Sl

    5、ave DataNode后台线程去执行底层的IO任务。分布式文件系统HDFS NameNode的功能相当于HDFS的一个记事本,它追踪用户文件如何被切分为多个块状文件,哪些节点存储了这些块状文件,以及整个文件系统的健康状况。NameNode起到了集群存储和IO集中管理的作用。NameNode 作为Slave节点,DataNode承担了集群具体沟通文件系统读写任务读写HDFS文件块到本地文件系统上的文件。客户端程序直接和DataNode交互进行具体的读写任务。DataNode 8.2.1 分布式文件系统HDFSHadoop中NameNode和DataNode的分布情况Apache Hive能够分

    6、析存储在Hadoop的HDFS和兼容的文件系统(如Amazon S3文件系统)中的大型数据集。它提供了一种类似SQL的查询语言,称为HiveQL,并将查询转换为MapReduce、Apache Tez和Spark作业。这三个执行引擎都可以在Hadoop YARN中运行。为了加速查询,它提供了索引功能。Hive提供必要的SQL抽象,将类似SQL的查询(HiveQL)集成到底层Java中,而无需在低级Java API中实现查询。由于大多数数据仓库应用程序使用基于SQL的查询语言,Hive可以帮助基于SQL的应用程序移植到Hadoop。Apache HiveApache Hive是一个基于Apach

    7、e Hadoop构建的数据仓库软件项目,用于数据查询和分析,Hive提供了一个类似SQL的接口,用于查询存储在与Hadoop集成的各种数据库和文件系统中的数据。8.2.2 数据存储与检索技术Hive8.2.2 数据存储与检索技术Hive存储每个表的元数据,它还包括分区元数据,以帮助驱动程序跟踪在群集中分布的各种数据集的进度,数据以传统的RDBMS格式存储。通过创建会话、监视生命周期和执行进度来开始执行语句。它存储HiveQL语句执行期间生成的必要元数据。还充当Reduce操作后获得的数据或查询结果的收集点。编译将查询转换为执行计划的HiveQL查询。此计划包含Hadoop MapReduce为

    8、获取查询转换的输出而需要执行的任务和步骤。对执行计划执行各种转换以获得优化的DAG。可以将转换聚合在一起,还可以拆分任务,以提供更好的性能和可伸缩性。Metastore驱动程序编译器优化程序执行程序编译和优化后,执行程序执行任务。它与Hadoop的作业跟踪器交互以安排要运行的任务。CLI,UI和Thrift服务器命令行界面(CLI)通过提交查询,指令和监视进程状态,为外部用户提供了与Hive交互的用户界面。Thrift服务器允许外部客户端通过网络与Hive交互,类似于JDBC或ODBC协议。MapReduce 是使用集群的并行、分布式算法处理大数据集的可编程模型。MapReduce以并行处理为

    9、主要思想,Map 把复杂任务分解为简单的任务执行,Reduce 对 map 阶段的结果进行汇总,将大数据分解为众多小数据。Mapper类Mapper 类主要负责对数据的分析处理,最终转化为 key-value 数据对。Reducer类Reducer 类主要获取 key-value 数据对,然后处理统计。MapReduce执行流程图8.2.3大数据分析技术MapReduce8.2.3大数据分析技术MapReduce主服务器主服务器将任务调度到从服务器上,并进行监控,从而重新执行失败的任务。应用程序应用程序可在 HDFS 上指定输入与输出的位置,使用特定接口提供与之匹配的 Map 和 Reduce

    10、 方法。Hadoop 客户端Hadoop 客户端则主要负责发可执行文件的配置信息给主服务器,由主服务器进行分发,同时调度任务给从服务器,并且将相应的状态信息反馈给 Hadoop 客户端。MapReduce 框架u 一种是独立的主服务器 JobTracker,主要进行工作分配。u 另一种从服务器 TaskTracker,重要进行任务执行。8.2.3大数据分析技术MapReduce YARN系统架构理论基础与文献综述ApplicationMaster每一个ApplicationMaster对应一个应用,这使得Yarn成为真正意义上的分布式框架。Yarn框架Yarn框架将 JobTracker 两个

    11、主要的功能资源管理和任务调度分离成单独的组件。ResourceManager依据各个应用程序对资源的需求,ResourceManager 会统筹协调进行智能的任务调度;应用程序需要的资源被一个抽象的容器集中管理。NodeManagerNodeManager 管理着单机的计算资源,实时监控应用程序的资源占用并通过发送心跳数据包向ResourceManager汇报。8.3 大数据应用随着大数据分析越来越广泛,其现实应用也越来越普遍地出现在人类生产、生活的方方面面,以下列举出大数据应用的几个关键领域。8.3 大数据应用大数据应用政府医疗保健物联网信息技术媒体保险制造业大数据为制造业的发展提供了技术基

    12、础,提高了制造过程的可控性和可预测性。媒体业正在摆脱传统的特定媒体环境,转而利用各种数据来挖掘出潜在消费者。保险公司正在通过各种渠道收集有关数据,据此来预测医疗成本,并精准推荐相关的报销产品。大数据作为一种帮助员工提高工作效率、简化信息收集和分发的工具,在企业运营中日益突出。大数据与物联网协同工作,从物联网设备中提取的数据映射了设备的互连性。此外,物联网也越来越多地被用作收集感官数据的一种手段。在政府工作流程中使用大数据相关技术,可以提高成本、生产率和创新等方面的效率。大数据分析有助于为医疗保健提供个性化医疗和处方分析,临床风险干预和预测分析,帮助医疗过程的数据共享和科学决策,以便帮助改善医疗保健效果。


    注意事项

    本文(《商业智能:方法与应用》课件第10章 大数据技术与应用.pptx)为本站会员(momomo)主动上传,其收益全归该用户,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!




    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库