书签 分享 收藏 举报 版权申诉 / 57
上传文档赚钱

类型最新大数据和大数据技术专业知识讲座课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:2901228
  • 上传时间:2022-06-09
  • 格式:PPT
  • 页数:57
  • 大小:11.10MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《最新大数据和大数据技术专业知识讲座课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    最新 数据 技术 专业知识 讲座 课件
    资源描述:

    1、文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。Advanced Analytic Service All Rights Reserved 20161议程u公司简介u大数据与大数据技术u大数据技术应用 u大数据案例分享u问题讨论 文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。Advanced Analytic Service All Rights Reserved 20162公司简介u公司概况&发展历史u主要客户&大数据产品文档来源于网络,文档所提供的信息仅供参

    2、考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。新加坡上海北京公司概况青岛雅加达专注于分析预测与行业应用的的大数据公司深圳业务1业务2业务3提供基于大数据技术的预测性分析及商务智能解决方案大数据平台、数据集成与准备工具、开源开发技术自助式分析工具、数据可视化工具提供全球顶尖的大数据软件产品300+ 技术服务人员端到端的大数据平台数据集成、数据挖掘与预测性分析、高级分析企业级大数据仓库、企业绩效管理、商务智能大数据SaaS应用和DaaS服务基于云平台的软件即服务大数据应用为企业提供全面的数据服务 文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿

    3、。文档如有不当之处,请联系本人或网站删除。发展历史数据仓库绩效管理高级分析数据可视化看板管理商务智能2.0至今2005200720112002大数据技术大数据应用分析预测数据挖掘数据即服务数据集市 14年来,我们与数俱进文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。汽车制造 电子产品及家电 快消零售 医药与生命科学 航空与物流 高科技制造业 金融及其他主要客户文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。云以 H a d o o p 为核心的大数据产品系列数据

    4、集成与准备SQL on HadoopText here流计算机器学习开源开发技术数据挖掘以 H a d o o p为核心的大数据产品大数据软件产品Statistica 数据可视化Vortex文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。拥有多元化的数据科学家团队和十余年的数据分析经验。经十余年自主开发的IP打造数据行业领先的技术优势。 追踪吸收和引进行业内最先进的技术,产品和应用经验。世界顶尖数据技术公司在中国地区的首选合作伙伴。在一大批竞争行业(汽车、制药、快消、家电、物流等)内拥有深厚的客户基础和众多行业成功案例。追求行业

    5、业务能力和技术能力的融合以及企业系统架构与解决业务问题间的平衡,具有扎实的项目实施能力。HEADLINE 竞争优势文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。Advanced Analytic Service All Rights Reserved 20168大数据与大数据技术文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。Hadoop技术的发展物联网应用需要将Hadoop变为一个高性能的分析平台需要Hadoop不光能存储数据,更要能够处理计算数据文档来源于网

    6、络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。SQL 分析挖掘预测图形化数据分析智能搜索时间、用户、地理位置、事件 等标签辅助技术:Kafka, HBase, Cassandra, Accumulo基于大数据技术的数据分析处理Hadoop 核心层数据准备数据准备文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。u技术更迭过快u开源产品成熟度u开发效率u与现有架构的关系u运维与安全大数据技术的顾虑文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有

    7、不当之处,请联系本人或网站删除。大数据平台计算框架SQLYARN传统数仓功能非结构化流式挖掘分析文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。软件架构 (举例)DATA PLATFORM(HDFS)灵活数据准备SQL in HadoopS Q L(ODBC、JDBC、。NET)API:Java, C/+, Python报表外部应用下游系统管理控制台 (CloudEra、Talend、KNIME)数据安全以及认证(Portal集成)文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系

    8、本人或网站删除。用工具取代代码作坊MapReducePerformance(runs on disk)OneClickSparkPerformance(runs in-memory &on disk)20XFaster文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。同时处理实时与批次流式处理批次处理转换清洗治理转换清洗治理推荐引擎Spark Streaming/KafkaSpark数据库,文件,批次数据实时,流数据HDFS文件数据流输出文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请

    9、联系本人或网站删除。基于用户数据理解地模型预测u图形化数据准备挖掘u运用Spark Mlib 等进行计算 u结果回写入Impala或者HIVE文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。非结构化数据为存储的新型SQLu 基于落地HDFS的文件或HBASE进行SQL建表解析u 提供工业MPP级别查询性能u 线性可扩展 u 标准JDBC SQL界面,直连BO,Tableau ,Qlikview, MSTR等报表工具文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。A

    10、dvanced Analytic Service All Rights Reserved 201618技术方案:特点小结u 基于开源系统的成熟商用插件方案u部署简便u提高开发效率u降低实施风险u基于内存的计算 性能优异u 全部基于唯一Hadoop集群内,统一存储统一计算u减少数据传输迁移的同步问题u维护便捷:一套集群,维护简单u扩展性:无限扩展 线性提升u 便捷的开发及报表展现工具u 图形化 ETL,数据挖掘开发u 便捷报表展现分析工具u 建模过程100% 用户参与u IT基础架构与用户数据准备、探查、分析、预测分离文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档

    11、如有不当之处,请联系本人或网站删除。大数据团队组织建设数据与业务的结合大数据开发团队技术平台支持业务人员咨询团队大数据管理员内部团队与专业伙伴紧密合作Evan数据科学家文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。Advanced Analytic Service All Rights Reserved 201620大数据技术应用文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。Internet of Customers and Internet of Thing

    12、sIoTInvisible devices and Wearable devicesTrillions of networked nodesLow bandwidth last-mile connection100kBit/secMostly addressed by local schemesMachine-centricSensing-focusTrillions of computer-enabled devices which are part of the IoTGlobal addressingUser-centricCommunication-focusIoCLaptops /

    13、tablets / smartphones Billions of networked devicesHigh-bandwidth accessCable: 10Mbs+Fiber: 50-100Mbs6+billion people1.5 billion use netUS: 4.3 devices per adult文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。Big Data on IoT文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。Predictive

    14、 Maintenancethat enable you to change your businessHadoopMachine LearningQuery and reportingIoT 解决方案Command and ControlYou have devices on the network edgePlant FloorThingsSupply ChainThingsBack OfficeThingsBasic SensorsIntelligent Devicesthat provide you dataSQL DatabasesBlob StorageTable StorageEx

    15、ternal StorageDocumentDBthat you understand, apply rules, models and moreCommand andControlEvent Hub (Service Bus)文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。 本质是基于“信息物理系统”实现“智能化”二、工业4.0时代的智能制造IoT 的本质 文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。二、工业4.0时代的智能制造IoT-智能工厂文档来源于网络

    16、,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。Big Data on IoCp 360 Customer Profilep Micro-Segmentationp Customer Lifetime Valuep Next Best Actionp Customer Sentiment p Campaign Optimizationp Churnp Market Basket Analysis文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。关联分析行动创建客户档案识别共同关键

    17、词CRM账户信息及客户特征EDW交易历史社交媒体关键字整合数据并载入hadoop连接至文本挖掘应用将数据库连接至EDW连接至flat file购买周期趋势购买家庭信息购买人口特征通过API与CRM相连连接至flat file连接至flat file删除重复客户载入Hadoop在用户ID间连接数据第一阶段识别人口微簇客户画像文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。 删除重复客户在用户ID间连接数据识别共同关键字创建客户档案数据流引擎人口分布客户倾向HADOOP 集群/YARN关联分析行动数据库分析查询可视化报表分析工具及应

    18、用HDFS/NFS低延迟查询集成服务器BI服务器数据库集群/服务器社交媒体链接数据库链接文本分割链接API链接固定文本链接文本分割链接消费心理第一阶段HDFS API数据混合与浓缩集成引擎ACTIAN分析平台CRM账户信息及客户特征EDW交易历史社交媒体关键字购买周期趋势购买家庭信息购买人口特征客户画像参考架构文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。360度客户视图文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。Advanced Analytic Serv

    19、ice All Rights Reserved 201630案例分享u车联网大数据应用文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。项目背景围绕车辆全生命周期,数据驱动的车联网与跨行业融合,可衍生出多样的商业模式与创新服务;基于丰富的车联数据、多样的服务平台,可对行业、社会热点展开洞见分析,同时挖掘更多的商业价值,拓展新的业务车辆全生命周期Car Full Life Cycle车辆防盗,财产保护Property Protection保险车联网Telematics Insurance车内LBS服务In-Car LBS车载4G热点

    20、Onboard 4G WIFI预测性保养提醒Proactive Reminder汽车延保Extended Warranty预测性维修提醒Proactive Reminder远程在线升级OTA Upgrade车队管理Fleet Mgmt.汽车共享Car Sharing车况分析报告Assess Report二手车联合鉴定United Assessment消费者画像User Portrait新车销售线索Sales Leeds客制化服务Customization产品规划Planning设计研发R&D生产制造Production市场营销Marketing售后保障After Sales持续改进Keep I

    21、mprove新车销售Car Sales试驾Test Drive金融Finance维修Repair车生活In-Car Life保险Insurance保养Maintain租赁Leasing二手车Used Car文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。安吉星大数据项目目标与当前的问题目标:主数据(数据质量)的升级主题模型落地,保持数据一致性提高运维的灵活性应用数据缓存的改造用空间换时间的方法保护后台核心应用的正常运行企业经营分析的改造提高运营速度和质量,降低数据开发成本新业务的支持驾驶行为分析燃油分析二手车评估车况鉴定报告问题

    22、:缺少数据主题重复开发和浪费成本数据质量不可控数据缺少管控BI 开发成本高,周期长缺少业务分析平台车辆数据采集能力有限业务数据无法有效支持文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。大数据平台逻辑架构报表/可视化数据集成区批量数据处理实时消息队列数据湖泊区机器学习区NoSQL区流计算区数据暂存区数据暂存区数据仓库区数据仓库区主题分析区主题分析区MobileDAAPVehicleLVDSTraffic ProbeHA/HBOVDACR其它数据源其它数据源系统管理数据管理搜索引擎区数据交换区数据源文档来源于网络,文档所提供的信息

    23、仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。车辆行驶日志车辆行驶日志急加速、加速日志车载系统日志文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。实时数据计算35文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。驾驶行为评分36第1步:建模变量的选择从所有变量中,选取建模选定的变量 第2步:衍生建模变量计算基于TP类别的变量,进行用户驾驶风险的初步计算第3步:用户出险概率计算基于第2步计算结果,结合HAHB类别变量,进行用户出险概

    24、率的计算第4步:驾驶风险评分计算将出险概率,转化为对应的驾驶风险评分第5步:驾驶行为评分计算将驾驶风险评分,转化为对应的驾驶行为评分文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。驾驶行为评分阈值计算u通过机器学习算法,实时的将所有用户数据代入驾驶风险概率模型,动态计算相关阈值uSet response variable = uncomfortable maneuveruSet predictor variable = acceleration, speed, turnsuCalculate the score37文档来源于网络

    25、,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。驾驶行为评分文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。用车轨迹-用户画像 When 何时 Where 何地 Who 是谁 What 做什么上班族Commuter商务人士Biz Man家庭主妇Housewife夜晚活动族Night Owls文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。用车轨迹 交叉销售售后维修保养机会点Opportunities for A/

    26、S Maintenance 新车销售机会点Opportunities for New Car SalesMaintenance Opportunities 文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。车况报告文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。车况报告文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。Advanced Analytic Service All Rights Reserv

    27、ed 201643案例分享u智能生产预测文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。项目背景项目背景随着业务的不断发展,生产线不断扩张,不同生产线、不同机台、不同工序所产生的玻璃面板坏点数量参差不起,良品率总体呈现下降趋势。为了提高玻璃面板的良品率,不断优化工艺流程,提升产品质量,决定建立数据分析平台,来预测坏点产生跟生产流程上的哪些因素有关,来做有正对性的改进。项目实施收集生产Glass过程当中所有相关的因子信息,通过Dataflow工具对品质异常的玻璃数据进行regression、correlation挖掘算法分析,计算

    28、各因子与产品异常之间的影响关系。同时针对正常品质玻璃也做因子分析,计算得出正常品质下各因子的正常范围值,从而可以快速判定超出范围的为异常值。文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。品质异常因子分析抽取源系统数据并通过数据的业务逻辑进行数据关联进行数据准备,然后通过数据挖掘算法进行correlation、regression两类数据挖掘,并将挖掘结果写到HDFS文件系统中。文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。通过针对defect_count、re

    29、cipe、TC_C1_EV因子,经过regression算法,从测试数据中挖掘出defect_count预测数据数据分析过程通过针对不同Product_ID下,defect_count因子和TC_PRESSS、TC_IP1_PRESS、TC_IP2_PRESS,车台温度等因子,经过correlation算法,从测试数据中挖掘出相关性数据注:挖掘数据位于测试中转机I:To_Andycorrelation.txt 、I:To_Andyregression.txt文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。关联预测准确度(越靠近中

    30、线,预测偏差越小)文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。线性回归分析异常点部分需要进一步分析文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。分析结果文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。Advanced Analytic Service All Rights Reserved 201650案例分享u传统数仓转大数据文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请

    31、勿模仿。文档如有不当之处,请联系本人或网站删除。项目背景u使用传统的标准数仓建模,分ODS、DW、DM及DMAuETL主要通过存储过程实现u存储过程数据加工较多的使用临时表、中间表u使用传统交易型DBMS ORACLE作为数据仓库平台u前端通过刷CUBE提升报表查询速度u支撑报表数量:目前150左右u每日增量更新时长:1:0012:50文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。存在的问题数据冗余比较严重临时表、中间表使用过多,对内存及磁盘IO压力较大层与层之间调度依赖严格数据加工性能不足数据查询性能不足高并发查询性能下降严

    32、重文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。并发的计算架构53加载入分布式存储SQL on Hadoop加载入SQL in HadoopSourceCDH Cluster + Hadoop ETL分布式内存数据整合数据抽取CDH Nodes (Clouderas distributiong including Apache Hadoop) Hadoop ETL runs natively on every nodeSQL on HadoopSQL on Hadoop基于标准SQL或者API界面输出文档来源于网络,文档所提供

    33、的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。新架构解决的问题数据冗余比较严重临时表、中间表使用过多,对内存及磁盘IO压力较大层与层之间调度依赖严格数据加工性能不足数据查询性能不足高并发查询性能下降严重Dataflow流式加工数据,只将结果集回写数据库,大大避免减少数据冗余Dataflow中流式加工数据,可以不用临时表,节约大量磁盘IODataflow作业中直接实现业务逻辑,各报表相对独立无依赖Dataflow流式并行加工数据,且可通过扩展节点线性提升性能Impala特有向量计算技术及采用分布式并行计算架构Impala向量计算、列存储、并行计算等技术完美支持高并发查询文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。结果比较文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。大数据创新实验室Better Data, Better Decision大数据之路有我们,不再迷茫文档来源于网络,文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。Advanced Analytic Service All Rights Reserved 201657总结

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:最新大数据和大数据技术专业知识讲座课件.ppt
    链接地址:https://www.163wenku.com/p-2901228.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库