书签 分享 收藏 举报 版权申诉 / 34
上传文档赚钱

类型大数据介绍课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:5171828
  • 上传时间:2023-02-16
  • 格式:PPT
  • 页数:34
  • 大小:11.44MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《大数据介绍课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 介绍 课件
    资源描述:

    1、大数据从何而来,互联网技术发展现状?大数据从何而来,互联网技术发展现状?什么是大数据、云计算与大数据有什么什么是大数据、云计算与大数据有什么关系、大数据类型?关系、大数据类型?大数据如何获取、存储、处理、分析的大数据如何获取、存储、处理、分析的技术?技术?大数据怎么用、未来发展趋势?大数据怎么用、未来发展趋势?Question互联网发展趋势互联网发展趋势2023-1-2742023-1-2761.大数据(Big Data)所谓所谓“大数据大数据”(big data)指的是这样一种现象:一个公司日常运营所生成和积累用户)指的是这样一种现象:一个公司日常运营所生成和积累用户行为数据行为数据“增长如

    2、此之快,以至于难以使用现有的增长如此之快,以至于难以使用现有的工具来驾驭,困难存在于数工具来驾驭,困难存在于数据的据的、和和等方面。等方面。”这些数据量是如此之大,已经不这些数据量是如此之大,已经不是以我们所熟悉是以我们所熟悉G或或T为单位来衡量,而是以为单位来衡量,而是以或 为计量单位,所以称之为大数据。为计量单位,所以称之为大数据。大数据的大数据的4V特性特性体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频

    3、、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效2.什么是云计算?什么是云计算?云计算云计算将计算任务分布在大量计算机构成的资源池上,是各种应用系统能够根据需将计算任务分布在大量计算机构成的资源池上,是各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。要获取计算力、存储空间和各种软件服务。云计算的云计算的“云云”就是存在于就是存在于,它包括硬件资源(服,它包括硬件资源(服务器、存储器、务器、存储器、CPU等)和软件

    4、资源(如应用软件、集成开发环境等)本地计算机只需等)和软件资源(如应用软件、集成开发环境等)本地计算机只需要通过互联网发送一个需求信息,远端就会有成千上万的计算机为你提供需要的资源并要通过互联网发送一个需求信息,远端就会有成千上万的计算机为你提供需要的资源并将结果返回本地计算机。将结果返回本地计算机。数据模型:结构化数据:二维表(关系型)半结构化数据:树、图非结构化数据:无结构化数据:先有结构、再有结构化数据:先有结构、再有数据数据半结构化数据:先有数据,再半结构化数据:先有数据,再有结构有结构虚拟数据库信息管理系统(HIS)电子病历2023-1-27销售管理系统11关系数据模型CRM客户关系

    5、管理实时监控平台远程监护平台Google 大数据处理技术大数据处理技术作用:作用:-成本降低,能用成本降低,能用PC机,不用大型机和高端存储机,不用大型机和高端存储 -软件容错硬件故障视为常态,通过软件保证可靠性软件容错硬件故障视为常态,通过软件保证可靠性 -简化并行分布式计算,无须控制节点同步和数据交换简化并行分布式计算,无须控制节点同步和数据交换-Google文件系统GFS(Google File System)-并行数据处理MapReduce-结构化数据表BigTable-分布式锁管理Chubby技术变革技术变革云计算:把集中的运算分散开来云计算:把集中的运算分散开来物联网:把分散的设备

    6、连在一起物联网:把分散的设备连在一起HadoopHadoop:把大数据切成小模块:把大数据切成小模块大数据处理技术开源Apache项目,灵感来源于Google的三篇论文:BigTable、MapReduce、GFS;Hadoop核心组件包括:-分布式文件系统(HDFS)-分布式数据库存储系统(Hbase)-分布式计算构架(MapReduce)使用Java编写运行平台:LinuxHDFS 体系架构体系架构HDFS:-分布式文件存储系统分布式文件存储系统,存储海量的数,存储海量的数据;据;-数据冗余,硬件容错;数据冗余,硬件容错;-流式的数据访问;流式的数据访问;-存储大文件存储大文件;-适合数据

    7、批量读写,吞吐量高;适适合数据批量读写,吞吐量高;适 一次写入,多次读取,顺序读写。一次写入,多次读取,顺序读写。-不适合交互式应用,低延迟很难不适合交互式应用,低延迟很难 满足不支持多用户并发写相同文件。满足不支持多用户并发写相同文件。HDFS 分布式文件系统分布式文件系统DataValue :数据挖掘数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但潜在的有用信息和知识的过程。中的、人们事先不知道的、但潜在的有用信息和知识的过程。知识发现知识发现(KDD)是从数据集中识别)是

    8、从数据集中识别出有效的、新颖的、潜在有用的,以及出有效的、新颖的、潜在有用的,以及最终可理解的模式的过程。最终可理解的模式的过程。数据挖掘是数据库知识发现(数据挖掘是数据库知识发现(KDD)中不可缺少一部分中不可缺少一部分数据挖掘基本方法数据挖掘基本方法预测建模预测建模:将已有数据和模型用于对未知变量的语言。(1)分类,用于预测离散的目标变量(2)回归,用于预测连续的目标变量关联分析关联分析:反映一个事物与其他事物之间的相互依存性和关联性。用来发现描述数据中强关联特征的模式。聚类分析聚类分析:发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似异常检测异

    9、常检测:识别其特征显著不同于其他数据的观测值实战项目实战项目1 Python 网络爬虫网络爬虫网络爬虫网络爬虫是一个自动提取网页的程序/脚本,它可以搜索引擎从万维网上下载网页,是搜索引擎的重要组成。做为通用搜索引擎网页收集器(Google、Baidu)做垂直搜索引擎(51job、zhaoping、chinahr)科学研究:在线人类行为,在线社群演化,复杂网络,数据挖掘领域的实证科学研究,快速收集大量数据Task:携程数据库(游客数据、点评记录):携程数据库(游客数据、点评记录)实战项目实战项目2 数据分析及可视化应用数据分析及可视化应用1.Python2012年美国总统大选数据分析年美国总统大

    10、选数据分析2.动态气泡图的实现动态气泡图的实现3.热力感应图(热力感应图(heatmap.js)管理大数据管理大数据“易易”,理解大数据理解大数据“难难”目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心.非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等.2023-1-2727云计算技术是最理想的解决方案云计算技术是最理想的解决方案!?!?2023-1-2728社会计算研究社会计算研究2023-1-27292023-1-27NWU 智能信息处理研究所30:不同时刻的城市热点检测、城市区域的功能特性分类、路径规划、出租车司机寻客策略、异常轨迹检测、城市道路交通流量预测等;:探索个人和群体移动模式、群体事件监测、个性化的兴趣点推荐和搜索服务、交叉重叠式社群的发现与诠释等;:测量城市交通系统效率、优化城市道路、人的移动性、地区经济发展、传染病预测、监测群体移动位置预测群体事件等。大数据时代的发展趋势大数据时代的发展趋势大数据时代的发展趋势大数据时代的发展趋势大数据时代的发展趋势大数据时代的发展趋势大数据时代的发展趋势大数据时代的发展趋势

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:大数据介绍课件.ppt
    链接地址:https://www.163wenku.com/p-5171828.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库