大数据分析实用教程-基于Python实现课件11大数据概述.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据分析实用教程-基于Python实现课件11大数据概述.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 实用教程 基于 Python 实现 课件 11 概述
- 资源描述:
-
1、云计算与大数据处理原理 唐四薪唐四薪课程介绍v课程名:云计算与大数据处理原理课程名:云计算与大数据处理原理v学时:学时:48学时学时(讲授讲授32学时学时+上机上机16学时学时)v课程性质:必修课程性质:必修v考试:考试:闭卷闭卷,第第20周周 国家战略规划:深国家战略规划:深化化大数据大数据、人工智能人工智能等研发应用等研发应用,培育新一代信息技术、高端装备、生物医药、新,培育新一代信息技术、高端装备、生物医药、新能源汽车、新材料等新兴产业集群,壮大数字经济能源汽车、新材料等新兴产业集群,壮大数字经济。摘自摘自国务院国务院2019年政府工作报告年政府工作报告 为什么要学习大数据技术为什么要学
2、习大数据技术为什么要学习大数据技术2017年:教育部批准年:教育部批准100多所高校同时增设多所高校同时增设 数据科学与大数据技术数据科学与大数据技术专业专业 数据科学:科学研究的第四范式实验理论计算机模拟数据第一章:大数据简介主讲教师:唐四薪大数据分析实用教程基于Python实现目录1.11.1大数据的来源大数据的来源1.21.2大数据的定义大数据的定义1.3大数据的特点1.41.4大数据处理的过程大数据处理的过程第一第一章章 大数据概述大数据概述什么是大数据什么是大数据(什么是大数据(Big Data)数据基本知识大数据定义用4V描述大数据特征大数据是任何超过了一台计算机处理能力的数据量亚
3、马逊的定义GBTBPBEBZB相对量相对量大数据就是数据量大到无法用一台计算机处理和存储的数据1.1大数据的来源搜索引擎数据1电商交易数据2社交网络数据3物联网传感器数据4网站日志数据5传统互联网移动互联网物联网1.搜索引擎数据 搜搜索引擎是大家最为熟悉的大数据系统索引擎是大家最为熟悉的大数据系统,百,百度在简洁的度在简洁的用户界面下面隐藏着世界上最大规模的大数据系统。用户界面下面隐藏着世界上最大规模的大数据系统。百度每天的搜索百度每天的搜索次数次数 50亿次亿次百度热门搜索 搜索引擎搜索引擎大数据的大数据的应用应用Top K问题2.电商交易数据 淘宝、京东等电商平台每天会产生大量交易数据淘宝
4、、京东等电商平台每天会产生大量交易数据 电商大数据的应用电商大数据的应用 交交叉销售、商品推荐叉销售、商品推荐 商商品比价品比价百度迁徙 百度迁徙是2014年百度利用其位置服务(Location Based Service,LBS)所获得的数据,将人们在春节期间位置移动情况用可视化的方法显示在屏幕上如图所示。3.物联网、传感器数据物联网、传感器数据物联物联网设备(无线传感器、网设备(无线传感器、RFID)会产生大量数)会产生大量数据,如据,如GPS位置数据、温度数据等。位置数据、温度数据等。4.社交网络数据社交网络数据社交网络:社交网络:QQQQ、微信、抖音、微博、微信、抖音、微博Facebo
5、ok Facebook、MSNMSN社交网络来源:移动设备、电脑社交网络大数据的应用:好友推荐、节目推荐等5.网站日志数据网站日志数据大型网站的日志文件每天会记录大量的访问数据大型网站的日志文件每天会记录大量的访问数据网站日志大数据的应用网站日志大数据的应用 计计数统计数统计:如:如PV(Page View),每个页面访问次数,每个页面访问次数 去去重统计重统计:比如独立:比如独立 IP 数,独立用户数数,独立用户数等等 Top N统计统计:比:比如某天如某天检索量最大检索量最大的关键词的关键词日志文件实时收集日志文件实时收集框架框架Flume6.行行业大数据业大数据行业大数据:金融、医疗、保
6、险、交通、气象、制造、行业大数据:金融、医疗、保险、交通、气象、制造、基因分析基因分析什么是大数据数据基本知识大数据定义用4V描述大数据特征大数据的来源传统互联网、移动互联网、物联网计算机、移动终端设备、传感器麦肯锡麦肯锡的定义:大数据指的是大小超出常规的数大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集据库工具获取、存储、管理和分析能力的数据集。维基百科维基百科的定义:大数据是指利用常用软件工具大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时来获取、管理和处理数据所耗时间超过可容忍时间的数据集。间的数据集。GartnerGartner的定义:大数据是
展开阅读全文