数据与大数据分析课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据与大数据分析课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 课件
- 资源描述:
-
1、BIG DATAContents13我们可以做些什么我们可以做些什么2实操分享实操分享4大数据,你从大数据,你从哪来哪来你是谁你是谁中国网民数量:7.51亿半年增长率:2.7%中国注册网站数量:344.3万个手机网民:7.236亿 占网民总数:96.3%月均网络交易: 16亿笔 每日新发微博数量: 1亿+条 注册微博用户数: 2.9071亿 发布的网页数量:866亿页年增速:40%网络直播用户:3.43亿 占网民总数:47.1%很多人还没搞清楚什么是PC互联网,移动互联来了;我们还没搞清楚移动互联的时候,大数据时代又来了!马云数据爆炸式的增长数据资产管理的挑战需要更高性价比的数据计算与储存方式
2、需要不同的数据管理策略你从哪里来?你从哪里来?Twitter上发布98000+新微博13000+个iPhone应用下载Skype上37万+分钟的语音通话上传6600张新照片到flickr发出1.68亿+条EmailYouTube上上传600+新视频淘宝光棍节10680+个新订单Facebook上更新69.5万+条新状态12306出票1840+张数据爆炸式的增长数据爆炸式的增长数据资产管理的挑战数据资产管理的挑战数据资产数据资产B数据资产管理数据资产管理传统数据管理方式面临传统数据管理方式面临挑战挑战AC需要更高性价比的数据计算与储存方式需要更高性价比的数据计算与储存方式计算更快 存储更省10万
3、 GB10万 TB1Byte = 8 Bit1KB = 1,024 Bytes1MB = 1,024 KB = 1,048,576 Bytes1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes1Z
4、B = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes1Bity1KB1MB1GB1TB1PB1EB1ZB1YB85%半/非结构化的Log / Web page / Email / PDF / Image / Full-text / MS-Office file 需要需要不同的数据管理策略不同的数据管理策略15% 结构化的 DB/DW残缺当我们想要扩充时,才发觉: 架构只能 scale-up, scale-out 不易 处理时间过长, t
5、ime-to-value 受限 成本过高, cost-efficiency 受限概念(Concept)特征(Features)变革(Change)技术(Technology)数据库(数据库(database)大数据(大数据(bigdata) 你是什么?你是什么? 大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就是“未来的新石油”。 全球信息咨询机构国际数据公司(IDC)对大数据的技术定义是:通过高速捕捉、发现或分析,从大容量数据中获取价值的一种新的技术架构。 所谓“大数据”(big data) 指的是这样一种现象:一个公司日常运营
6、所生成和积累用户行为数据“增长如此之快,以至于难以使用现有的数据库管理工具来驾驭,困难存在于数据的获取、存储、搜索、共享、分析和可视化等方面。”这些数据量是如此之大,已经不是以我们所熟知的多少G和多少T为单位来衡量,而是以P(1000个T), E(一百万个T)或Z(10亿个T)为计量单位,所以称之为大数据。概念概念n 数据类型多越来越多非结构化数据;音频、 食品,地理位置信息等多类型数 据对数据处理能力提出更高要求。n 数据价值高海量数据带来了巨大的商业价值。数据之间关联性支持深层的数据挖掘。大数据的特点大数据的特点-4V理论理论n 数据处理速度快 对数据实时处理有着极高的要求, 通过传统数据
7、库查询方式得到的 “当前结果”很可能已经没有价值。n 数据规模大从TB跃升到PB甚至EB。 一组公式:1024GB=1TB; 1024TB=1PB;1024PB=1EB。 各级政府、主管部门、上市公司、企业集团、外资公司都将基于大数据分析平台优化其决策。优化 大数据分析能力逐渐加强,传统市场研究行业、证券研究所、产业链咨询机构将逐渐消失。革命 银行都将基于企业大数据平台开展银行直销业务,同时按照产业链金融服务事业部模式开展业务颠覆 因大数据系统的出现,所有依赖信息不对称盈利的业务都将消失。改变大数据改变生活大数据改变生活IBM C&P Industry需求海量数据存储技术实时数据处理技术数据高
8、速传输技术搜索技术描述分布式文件系统流计算引擎服务器/存储间高速通信文本检索、智能搜索、实时搜索技术Hadoop,x86/MPPMap ReduceStreaming DataInfini BandEnterpriseSearch数据分析技术大大数据涉及的关键技术数据涉及的关键技术Text Analytics Engine 自然语言处理、文本情感分析、Visual Data Modeling 机器学习、聚类关联、数据模型顾客顾客一次购买商品一次购买商品 1面包、黄油、尿布、牛奶面包、黄油、尿布、牛奶 2咖啡、糖、小甜饼、鲑鱼咖啡、糖、小甜饼、鲑鱼 3面包、黄油、咖啡、尿布、牛奶、鸡蛋面包、黄油
9、、咖啡、尿布、牛奶、鸡蛋 4面包、黄油、鲑鱼、鸡面包、黄油、鲑鱼、鸡 5鸡蛋、面包、黄油鸡蛋、面包、黄油 6鲑鱼、尿布、牛奶鲑鱼、尿布、牛奶 7面包、茶叶、糖、鸡蛋面包、茶叶、糖、鸡蛋 8咖啡、糖、鸡、鸡蛋咖啡、糖、鸡、鸡蛋 9面包、尿布、牛奶、盐面包、尿布、牛奶、盐10茶叶、鸡蛋、小甜饼、尿布、牛奶茶叶、鸡蛋、小甜饼、尿布、牛奶顾客顾客一次购买商品一次购买商品 1面包、黄油、面包、黄油、尿布尿布、牛奶牛奶 2咖啡、糖、小甜饼、鲑鱼咖啡、糖、小甜饼、鲑鱼 3面包、黄油、咖啡、面包、黄油、咖啡、尿布尿布、牛奶牛奶、鸡蛋、鸡蛋 4面包、黄油、鲑鱼、鸡面包、黄油、鲑鱼、鸡 5鸡蛋、面包、黄油鸡蛋、面
10、包、黄油 6鲑鱼、鲑鱼、尿布尿布、牛奶牛奶 7面包、茶叶、糖、鸡蛋面包、茶叶、糖、鸡蛋 8咖啡、糖、鸡、鸡蛋咖啡、糖、鸡、鸡蛋 9面包、面包、尿布尿布、牛奶牛奶、盐、盐10茶叶、鸡蛋、小甜饼、茶叶、鸡蛋、小甜饼、尿布尿布、牛奶牛奶品种计数项:品种面包6牛奶5尿布5鸡蛋5黄油4糖3咖啡3鲑鱼3小甜饼2鸡2茶叶2盐1总计41概念(Concept)分类(Features)流程(Technological process)我们可以做些什么?我们可以做些什么?什么是数据分析什么是数据分析数据分析有哪些类型描述性描述性数据分析探索性探索性验证性验证性初级数据分析初级数据分析高级数据分析高级数据分析 先决条
11、件 提供方向明确目的明确目的 数据库 其他媒介数据收集数据收集 清洗、转化、提取、计算数据处理数据处理 统计分析 数据挖掘数据分析数据分析 图表表格文字数据展现数据展现 框架清晰 明确结论 提出建议报告撰写报告撰写数据分析的一般环节数据分析的一般环节关于数据分析的分享与交流关于数据分析的分享与交流理论模型统计方法可视化数据分析方法论数据分析方法论常用的数据分析理论模型营销方面管理方面4PPEST用户使用行为5W2HSWOT生命周期逻辑树金字塔SMART原则4P(product price place promotion) 公司提供什么产品或服务?哪个产品的销量最好? 与用户需求是否一致? 购买
12、产品的都是什么人产品 公司销售收入怎么样? 用户接受的合理价格是多少? 用户购买支付方式是怎么样的?价格 公司在各地区有多少销售渠道? 公司的渠道政策是否有吸引力?渠道 投入多少促销资源? 投放多少宣传广告?效果如何?促销5W2HWHY 用户买的目的是什么?产品在哪些方面吸引用户?WHAT公司提供什么产品或服务吗?用用户需求是否一致?WHO谁是我们的用户?用户有何特点?WHEN何时购买?何时再次购买?WHERE用户在哪里购买用户在各个地区的构成怎样?HOW用户支付方式是怎样?HOW MUCH用户购买花费的成本?KANO模型模型对顾客的不同需求进行分区处理,帮助团队识别对产品来说较为关键的客户需
13、求层次,尽快完成规划。兴奋型需求期望型需求基本型需求数据分析统计方法统计统计方法方法聚类分析01回归分析02时间序列分析03因子分析和主成分分析04数据分析软件MATLABSASSpssStataEviewsExcel可视化方法可视化方法ECHARTSEASELYPPT附:1、ECHARTShttp:/ END用户行为理论用户行为理论用户行为理论的用途较单一,就是用于用户行为研究分析用户使用行为:认知-熟悉-试用-使用-忠诚利用用户行为理论,梳理网站分析的各关键指标之间的逻辑关系,构建符合公司实际业务的网站分析指标体系:ADD YOUR TITLE HERETEXT HERETEXT HERE
14、TEXT HERETEXT HERETEXT HEREADD YOUR TITLE HEREThis is an example text. Go ahead and replace it.ADD YOUR TITLE HEREThis is an example text. Go ahead and replace it.ADD YOUR TITLE HEREThis is an example text. Go ahead and replace it.数据分析统计方法01020403聚类分析ADD YOUR TITLE HEREThis is an example text. Go ah
15、ead and replace it.ADD YOUR TITLE HEREThis is an example text. Go ahead and replace it.ADD YOUR TITLE HEREThis is an example text. Go ahead and replace it.数据分析统计方法聚类分析回归分析因子分析和主成分分析时间序列分析数据分析软件MATLABSASSpssStataEviewsExcel1.绩效指标必须是具体的(Specific)2.绩效指标必须是可以衡量的(Measurable)3.绩效指标必须是可以达到的(Attainable)4.绩效
展开阅读全文