书签 分享 收藏 举报 版权申诉 / 69
上传文档赚钱

类型乘风破浪小姐姐大数据分析课件.pptx

  • 上传人(卖家):三亚风情
  • 文档编号:3518736
  • 上传时间:2022-09-10
  • 格式:PPTX
  • 页数:69
  • 大小:12.66MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《乘风破浪小姐姐大数据分析课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    乘风破浪 姐姐 数据 分析 课件
    资源描述:

    1、乘风破浪的姐姐中,谁才是程序员眼中的乘风破浪的姐姐中,谁才是程序员眼中的C C位位黑马程序员公开课黑马程序员公开课为什么乘风破浪的姐姐如此之火?大数据场景爬虫小姐姐数据来源如何通过数据分析小姐姐的故事为什么需要进行数据分析大数据繁华生态圈课程大纲传统数据分析难点与痛点大数据行业趋势分析下一步直播预告搭建大数据生态知识体系为什么乘风破浪的姐姐如此之火?学习目的:1、乘风破浪的姐姐,她们都是谁?2、乘风破浪的姐姐中,谁才是程序员眼中的C位乘风破浪的姐姐嘉宾名单乘风破浪的姐姐嘉宾名单:阿朵、郑希怡、宁静、陈松伶、钟丽缇、伊能静、海陆、金晨、蓝盈莹、王丽坤、万茜、张萌、金莎、刘芸、沈梦辰、吴昕、郁可唯

    2、、朱婧汐、丁当、黄龄、孟佳、王霏霏、许飞、袁咏琳、张雨绮、黄圣依、张含韵、王智、白冰、李斯丹妮。30位选手竞争最后的位选手竞争最后的5个出道位而努力个出道位而努力l 30位出道多年的姐姐辈女艺人,一个个风格各异、个性鲜明。她们将通过合宿生活与舞台竞演,最终选出5位组成逆龄女团。l 乘风破浪的姐姐?NO!是兴风作浪的姑奶奶l 出道时长十年起,这些姐姐们都有谁?l 豆瓣8.3分,姐姐们的实力妥妥的l 大数据分析9万条弹幕,谁才是真正的C位?乘风破浪的姐姐就这样突然定档、突然播出、播出前无宣发的情况下爆了,一经播出就抢占各大热搜榜。乘风破浪的姐姐就这样突然定档、突然播出、播出前无宣发的情况下爆了,一

    3、经播出就抢占各大热搜榜。大数据场景爬虫小姐姐数据来源学习目的:1、如何获取网页数据2、如何爬取弹幕数据l什么是网络爬虫l从豆瓣爬取数据l大数据分析9万条弹幕,谁才是真正的C位?弹幕数据抓取1.前端相关:包括html结构,js,ajax请求过程,css,h5,cookie,session2.网络相关:request和response流程,http知识,代理proxy的使用3.存储相关:sql,database,NoSQL,redis,文件读取4.其他知识:Chrome调试,正则表达式,xpath,文件编码,分布式爬取数据以后还要做数据清洗,文本处理,数据分析,数据展示以及数据挖掘等,将会涉及更多

    4、的炫酷技能如nlp,spark,machinelearing等爬虫相关技术点如下:大数据爬虫jsoup技术&Python爬虫Scrapy:1.从一个URL,文件或字符串中解析HTML;2.使用DOM或CSS选择器来查找、取出数据;3.可操作HTML元素、属性、文本;如何通过数据分析小姐姐的故事学习目的:1、新基建和数字化转型助力大数据行业升级2、大数据行业趋势分析爬取数据示例如下:热度属性可视化展示(1)29-33这个年龄段的姐姐最多共有11位,占比36.67%。其次是34-37岁,共10位,占比33.33%。(2)姐姐们都来自哪儿?看到具体评分分布,给出四星的最多,为38.2%;其次是5星

    5、占比25%。看来观众普遍还是十分认可姐姐们的表现的当然也有不少吐槽的点,大家的吐槽主要集中在:评委杜华:不公平;30+的女性岁月积淀了魅力,评审却按照20岁女团的标准来;给丁当打分真是要气炸。黄晓明:从霸道总裁秒怂变小明,让人感觉尴尬不已节目组:场景布置令人寒酸,摄影差,灯光差,布景差。芒果芒果TvTv弹幕爬虫部分代码:弹幕爬虫部分代码:l分析网页,弹幕数据是动态加载的,因此通过Chrome浏览器进行抓包分析并获取真实的URL请求地址;l使用selenium请求网页数据;l使用正则表达式re将文本中的HTML提取出来,使用json进行解析;l使用pandas进行数据的保存。弹幕词云弹幕词云三十

    6、而励!三十而立!三十而骊!30岁以后,人生的见证者越来越少,但还可以自我见证!30岁以后,所有的可能性不断褪却,但还可以越过时间,越过自己!不要轻易用年龄定义自己,只要有追逐梦想的心,无论什么年龄段都有属于自己的精彩!l 通过皮尔逊相关系数皮尔逊相关系数结论:l 初评舞台分数和年龄、出道年数没有显著相关。l 年龄和个人特质、成团潜力的分数间存在低度负相关关系,年龄越大,个人特质和成团潜力的得分也就越低;l 个人特质和成团潜力的打分之间存在高度正相关,即两者得分存在高则同高,低则同低的情况1.传统数据分析相关:MySQL,Execl,Oracle2.大数据分析相关:Hive、MR、Spark、F

    7、link数据分析相关技术点如下:大数据分析计算四代计算引擎:1.它将计算分为两个阶段,分别为 Map 和 Reduce;2.HiveSQL;3.Spark 为代表的第三代的计算引擎;4.包括流处理、批处理,AI、MachineLearning思考:为什么传统的数据分析是有瓶颈的?打开抖音APP扫码了解更多大数据知识关注大数据行业更多福利.想了解更多大数据故事,请关注.为什么要进行数据分析为什么要进行数据分析学习目的:1、为什么有大数据分析2、大数据分析特点数据数据身高数据、体重数据、属性数据、价格数据等数据分析数据分析对数据加工、分析、处理过程信息信息身高太高、太矮、正合适体重超标、体重正常、

    8、体重偏低有价值信息有价值信息不仅仅看身高,还看是否为程序员不仅看体重,还得看长相数据挖掘数据挖掘信息的价值化提取.正处于相亲阶段的你,如何考量和评价你的Mr Right,你看重他或她的长相嘛,还是更加看重他的身高。这就是数据分析,提炼从数据到信息的过程。您看重的只有长相嘛?如何从长相和身高都比较优质的女生或男生中选择出我们心仪的男神或女神,您是更关注职业还是家庭,那么这里需要数据挖掘进一步从已有的信息中挖掘出更有价值的信息帮助您判断。我们要的是!热度较高的可能取得冠军。场景1:乘风破浪姐姐们根据对方数据进行数据分析 场景2:相亲场景迁移深度学习深度学习模拟人的大脑结构,深度提取特征,用于图像语

    9、音等场景机器学习机器学习利用常见的分类、回归、聚类场景分析数据挖掘数据挖掘利用机器学习完成数据挖掘任务人工智能人工智能包括了前面各部分,三次人工智能浪潮之巅,三次棋类游戏之战模式识别模式识别图像识别、人脸识别等基础类指标-年龄、性别统计类指标-年龄段,消费周期规则类指标:近7日活跃用户等挖掘类指标:用户购物性别用户行为分析打开一个网站:1-首页推荐2-详情页推荐3-猜你喜欢推荐4-文本评论推荐根据你在电商网站上所填的信息和你的行为,可以用一些标签把你描绘出来,描述你的标签就是用户画像。构建用户画像的核心工作即是给用户贴“标签”。场景1:用户画像如何根据用户的喜好推荐合适的商品?利用推荐系统完成

    10、电商、金融等行业的实际变现。场景2:推荐系统多场景推荐晚上18:00-24:00是用户们使用网络婚恋交友服务的高峰时段有78.7%的用户使用过线上付费服务数据来源于:2019年中国网络婚恋交友行业研究报告传统数据分析痛点传统数据分析痛点学习目的:1、为什么有大数据分析2、大数据分析特点1-Python生态中数据科学库的完整性,如生态中数据科学库的完整性,如数据可视化数据可视化matplotlib2-Python在机器学习和深度学习方面有更在机器学习和深度学习方面有更加成熟的库支持加成熟的库支持1-Python生态生态数据分析框架,诸如数据分析框架,诸如Pandas等,等,多数是基于单机版数据分

    11、析,对于分多数是基于单机版数据分析,对于分布式数据支持需要引入大数据框架布式数据支持需要引入大数据框架2-PyFlink、PySpark、TensorflowOnSparkGB-TB-ZB结构化、半结构化、非结构化数据处理速度快数据增长速度快如何对数据进行价值化提取差别1024倍,数据呈现指数级别增长非结构化的图像、文本,半结构化的Json及XMl第一代计算引擎MR第二代计算引擎Hive第三代计算引擎Impala和Spark第四代计算引擎Flink在大数据基础上如何对数据进行价值化提取数据量大数据种类多速度快价值密度低大数据繁华生态圈大数据繁华生态圈学习目的:1、大数据框架2、多场景项目大数据

    12、行业趋势分析大数据行业趋势分析学习目的:1、新基建和数字化转型助力大数据行业升级2、大数据行业趋势分析发展新机遇,产业新高度发展新机遇,产业新高度图片来自于易观-传智播客大数据研究院&易观独家合作开发DS&Argo课程l 建立集团数据仓库,统一集团数据中心,把分散的业务数据集中存储和处理建立集团数据仓库,统一集团数据中心,把分散的业务数据集中存储和处理 l 项目从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序项目从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序 l 挖掘分析海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主题使用。挖掘分析

    13、海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主题使用。以数据驱动业务,以数据决策业务以数据驱动业务,以数据决策业务1-数据资源-数据资产转变3-业务数据化到数据业务化4-业务决策-数据决策2-数据分析-数据科学大数据前沿技术举例大数据前沿技术举例学习目的:1、大数据Python生态首推123流式数据处理Java,scala和pythonDataStreamAPISQL结构化数据查询Java,scala,不支持PythonTableAPIDataSetAPI离线数据批处理Java,scala和python12DDL支持及更好的Hive兼容性更多高性能优化Flink 的未来架构的未

    14、来架构3统一的 DAG 数据结构来描述作业,使用统一的 StreamOperator 来编写算子逻辑Flink实现层API统一DataSet API将被废除面向用户的API只有 DataStream API 和 Table API&SQL,两个API共享相同的技术栈 3支持互动式开发Interactive Shell其他特性12利用Py4j建立了PythonVM与JVM通讯支持JavaTableAPI固有功能到1.10版本中支持UDF/UDAF架构API统一 Flink 1.9原有的 Python API 体系架构废弃全新的 Python API 基于 Table API 之上。1.9之后的

    15、PyFlink将PyFlink部署到PyPi上可直接安装:pip install apache-FlinkPyFlink 的核心目标:的核心目标:将 Flink 能力输出到 Python 用户,进而可以让 Python 用户使用所有的 Flink 能力。将 Python 生态现有的分析计算功能运行到 Flink 上,进而增强 Python 生态对大数据问题的解决能力。pip install pyalinkPython版本限制:版本限于 3.6 和 3.7Flink版本:1.10PyAlink 与 PyFlink 进行了一定的整合。用户在新版本的 PyAlink 中能够使用 PyFlink 的部

    16、分功能更多功能整合正在进一步开发 Alink 在离线的机器学习场景下与主流的 Spark ML 的对比显示,其在功能集合上所有算法基本一致。在性能对比方面,Alink 和 Spark ML 在离线训练场景下的性能基本在一个水平线上。但 Alink 支持部分算法通过流式方法进行计算,更好地实现在线机器学习PyFLinkPyALink搭建大数据生态知识体系搭建大数据生态知识体系学习目的:1、大数据生态回顾2、Python数据科学生态回顾3、搭建Python大数据生态知识体系Hadoop及Hive开发工程师对于初级大数据工程师,熟悉传统的数据库及传统数仓开发流程,入门薪资在10-12K左右。Spar

    17、k&Flink开发工程师对于中级大数据工程师,熟悉核心大数据组件开发流程,入门薪资在12-18K左右。Spark&Flink资深工程师对于高级大数据工程师,精通核心大数据组件开发流程基础上,需要具备多行业项目经验,入门薪资在20-25K左右。大数据数据挖掘对于大数据数据数据挖掘,需要在具备大数据核心经验基础上,能够具备数据挖掘及人工智能知识体系,入门薪资在22-30K左右。数据科学家能够具备数据挖掘及人工智能知识体系,同时非常重要的就是需要具备多行业项目经验,入门薪资在30-50K左右。架构师对于大数据架构师,需要在具备大数据核心经验基础上,对技术有一定敏感度,能够设计企业级大数据架构,入门薪

    18、资在40-50K左右。搭建大数据Python生态知识体系1-大数据技术基础基础工具语言基础后端数据微服务接口开发2-大数据核心技能Hadoop技术栈NoSQL存储Flink技术栈Spark技术栈3-Python核心技能Python语言编程Python数据科学库基础6-多行业大数据项目在线教育证券行业物流行业工业物联网5-机器学习&数据挖掘技能机器学习基础机器学习分类算法机器学习回归算法SparkMl&SparkMllib实战FlinkML&Alink实战4-Python大数据核心技能PySparkPyHiveKafka-PythonPyFLink案例实战大数据核心技术栈Python大数据生态数

    19、据挖掘与机器学习多行业项目支持下一步直播预告下一步直播预告电影院开门啦,影视影评大数据如何分析,使我们下次讨论话题大数据真的很简单!课程总结课程总结/回顾回顾1-为什么乘风破浪的姐姐如此之火?为什么乘风破浪的姐姐如此之火?2-大数据场景爬虫小姐姐数据来源大数据场景爬虫小姐姐数据来源3-如何通过数据分析乘风破浪的小姐姐的故事如何通过数据分析乘风破浪的小姐姐的故事4-为什么需要进行数据分析为什么需要进行数据分析5-传统数据分析难点与痛点传统数据分析难点与痛点6-大数据繁华生态圈大数据繁华生态圈7-大数据行业趋势分析大数据行业趋势分析8-搭建大数据生态知识体系搭建大数据生态知识体系9-学习资源推荐学习资源推荐10-下一步直播预告下一步直播预告“”

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:乘风破浪小姐姐大数据分析课件.pptx
    链接地址:https://www.163wenku.com/p-3518736.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库