乘风破浪小姐姐大数据分析课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《乘风破浪小姐姐大数据分析课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 乘风破浪 姐姐 数据 分析 课件
- 资源描述:
-
1、乘风破浪的姐姐中,谁才是程序员眼中的乘风破浪的姐姐中,谁才是程序员眼中的C C位位黑马程序员公开课黑马程序员公开课为什么乘风破浪的姐姐如此之火?大数据场景爬虫小姐姐数据来源如何通过数据分析小姐姐的故事为什么需要进行数据分析大数据繁华生态圈课程大纲传统数据分析难点与痛点大数据行业趋势分析下一步直播预告搭建大数据生态知识体系为什么乘风破浪的姐姐如此之火?学习目的:1、乘风破浪的姐姐,她们都是谁?2、乘风破浪的姐姐中,谁才是程序员眼中的C位乘风破浪的姐姐嘉宾名单乘风破浪的姐姐嘉宾名单:阿朵、郑希怡、宁静、陈松伶、钟丽缇、伊能静、海陆、金晨、蓝盈莹、王丽坤、万茜、张萌、金莎、刘芸、沈梦辰、吴昕、郁可唯
2、、朱婧汐、丁当、黄龄、孟佳、王霏霏、许飞、袁咏琳、张雨绮、黄圣依、张含韵、王智、白冰、李斯丹妮。30位选手竞争最后的位选手竞争最后的5个出道位而努力个出道位而努力l 30位出道多年的姐姐辈女艺人,一个个风格各异、个性鲜明。她们将通过合宿生活与舞台竞演,最终选出5位组成逆龄女团。l 乘风破浪的姐姐?NO!是兴风作浪的姑奶奶l 出道时长十年起,这些姐姐们都有谁?l 豆瓣8.3分,姐姐们的实力妥妥的l 大数据分析9万条弹幕,谁才是真正的C位?乘风破浪的姐姐就这样突然定档、突然播出、播出前无宣发的情况下爆了,一经播出就抢占各大热搜榜。乘风破浪的姐姐就这样突然定档、突然播出、播出前无宣发的情况下爆了,一
3、经播出就抢占各大热搜榜。大数据场景爬虫小姐姐数据来源学习目的:1、如何获取网页数据2、如何爬取弹幕数据l什么是网络爬虫l从豆瓣爬取数据l大数据分析9万条弹幕,谁才是真正的C位?弹幕数据抓取1.前端相关:包括html结构,js,ajax请求过程,css,h5,cookie,session2.网络相关:request和response流程,http知识,代理proxy的使用3.存储相关:sql,database,NoSQL,redis,文件读取4.其他知识:Chrome调试,正则表达式,xpath,文件编码,分布式爬取数据以后还要做数据清洗,文本处理,数据分析,数据展示以及数据挖掘等,将会涉及更多
4、的炫酷技能如nlp,spark,machinelearing等爬虫相关技术点如下:大数据爬虫jsoup技术&Python爬虫Scrapy:1.从一个URL,文件或字符串中解析HTML;2.使用DOM或CSS选择器来查找、取出数据;3.可操作HTML元素、属性、文本;如何通过数据分析小姐姐的故事学习目的:1、新基建和数字化转型助力大数据行业升级2、大数据行业趋势分析爬取数据示例如下:热度属性可视化展示(1)29-33这个年龄段的姐姐最多共有11位,占比36.67%。其次是34-37岁,共10位,占比33.33%。(2)姐姐们都来自哪儿?看到具体评分分布,给出四星的最多,为38.2%;其次是5星
5、占比25%。看来观众普遍还是十分认可姐姐们的表现的当然也有不少吐槽的点,大家的吐槽主要集中在:评委杜华:不公平;30+的女性岁月积淀了魅力,评审却按照20岁女团的标准来;给丁当打分真是要气炸。黄晓明:从霸道总裁秒怂变小明,让人感觉尴尬不已节目组:场景布置令人寒酸,摄影差,灯光差,布景差。芒果芒果TvTv弹幕爬虫部分代码:弹幕爬虫部分代码:l分析网页,弹幕数据是动态加载的,因此通过Chrome浏览器进行抓包分析并获取真实的URL请求地址;l使用selenium请求网页数据;l使用正则表达式re将文本中的HTML提取出来,使用json进行解析;l使用pandas进行数据的保存。弹幕词云弹幕词云三十
6、而励!三十而立!三十而骊!30岁以后,人生的见证者越来越少,但还可以自我见证!30岁以后,所有的可能性不断褪却,但还可以越过时间,越过自己!不要轻易用年龄定义自己,只要有追逐梦想的心,无论什么年龄段都有属于自己的精彩!l 通过皮尔逊相关系数皮尔逊相关系数结论:l 初评舞台分数和年龄、出道年数没有显著相关。l 年龄和个人特质、成团潜力的分数间存在低度负相关关系,年龄越大,个人特质和成团潜力的得分也就越低;l 个人特质和成团潜力的打分之间存在高度正相关,即两者得分存在高则同高,低则同低的情况1.传统数据分析相关:MySQL,Execl,Oracle2.大数据分析相关:Hive、MR、Spark、F
7、link数据分析相关技术点如下:大数据分析计算四代计算引擎:1.它将计算分为两个阶段,分别为 Map 和 Reduce;2.HiveSQL;3.Spark 为代表的第三代的计算引擎;4.包括流处理、批处理,AI、MachineLearning思考:为什么传统的数据分析是有瓶颈的?打开抖音APP扫码了解更多大数据知识关注大数据行业更多福利.想了解更多大数据故事,请关注.为什么要进行数据分析为什么要进行数据分析学习目的:1、为什么有大数据分析2、大数据分析特点数据数据身高数据、体重数据、属性数据、价格数据等数据分析数据分析对数据加工、分析、处理过程信息信息身高太高、太矮、正合适体重超标、体重正常、
8、体重偏低有价值信息有价值信息不仅仅看身高,还看是否为程序员不仅看体重,还得看长相数据挖掘数据挖掘信息的价值化提取.正处于相亲阶段的你,如何考量和评价你的Mr Right,你看重他或她的长相嘛,还是更加看重他的身高。这就是数据分析,提炼从数据到信息的过程。您看重的只有长相嘛?如何从长相和身高都比较优质的女生或男生中选择出我们心仪的男神或女神,您是更关注职业还是家庭,那么这里需要数据挖掘进一步从已有的信息中挖掘出更有价值的信息帮助您判断。我们要的是!热度较高的可能取得冠军。场景1:乘风破浪姐姐们根据对方数据进行数据分析 场景2:相亲场景迁移深度学习深度学习模拟人的大脑结构,深度提取特征,用于图像语
9、音等场景机器学习机器学习利用常见的分类、回归、聚类场景分析数据挖掘数据挖掘利用机器学习完成数据挖掘任务人工智能人工智能包括了前面各部分,三次人工智能浪潮之巅,三次棋类游戏之战模式识别模式识别图像识别、人脸识别等基础类指标-年龄、性别统计类指标-年龄段,消费周期规则类指标:近7日活跃用户等挖掘类指标:用户购物性别用户行为分析打开一个网站:1-首页推荐2-详情页推荐3-猜你喜欢推荐4-文本评论推荐根据你在电商网站上所填的信息和你的行为,可以用一些标签把你描绘出来,描述你的标签就是用户画像。构建用户画像的核心工作即是给用户贴“标签”。场景1:用户画像如何根据用户的喜好推荐合适的商品?利用推荐系统完成
展开阅读全文