算法新闻-第6章-大数据与推荐系统课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《算法新闻-第6章-大数据与推荐系统课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 算法 新闻 数据 推荐 系统 课件
- 资源描述:
-
1、新编21世纪新闻传播学系列教材 新闻学系列 算法新闻 目 录 Contents个性化分发与内容生产变革算法推荐原理用户画像的标签体系文本型内容的建模与分析0101020203030404智能推荐算法0505大数据与推荐系统0606 目 录 Contents新媒体时代的标题基于算法推荐的自媒体定位新媒体背景下的内容生产090907070808新媒体内容的制作1010新媒体的内容生产运营1111人工智能与推荐系统1212大数据与推荐系统本章要点关键词第6 6章在大数据技术及其软硬件平台蓬勃发展的过程中,智能推荐系统从中受益,用户侧大数据帮助系统更好地认识和理解用户的兴趣爱好,内容侧大数据提供了丰富
2、多样的内容选择,满足用户的个性化需求。另外,正是因为海量数据的存在,深度学习算法可以被反复训练和完善,提供更加高效和准确的个性化匹配。本章重点介绍大数据的基本原理和概念,大数据在算法推荐系统的应用,深度学习和神经网络的原理及其在算法推荐系统的应用。大数据、算法推荐系统、深度学习、神经网络 目 录 Contents详解大数据大数据与算法推荐系统深度学习和神经网络010102020303第1节 详解大数据 1.1 大数据的背景与意义1.1.1 理解“大数据”的三个维度 数据早期计算机可以处理的数据称为“结构化”数据,也称作行数据,使用二维表结构来表达数据的逻辑,并进行数据存储。结构化数据严格地遵循
3、数据格式与长度规范,主要通过电子表格或关系型数据库进行存储和管理。(例:电话簿文件)随着计算机应用系统的发展,出现了半结构化数据。和普通的纯文本相比,半结构化数据具有一定的结构性,但和具有严格理论模型的关系数据库的数据相比,对数据结构的要求略宽松。(例:系统日志文件)随着互联网的发展,在以上两种类型的数据之外,又出现了无结构化数据。(例:网页、电子邮件、流媒体数据)1.1.1 理解“大数据”的三个维度 人(用户)早期计算机系统和数据的使用者主要来自科学计算的领域,计算任务和用户人群结构都比较单一,计算所需数据多需要专用设备采集和生成,数据量与当前的大数据相比属于“小”数据。随着个人电脑和互联网
4、的普及,用户在网络上的行为变得更加个人化,各种社交需求也映射到了网络空间,出现了各种各样的社交媒体。用户在社交媒体上的自我表达和互动交流产生了海量异构数据。设备随着硬件制造水平的不断提升,目前计算和存储设备的能力正在不断冲击硬件制造工艺所能达到的极限。在个人电脑之外,一些更小的设备比如手机、车载传感器、物联网设备等,其制造工艺也在飞速发展,通过这些设备产生的数据量更是呈现几何级数的增长,相应的处理模式也不再是单机的数量扩展或者简单的计算机集群的叠加。1.1 大数据的背景与意义1.1.2 大数据的典型应用 搜索引擎互联网上的数据量不断增长,用户难以依靠人工方法在网上查找到感兴趣的内容,于是搜索引
5、擎顺势而生。搜索引擎使用网络爬虫技术,不断对互联网上网页的内容及其关键词进行索引和记录存储。当用户提交搜索关键词时,搜索引擎根据自身数据库的记录,返回与用户查询匹配的网页作为搜索结果呈现。电子商务 早期,正是由于具备了足够多的用户购买行为数据,亚马逊才能够设计和实施基于用户兴趣的协同过滤算法,为用户推荐其可能感兴趣的商品。在我国,电子商务行业的发展突飞猛进,2018年“双11”全网最终销售额3143亿元,远超2017年的2539亿元,增长23.8%;用户体验也同步提升。智能推荐推荐内容:文本内容推荐图片、视频等多媒体数据的个性化推荐推荐策略:对基础的协同过滤算法和关联规则挖掘等进行了升级和改进
6、,吸收了人工智能和机器学习算法的最新进展,使用复杂的神经网络算法学习内容的特征,用于更精准的个性化推荐。1.1.2 大数据的典型应用 零售行业关联规则推荐算法就来自连锁超市沃尔玛的经营和销售分析。对于连锁超市、日用消费品行业,大数据同样能帮助企业提高利润率。例如,瓶装水的销售公司可以通过已有的销售大数据了解不同地区消费者对水瓶规格的需求情况,并以此为依据进行不同规格瓶装水的销售调配,进而提高利润。政府公共服务及其他行业 对于政府部门、医疗行业和制造业来说,各国政府、相关企业都在使用大数据帮助自己降低成本,提高利润。以政府投入为例,2012年美国政府率先启动 大数据研究与发展计划”,正式从国家战
7、略高度推动大数据发展,宣布将投资2亿多美元,用以大力推进大数据的收集、访问、组织和开发利用等相关技术的发展,进而大幅提高从海量复杂的数据中提炼信息和获取知识的能力与水平。1.1 大数据的背景与意义1.1.3 大数据应用系统 互联网领域:包括在线社交网络、电子商务、即时通信工具等等。物联网领域:移动设备和传感器都可以作为一个物联网的终端来进行内容的采集。例如布置在城市里进行空气质量数据采集的采集器,或者进行空间计算和气象计算时的数据采集器。大量的低成本量采集器帮助数据需求方实现大数据的积累,支持后续计算。书籍、历史文献电子化和社会信息交互领域:例如,谷歌公司曾经扫描了几十万本纸质书,尝试对其进行
8、数字化,方法是将所有扫描后的图片版电子书裁成一个个单词片段,并在用于网站防止机器注册时显示的验证码中显示这些单词片段。第1节 详解大数据 1.2 大数据的定义与挑战 1.2.1 大数据研究的源起 学术界2008年 自然 杂志发布了“大数据”专刊,通常以此作为“大数据”这个概念以及这一研究领域在学术界的起点。随后,在2011年,科学 杂志也推出了“处理数据”(Dealing with Data)专刊。产业界大数据技术和业务的创新者和领军者包括亚马逊、IBM、甲骨文、谷歌等公司。这些公司出于自身业务发展和实践经验,提出了各自领域的大数据计算平台。例如亚马逊公司的云服务平台 AWS(Amazon W
9、eb Services)能够提供计算能力、数据库存储、内容交付以及其他功能来帮助实现业务扩展和增长。1.2.1 大数据研究的源起 国外各国政府也积极跟进和布局大数据基础研究。美国政府曾经出资两亿美元支持大数据研究与发展计划。日本政府在2013年发布了 创建最尖端IT国家宣言,全面阐述了2013年至2020年间以发展开放公共数据和大数据为核心的国家战略。战略中包括了向民间开放公共数据、促进大数据的广泛应用等政策。我国 我国的“十二五”规划提出全面地推动信息化。“十二五”以来,我国大数据产业从无到有,全国各地发展大数据积极性较高,行业应用得到快速推广。“国家大数据战略”被写进了备受关注的“十三五”
10、规划。规划提出,目标到2020年,技术先进、应用繁荣、保障有力的大数据产业体系基本形成。大数据相关产品和服务业务收入突破1万亿元,年均复合增长率保持30%左右,加快建设数据强国,为实现制造强国和网络强国提供强大的产业支撑 1.2 大数据的定义与挑战1.2.2 大数据的概念和特点尽管“大数据”这个概念以及相应的算法和技术已经广泛传播并应用,但是目前为止并没有一个被广泛接受的精确定义。以下尝试识别大数据的“4V”维度特征,可以从这些特征维度来界定大数据这个概念:规模(Volume)大数据的数据量级或规模超出了既有系统能够处理的水平。速度(Velocity)大数据的产生速度非常快,每时每刻都有大量的
11、数据在应用系统中生成和积累。价值(Value)大数据具有价值挖掘的潜力,但是大数据也存在价值密度低的问题,即,海量数据中有相当多的无效或不相关数据,它们对于实现价值挖掘的贡献度较低。多样性(Variety)大数据的类型多种多样,存在各种格式和形式的数据。1.2.2 大数据的概念和特点 大数据的特征数据规模大数据生成速度快数据价值密度不高数据类型多样通常认为,数据满足“4V”的特征就可以将其纳入大数据的范畴,或者说它是一个大数据能解决的问题。“大数据”不等于“海量数据”1.2 大数据的定义与挑战1.2.3 大数据的研究意义 辅助社会管理 预测流感趋势。2009年美国爆发甲型 H1N1流感,谷歌公
12、司的工程师利用大数据的分析手段,分析谷歌搜索引擎中每天数十亿条用户搜索查询日志,测试了4.5亿个数学模型,建立了较为准确的 流感预测模型,及时准确地获知了全球流感传播趋势。推动科技进步 海啸预警。快速准确地测定出地震参数,并判断出该地震是否会激发海啸以及海啸规模。然后,模拟计算海啸到达海岸的时间及强度,将海啸预警信息及时传送给可能遭受袭击的沿海地区居民。支持商业决策 数据驱动的商业智能是指利用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。促进民生改善 智能交通系统、路网的导航应用软件、网约车服务 1.2 大数据的定义与挑战1.2.4 大数据面临的问题与挑
13、战从数据规模的量变出发,演化出数据的生成速度、数据的价值和类型等3个维度的质变,形成了“大数据”。也就是说,大数据并不仅仅是数据量的积累,更是量变发生到一定阶段之后引发的质变。一个显著现象是环境的变化:以往应对数据量增长的方式无非是硬件系统扩容(例如增加内存和 CPU 等)以及软件系统升级(例如从处理 MB规模数据升级为处理 GB规模数据)。但这样增加资源的方式逐渐变得不适用了。面临的关键问题就是,可以使用的资源是受限的 进入大数据时代之前,我们的计算能力充足,能够应付增长的数据;进入大数据时代之后,现有的计算能力的增长速度已经赶不上数据增长的速度了,大数据的问题变成了资源受限的计算问题,发生
14、了质变。大数据时代,计算环境由资源充足转变为资源受限,计算的视角也由探索优化转变为可行性判定,因此,计算方法也从严格计算转向了近似计算。第1节 详解大数据 1.3 大数据平台基础架构 硬件平台从应对数据规模的角度,仍然需要提高硬件处理能力,完成海量数据的采集、存储和分析处理。从存储规模上,需要建设PB级的数据机房,配合高速运算的多CPU、高速的输入输出设备,以及数百 GB的内存容量。软件平台大数据平台的软件部分主要是实现数据的采集、存储、计算和分析,软件平台框架包括存储框架和计算框架。存储框架底层基于分布式的文件存储系统。这是由于巨量数据已经无法保存在一台或几台机器上,而是需要进行分布式的存储
15、。对于计算框架来说,如果计算任务的实时性要求不高,则可以采用离线计算的方式,把问题切分成每个机器都能计算的子任务,分配到多台机器执行计算,最后汇总计算结果。针对实时计算任务,则需要将其搭建在实时的计算平台上面完成。第1节 详解大数据 1.4 云计算与大数据 云计算云计算是一种通过互联网以服务的方式提供动态可伸缩的虚拟化资源的计算模式。动态可伸缩是指根据用户的需求提供规模可变的资源。云计算VS大数据云计算的核心问题是如何不断改进支持云计算的技术,以及从技术的角度如何把计算的成本降下来。大数据则更关注业务逻辑的实现,以及从数据中能发掘什么价值。动态可伸缩:例如,用户的某个计算任务需要100台主机完
16、成,则可以租用云计算平台的100台虚拟主机;如果仅需要10台主机,那么就租用10台虚拟主机。虚拟化资源:对于用户来说,这些虚拟主机在物理上 的位置等均不必关心,因此用户面对的 资源称为虚拟化资源。第2节 大数据与算法推荐系统 2.1 推荐系统的数据依赖2.1.1 大数据在个性化推荐系统中的应用(A)研究用户 用户行为分析系统获取用户使用行为的有关数据并进行统计、分析,从中发现用户使用习惯的规律,并运用这些规律改进智能推荐算法。用户行为包含时间、地点、人物、动作、内容等基本要素。用户行为数据越多、越准确,用户画像数据越准确,个性化推荐效果越好。用户消费心理分析是从心理层面分析和掌握用户的内在需求
17、,从而改进推荐效果的一种方法。一些电商平台或是付费类的内容推荐平台,需要分析用户在何种心理情境下更容易发生消费行为,识别出影响用户消费的心理环境因素,并进行个性化的产品和内容推荐。社交网络分析 关注在线社交网络中的个体、个体间的关系和相互作用,以及在此之上的社群发现、情感分析、话题挖掘等。识别目标人群并进行有针对性的精准推荐,寻找意见领袖、借助意见领袖完成内容的推广或产品的销售。2.1 推荐系统的数据依赖2.1.1 大数据在个性化推荐系统中的应用(B)研究产品 特征挖掘 以文本内容为例,可以使用数据挖掘的手段,提取文本类内容的关键词、主题、摘要、分类、话题、语义等,作为与用户画像中的用户标签匹
展开阅读全文