《算法新闻》课件第五章-智能推荐算法.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《算法新闻》课件第五章-智能推荐算法.pptx》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 算法新闻 算法 新闻 课件 第五 智能 推荐
- 资源描述:
-
1、在当前的时间节点上,大数据不论是对于自然科学及人文社会科学,还是对于工业界,均具有重要意义。从数据的产生来看,每一个个体用户,都是大数据的贡献者,都为海量数据的生成提供了源数据。一、开源大数据处理平台的普及一、开源大数据处理平台的普及“大数据大数据”从数据量级的角度来说到底有多从数据量级的角度来说到底有多“大大”?在办公领域,以电子邮件系统为例,全球范围内每秒会发出数百万封电子邮件。在视频分享和推荐领域,YouTube网站的流量数据总量超过百亿,每天新增总播放时长达数万小时的视频,并且其单日浏览量也达数亿甚至数十亿。在社交媒体领域,截至2017年底,新浪微博月阅读量超百亿的垂直领域达25个,微
2、博内容存量已超过千亿,微博搜索月活跃用户近1亿(参见微博数据中心2017微博用户发展报告)。在电子商务领域,2018年“双11”电商购物节期间,来自商务部的数据显示,全国网络零售交易额超过3000亿元。在网络应用领域,谷歌搜索引擎每天需要处理24PB级别的数据。在算法智能推荐系统领域,截至2017年12月,今日头条系统一共有3亿用户,日活跃用户量超过3000万,系统的日均点击量大概是5亿次,每个用户的平均使用时长为47分钟。支撑大数据的硬件平台支撑大数据的硬件平台针对海量的数据,需要相应的硬件来完成这些数据的采集、存储和计算。从数据体量的角度,目前的大数据量级已经达到了PB级别。补充:补充:P
3、B是英文Pega Byte的缩写,其中B是英文byte的缩写,即“字节”。通常,个人电脑硬盘的存储容量是GB(Giga Byte,吉字节,又称“千兆”)级别的,如256GB、512GB等。此处,1GB1024MB,1MB(Mega Byte,兆字节,简称“兆”)1024kb,1kb(Kilobyte,千字节)1024B。由于大数据的量级呈现几何方式的增长,传统的硬件架构已经很难满足需求。巨大的PB级别数据量级对于数据的采集和存储都提出了新的要求,通俗地讲,就是要求大数据系统既能存得下数据又能快速读写,并且在足够短的时间里完成计算。通常,存储系统的升级并不仅仅指存储容量升级,系统对其他资源也有额
4、外的需求,如I/O带宽和计算能力。也就是说,为了支持海量数据的存储和计算,需要高性能的计算和存储设备完成大数据上的分析和计算任务,因此,大数据计算系统的硬件会体现出大大存储容量、多主机、多存储容量、多主机、多CPUCPU、高速运算、高速、高速运算、高速I/OI/O、数百、数百GBGB内存内存等特点。为了应对不断增长的数据,目前常见的大数据系统扩展方式有纵向扩展和横向扩展两种。纵向扩展:纵向扩展:主要是利用已有的存储系统架构,通过不断增加存储容量来满足数据增长的需求。横向扩展:横向扩展:进行系统升级,通过增加独立的设备来提高系统的运算能力。大数据的软件计算框架大数据的软件计算框架从软件方面来说,
5、大数据系统还需要实现大数据的计算框架。从软件功能的角度,存在存储”和“计算”这两种类型的大数据计算框架。1.1.大数据存储框架(大数据存储框架(HadoopHadoopHDFSHDFS)目前,开源的大数据存储平台主要是基于Hadoop平台实现的。Hadoop是一种分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的计算能力进行高速运算和存储。基于Hadoop技术的大数据存储平台实现了海量数据的分布式存储,在存储方面实现了一个分布式的文件存储系统HDFS,即Hadoop分布式文件系统(Hadoop distribute file system)。针对海量数据
6、的分布存储,可以降低存储设备的单点压力,提高存储的容错能力。因此,大数据系统的内部实现可以由Hadoop平台加上分布式文件系统来支撑存储功能。2.2.大数据计算框架大数据计算框架(1 1)离线计算()离线计算(MapReduceMapReduce)早期的大数据计算框架技术主要采取离线计算的方式。在运算过程中,首先通过对计算任务的分解,把数据集切分为多个分片;随后,每一次运算从硬盘加载一部分数据分片并分配到集群中不同的机器上进行计算,其中,需要把一些必要的中间结果保存到硬盘上(HDFS);然后再由后续的运算模块把中间结果读到内存,再进行合并计算,求出结果后,将其写到硬盘,完成一次离线的分布式计算
7、。离线计算适用于单次计算任务对完成时间的要求不高并且单次计算任务通常不需要反复执行的计算场景,如机器学习模型的训练。大数据的软件计算框架大数据的软件计算框架(2 2)在线计算()在线计算(SparkSpark)随着对计算性能要求的提高,某些在大数据集合上的计算也需要达到实时或者准实时的标准。为了实现在线级别的大数据计算,可以在Hadoop和HDFS平台的基础上搭建Spark计算平台。Spark是快速通用的大规模数据计算引擎。与离线计算不同的是,在线计算的中间输出结果可以保存在内存中,从而不再需要读写HDFS,有效地减少I/O,提高系统效率,因此Spark能更好地适用于需要重复进行的计算场景。从
8、底层存储来看,以上离线计算和在线计算的大数据框架在存储层面,都是在Hadoop分布式文件系统上存储的。二者的区别在于计算过程是否需要反复读取硬盘数据,从而区分出在线计算和离线计算两种情况。提要:提要:为了处理和计算来自各行各业的大数据,大数据的硬件、软件技术手段应运而生并不断向前演进,服务于大数据的存储、分析和价值发现。二、机器学习算法的突破二、机器学习算法的突破机器学习算法的基本原理:机器学习算法的基本原理:机器学习是一门研究算法的学科,简单地讲就是研究如何让计算机根据以往的经验去适应新的环境。这里“以往的经验”指的是历史数据;“适应”指的是通过对历史数据的研究分析,建立一种映射关系;“新的
9、环境”是指新产生的需要计算的数据。当新数据输入机器学习建立的函数中时,会产生符合历史数据规律的新输出。机器学习本质上是研究自学习算法的科学,这些算法用于帮助机器进行自我学习来解决问题。案例:案例:假设我们想训练一个机器学习模型识别出猫。于是,我们可以提供给机器学习算法一定数量的已经标注为“猫”的图片,需要尽可能包括正面、侧面、背面等多种角度。对于机器学习算法来说,这些图片就是已有数据中的输入数据已有数据中的输入数据,我们使用这样的一些数据来训练动物识别器,而其对应的已知输出数据则是对这些图片所含动物类别的标记,对应于此类输入图片,机器学习算法已知其标记均为“猫”。机器学习算法会从多张猫的图片中
10、学习其共性特征学习其共性特征,如两只尖耳朵,两只眼睛,有毛,有尾巴等等(“尖耳朵”“眼睛”“毛”“尾巴”是为了文字表述方便而阐述的特征,实际上在机器学习算法中它们对应的是若干个维度的数值属性)。机器学习算法把“猫”的这些特征识别出来,认为满足这些特征的图片都是含有猫的图片,就完成了模拟人类进行归纳总结的过程。模型训练好之后,算法再遇到满足此类特征的图片,即可识别其为含有猫的图片,就完成了演绎推理的过程。对于机器学习算法来说,为了提高模型的准确度,需要提供足够的训练数据。为了提高模型的准确度,需要提供足够的训练数据。所谓“足够”,一方面是数据量大,另一方面是能覆盖尽量多的可能性。例如图中所示三张
11、图中的猫都是尖耳朵并且有毛的猫,如果全部训练数据都是类似品种的猫的图片,那么训练完成后,如果识别算法遇到了折耳猫或是无毛猫的图片,识别的准确度就会受到影响,不一定能将其正确标注。常见的机器学习算法:常见的机器学习算法:下面以一个文本分类的任务为例,简要介绍这些机器学习算法。文本分类任务的已有数据是一个新闻语料文档集,包括多篇多种类别的新闻,如体育新闻、财经新闻等。(1)无监督的机器学习算法()无监督的机器学习算法(“聚类聚类”算法)算法)针对新闻文本分类任务,算法事先并不知道每一篇新闻文档的类别是什么,以及共有多少种类别,此时把语料库的文档全部送到机器学习算法中,让它对输入数据进行自学习,区分
12、并生成若干种可能的新闻文档类别,这种情况下的机器学习算法就是无监督的机器学习。(2)有监督的机器学习算法()有监督的机器学习算法(“分类分类”算法)算法)与无监督的机器学习算法相对。所谓有监督的学习是指给算法提供一定数量的训练数据。此时需要事先标记好一定数量的新闻文本,即每一篇新闻是什么类型的。在这种情况下,文档库中共有多少种新闻类别以及每种新闻的分类是什么都是预先指定好的。因此,这类机器学习算法也称为“分类”算法,对应的模型称为“分类器”。利用已经标记好的新闻文档及其所属分类数据,就可以对分类器进行训练。在训练过程中分类器会学习每个类别新闻的特征。当分类器把每一种新闻类别的特征都学习好之后,
13、即完成了对分类器的训练。随后,对于新的输入数据,即类别未知的新闻文档,就不需要进行人工的新闻分类了,分类器就可以自动地给新的文档找到相应的类别并对文档进行类别标记。(3)基于对抗生成网络的算法)基于对抗生成网络的算法其原理是,对于已经训练到一定程度的模型,实现者会尝试输入一些反例。例如故意标记一篇社会新闻文档D为国际新闻,如果模型已经训练到足够准确,那么模型就可以直接识别出文档D并不是标记的那种类型(国际新闻)。这时候算法模型可以更加专注于了解文档D为什么不是国际新闻类的新闻,把相关的特点抽出来,放到对抗生成网络里,就能更好地帮助算法模型认识到文档的哪些特征能更好地表征所属类别的特点。所以在模
14、型训练过程中,把一些反例输入模型,让算法在反例输入的情况下,对抗反例数据,提高自己的学习能力。(4)基于卷积神经网络的算法)基于卷积神经网络的算法基于卷积神经网络的算法可以实现对图像数据的有效分析和处理。对于一幅图像来说,可以将其分成mn个像素或者mn个小格子。最简单的方法就是认为这幅图像一共有mn个特征(每个像素或小格子是一个特征)。如果图像比较大,图像就被建模为高维特征对象,相应的处理算法需要面对高维数据,运算量大,对算力的要求高,导致效率受到限制。因此,考虑如何对高维数据进行抽象,使用一个比较小的矩阵,来表述这幅图的特征。可以采用的方法是,把位置临近的若干个格子聚合起来,例如将每kk个格
15、子提炼为一个特征(k小于m和n)。通过这样的处理,就可以把数据特征的维度降低,从而在较低维度数据上进行机器学习模型的训练。提要:提要:目前已知的多种机器学习算法(如有监督的学习、无监督的学习、对抗生成网络算法以及卷积神经网络算法等)在算法推荐系统均有一定程度的应用。在真实系统中,往往是综合考虑具体的情况和应用场景,综合使用几种算法,以达到更好的效果。三、移动互联网的繁荣三、移动互联网的繁荣2018年8月,中国互联网络信息中心在北京发布第42次中国互联网络发展状况统计报告。截至2018年6月30日,中国网民规模达8.02亿,其中手机网民规模已达7.88亿,网民通过手机接入互联网的比例高达98.3
16、。移动互联网及其上承载的应用已经广泛地深入人们衣食住行的方方面面。互联网以及移动互联网业务的发展脉络:互联网以及移动互联网业务的发展脉络:1980年到1990年的个人电脑时代,互联网上开始出现一些简单的搜索引擎,回应用户的网络导航需求,如雅虎等搜索引擎可以提供静态的导航信息。Web1.0Web1.0时代:时代:1990年到2000年,针对互联网上的应用需求,谷歌公司发布了谷歌搜索引擎,通过分析用户搜索的信息更好地满足用户需求。Web2.0Web2.0时代:时代:2000年到2010年,基于Web2.0技术出现了语义网络以及其上的语义搜索技术。脸书等在线社交媒体逐渐兴起,用户可以创造内容并上传,
17、给互联网用户创造了自我表达和在线连接等新需求。在中国,也出现了微博、微信等新的社交媒体平台。因此,有人将2010年至2020年阶段称为Web3.0Web3.0时代时代。在这一阶段,移动互联网的业务品类和流量均呈现大爆发。大数据及大数据技术平台提供了对移动互联网各种新业务的有效支持,多种个性化的算法推荐系统也应运而生并广泛流传。四、用户习惯的改变四、用户习惯的改变从用户的角度看,智能推荐系统迅速发展的一个重要原因在于用户习惯的改变。用户习惯变化的原因:用户习惯变化的原因:内容分发的去中心化。内容分发的去中心化。在以往中心化内容分发的模式下,用户可见可读的内容是由数量有限的内容提供方呈现的,用户可
18、选择的余地较小,因此,智能推荐系统产生的基础条件并不具备,也就不存在智能的个性化推荐。大数据基础上的个性化内容需求。大数据基础上的个性化内容需求。随着内容非中心分发形式的发展,呈献给用户的内容品类和数量均在快速增长。由于每个用户的兴趣和关注点各不相同,因此在海量内容池基础上对内容提出个性化需求具有了数据准备。内容获取方式的改变。内容获取方式的改变。以往的阅读和观看习惯通常是用户主动寻找感兴趣的内容,这也被称为“拉”(pull)模式,即用户寻找内容。面对海量的内容数据,用户很难从中选出真正满足自己兴趣和需求的内容,因此出现了算法推荐系统,它主动从海量内容中进行过滤筛选,为用户推送其感兴趣的内容,
19、因此也被称为“推”(push)模式,即系统推送内容给用户。智能推荐系统和用户在不断改变和“驯化”对方,用户习惯的改变既是这个过程的一个原因,也是其中一个结果。第2节 关联规则推荐算法一、关联规则推荐算法的起源、应用和发展一、关联规则推荐算法的起源、应用和发展关联规则推荐算法的起源:关联规则推荐算法的起源:关于关联规则算法的起源,人们普遍认为它源于“啤酒和纸尿裤”的故事。在物质条件、技术条件、用户群体形成和用户习惯养成的基础上,想要真正搭建一个算法推荐平台,需要实现具体的推荐算法。在20世纪80年代,美国连锁超市沃尔玛公司有一些销售人员想对销售记录进行分析,以改进商品的销量。经过数据分析,他们发
20、现很多销售小票上都同时出现了“啤酒”和“纸尿裤”这两样商品。而直观上看,“啤酒”和“纸尿裤”是两种完全不同的商品,其属性、受众和使用场景都非常不一样,其共现似乎与一般的消费行为是相悖的。那么,它们为什么会频繁地出现在同一次购买记录里呢?分析人员推论认为,对于有婴幼儿的家庭,如果由父亲去超市进行日用品采购,则纸尿裤通常是列在采购清单的;同时,父亲们也顺便给自己购买了啤酒,因此导致这两种看起来不相关的商品能频繁出现在同一次购买中。针对这样的发现,超市排货架的人员可以进行货品摆放的调整,把啤酒和纸尿裤放到靠近的位置,来提高两种商品的销售额度。“啤酒和纸尿裤”的故事是典型的关联规则应用的例子。通过计算
21、,对于存在较高关联性的若干类产品、项目或内容,可以给相关用户或者受众进行推荐,以达到更好的推荐效果。其中,“共同出现共同出现”就是一种关联规则。就是一种关联规则。关联规则推荐算法的应用:关联规则推荐算法的应用:关联规则推荐(关联规则发现)也称“购物篮分析”。购物篮分析的名字沿用了“啤酒和纸尿裤”的案例,目的是想了解用户究竟会把哪些商品放入自己的购物篮,也就是哪些商品之间更具有相关性。从广义上讲,“购物篮分析”的目的就是研究事物之间的关联性和依存性。关联规则分析在金融、搜索引擎算法优化以及智能推荐等多个领域均有广泛的应用。在金融行业可以考虑理财产品与银行零售客户的交叉销售分析。研究向银行的哪些零
22、售客户推荐哪些理财产品能达到产品推荐的最优化,这就需要进行银行零售产品与理财产品的关联分析。在搜索引擎算法优化领域,用户在搜索框输入部分搜索关键词时,搜索引擎即可推荐可能的完整搜索关键词,这样的过程称为“搜索词推荐”。它正是利用了关联规则,在系统中检索与用户已经输入的关键词存在关联性的词语进行搜索关键词补齐。例如,在搜索引擎中输入“算法”时,因为“工程师”“导论”等词与“算法”关联性高,搜索引擎会尝试将输入的搜索关键词补齐为“算法工程师”“算法导论”“算法推荐”等。在算法推荐系统的领域,例如,基于用户兴趣的实时新闻推荐系统就可以应用关联规则的技术对用户实时推荐其可能感兴趣的新闻。即哪些新闻与用
展开阅读全文