第二章算法推荐原理课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第二章算法推荐原理课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 算法 推荐 原理 课件
- 资源描述:
-
1、算法新闻算法推荐原理本章要点关键词第2章为了理解算法分发系统的推荐原理,需要对为了理解算法分发系统的推荐原理,需要对其进行合理的抽象和模型化,即提取出算法其进行合理的抽象和模型化,即提取出算法分发系统的若干基本要素,并对这些要素的分发系统的若干基本要素,并对这些要素的功能和相互作用进行梳理。第一个基本要素功能和相互作用进行梳理。第一个基本要素是用户。第二个基本要素是内容。第三个基是用户。第二个基本要素是内容。第三个基本要素便是算法,系统中的大量用户与海量本要素便是算法,系统中的大量用户与海量内容是无法自行匹配的,这就需要推荐算法内容是无法自行匹配的,这就需要推荐算法把用户和内容连接起来,高效地
2、把合适的内把用户和内容连接起来,高效地把合适的内容推荐给合适的用户。同时,用户也通过阅容推荐给合适的用户。同时,用户也通过阅读行为等对算法进行反馈,帮助修正算法。读行为等对算法进行反馈,帮助修正算法。算法分发系统、用户画像、内容建模、推荐算法分发系统、用户画像、内容建模、推荐算法算法第1节 算法分发系统概览一、算法分发系统的起源和发展一、算法分发系统的起源和发展广义上,推荐系统的推荐领域并不局限于推荐数字化的内容(新闻、电子书籍、音视频节目等),而是根据用户的信息需求、兴趣等,将用户感兴趣的信息、商品等推荐给用户。在算法推荐系统出现之前,用户为了解决信息过载的问题,可以使用搜索引擎,通过指定一
3、定的查询关键词,由搜索引擎返回相关文档和网页。与搜索引擎相比,推荐系统通过研究用户的兴趣偏好,进行个性化计算,由系统自动发现用户的兴趣点,从而更准确和主动地满足用户的信息需求。算法推荐模型的基本要素包括“用户”“内容”“分发算法”,算法推荐系统本质上就是要解决用户和内容的有效匹配问题。【提要】广义的推荐系统发源于广义的推荐系统发源于2020世纪世纪9090年代中期,至今经历了不到年代中期,至今经历了不到3030年的发展。年的发展。1995年卡耐基梅隆大学和斯坦福大学的学者分别提出了个性化导航系统和个性化推荐系统。同年,麻省理工学院的学者也提出了个性化导航智能体。1996年雅虎公司开放了网页的个
4、性化入口MyYahoo,支持用户定制雅虎的个性化首页内容。1997年AT&T实验室提出了基于协作过滤的个性化推荐系统。1999年德国德累斯顿工业大学的研究团队实现了个性化电子商务原型系统。2000年搜索引擎CiteSeer增加了个性化推荐功能。2001年,IBM公司在其电子商务平台中增加个性化功能,支持开发个性化电子商务网站。2003年,谷歌公司通过用户的搜索关键词在搜索结果页面提供与关键词相关的广告,实现广告盈利。2007年,雅虎通过其掌握的海量用户信息(如用户的性别、年龄、收入水平、地理位置以及生活方式等)以及用户上网行为记录数据,为用户呈现个性化的广告。与国际上的行业发展同期,我国国内的
5、搜索引擎如百度、搜狗等均在开发和实现个性化的广告投放和内容推荐。近年来,文本、音频、视频以及商品等的推荐系统都呈现出持续发力的态势,相关公司的业务量都在迅猛增长。二、算法分发系统的基本模型二、算法分发系统的基本模型算法推荐系统的基本模型在用户一侧,算法推荐的目的是把合适的内容推送给用户,因此需要对用户进行合理的抽象和理解,主要是指提取用户的多方面特征,如社会人口属性、兴趣爱好、时空环境等等。算法推荐系统会记录并持续更新用户所属年龄段、受教育程度、职业、兴趣爱好、所处的位置、使用的设备、接入网络的环境等特征信息,而这些特征正是每个用户互不相同的个性化属性,是使用算法对用户进行内容推荐的重要依据。
6、用户侧用户侧二、算法分发系统的基本模型二、算法分发系统的基本模型算法推荐系统的基本模型在推荐系统中与用户相对的另一侧是内容侧。系统同样需要对内容进行抽象建模并提取特征,包括内容的形式(如文本、音频、视频)、类别、主题、关键词等等,这些均属于内容的特征属性。内容侧内容侧二、算法分发系统的基本模型二、算法分发系统的基本模型比如,一个用户经常阅读系统推荐的内容,说明推荐的准确度比较高,能符合目标用户的需求;相反,如果推荐给用户的内容被阅读部分的比例并不高,则推荐的效果并不好,需要对推荐逻辑进行调整和修正。隐性反馈隐性反馈用户在使用算法推荐系统的过程中会不断地对算法推荐的效果进行反馈。这些反馈行为可以
7、是隐性的也可以是显性的。比如对推荐的内容点击“喜欢”或“不喜欢”等反馈按钮,或对推荐内容进行评论,推荐算法通过识别用户评论的情感和语义表达可以了解用户对推荐效果的反馈。显性反馈显性反馈二、算法分发系统的基本模型二、算法分发系统的基本模型算法推荐系统本质上就是要解决用户和内容的有效匹配问题,需要识别算法的输入元素。推荐过程的输入要素可以整理为三类变量。第一类是用户特征用户特征(记为)包含用户的基本信息、年龄段、职业特征、阅读习惯等。第二类是环境特征环境特征(记为)主要指时间、空间、设备和网络等环境信息。其中,时间特征即是否为工作时间、是否为工作日或节假日;空间特征即是否在办公场所或休闲娱乐场所等
8、;设备和网络特征即是否为大屏幕设备、数据网络是移动网络还是无线局域网络环境等等。第三类是内容本身的特征内容本身的特征(记为)如格式、主题等。于是进一步抽象得到推荐过程的一种形式化表示:计算结果有两种可能:y推荐或y不推荐第2节 用户的建模和分析一、用户画像的概念和作用一、用户画像的概念和作用用户画像是根据用户的社会人口属性、生活习惯、消费行为等特征抽取出来的标签化用户模型。【提要】算法推荐系统给不同的用户提供个性化的内容推荐服务,因此需要建立用户模 型,对 每 个 用 户 都 有 深 入 的 了 解 和 刻 画。“用 户 画 像”(Userprofile/Userportrait)就是一种常用
9、的用户建模方式。系统可以根据用户画像中描述的用户个性特征和兴趣爱好,为用户推荐个性化的内容。一、用户画像的概念和作用一、用户画像的概念和作用用户画像在多个领域都有广泛的应用,并不局限于算法分发系统。涉及用户画像的领域通常与销售、推荐和个性化服务相关。以下简要介绍用户画像的一般作用。精准营销:精准营销:分析产品的潜在用户,定向特定群体。比如,在内容推荐领域,假设系统中有一则关于花样滑冰的新闻,则可以定向推送给画像包含“花样滑冰”或某些花样滑冰运动员名字的用户。用户统计:用户统计:统计用户的使用和购买行为。例如,统计国内大学生个人购买书籍总量前十的大学,由此分析和解读国内大学生的书籍阅读行为特征和
10、趋势。数据挖掘,智能推荐:数据挖掘,智能推荐:利用关联规则计算,进行商业智能创新。例如,某商场可以通过大量的顾客购买记录生成各种关联规则,比如分析喜欢红酒的人通常喜欢什么运动品牌,也许对酒的品味与对运动品牌的喜爱程度存在某种关联,而这种关联一旦被确定,就可以用来进行商品组合的智能推荐。一、用户画像的概念和作用一、用户画像的概念和作用效果评估,完善产品运营,提升服务质量:效果评估,完善产品运营,提升服务质量:可以通过构建测试用户的方法实现效果评估,这些测试用户对推荐内容是否采纳和阅读的行为是确定的。假设测试用户仅对篮球和网球主题的内容感兴趣,推荐算法为其推荐了篇篮球新闻、篇网球新闻和篇财经新闻,
11、推荐算法为其推荐了篇篮球新闻和篇国际新闻,则以用户为测试用户的情况下,推荐算法的推荐效果要明显优于推荐算法。服务产品的私人定制:服务产品的私人定制:个性化服务某类群体甚至每一位用户。当前,用户对个性化服务的要求越来越高,而只有在充分理解每一个用户的基础上,才有可能提供个性化的服务,因此用户画像越个性化、越准确,给用户提供的个性化服务才会越完善。用户画像的构建过程分为“基础数据收集”“用户行为建模”“构建用户画像”三个阶段。【提要】用户画像的构建过程可以分为三个阶段第一阶段进行基础数据的收集。重点采集用户的个人信息、网络使用行为等方面的数据。第二阶段对采集到的基础数据进行分析和挖掘,实现用户行为
12、的建模。第三阶段是为每个用户构建个性化的用户画像,这是对前两个阶段采集数据的进一步提炼和抽象。二、二、如何构建用户画像如何构建用户画像二、二、如何构建用户画像如何构建用户画像用户画像的构建并不是孤立静态的单次过程,推荐系统会根据用户的行为数据不断更新用户画像,以达到提高刻画用户特征准确度的目的,最终目标是提高推荐的准确度和有效性。三、用户画像标签体系三、用户画像标签体系每个用户画像就是若干标签的集合,根据用户的兴趣特点,可以对用户画像的标签设置不同的权重,以改善算法推荐的效果。【提要】一般地,算法推荐系统建立用户画像标签体系可以参考以下格式:()身份特征身份特征:性别、年龄、职业、常驻地点、电
13、子邮箱()主题兴趣特征主题兴趣特征:感兴趣的类别和主题、感兴趣的关键词、感兴趣的内容来源、基于兴趣的用户聚类、消费习惯()垂直兴趣特征垂直兴趣特征:科技、体育、金融、财经、娱乐()行为特征行为特征:分时段的行为特征、分位置的行为特征、阅读内容三、用户画像标签体系三、用户画像标签体系需要注意的是,上述标签体系仅仅是一个概述性的标签体系,在具体的算法推荐系统中,每一类特征都会对应数量较大的标签实例。比如垂直兴趣特征中的“科技”这个特征,又可以逐级细分为:消费者科技数码产品科技单反相机某品牌某型号。而系统中的每个用户画像则是从标签体系中抽取不同的标签来具体表述当前用户的个性化特点。四、用户画像的四、
14、用户画像的“冷启动冷启动”算法推荐系统的新用户存在“冷启动”问题,可以设计不同的策略,尽快完善新用户的用户画像。【提要】对于新加入系统的用户,系统通常只能要求新用户提供一些身份特征之类的基础信息。在新用户注册时试图获得全面的用户兴趣和个性特征的过程比较烦琐。这样容易导致用户丧失兴趣而不再尝试注册使用新系统。这样难免使得用户画像包含的有效标签十分有限,系统对用户个性化特征和兴趣爱好的刻画能力不足。如何给系统并不了解的新用户提供有效的内容推荐,通常被称为新用户的“冷启动”问题。本节介绍两种策略供读者参考。四、用户画像的四、用户画像的“冷启动冷启动”根据外部服务的历史行为数据扩充新用户的画像。当前,
15、在不同的互联网应用之间往往会开放一些编程接口,用以编程读取各个系统中可以公开的数据。比如用户在一个新的算法推荐系统注册时,可以通过微博或者微信授权直接使用微博或微信账号登录新系统,从而免去重新注册一个新账号的过程。在这种情况下,算法推荐系统可以根据用户的授权读取用户在微博、微信等平台的公开数据如昵称、发布内容、阅读历史等等,如此便可在不需要用户直接提供个人兴趣爱好信息的情况下,使用自然语言处理和机器学习等算法,根据用户在其他服务中的行为数据提取用户的兴趣特征,扩充用户画像的标签数量,达到尽快完善用户画像的目的。策略一:策略一:四、用户画像的四、用户画像的“冷启动冷启动”用户分类和聚类。尽管个体
16、用户都有“千人千面”的兴趣特点,但在一定程度上仍可以对用户进行分类和聚类,而针对同一类用户的推荐对此类用户中的所有个体的推荐均有一定的有效性和合理性。具体地,对于新注册使用系统的用户,可以使用其基本信息标签(如性别、年龄、手机机型、网络特征、地理位置)查找系统已有用户中与新用户相似度较高的用户,把新用户归类为这些用户所属的类别中,从而使用相应的用户类别的内容推荐规则进行有针对性的推荐,并依据用户的阅读行为及时反馈,形成新用户自己的画像标签集合策略二:策略二:五、用户画像的设置和调整策略五、用户画像的设置和调整策略对用户画像的设置和调整可以采取过滤噪声数据、适度降低热点标签权重、重视标签的时间敏
17、感度、调整负向操作权重以及考虑全局背景等策略。【提要】当新用户注册成功后,系统根据一定的冷启动策略为用户生成初始的用户画像。在随后的使用过程中,用户的画像并不是一成不变的,而应随着用户的阅读行为以及阅读行为体现出的对系统推荐的反馈进行调整。一方面,尚未记录在用户画像中的标签被不断添加;另一方面,某些无效的标签也需要随时删除。此外,标签的权重也应该随用户的环境、兴趣转变而及时更新。本小节介绍为用户画像设置和调整标签的若干策略。五、用户画像的设置和调整策略五、用户画像的设置和调整策略在用户与推荐系统的交互过程中,并不是所有的点击和阅读动作都是有效的。对某个用户而言,如果他对系统推荐的某个内容仅仅是
18、点击标题而并不阅读,或是很快地结束阅读,则说明用户对此内容的兴趣并不高,这可能是因为系统识别的用户兴趣与用户的真实兴趣有偏差,或是存在一定的标题党内容,导致用户虽然点击了内容却不存在实质的阅读或观看动作。用户的这类短时间、非常规阅读行为数据可被视为噪声数据,使用噪声数据提取出的标签并不能有效地帮助系统更新用户画像的标签。标题党内容或不相关内容的推荐对于用户而言都不具有正面效用,因此,需要识别出用户的无效阅读行为,将相应推荐内容对应的标签作为噪声数据过滤掉或者降低其在用户画像中的权重,提高推荐的准确度,提升用户体验。策略一:过滤噪声数据策略一:过滤噪声数据五、用户画像的设置和调整策略五、用户画像
19、的设置和调整策略使用算法进行程序化的内容推荐,需要特别注意热点话题和内容的处理。从群体心理和群体行为的角度,出于一定的社交需求的考量,大部分用户在接收到热门话题内容推荐时,会或多或少地点击查阅,以保持与他人的同步。因此,热点内容的点击率往往会越来越高,体现出“热者愈热”的特点。但是系统无法准确地知道当前用户是否真的对推荐的热点内容感兴趣,因此,热点内容对应的标签在用户画像中的占比值得商榷。通常,对于用户在热门内容上的动作,系统需要对相应的标签做一些降权处理。策略二:适度降低热点标签的权重策略二:适度降低热点标签的权重五、用户画像的设置和调整策略五、用户画像的设置和调整策略用户的兴趣爱好往往会随
展开阅读全文