书签 分享 收藏 举报 版权申诉 / 46
上传文档赚钱

类型第二章算法推荐原理课件.pptx

  • 上传人(卖家):晟晟文业
  • 文档编号:3862688
  • 上传时间:2022-10-19
  • 格式:PPTX
  • 页数:46
  • 大小:499.96KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《第二章算法推荐原理课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    第二 算法 推荐 原理 课件
    资源描述:

    1、算法新闻算法推荐原理本章要点关键词第2章为了理解算法分发系统的推荐原理,需要对为了理解算法分发系统的推荐原理,需要对其进行合理的抽象和模型化,即提取出算法其进行合理的抽象和模型化,即提取出算法分发系统的若干基本要素,并对这些要素的分发系统的若干基本要素,并对这些要素的功能和相互作用进行梳理。第一个基本要素功能和相互作用进行梳理。第一个基本要素是用户。第二个基本要素是内容。第三个基是用户。第二个基本要素是内容。第三个基本要素便是算法,系统中的大量用户与海量本要素便是算法,系统中的大量用户与海量内容是无法自行匹配的,这就需要推荐算法内容是无法自行匹配的,这就需要推荐算法把用户和内容连接起来,高效地

    2、把合适的内把用户和内容连接起来,高效地把合适的内容推荐给合适的用户。同时,用户也通过阅容推荐给合适的用户。同时,用户也通过阅读行为等对算法进行反馈,帮助修正算法。读行为等对算法进行反馈,帮助修正算法。算法分发系统、用户画像、内容建模、推荐算法分发系统、用户画像、内容建模、推荐算法算法第1节 算法分发系统概览一、算法分发系统的起源和发展一、算法分发系统的起源和发展广义上,推荐系统的推荐领域并不局限于推荐数字化的内容(新闻、电子书籍、音视频节目等),而是根据用户的信息需求、兴趣等,将用户感兴趣的信息、商品等推荐给用户。在算法推荐系统出现之前,用户为了解决信息过载的问题,可以使用搜索引擎,通过指定一

    3、定的查询关键词,由搜索引擎返回相关文档和网页。与搜索引擎相比,推荐系统通过研究用户的兴趣偏好,进行个性化计算,由系统自动发现用户的兴趣点,从而更准确和主动地满足用户的信息需求。算法推荐模型的基本要素包括“用户”“内容”“分发算法”,算法推荐系统本质上就是要解决用户和内容的有效匹配问题。【提要】广义的推荐系统发源于广义的推荐系统发源于2020世纪世纪9090年代中期,至今经历了不到年代中期,至今经历了不到3030年的发展。年的发展。1995年卡耐基梅隆大学和斯坦福大学的学者分别提出了个性化导航系统和个性化推荐系统。同年,麻省理工学院的学者也提出了个性化导航智能体。1996年雅虎公司开放了网页的个

    4、性化入口MyYahoo,支持用户定制雅虎的个性化首页内容。1997年AT&T实验室提出了基于协作过滤的个性化推荐系统。1999年德国德累斯顿工业大学的研究团队实现了个性化电子商务原型系统。2000年搜索引擎CiteSeer增加了个性化推荐功能。2001年,IBM公司在其电子商务平台中增加个性化功能,支持开发个性化电子商务网站。2003年,谷歌公司通过用户的搜索关键词在搜索结果页面提供与关键词相关的广告,实现广告盈利。2007年,雅虎通过其掌握的海量用户信息(如用户的性别、年龄、收入水平、地理位置以及生活方式等)以及用户上网行为记录数据,为用户呈现个性化的广告。与国际上的行业发展同期,我国国内的

    5、搜索引擎如百度、搜狗等均在开发和实现个性化的广告投放和内容推荐。近年来,文本、音频、视频以及商品等的推荐系统都呈现出持续发力的态势,相关公司的业务量都在迅猛增长。二、算法分发系统的基本模型二、算法分发系统的基本模型算法推荐系统的基本模型在用户一侧,算法推荐的目的是把合适的内容推送给用户,因此需要对用户进行合理的抽象和理解,主要是指提取用户的多方面特征,如社会人口属性、兴趣爱好、时空环境等等。算法推荐系统会记录并持续更新用户所属年龄段、受教育程度、职业、兴趣爱好、所处的位置、使用的设备、接入网络的环境等特征信息,而这些特征正是每个用户互不相同的个性化属性,是使用算法对用户进行内容推荐的重要依据。

    6、用户侧用户侧二、算法分发系统的基本模型二、算法分发系统的基本模型算法推荐系统的基本模型在推荐系统中与用户相对的另一侧是内容侧。系统同样需要对内容进行抽象建模并提取特征,包括内容的形式(如文本、音频、视频)、类别、主题、关键词等等,这些均属于内容的特征属性。内容侧内容侧二、算法分发系统的基本模型二、算法分发系统的基本模型比如,一个用户经常阅读系统推荐的内容,说明推荐的准确度比较高,能符合目标用户的需求;相反,如果推荐给用户的内容被阅读部分的比例并不高,则推荐的效果并不好,需要对推荐逻辑进行调整和修正。隐性反馈隐性反馈用户在使用算法推荐系统的过程中会不断地对算法推荐的效果进行反馈。这些反馈行为可以

    7、是隐性的也可以是显性的。比如对推荐的内容点击“喜欢”或“不喜欢”等反馈按钮,或对推荐内容进行评论,推荐算法通过识别用户评论的情感和语义表达可以了解用户对推荐效果的反馈。显性反馈显性反馈二、算法分发系统的基本模型二、算法分发系统的基本模型算法推荐系统本质上就是要解决用户和内容的有效匹配问题,需要识别算法的输入元素。推荐过程的输入要素可以整理为三类变量。第一类是用户特征用户特征(记为)包含用户的基本信息、年龄段、职业特征、阅读习惯等。第二类是环境特征环境特征(记为)主要指时间、空间、设备和网络等环境信息。其中,时间特征即是否为工作时间、是否为工作日或节假日;空间特征即是否在办公场所或休闲娱乐场所等

    8、;设备和网络特征即是否为大屏幕设备、数据网络是移动网络还是无线局域网络环境等等。第三类是内容本身的特征内容本身的特征(记为)如格式、主题等。于是进一步抽象得到推荐过程的一种形式化表示:计算结果有两种可能:y推荐或y不推荐第2节 用户的建模和分析一、用户画像的概念和作用一、用户画像的概念和作用用户画像是根据用户的社会人口属性、生活习惯、消费行为等特征抽取出来的标签化用户模型。【提要】算法推荐系统给不同的用户提供个性化的内容推荐服务,因此需要建立用户模 型,对 每 个 用 户 都 有 深 入 的 了 解 和 刻 画。“用 户 画 像”(Userprofile/Userportrait)就是一种常用

    9、的用户建模方式。系统可以根据用户画像中描述的用户个性特征和兴趣爱好,为用户推荐个性化的内容。一、用户画像的概念和作用一、用户画像的概念和作用用户画像在多个领域都有广泛的应用,并不局限于算法分发系统。涉及用户画像的领域通常与销售、推荐和个性化服务相关。以下简要介绍用户画像的一般作用。精准营销:精准营销:分析产品的潜在用户,定向特定群体。比如,在内容推荐领域,假设系统中有一则关于花样滑冰的新闻,则可以定向推送给画像包含“花样滑冰”或某些花样滑冰运动员名字的用户。用户统计:用户统计:统计用户的使用和购买行为。例如,统计国内大学生个人购买书籍总量前十的大学,由此分析和解读国内大学生的书籍阅读行为特征和

    10、趋势。数据挖掘,智能推荐:数据挖掘,智能推荐:利用关联规则计算,进行商业智能创新。例如,某商场可以通过大量的顾客购买记录生成各种关联规则,比如分析喜欢红酒的人通常喜欢什么运动品牌,也许对酒的品味与对运动品牌的喜爱程度存在某种关联,而这种关联一旦被确定,就可以用来进行商品组合的智能推荐。一、用户画像的概念和作用一、用户画像的概念和作用效果评估,完善产品运营,提升服务质量:效果评估,完善产品运营,提升服务质量:可以通过构建测试用户的方法实现效果评估,这些测试用户对推荐内容是否采纳和阅读的行为是确定的。假设测试用户仅对篮球和网球主题的内容感兴趣,推荐算法为其推荐了篇篮球新闻、篇网球新闻和篇财经新闻,

    11、推荐算法为其推荐了篇篮球新闻和篇国际新闻,则以用户为测试用户的情况下,推荐算法的推荐效果要明显优于推荐算法。服务产品的私人定制:服务产品的私人定制:个性化服务某类群体甚至每一位用户。当前,用户对个性化服务的要求越来越高,而只有在充分理解每一个用户的基础上,才有可能提供个性化的服务,因此用户画像越个性化、越准确,给用户提供的个性化服务才会越完善。用户画像的构建过程分为“基础数据收集”“用户行为建模”“构建用户画像”三个阶段。【提要】用户画像的构建过程可以分为三个阶段第一阶段进行基础数据的收集。重点采集用户的个人信息、网络使用行为等方面的数据。第二阶段对采集到的基础数据进行分析和挖掘,实现用户行为

    12、的建模。第三阶段是为每个用户构建个性化的用户画像,这是对前两个阶段采集数据的进一步提炼和抽象。二、二、如何构建用户画像如何构建用户画像二、二、如何构建用户画像如何构建用户画像用户画像的构建并不是孤立静态的单次过程,推荐系统会根据用户的行为数据不断更新用户画像,以达到提高刻画用户特征准确度的目的,最终目标是提高推荐的准确度和有效性。三、用户画像标签体系三、用户画像标签体系每个用户画像就是若干标签的集合,根据用户的兴趣特点,可以对用户画像的标签设置不同的权重,以改善算法推荐的效果。【提要】一般地,算法推荐系统建立用户画像标签体系可以参考以下格式:()身份特征身份特征:性别、年龄、职业、常驻地点、电

    13、子邮箱()主题兴趣特征主题兴趣特征:感兴趣的类别和主题、感兴趣的关键词、感兴趣的内容来源、基于兴趣的用户聚类、消费习惯()垂直兴趣特征垂直兴趣特征:科技、体育、金融、财经、娱乐()行为特征行为特征:分时段的行为特征、分位置的行为特征、阅读内容三、用户画像标签体系三、用户画像标签体系需要注意的是,上述标签体系仅仅是一个概述性的标签体系,在具体的算法推荐系统中,每一类特征都会对应数量较大的标签实例。比如垂直兴趣特征中的“科技”这个特征,又可以逐级细分为:消费者科技数码产品科技单反相机某品牌某型号。而系统中的每个用户画像则是从标签体系中抽取不同的标签来具体表述当前用户的个性化特点。四、用户画像的四、

    14、用户画像的“冷启动冷启动”算法推荐系统的新用户存在“冷启动”问题,可以设计不同的策略,尽快完善新用户的用户画像。【提要】对于新加入系统的用户,系统通常只能要求新用户提供一些身份特征之类的基础信息。在新用户注册时试图获得全面的用户兴趣和个性特征的过程比较烦琐。这样容易导致用户丧失兴趣而不再尝试注册使用新系统。这样难免使得用户画像包含的有效标签十分有限,系统对用户个性化特征和兴趣爱好的刻画能力不足。如何给系统并不了解的新用户提供有效的内容推荐,通常被称为新用户的“冷启动”问题。本节介绍两种策略供读者参考。四、用户画像的四、用户画像的“冷启动冷启动”根据外部服务的历史行为数据扩充新用户的画像。当前,

    15、在不同的互联网应用之间往往会开放一些编程接口,用以编程读取各个系统中可以公开的数据。比如用户在一个新的算法推荐系统注册时,可以通过微博或者微信授权直接使用微博或微信账号登录新系统,从而免去重新注册一个新账号的过程。在这种情况下,算法推荐系统可以根据用户的授权读取用户在微博、微信等平台的公开数据如昵称、发布内容、阅读历史等等,如此便可在不需要用户直接提供个人兴趣爱好信息的情况下,使用自然语言处理和机器学习等算法,根据用户在其他服务中的行为数据提取用户的兴趣特征,扩充用户画像的标签数量,达到尽快完善用户画像的目的。策略一:策略一:四、用户画像的四、用户画像的“冷启动冷启动”用户分类和聚类。尽管个体

    16、用户都有“千人千面”的兴趣特点,但在一定程度上仍可以对用户进行分类和聚类,而针对同一类用户的推荐对此类用户中的所有个体的推荐均有一定的有效性和合理性。具体地,对于新注册使用系统的用户,可以使用其基本信息标签(如性别、年龄、手机机型、网络特征、地理位置)查找系统已有用户中与新用户相似度较高的用户,把新用户归类为这些用户所属的类别中,从而使用相应的用户类别的内容推荐规则进行有针对性的推荐,并依据用户的阅读行为及时反馈,形成新用户自己的画像标签集合策略二:策略二:五、用户画像的设置和调整策略五、用户画像的设置和调整策略对用户画像的设置和调整可以采取过滤噪声数据、适度降低热点标签权重、重视标签的时间敏

    17、感度、调整负向操作权重以及考虑全局背景等策略。【提要】当新用户注册成功后,系统根据一定的冷启动策略为用户生成初始的用户画像。在随后的使用过程中,用户的画像并不是一成不变的,而应随着用户的阅读行为以及阅读行为体现出的对系统推荐的反馈进行调整。一方面,尚未记录在用户画像中的标签被不断添加;另一方面,某些无效的标签也需要随时删除。此外,标签的权重也应该随用户的环境、兴趣转变而及时更新。本小节介绍为用户画像设置和调整标签的若干策略。五、用户画像的设置和调整策略五、用户画像的设置和调整策略在用户与推荐系统的交互过程中,并不是所有的点击和阅读动作都是有效的。对某个用户而言,如果他对系统推荐的某个内容仅仅是

    18、点击标题而并不阅读,或是很快地结束阅读,则说明用户对此内容的兴趣并不高,这可能是因为系统识别的用户兴趣与用户的真实兴趣有偏差,或是存在一定的标题党内容,导致用户虽然点击了内容却不存在实质的阅读或观看动作。用户的这类短时间、非常规阅读行为数据可被视为噪声数据,使用噪声数据提取出的标签并不能有效地帮助系统更新用户画像的标签。标题党内容或不相关内容的推荐对于用户而言都不具有正面效用,因此,需要识别出用户的无效阅读行为,将相应推荐内容对应的标签作为噪声数据过滤掉或者降低其在用户画像中的权重,提高推荐的准确度,提升用户体验。策略一:过滤噪声数据策略一:过滤噪声数据五、用户画像的设置和调整策略五、用户画像

    19、的设置和调整策略使用算法进行程序化的内容推荐,需要特别注意热点话题和内容的处理。从群体心理和群体行为的角度,出于一定的社交需求的考量,大部分用户在接收到热门话题内容推荐时,会或多或少地点击查阅,以保持与他人的同步。因此,热点内容的点击率往往会越来越高,体现出“热者愈热”的特点。但是系统无法准确地知道当前用户是否真的对推荐的热点内容感兴趣,因此,热点内容对应的标签在用户画像中的占比值得商榷。通常,对于用户在热门内容上的动作,系统需要对相应的标签做一些降权处理。策略二:适度降低热点标签的权重策略二:适度降低热点标签的权重五、用户画像的设置和调整策略五、用户画像的设置和调整策略用户的兴趣爱好往往会随

    20、着时间而改变,伴随用户在算法推荐系统内动作的积累,用户某些历史行为对应的特征值权重应当随着时间流逝而衰减,新动作贡献的标签权重应当及时增加。比如一个中学生用户高考进入异地大学后,其地理位置、身份特征都有所改变。因此,针对用户身份、兴趣的改变,系统需要逐渐把用户画像中与高考相关标签的权重降低甚至去掉,同时加入与新城市、大学生活相关的新标签,并调整权重值。这是推荐系统随着用户自身的演进而演进的一个合理的过程。策略三:重视标签的时间敏感度策略三:重视标签的时间敏感度五、用户画像的设置和调整策略五、用户画像的设置和调整策略推荐系统根据用户画像的标签给用户推荐适配的内容,理想的情况是推送的内容都会得到用

    21、户的阅读和观看。如果一篇内容推荐给某个用户之后,用户完全没有点击查阅,则此篇推荐内容可能并不是该用户感兴趣的类别。假设这类内容对应的标签在这个用户画像标签集合里原有的权重值为,经过几次推送和用户反馈(不点击),系统发现基于这个标签进行推荐的内容对用户而言并不是有效的推荐,因此基于这个标签产生的推荐动作对用户的参考意义并不大,可以考虑将其在用户画像中的权重值逐步降低,从而体现出用户对相应标签的兴趣。策略四:调整负向操作权重策略四:调整负向操作权重五、用户画像的设置和调整策略五、用户画像的设置和调整策略对于某个给定的特征标签,需要考虑其人均点击情况。此处系统不仅要考察单个用户的点击情况,还需要关注

    22、特定标签对应的内容被推荐给多个用户后的人均点击情况或驻留情况是怎么样的,然后对相应的标签做一些权重调整。例如,在某些极端情况下,某个特征标签的内容推送只有个位数的用户点击数,则需考虑降低此类内容在系统中的优先级,把有限的计算资源分配在人均点击率更高的特征标签上,因为对后者的推荐更容易产生更多的阅读量。策略五:综合考虑全局背景策略五:综合考虑全局背景第3节 内容的建模和分析 以文本型内容为例 一、内容的预处理一、内容的预处理系统在进入对内容的建模和分析阶段之前,需要进行适当的准备工作,即内容的预处理过程,其目的是完成内容的规范化和标准化的准备过程。在基础的格式清理等数据清洗工作之后,“去除重复文

    23、章”和“文章审核”是两个必要的预处理过程。一、内容的预处理一、内容的预处理“去除重复文章”简称“消重”,包括内容消重、标题消重和相似主题消重。出于提高存储、运行效率和吸引用户的考虑,推荐系统不宜持续给用户推荐相同或相似的内容,这会导致推荐内容的单一化倾向,容易使用户产生审美疲劳。首先是内容消重,如果内容库中的若干篇文章都是关于同一事件或主题的相同或相似版本,则系统可以依据一定的规则,选取并保留一份主要版本进行内容推荐,而不必将相似的内容重复地保存在系统中或者重复地推荐给用户。除了内容消重之外,系统对文章的标题和文中包含的图片也可以进行类似的消重处理,也是出于一样的考量。使用程序化的手段分析标题

    24、文字的相似度和图片的相似度,系统可以对标题高度相似的文章和图片高度重合的文章进行删减。去除重复文章去除重复文章一、内容的预处理一、内容的预处理把不合法、不合规或者质量低俗的内容排除在推荐内容之外,才能进入文章推荐阶段。首先需要对文章的标题、正文进行合规性的审查,确保通过系统发布的文章符合相应的法律法规要求。其次进行文章的质量审核,使用如关键词过滤等程序化的手段检查文章是否为广告文、软文或者是进行恶意推广的文章,一旦识别出此类文章,系统应该进行拦截处理,避免不良内容的扩散。文章审核文章审核二、文本型内容的建模和分析二、文本型内容的建模和分析对文本型内容进行建模,就是把文章的特征值识别出来,形成一

    25、个特征值的集合来表示文章。可以使用分词和词频统计的方法提取文本型文章的特征词。【提要】文本型内容的建模和分析是计算科学的一个重要的分支,涉及的技术包括自然语言处理、数据挖掘、机器学习等。从理解算法推荐系统的角度入手,文本型内容的建模主要研究怎样表示文本、怎样提取文本内容中的特征并利用这些特征进行针对不同用户的个性化推荐。对文本型数据的建模是文本挖掘和信息检索的一个基本问题,只有把非结构化的文字性内容转化为结构化的、可以量化处理的数据,才可能运用各种分析和推荐算法实现内容的分析和推荐。二、文本型内容的建模和分析二、文本型内容的建模和分析以中文文本型内容为例,在文本的层面要进行的分析包括分词、词频

    26、统计等工作;在内容方面要进行的分析包括关键词挖掘、主题识别、情感分析、文本的分类和聚类等等。“我在中国人民大学读书”“我在上海人民公园赏花”第一句话中的“中国人民大学”和第二句话中的“上海人民公园”都是专有名词,应该将其作为一个单词进行切分,分词后的两句话为:“我在中国人民大学读书”“我在上海人民公园赏花”。经过这样的划分,“中国人民大学”和“上海人民公园”分别是两篇文章的代表性词语,可以作为两篇文章的特征值。二、文本型内容的建模和分析二、文本型内容的建模和分析“我在中国人民大学读书”“我在上海人民公园赏花”如果把“中国人民大学”切分为“中国”“人民”“大学”这三个词,把“上海人民公园”切分为

    27、“上海”“人民”“公园”这三个词,则两篇文章的相似度因为“人民”一词的重合而有所提高。可见,分词不准确会导致文章特征识别的不准确。经过分词之后,还需要进行词频统计。词频统计就是计算每个词在一篇文章中出现的次数。需要注意的是,出现次数多的词并不一定能作为特征词,比如“我”“的”这样的介词、代词、副词等,它们经常性地出现在各种文章里面,对于提取文章特征并无价值,因此计算和提取高频词的时候需要将其排除。经过这样的处理,计算出的高频词就是每一篇文章中有区分度的特征词。三、文本的向量模型三、文本的向量模型提取出文章的特征词之后,计算机需要对其进行形式化的表示和计算,因此出现了词和文件的向量模型。一般地,

    28、向量可以具有多个维度,如表示空间上的一个位置可以使用(经度,纬度,海拔)这样的三维向量来定位,向量的一个维度就是其某一种特征的表示和刻画。在文本建模中,一种对文本的抽象方法就是建立向量空间模型,使用多维向量来表述词和文本。首先看词向量,假设某文章共有N个单词,则每个单词 都可以表示为一个N维向量:其中d1,d2,d3,dN 的取值是在此文章中单词 前后K个词中出现单词w1,w2,w3,wN 的次数。不同类别和主题文章的特征词的词向量有区别,将每篇文章的特征词向量集合起来即可对此文本型文章进行形式化的表示。四、文本分析模型在推荐系统中的作用四、文本分析模型在推荐系统中的作用首先,从用户分析的角度

    29、,文本分析模型可以帮助实现用户兴趣建模和更新。比如,系统可以收集到用户阅读过的所有文章,提取出其中的高频词,进而将其作为用户标签,反馈到用户画像中:增加现有标签的权值,或者添加标签。比如,给喜欢阅读“互联网”文章的用户打上“互联网”标签,给喜欢阅读“小米”手机新闻的用户打上“小米”标签。尽管文本分析模型是作为对内容建模的工具进行介绍的,但实际上文本分析在用户侧、内容侧以及推荐逻辑三个方面都有应用。四、文本分析模型在推荐系统中的作用四、文本分析模型在推荐系统中的作用其次,在内容组织方面,文本分析模型可以帮助系统优化内容的组织。一般地,推荐系统根据一定的分类体系对内容库中的文章进行分类组织,而文本

    30、分析恰恰可以利用提取出的文章特征值,将文章分到相应的类别或内容组织频道中。将与“网球”相关的内容添加至“网球频道”,实现内容的自动化组织。最后,最关键的应用就是算法推荐部分,文本分析模型可以帮助系统进行内容推荐。由于用户和内容都分别打上了标签,因此可以直接根据标签是否匹配来进行推荐。比如将与“高考”有关的内容推荐给有“高考”标签的用户等等。五、文本特征体系五、文本特征体系文本特征从不同的维度可以分为语义标签类、隐式语义特征、相似度相关、时空相关、质量相关的特征,综合使用这些特征可以更全面地刻画推荐系统中的文本内容。【提要】根据不同的维度,文本特征可以分为以下五类。五、文本特征体系五、文本特征体

    31、系这类特征与文本的内容密切相关,从语义上体现文章的主题。譬如说,“冬奥会”“花样滑冰”“高考”等,均属于有确切含义的语义标签。一般可以根据主题或话题来组织语义标签,在系统中通常组织为树形或网状结构。语义标签类特征在算法推荐系统中是预定义好的,也会随着内容库的扩充而不断扩充。第一类:语义标签类特征第一类:语义标签类特征五、文本特征体系五、文本特征体系使用计算机算法对文本内容进行聚类和主题词挖掘时,生成的类别、主题和关键词具有一定的相关性,但是由于某些类别可解释性不强,因此不能明确地指出这些类别的具体语义,因此,我们把这种自动聚类生成的主题中的语义特征称为隐式语义特征。第二类:隐式语义特征第二类:

    32、隐式语义特征此类特征与前文介绍的消重有一定关联。消重需要判断不同文章的标题、内容和主题是否相似,可以使用字符相似度、主题相似度等计算函数来进行计算,计算过程中使用到的文本特征均属于文本相似度特征。第三类:文本相似度特征第三类:文本相似度特征五、文本特征体系五、文本特征体系譬如文章中提到的事件发生在什么时间、什么地点,时效性如何,由此可判断其是否为突发事件,或是发生了一段时间的事件,或是对时间不敏感的事件。某些内容对时效性要求不高,比如常识类的内容,则其时空特征就不需要进行特别的提取,或者时空特征并不能作为主要特征。而新闻类的内容则有突出的时间空间特征,可以用来作为内容组织和推荐的重要参考元素。

    33、第四类:文本的时间空间特征第四类:文本的时间空间特征在线运营的算法推荐系统负有现实的社会责任,因此需要关注系统推荐内容的质量特征,如是否合法合规、是否符合社会公序良俗、内容是否低俗等。从商业和运作的角度来说,需要识别文章是否为软文、鸡汤文、恶意竞争的文章等等。通过抽取这些与质量相关的文本特征并拦截低质文章,算法推荐系统可以从源头上保障推荐内容的质量。第五类:与文章质量相关的特征第五类:与文章质量相关的特征第4节 推荐算法用户画像是根据用户的社会人口属性、生活习惯、消费行为等特征抽取出来的标签化用户模型。【提要】一、协同过滤推荐算法一、协同过滤推荐算法协同过滤推荐算法是一种常见的个性化推荐算法,

    34、主要分为基于用户和基于项目的协同过滤两大类。【提要】一、协同过滤推荐算法一、协同过滤推荐算法协同过滤算法是算法推荐系统发展历程中一个重要的基本算法。它的基本思路是,通过分析用户的历史行为(如购买行为、内容浏览行为、阅读行为等),建立用户的兴趣模型,随后再依据用户的兴趣特征给用户做出产品或内容的推荐。以下分别介绍“基于用户的协同过滤算法基于用户的协同过滤算法”和“基于项目的协同过滤算法基于项目的协同过滤算法”一、协同过滤推荐算法一、协同过滤推荐算法这里的一个基本假设是,一个用户会喜欢和他有相似兴趣喜好的用户喜欢的项目。因此,为了给目标用户做推荐,首先应该找到与该用户在兴趣喜好上最相似的一组用户,

    35、然后再依据相似用户的浏览行为列表进行推荐。此处,两个用户相似是指这两个用户喜欢过的物品集合相似。基于用户的协同过滤算法关注用户之间的关系,有更强的社会属性,因此与新闻领域相关性很强,其早期应用就包括新闻的推荐。在基于用户的协同过滤中,“协同”指的是用户之间的相似性带来的关联,也就是说如果用户感兴趣的项目集合相近,则他们的兴趣也相近,从而导致他们将来可能感兴趣的项目也是相似的。而“过滤”则是指使用与当前用户相似用户的兴趣集合,从全体项目的集合中过滤出当前用户可能感兴趣的一个较小的子集来进行推荐,从而降低系统运算复杂度,提高推荐的准确性。基于用户的协同过滤算法基于用户的协同过滤算法一、协同过滤推荐

    36、算法一、协同过滤推荐算法基于项目的协同过滤算法进行推荐的方向恰恰与基于用户的协同过滤相反,它的一个基本假设是用户会喜欢和他以前喜欢的项目相似的项目。这样的启发式规则在电子商务领域的推荐过程中比较常见。比如某用户在某购物网站上采购钢笔之后,网站上还会出现钢笔、签字笔等文具类产品的推荐,这就是基于项目之间的相似度进行的推荐。在基于项目的协同过滤算法中,要考虑项目的相似度这个概念,这是进行推荐的重要依据。在这里,项目的相似度是依据喜欢这些项目的用户集合的相似程度来定义的。在基于项目的协同过滤中,“协同”指的是项目之间相似性带来的关联,也就是说对项目感兴趣的用户集合相近,则项目之间的相似度就高,对一个

    37、项目有兴趣的用户,有可能对与其相似的项目感兴趣。而“过滤”则是指使用与当前项目相似项目的用户集合,从全体用户的集合中过滤出可能对当前项目感兴趣的一个较小的用户子集来进行推荐。基于项目的协同过滤算法基于项目的协同过滤算法二、两种协同过滤算法的对比二、两种协同过滤算法的对比基于用户的协同过滤算法关注用户的相似性,强调用户之间的社会关系;基于项目的协同过滤算法关注项目的相似性,强调项目之间相似性中体现出的用户的个性化偏好。【提要】基于用户的协同过滤,依据用户的相似度给用户推荐项目,其中对用户相似度的衡量来自用户喜欢过的项目集合的重合程度,重合度越高,用户相似度越高。基于项目的协同过滤算法与之恰好是对

    38、称的关系,是依据项目的相似度,给项目查找潜在的用户,其中对项目相似度的衡量来自喜欢这些项目的用户集 合的重合程度,重合度越高,项目相似度越高 三、推荐策略及推荐系统的数据依赖三、推荐策略及推荐系统的数据依赖在推荐算法的基础上,可以根据不同的常见需求综合使用一种或多种算法组合,下面简要介绍三种常见的推荐策略。策略一:策略一:基于内容的推荐,亦称为基于用户画像的推荐,意思就是根据用户的历史点击记录,总结出用户的喜好(即用户画像),计算文章和内容与用户画像的相似度,将相似度高的项目推荐给用户。策略二:策略二:协同过滤推荐,即找到相似的用户集合或相似的项目集合,给用户推荐其可能感兴趣的项目,或者把项目

    39、推荐给可能感兴趣的用户。策略三:策略三:热度推荐,亦称热门推荐,根据一个预设的时间窗口,统计出在过去一段时间窗口内所有文章的点击量,把点击量高的文章推荐给用户。本章小结本章介绍算法分发系统的原理和概念。一个简化的算法推荐系统包括“用户”“内容”“分发算法”以及用户对推荐算法的反馈优化。使用标签化的用户画像对系统用户建模,标签越细,系统对用户的个性化需求的刻画能力越强。本章以文本型内容为例,介绍了内容的建模和分析方法;以协同过滤的推荐算法为例,介绍了基于用户的协同过滤和基于项目的协同过滤,并比较了二者及其与基于内容的推荐算法的区别。此外,数据是一切推荐算法的基础,用户标签挖掘和内容分析是搭建推荐系统的基石。思考算法推荐系统在一定程度上解决了用户的信息过载问题,但是,当前也有一些质疑的声音,有人认为,由于算法推荐系统只给用户推荐其喜欢的内容,导致用户无法接触其他内容,从而形成“信息茧房”或者“信息孤岛”。你认为“信息茧房”与算法推荐系统有关吗?如果二者没有相关性,为什么?如果“信息茧房”的存在与算法推荐系统有关,可以通过怎样的方法解决?1.一个算法推荐系统的基本要素有哪些?分别有什么特征?2.用户画像的“冷启动”问题可以通过哪些方法解决?3.请简述文本的预处理过程。4.请简述文本型内容的建模过程。5.基于用户的协同过滤推荐算法和基于项目的协同过滤推荐算法有何异同?训练

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:第二章算法推荐原理课件.pptx
    链接地址:https://www.163wenku.com/p-3862688.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库