大数据-大数据存储与处理推荐系统课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据-大数据存储与处理推荐系统课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 存储 处理 推荐 系统 课件
- 资源描述:
-
1、第九章第九章 推荐系统推荐系统郭宇春郭宇春1 推荐系统模型推荐系统模型 基于内容的推荐基于内容的推荐 协同过滤协同过滤 潜在因素模型潜在因素模型2推荐系统模型推荐系统模型3从稀缺到丰富:推荐的需求从稀缺到丰富:推荐的需求 传统零售商的传统零售商的货架空间是稀货架空间是稀缺资源缺资源 还包括还包括:TV networks,movie theaters,网络使零成本网络使零成本产品信息传播产品信息传播成为可能成为可能 从稀缺到丰富从稀缺到丰富The Long TailRhapsody:online music serviceWal-Malt:offline supermarketPhysical
2、vs Online5Read http:/ to learn more!推荐推荐6ItemsItems搜索搜索推荐推荐Products,web Products,web sites,blogs,news sites,blogs,news items,items,推荐类型推荐类型 编辑编辑 收藏列表收藏列表 要目列表要目列表 简单汇聚简单汇聚 Top 10,最流行最流行,最新上载最新上载 为每个用户定制为每个用户定制 Amazon,Netflix,严格模型严格模型 X 用户集用户集 S 项目集项目集 效用矩阵效用矩阵 Utility Matrix 效用函数效用函数 Utility functio
3、n u:R 评分集评分集,完全有完全有序集序集 例如例如,0-5 星星,0,1之间的实数之间的实数 关键问题关键问题1.收集已知评分形成收集已知评分形成R矩阵矩阵 如何收集效用矩阵中的数据如何收集效用矩阵中的数据2.根据已知的评分推断未知的评分根据已知的评分推断未知的评分 主要对未知的高评分感兴趣,只关心用户喜欢主要对未知的高评分感兴趣,只关心用户喜欢什么什么3.评估推断方法评估推断方法 如何衡量推荐方法的性能如何衡量推荐方法的性能评分的收集评分的收集 显式评价显式评价 要求用户对项目给出评分要求用户对项目给出评分 实际中不太可行实际中不太可行困扰用户困扰用户 隐式评价隐式评价 从用户的行为中
4、学习其评分从用户的行为中学习其评分 e.g.,购买意味着高评分购买意味着高评分 什么代表低评分呢什么代表低评分呢?效用的推断效用的推断 关键问题关键问题:效用矩阵效用矩阵U稀疏稀疏 大多数人没有评价过大多数项目大多数人没有评价过大多数项目 冷启动冷启动 新的项目没有评分新的项目没有评分 新的用户没有历史新的用户没有历史 3种方法种方法 基于内容基于内容 Content-based 协同过滤协同过滤 Collaborative Filtering 基于潜在因素(隐变量)基于潜在因素(隐变量)Latent factor based基于内容的推荐系统基于内容的推荐系统12基于内容的推荐基于内容的推荐
5、 主要思想主要思想:向用户向用户 C 推荐与她评分高(喜欢)推荐与她评分高(喜欢)项目相类似的项目项目相类似的项目例子:例子:电影推荐电影推荐 推荐相同演员、导演、流派推荐相同演员、导演、流派 Websites,blogs,news 推荐类似内容的网页推荐类似内容的网页13推荐的过程推荐的过程项模型项模型 item profile 对每个项目建立一份对每个项目建立一份 item profile Profile 是特征是特征features的集合的集合 movies:author,title,actor,director,text:set of“important”words in docume
6、nt 文本特征文本特征关键词关键词 常用的启发式方法是常用的启发式方法是 TF.IDF(Term Frequency times Inverse Doc Frequency)非文本项目特征非文本项目特征困难困难 邀请用户进行标记邀请用户进行标记Tag(词语、(词语、短语短语)Sunset at Malibu Tiananmen squareRecap:TF.IDFfij 文档文档 j 中词项中词项i 出现的频次出现的频次ni=包含词项包含词项i的文档数的文档数N=文档数文档数TF.IDF分值分值 wij=TFij IDFiDoc profile=有最高有最高 TF.IDF 值的词汇及其对应分值
7、的词汇及其对应分数的集合数的集合Note:we normalize TF to discount for“longer”documents 用户模型用户模型User profiles User profile:反映用户的特征偏好反映用户的特征偏好 根据项模型统计根据项模型统计 用户评过项目的项目用户评过项目的项目profile加权平均加权平均 启发式预测启发式预测 给定用户模型给定用户模型 x,项目模型,项目模型 i,估计用户估计用户x对于项对于项目目 i 的效用值的效用值基于内容方法的基于内容方法的优点优点 不需要其他用户的数据不需要其他用户的数据 没有冷启动或者稀疏性的问题没有冷启动或者稀
8、疏性的问题 能给品味一致的用户推荐能给品味一致的用户推荐 能给新项目或不流行项目推荐能给新项目或不流行项目推荐 没有第一个评价者的问题没有第一个评价者的问题 能够提供解释能够提供解释 可以对推荐项目给出对应的内容特征描述可以对推荐项目给出对应的内容特征描述18基于内容方法的基于内容方法的缺点缺点 找到适当的特征是困难的找到适当的特征是困难的 e.g.,images,movies,music 过度集中过度集中 不会推荐用户内容偏好模型之外的项目不会推荐用户内容偏好模型之外的项目 人们可能有多方面的兴趣人们可能有多方面的兴趣 不能利用其它用户的优质判断不能利用其它用户的优质判断 对新用户的推荐对新
9、用户的推荐 如何给新用户建立模型如何给新用户建立模型?19协同过滤协同过滤 COLLABORATIVE FILTERING20协同过滤协同过滤 考虑用户考虑用户x 找到与找到与x有相似评分有相似评分的用户集合的用户集合 N 根据根据N中用户的评中用户的评分估计分估计 x的评分的评分21相似的用户相似的用户 令令 rx 为用户为用户 x的评分矢量的评分矢量 Jaccard 相似度相似度 问题:忽略了评分的分值问题:忽略了评分的分值 余弦相似度余弦相似度 Cosine similarity measure 问题:将缺失项目视为问题:将缺失项目视为“否定否定”皮尔森相关系数皮尔森相关系数 Pears
10、on correlation coefficient Sxy=用户用户 x 和用户和用户 y共同评价过的项目集合共同评价过的项目集合缺失缺失 =否定?否定?直觉直觉:sim(A,B)sim(A,C),但是,但是 Jaccard similarity:1/5 0.322 (接近接近)原因:将缺失分量视为原因:将缺失分量视为“否定否定”(取(取0值,意味最低评价)值,意味最低评价)解决措施解决措施:减去减去(行行)均值均值 中心化中心化23sim A,B vs.A,C:0.092 -0.559 注意:cosine sim.在以零为中心时,就是相关系数评分预测评分预测 rx:为用户:为用户 x的评分
11、矢量的评分矢量 N:为对项目为对项目 i的评分与用户的评分与用户x最相似的最相似的 k 个用户个用户的集合的集合 用户用户x对项目对项目 s的评分预测的评分预测其他方法其他方法?基于项目的协同过滤基于项目的协同过滤 Item-Item CF 除了除了user-user,有另一个角度:,有另一个角度:item-item 对项目对项目i,寻找其他相似的项目寻找其他相似的项目 根据相似项目的评分估计项目根据相似项目的评分估计项目i的评分的评分 可以采用类似可以采用类似 user-user model的相似度测度的相似度测度2627282930CF:基本操作:基本操作 定义项目定义项目i 和和j 的相
12、似度的相似度sij 选择选择k个最近邻居个最近邻居N(i;x)用户用户x评价过的最类似评价过的最类似i的项目的项目 以加权平均估计评分以加权平均估计评分rxi31Item-Item vs User-User 实际中,实际中,item-item 比比user-user的效果好的效果好 原因?原因?Item 更简单,更简单,user往往有多重品味往往有多重品味32CF的优缺点的优缺点 适合于任何适合于任何item 不需要特征选择不需要特征选择 Cold Start:需要系统中有足够的用户进行匹配需要系统中有足够的用户进行匹配 稀疏性稀疏性:ratings 矩阵稀疏矩阵稀疏,难以发现评价过相同项目的
13、用户难以发现评价过相同项目的用户 第一个评价者第一个评价者 无法推荐一个没有被评价过的项目,无法推荐一个没有被评价过的项目,新项目新项目,隐秘项目隐秘项目 流行度偏差流行度偏差 无法给只有单一口味的用户推荐项目无法给只有单一口味的用户推荐项目 倾向于推荐流行项目倾向于推荐流行项目混合方法混合方法 实现两种或多种不同的推荐方法,并组合实现两种或多种不同的推荐方法,并组合预测结果预测结果 比如用线性组合比如用线性组合 将基于内容的方法与将基于内容的方法与CF相结合相结合 建立建立item profile 解决新解决新item问题问题 利用人口统计信息解决新用户问题利用人口统计信息解决新用户问题评估
展开阅读全文