书签 分享 收藏 举报 版权申诉 / 35
上传文档赚钱

类型最新数据挖掘之推荐算法入门阿里大数据竞赛参赛经历课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:5148424
  • 上传时间:2023-02-15
  • 格式:PPT
  • 页数:35
  • 大小:1.92MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《最新数据挖掘之推荐算法入门阿里大数据竞赛参赛经历课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    最新 数据 挖掘 推荐 算法 入门 阿里 竞赛 参赛 经历 课件
    资源描述:

    1、数据挖掘之推荐算法入门数据挖掘之推荐算法入门阿里大数据竞赛参赛经历阿里大数据竞赛参赛经历遇到的问题遇到的问题目录什么是推荐系统阿里巴巴大数据竞赛推荐算法入门Part 2阿里巴巴大数据竞赛阿里巴巴大数据竞赛7000+参赛队伍,凸显了如今大数据方向的热门 赛题介绍 在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。数据:行为日志:用户id、品牌id、用户对品牌的行为、行为时间。用户行为:点击、购买、加入购物车、收藏。阿里巴巴大数据竞赛 比

    2、赛形式 设计一个推荐算法,基于算法和已有数据得出第五个月用户可能购买的品牌。训练集:用于建立模型;验证集:用于评估模型。例如可以用 1-2月 的数据作为训练集,3月的数据作为验证集,以此来检验算法的效果。然后再用 3-4月 的数据作为训练集,得出推荐结果。最终提交推荐结果,由系统给出分数。评估指标 预测的品牌准确率越高越好,也希望覆盖的用户和品牌越多越好。阿里巴巴大数据竞赛 参赛成绩:第60名 比赛时间较长,持续4个月,比较耗时间。后劲不足,没有达到预期的成绩。通过竞赛,对推荐算法的入门有了深入的理解与实践。阿里巴巴大数据竞赛Part 3推荐算法入门 阿里大数据竞赛提供的数据:行为日志:用户i

    3、d、品牌id、用户对品牌的行为、行为时间。用户行为:点击、购买、加入购物车、收藏。对数据的处理:提取特征 特征:推荐算法所考虑的因素,如 用户过去一个月对品牌的点击次数 用户过去一个月对品牌的购买次数 品牌过去一个月的总销量.推荐算法原始数据处理后的特征数据 算法1:简单的推测规律点击次数多,购买可能性较大;加入购物车、收藏,购买可能性较大;最近有浏览过的品牌,购买可能性较大;.推荐算法点击次数与是否购买的关系 算法1:简单的推测规律 首先将数据转化为特征值:点击次数 click加入购物车 is_cart收藏 is_fav几天前有浏览过 days 实现1:直接利用规律 if(this.days

    4、=10)then recommend(this);if(this.is_cart&days=3)then recommend(this);.推荐算法简单粗暴且有效,只要规律找的好,效果还是可以的 算法1:简单的推测规律点击次数 click加入购物车 is_cart收藏 is_fav几天前有浏览过 days 实现2:设定权值,并计算分值(通过验证集找到较优权值)W=w1*click+w2*is_cart+w3*is_fav+w4*1/days 例如得到一个较有权值:w1=0.1,w2=0.2,w3=0.2,w4=0.5推荐算法简单有效,实现方便,有一定效果用户用户品牌品牌交互数据交互数据得分得分

    5、1133click=2,is_cart=1,is_fav=0,days=11.42133click=10,is_cart=0,is_fav=0,days=5 1.1 算法2:逻辑回归(Logistic regression)Logistic regression(逻辑回归)是当前业界比较常用的机器学习方法,用于估计某事件的可能性。如某用户购买某商品的可能性、广告被某用户点击的可能性等。推荐算法公式定义将可能性限定在0和1之间 算法2:逻辑回归(Logistic regression)组成1:回归 回归是对已知公式的未知参数进行估计。如已知公式是y=a*x+b,未知参数是 a 和 b。我们现在有

    6、很多真实的(x,y)数据(训练样本),回归就是利用这些数据对 a 和 b 的取值去自动估计。推荐算法 算法2:逻辑回归(Logistic regression)组成2:线性回归 如鞋子定价与鞋子销量的问题。y=a*x+b,x是价钱,y是销售量。假设它们满足线性关系,线性回归即根据往年数据找出最佳的a,b取值,使 y=a*x+b 在所有样本集上误差最小。推荐算法线性回归示例 算法2:逻辑回归(Logistic regression)组成2:线性回归 如鞋子定价与鞋子销量的问题。y=a*x+b,x是价钱,y是销售量。假设它们满足线性关系,线性回归即根据往年数据找出最佳的a,b取值,使 y=a*x+

    7、b 在所有样本集上误差最小。一元变量关系比较直观,但若是多元就难以直观的看出来了。比如说除了鞋子的价格外,鞋子的质量,广告的投入,店铺所在街区的人流量都会影响销量,我们想得到这样的公式:sell=a*x+b*y+c*z+d*+e。这个时候画图就画不出来了,规律也十分难找,这时就得交给线性回归程序去完成。推荐算法 算法2:逻辑回归(Logistic regression)组成3:Logsitic方程 上面提到的 sell 计算出来是一个数值,但我们需要的是一个0,1,类似概率的值,于是引入了 Logistic 方程,来做归一化。所以逻辑回归就是一个被Logistic方程归一化后的线性回归。推荐算

    8、法线性回归逻辑回归 算法2:逻辑回归(Logistic regression)实现:使用算法库 R语言、Python等都有逻辑回归的算法库,使用方便。最重要的还是要提取相关特征,逻辑回归的效果直接取决于特征的选取(当然,追求更好的效果就需要去优化算法的实现)。推荐算法逻辑回归代码示例 算法3:协同过滤(Collaborative Filtering)基于用户的协同过滤算法是推荐系统中最古老的算法。可以不夸张地说,这个算法的诞生标志了推荐系统的诞生。在个性化推荐系统中,当用户A需要个性化推荐时,可以先找到和他有相似兴趣的其他用户,然后把那些相似兴趣用户喜欢的、而用户A没有听说过的物品推荐给A。这

    9、种方法称为基于用户的协同过滤算法。基于用户的协同过滤算法主要包括两个步骤。找到和目标用户兴趣相似的用户集合。将这个集合中用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。相对应的,还有基于物品的协同过滤算法,比如给喜欢射雕英雄传的用户推荐天龙八部,因为这两部作品都是武侠小说,且作者都是金庸。推荐算法 算法3:协同过滤(Collaborative Filtering)协同过滤算法的核心是计算相似度,以基于物品的协同过滤为例:推荐算法 左边每一行代表一个用户感兴趣的物品集合 中间是某用户感兴趣物品的相似矩阵 右侧是所有用户感兴趣物品相似矩阵相加的结果 最后进行归一化就可得到一个0,1的物品相似

    10、度矩阵 算法3:协同过滤(Collaborative Filtering)推荐算法基于用户的协同过滤(User CF)(用户A和用户C都喜欢物品A、C)基于物品的协同过滤(Item CF)(喜欢物品A的人也喜欢物品C)基于物品的协同过滤推荐示例 给用户推荐算法导论,是因为这本书和C+Primer中文版和编程之美都相似,相似度分别为 0.4 和 0.5。而用户对C+Primer中文版的兴趣度是1.3,对编程之美的兴趣度是0.9,那么用户对算法导论的兴趣度就是1.3 0.4+0.90.5=0.97。逻辑回归与协同过滤的比较 最主要的一个区别是应用场景不同:逻辑回归针对的是已有交互的物品,而协同过滤

    11、则主要针对没有交互过的物品。如购物网站的推荐系统,逻辑回归可以推荐给用户,其浏览过且较有可能购买的商品;协同过滤则可以推荐给用户,其未浏览过但可能感兴趣的商品。推荐算法亚马逊的图书推荐主要使用了协同过滤。其他推荐算法:随机森林(Logistic regression)支持向量机SVM 神经网络 Slope One.推荐算法 总结:介绍了阿里巴巴大数据竞赛的基本情况;介绍了两类比较典型的推荐算法:逻辑回归和协同过滤;推荐算法的选择和具体应用场景有很大关系,一般也涉及多种推荐算法的组合使用。推荐算法涉及较多的数学知识,今天只是做了一个简单的介绍,可深入了解的东西还有很多。推荐算法34遇到的问题遇到的问题Thanks.

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:最新数据挖掘之推荐算法入门阿里大数据竞赛参赛经历课件.ppt
    链接地址:https://www.163wenku.com/p-5148424.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库