书签 分享 收藏 举报 版权申诉 / 20
上传文档赚钱

类型第15章数据挖掘在电子商务中的应用要点课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4512574
  • 上传时间:2022-12-16
  • 格式:PPT
  • 页数:20
  • 大小:1.43MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《第15章数据挖掘在电子商务中的应用要点课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    15 数据 挖掘 电子商务 中的 应用 要点 课件
    资源描述:

    1、0/192022-12-16商务数据挖掘与应用案例分析商务数据挖掘与应用案例分析1/192022-12-16第第1515章章 数据挖掘在电子商务中的应用数据挖掘在电子商务中的应用 15.1 应用概述应用概述 15.2 主要应用领域主要应用领域 15.3 案例案例1:基于关联分析的淘宝网推荐:基于关联分析的淘宝网推荐 15.4 案例案例2:协同过滤技术在电影推荐上的简单应用:协同过滤技术在电影推荐上的简单应用2/192022-12-1615.1 应用概述 l电子商务(E-Commerce,简称EC)是指在互联网(Internet)、企业内部网(Intranet)和增值网(Value Added

    2、Network,简称VAN)上以电子交易方式进行交易及其它相关服务活动,它是传统商业活动各环节的电子化和网络化。电子商务包括电子货币交换、供应链管理、电子交易市场、网络营销、在线事务处理、电子数据交换、存货管理和自动数据收集系统等方面。l随着互联网的迅速普及,电子商务已如雨后春笋般地迅速发展壮大起来。目前很多大型企业都拥有自己的商务网站。但是,电子商务在给人们带来方便快捷的同时,也给人们带来了不少的难题和挑战。对企业来说,需要从海量的交易信息中找出有用的、有潜在价值的信息,制定更好的经营策略;对消费者来说,需要花费大量的时间和精力来浏览网上海量的商品信息,并从中比较和选购商品。数据挖掘技术可以

    3、从海量的数据中抽取出潜在的、有价值的知识、模型或规则,从而为企业或消费者提供决策支持。例如,企业可以采用数据挖掘技术进行客户细分、高价值客户挖掘和客户流失预测,还可以进行个性化推荐以改善用户体验,从而提升用户从点击到购买的转化率。3/192022-12-1615.2 主要应用领域15.2.1 网络客户关系管理15.2.2 网站设计优化15.2.3 推荐系统4/192022-12-1615.2.1 网络客户关系管理l网络客户关系管理(Electronic Customer Relationship Management,简称E-CRM)是企业在信息化中基于Internet平台的客户关系管理,其核

    4、心思想是在电子商务环境中,CRM具有在企业与客户、供应商及业务伙伴之间建立无缝的协作能力,通过包括Web在内的多种渠道来跟踪和管理与客户进行的交流和交易,从而实现企业与每位客户的最大程度与最大自由的互动。l数据挖掘可在客户获取、客户细分和客户保留三方面优化网络客户关系管理质量。5/192022-12-1615.2.2 网络设计优化l从网站的用户浏览日志文件中挖掘客户访问页面的使用模式,可以为改良网站的内容布局提供良好的建议。l对Web站点的优化可以从两方面来考虑:一是发现客户访问页面的相关性,在密切相关的网页之间增加互通链接;二是发现用户的期望位置,如果在期望位置的访问频率高于对实际位置的访问

    5、频率,可考虑在期望位置和实际位置之间建立导航链接。以著名的电子商务平台亚马逊为例,其Web站点优化主要体现在以下几方面:(1)产品搜索和在线采购(2)相关产品展示(3)基于历史行为的产品推荐(4)可定制的推荐记录(5)全面的导航条6/192022-12-1615.2.3 推荐系统(1)l电子商务推荐系统是将数据挖掘中的推荐技术应用到电子商务领域的范例。随着电子商务活动的开展,电子商务平台可以收集到大量用户相关数据,如用户交易数据、用户注册数据、用户评分数据、用户咨询数据等。这些数据中蕴含着丰富的用户偏好信息,推荐系统可以对用户行为和个人信息进行分析处理,从中获取用户兴趣信息并进行推荐。l协同过

    6、滤推荐是目前研究最多应用最广泛的推荐算法,包括基于内容的协同过滤方法、基于模型的协同过滤。其他推荐方法还包括基于效用的推荐和基于知识的推荐等。协同过滤在电子商务中多用于在线动态推荐,而关联分析则常用于离线静态推荐。l目前,大型电子商务系统,如Amazon、eBay和Dangdang,都不同程度地使用了电子商务推荐系统。以著名的电子商务网站淘宝网为例,其推荐功能体现在以下几方面:7/192022-12-1615.2.3 推荐系统(2)图15-3“掌柜热卖”推荐示例图15-4“基于浏览记录的推荐”示例图15-5“猜你喜欢的”推荐示例8/192022-12-1615.3 案例1:基于关联分析的淘宝网

    7、推荐15.2.1 商业理解15.2.2 数据理解阶段15.2.3 数据准备阶段15.2.4 建模阶段9/192022-12-1615.2.1 商业理解l面对电子商务网站上海量和纷繁多样的商品,很多用户感到无所适从,他们需要花费大量时间来挑选自己需要或者感兴趣的商品。网上销售与传统的店面销售不同,没有售货员提供现场咨询服务。但是,网上销售可以利用互联网的优势,为用户提供更优质的服务。由于服务器会记录用户在浏览电子商务网站时的所有行为,因此,企业很容易收集用户的浏览记录、交易信息及偏好数据。l在个性化推荐技术的关联规则分析中,最典型的例子是购物篮分析,其目标是发现交易数据库中不同商品之间的联系强度

    8、,挖掘用户潜在购买模式,并将这些模式所对应的服务或产品展示给用户,为其提供参考,从而提高用户的满意度及购买率。10/192022-12-1615.2.2 数据理解阶段 属 性 名属 性 意 义交易号ID唯一标识每一次用户的交易商品名购买的商品名数量购买的每一样商品的数量单价购买商品的单价表15-1 数据集属性信息ID商品名数量单价商品名数量单价商品名数量单价商品名数量单价1女装T恤279短裙2118休闲男装199连衣裙1352女装T恤179短裙1118伞115 3女装T恤179短裙255高跟鞋163连衣裙1354女装T恤1119短裙155高跟鞋163 5女装T恤2119短裙145高跟鞋163

    9、6女装T恤1119短裙145高跟鞋263洗发水285表15-2 部分数据实例l本案例采用淘宝网的用户交易数据进行分析,每条交易记录包括记录号和顾客购买的商品,表15-1给出了数据集中各属性名及意义,表15-2为部分交易实例数据示例。11/192022-12-1615.2.3 数据准备阶段(1)交 易 号商品1商品2商品名3商品名41女装T恤短裙休闲男装连衣裙2女装T恤短裙伞 3女装T恤短裙高跟鞋连衣裙4女装T恤短裙高跟鞋 5女装T恤短裙高跟鞋 6女装T恤短裙高跟鞋洗发水表15-3 部分预处理后的数据l原始数据集可能包含了一些冗余的数据、空值和零值等,这种格式不能作为关联规则分析算法的输入,需要

    10、对数据进行预处理。本案例的预处理中包括过滤掉原始数据集中的商品数量和单价这两个属性。同时为了保护顾客的隐私,过滤了用户名属性,并且用交易号来唯一表示顾客的每一次交易。处理后的数据集如表15-3所示。12/192022-12-1615.2.3 数据准备阶段(2)交 易 号女装T恤短 裙电 脑 配 件男装牛仔裤休 闲 男 装1TTFFT2TTFFF3TTFFF表15-4 布尔矩阵格式数据集交 易 号女装T恤1女装T恤1短裙1休闲男装2女装T恤2短裙3女装T恤3短裙表15-5 事务处理格式数据集l在Clementine软件进行关联规则挖掘时,必须把数据格式转换成Clementine软件能处理的格式。

    11、通常有两种格式:一种是布尔矩阵形式,即每行表示一条交易记录,列中的T/F值表示该商品是否有在相应的交易记录中出现,T表示有出现,F表示没有出现(表15-4列出转换后的前3条记录信息);一种是事务处理格式,即每行对应一个交易号和一个商品项(表15-5列出了前3个事务对应的事务处理格式)13/192022-12-1615.2.4 建模阶段 Consequent规则后件Antecedent规则前件Support%支持度Confidence%置信度Lift提升度高跟鞋=T洗发水=T1.172.72715.474童装=T玩具=T文具=T1.573.33312.865家具=T地毯=T2.050011.36

    12、4玩具=T童装=T文具=T2.250.010.638童装=T玩具=T4.759.57410.452女装T恤=T短裙=T高跟鞋=T1.250.010.417表15-6 Apriori算法运行结果l利用Clementine中的Apriori算法进行关联规则分析,设定最小支持度1%,最小置信度50%,输入为布尔矩阵格式的交易数据(如表15-4),输出商品的关联规则及相应的支持度、置信度和提升度信息(如表15-6)。表中显示“高跟鞋”和“洗发水”、“童装”和“玩具”、“文具”经常被一起购买。14/192022-12-1615.3 案例2:协同过滤技术在电影推荐上的简单应用15.3.1 商业理解15.3

    13、.2 数据理解与准备15.3.3 建模阶段15.3.4 模型评估与部署15/192022-12-1615.3.1 商业理解l在本案例中,关联规则分析主要是从大量的电影评论记录中提取出稳定的电影间的关联规则,它表示对应的电影经常被同时评价,这个组合通常是稳定的,一般可用于捆绑推荐等静态推荐。而协同过滤则是结合当前用户及其他用户的交易或打分记录进行推荐。l例如,对于指定用户的电影评分记录,可找到与其评分相似的其他用户,并根据这些用户对其他电影的评分来预测该用户的评分,以此对该用户进行推荐评分较高的电影。而电影推荐网站积累的电影记录数据量巨大,不同用户的评分也时刻更新变化,因此电影推荐网站适合采用协

    14、同过滤技术来进行此类更新频率较快的动态推荐,以满足用户对获取最新电影推荐的需求。16/192022-12-1615.3.2 数据理解与准备 UserIDItemIDRatingTimestamp1962423881250949186302389171774222118788871162443288060692316651886397596表15-8 MovieLens的u.data表部分数据l本案例使用GroupLens Research的经典数据集MovieLens,该数据集包含3个重要的数据表,分别是u.data、u.item和u.user,其中u.data记录了943个用户对1682部电

    15、影的100000个评分,u.item记录了1682部电影的信息,u.user描述了943个用户的相关信息。我们主要用到u.data表的UserID、ItemID和Rating属性,表15-7给出了u.data部分数据示例。17/192022-12-1615.3.3 建模阶段(1)l采用开源的Apache Mahout项目中的协同过滤软件包cf来对MovieLens数据集进行分析预测。主要有以下4个步骤:(1)构建模型u针对电影评分数据,构建适合分析的数据模型,用于存储用户,电影和评分。这里我们用的是文件u.data,去掉Timestamp属性,建立FileDataModel。(2)计算用户相似

    16、度u为了确定所分析用户的相邻用户集,要先经过用户相似度的计算。这里采用夹角余弦的相似度计算方法来计算相似度。(3)查找K个相邻用户u经过用户相似度计算,接着要确定选取哪些用户为最相似用户。通常相似度较高的用户,都归到相邻用户集。这里K值的设定依赖于实际数据特点或主观经验。为简单起见,我们取最相似的5个用户作为相邻用户集。(4)构建推荐引擎18/192022-12-1615.3.3 建模阶段(2)表15-9 前6个用户预测评分最高的5部电影推荐l通过以上4个步骤,借助Apache Mahout项目的cf包,我们可以简单地构建一个基于用户协同过滤的推荐引擎,并为每个用户提供电影推荐。推荐结果如表1

    17、5-8所示。UserID(Top 5)ItemID&Rating1881,5.00880,4.00292,4.00301,4.00315,4.002116,5.0083,5.00179,5.008,5.00172,5.003172,4.67174,4.6722,4.6789,4.6750,4.50489,5.0098,4.50318,4.5079,4.50474,4.055347,5.00329,4.50242,4.50310,4.00299,4.006292,4.50313,4.50328,4.33288,4。25872,4.0119/192022-12-1615.3.4 模型评估和部署l如何对构建的推荐引擎进行评估,使评价推荐的物品与实际相符,这是推荐系统另外需要考虑的问题。u一方面,要考虑推荐的多样性。一般从单用户的角度查看系统给出的推荐是否具有多样性,或者从系统多样性的角度(也称覆盖率)查看系统是否能够提供给所有用户丰富的选择。u另一方面,要考虑推荐的精度。习惯的做法是利用一部分数据作为训练集,而留出一部分实际用户评分数据作为测试集,通过预测评分与实际评分之间的均差、均方根等大小来评估。通常是值越小,说明推荐的情况和实际值越接近,若其值为0说明完全吻合。

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:第15章数据挖掘在电子商务中的应用要点课件.ppt
    链接地址:https://www.163wenku.com/p-4512574.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库