《大数据分析实务》课件第7章:数据挖掘方法 - Web挖掘与电子商务.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《大数据分析实务》课件第7章:数据挖掘方法 - Web挖掘与电子商务.ppt》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据分析实务 大数据分析实务课件第7章:数据挖掘方法 Web挖掘与电子商务 数据 分析 实务 课件 挖掘 方法 Web 电子商务
- 资源描述:
-
1、第7章 数据挖掘方法7.6电子商务web挖掘Web数据挖掘,是数据挖掘技术在Web环境下的应用,是从大量的Web文档集合和在站点内进行浏览的相关数据中发现潜在的、有用的模式或信息。涉及到Internet技术、人工智能、计算机语言学、信息学、统计学等多个领域。Web挖掘也分成三类:Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)和Web使用模式挖掘(Web Usage Mining)。Web内容挖掘对网络页面的内容进行挖掘分析。目前Web内容挖掘包括对文本、图像、音频、视频、元组数据的挖掘,但目前多数是基于文本信息的挖掘,这又可以
2、进一部分为网页内容挖掘和搜索结果挖掘,前者是传统的依据内容搜索网页,后者是在前者搜索结果的基础上进一步搜索网页。Web结构挖掘对网络页面之间的结构进行挖掘,从网页的实际组织结构中获取信息。整个Web空间中,有用的知识不仅包含在页面内容中,也包含在页面的结构中。Web结构挖掘主要就是针对页面的超链接结构进行分析,通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类,并且由此可以获得有关不同网页间相似度及关联度的信息如果发现有较多的超链接都指向某一页面,那么该页面就是重要的。发现的这种知识可以用来改进搜索路径等。Web使用模式挖掘对用户和网络交互的过程中
3、抽取出来的第二手数据进行挖掘,包括网络服务器访问记录、代理服务器日志记录、浏览器日志记录、客户简介、注册信息、客户对话或交易信息、客户提问方式等。其主要特点是对客户信息数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。这里需要特别指出的是,Web使用模式挖掘还可以进一部分为一般访问模式跟踪和定制使用跟踪,前者是一种查看网页访问历史记录的使用模式挖掘。这种挖掘可以是一般化的,也可以是针对特定的使用或使用者,这便是后者。基于电子商务的数据挖掘概念基于电子商务的数据挖掘概念就是通过Web挖掘等数据挖掘技术,利用分类、聚类、时间序列分析、关联规则等挖掘方法充分分析电子商务网站
4、能够提供的网络日志等海量数据,从而得到相关知识,以此来定位目标群体,发现潜在客户,优化网点,提供个性化服务,引导市场决策,最终达到商务增值的过程。电子商务中数据挖掘的主要目标:电子商务中数据挖掘的主要目标:帮助企业确定营销机制。在电子商务中,商业信息来自各个渠道,这些数据信息经过数据挖掘技术进行处理后,可从中得到用于特定消费群体或个人定向营销的决策信息,以确定电子商务的营销机制。Web挖掘与电子商务挖掘与电子商务电子商务能够为数据挖掘提供海量的、干净的数据数据挖掘能够为电子商务的发展提供了强大的数据支撑,非常容易应用Web挖掘与电子商务挖掘与电子商务假如一个小型电子商务站点每小时卖出4件产品,
5、顾客平均买一件产品需要访问9个页面,且所有顾客中真正买东西的人的比例为2%,那么,一个月该网站能产生多少页面访问量呢?424309/0.02=1296000页面!Web挖掘与电子商务挖掘与电子商务 如果电子商务站点设计得好,可以获得各种商务信息或者用户访问信息:在电子商务领域其作用主要有4个方面:Web挖掘与电子商务挖掘与电子商务Web挖掘的数据来源与类型挖掘的数据来源与类型Web挖掘的数据来源与类型挖掘的数据来源与类型服务器数据客户访问站点时会在Web服务器上留下相应的日志数据,这些日志数据通常以文本文件的形式存储在服务器上。一般包括sever logs、error logs、cookie
6、logs等。通常文件的格式为:“Date,Client,IP,User_name,Bytes,Server,Request,Status,Servicename,Time,Protocol version,User_agent,Cookie,Referrer”。如果可以对这些文件中存储的数据进行语法上的分析,例如分析DNS,就可以知道客户来源的区域,如域名A被分析后就可以知道客户来自美国。Web挖掘的数据来源与类型挖掘的数据来源与类型查询数据电子商务站点在服务器上产生的一种典型数据。例如,对于在线客户也许会搜索一些产品或某些广告信息,这些查询信息就通过cookie或是登记信息连接到服务器的访问
7、日志上。Web挖掘的数据来源与类型挖掘的数据来源与类型在线市场数据 这类数据主要是传统关系数据库里存储的有关电子商务站点信息、客户购买信息、商品信息等数据。Web挖掘的数据来源与类型挖掘的数据来源与类型Web页面及超级链接关系 Web页面主要是指HTLM和XML页面的内容,包括本文、图片、语音、图像等。超链接关系主要是指页面之间存在的超级链接关系,这也是一种重要的资源。Web挖掘的数据来源与类型挖掘的数据来源与类型客户登记信息是指客户通过Web页输入的、要提交给服务器的相关客户信息,这些信息通常是关于用户的人口特征。在Web的数据挖掘中,客户登记信息需要和访问日志集成,以提高数据挖掘的准确度,
8、使之能更进一步的了解客户。数据挖掘需解决的问题数据挖掘需解决的问题:电子商务中的数据挖掘过程电子商务中的数据挖掘过程挖掘过程,确挖掘过程,确定算法,挖掘定算法,挖掘中可用验证组中可用验证组校验准确性校验准确性Web 服务器的日志(Web Log)记载了用户访问站点的信息,这些信息包括:访问者的IP地址、访问时间、访问方式(GET/POST)、访问的页面、协议、错误代码以及传输的字节数等信息。222.198.122.5306/Dec/2006:10:13:10+0800“GET/mp3/zhufu.mp3HTTP/1.1”IP地址为222.198.122.53的用户于上午10点13分10秒访问了
展开阅读全文