第7课-数据挖掘的高级主题汇总课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第7课-数据挖掘的高级主题汇总课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 高级 主题 汇总 课件
- 资源描述:
-
1、第7课 数据挖掘的高级主题 徐从富,副教授 浙江大学人工智能研究所浙江大学本科生数据挖掘导论课件内容提纲nWeb挖掘n隐私保护数据挖掘一Web 挖掘KnowledgeWWWI.Web 挖掘简介II.Web日志挖掘I.Web Mining简介1.产生原因2.应用3.分类4.过程1.产生原因n网络信息搜集的需求与收集结果低效性的矛盾迫切需要对网络资源的整序与检索。n传统数据挖掘和文本挖掘技术的不断完善和应用。2.应用n查询相关信息n从Web数据发现潜在的未知信息n了解用户的兴趣爱好n信息个性化3.Web 挖掘分类Web MiningWeb Content MiningWeb Usage Minin
2、gWeb Structure Mining Web内容挖掘nWeb内容挖掘是从文档内容或其描述中抽取知识的过程。nWeb内容挖掘策略直接挖掘文档的内容在其它工具搜索的基础上进行改进Web内容挖掘(续)n提取文字、图片或者其他组成网页内容成分的信息,即通过有效的内容挖掘能告诉我们哪些页面是德文或者法文的?哪些站点卖我们喜欢的东西?哪些页面介绍了我们感兴趣的知识?搜索引擎、智能代理和一些推荐引擎都使用内容挖掘来帮助客户在浩瀚的网络空间中寻找所需的内容。Web结构挖掘nWeb结构挖掘研究的是Web文档的链接结构,揭示蕴含在这些文档结构中的有用模式,处理的数据是Web结构数据。是从WWW的组织结构和链
3、接关系中推导知识。由于文档之间的互连,WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面。Web结构挖掘(续)n提取网络的拓扑信息网页之间的链接信息,即通过有效的结构挖掘能告诉我们哪些页面被其他页面所链接?哪些页面指向了其他页面?哪些页面的集合构成了一个独立的整体?Web日志挖掘nWeb日志挖掘的主要目标则是从Web的访问记录中(Web服务器log日志)抽取感兴趣的模式。WWW中的每个服务器都保留了访问日志(Web access log),记录了用户访问和交互的信息。分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。Web日
4、志挖掘(续)n一般的访问模式跟踪通过分析日志数据来了解用户的访问模式和倾向,以改进站点的组织结构n个性化的使用记录跟踪倾向于分析单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供定制的站点。Web日志挖掘(续)n提取关于客户如何运用浏览器浏览和使用这些链接的信息,即通过有效的日志挖掘能告诉我们那些客户访问了哪些页面?在每一页上待了多长时间?下一步单击了什么?在站点中是按照怎样的访问路线通向检查计数器,又是通过怎样的路线直接退出的?Web内容挖掘Web结构挖掘Web日志挖掘处理数据类型IR方法:无结构数据、半结构数据数据库方法:半结构化数据Web结构数据用户访问Web数据主要数据自由
5、化文本、HTML标记的超文本HTML标记的超文本Web文档内及文档间的超链Serverlog,Proxy serverlog,Client log表示方法词集、段落、概念、IR的三种经典模型对象关系模型图关系表、图处理方法统计、机器学习、自然语言理解数据库技术机器学习、专有算法统计、机器学习、关联规则主要应用分类、聚类、模式发现模式发现、数据向导、多层数据库、站点创建与维护页面权重分类聚类模式发现Web站点重建,商业决策4.Web挖掘过程n资源发现:在线或离线检索Web的过程,例如用爬虫(crawler)或(spider)在线收集Web页面n信息选择与预处理:对检索到的Web资源的任何变换都属
6、于此过程。词干提取高低频词的过滤汉语词的切分n综合过程:自动发现Web站点的共有模式n分析过程:对挖掘到的模式进行验证和可视化处理II.Web日志挖掘1.Web日志挖掘数据类型2.Web日志挖掘应用3.Web日志挖掘过程服务器日志数据类型nClient IP:128.101.228.20nAuthenticated User ID:-nTime/Date:10/Nov/1999:10:16:39-0600nRequest:GET/HTTP/1.0nStatus:200nBytes:-nReferrer:“-”nAgent:Mozilla/4.61 en(WinNT;I)2.Web 日志挖掘应用
7、nApplications电子商务中发现潜在客户增强终端用户信息获取的质量提高Web服务器的性能合理放置广告提高站点设计欺诈和入侵检测预测用户行为3.Web日志挖掘过程Web日志挖掘过程预处理数据挖掘模式分析 数据预处理n数据清理n用户对话识别n页面视图识别n路径完整数据清理n根据一组原始的日志项,完成一系列基本任务,如归并日志、解析日志等。对于一些网站,需要过滤掉图象文件,这可以通过检查文件后缀实现。一般地,我们需要对日志中的状态码(status code)进行检查。清理后的Sample LogIP AddressTime/DateMethod/URIReferrerAgent202.120
8、.224.4 15:30:01/2-Jan-01 GET Index.htmhttp:/ok.edu/link.htmMozilla/4.0(IE5.0W98)202.120.224.4 15:30:01/2-Jan-01 GET 1.htmhttp:/ex.edu/index.htm Mozilla/4.0(IE5.0W98)202.120.224.4 15:30:01/2-Jan-01 GET A.htmhttp:/ex.edu/index.htm Mozilla/4.0(IE5.0W98)202.120.224.4 15:37:09/2-Jan-01 GET E.htmhttp:/ex.
9、edu/C.htmMozilla/4.0(IE5.0W98)202.120.224.4 15:33:04/2-Jan-01 GET Index.htmhttp:/ok.edu/res.phpMozilla/4.0(IE4.0NT)202.120.224.4 15:33:04/2-Jan-01 GET 1.htmhttp:/ex.edu/index.htm Mozilla/4.0(IE4.0NT)202.120.224.4 15:33:04/2-Jan-01 GET A.htmhttp:/ex.edu/index.htm Mozilla/4.0(IE4.0NT)202.120.224.4 15:
10、35:11/2-Jan-01 GET B.htmhttp:/ex.edu/A.htmMozilla/4.0(IE4.0NT)202.120.224.4 15:35:11/2-Jan-01 GET C.htmhttp:/ok.edu/A.htmMozilla/4.0(IE5.0W98)用户对话识别n1.IP Address&Agentn2.Embedded Session IDn3.Registration(User Profile)n4.Cookien5.Software Agent(Applet&Scrtipt)n6.Modified Browser用户对话识别(续)方法说明隐私性保护优点缺
11、点IP地址/代理服务器假定每个独立IP地址/代理服务器组是独立用户低通常可用,无需附加技术。无法保证唯一性,在随机或者轮换IP情况下失效嵌入式对话ID通过动态形成页面将ID加入每个链接低/中等通常可用,不需依赖于IP地址无法了解重复访问,需要完全动态站点。注册用户确切地登陆站点中等可以跟踪单个用户,而不仅仅是浏览器不是全部用户都愿意注册Cookie在客户端机器上保留标识符中等/高可以跟踪重复访问能被禁止。不为大众接收软件代理服务器程序载入浏览器从而将日志数据返回高可以得到单个Web站点的确切日志数据很可能被拒绝。不为大众接收改进型浏览器浏览器记录日志数据非常高可以得到关于整个Web的日志数据用
12、户必须确切地得到软件用户对话识别15:33:04/2-Jan-01 GET Index.htmhttp:/ok.edu/res.php15:33:04/2-Jan-01 GET 1.htmhttp:/ex.edu/index.htm15:33:04/2-Jan-01 GET A.htmhttp:/ex.edu/index.htm15:35:11/2-Jan-01 GET B.htmhttp:/ex.edu/A.htm15:30:01/2-Jan-01 GET Index.htmhttp:/ok.edu/link.htm15:30:01/2-Jan-01 GET 1.htmhttp:/ex.ed
展开阅读全文