Web挖掘技术课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《Web挖掘技术课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Web 挖掘 技术 课件
- 资源描述:
-
1、1七七 WebWeb挖掘技术挖掘技术nWeb挖掘的意义nWeb挖掘的分类nWeb挖掘的含义nWeb挖掘的数据来源 nWeb内容挖掘方法 nWeb访问信息挖掘方法 nWeb结构挖掘方法 2Web挖掘的价值n从大量的信息中发现用户感兴趣的信息从大量的信息中发现用户感兴趣的信息 :因特网上蕴藏着:因特网上蕴藏着大量的信息,通过简单的大量的信息,通过简单的浏览或关键词匹配的搜索引擎得到的是孤立而凌乱的“表面信息” ,Web挖掘可以发现潜在的、丰富的关联信息。n将将WebWeb上的丰富信息转变成有用的知识:上的丰富信息转变成有用的知识:Web挖掘是面向Web数据进行分析和知识提取的。因特网中页面内部、页
2、面间、页面链接、页面访问等都包含大量对用户可用的信息,而这些信息的深层次含义是很难被用户直接使用的,必须经过浓缩和提炼。n对用户进行信息个性化:对用户进行信息个性化:网站信息的个性化是将来的发展趋势。通过Web挖掘,可以达到对用户访问行为、频度、内容等的分析,可以得到关于群体用户访问行为和方式的普遍知识,用以改进Web服务方的设计,提供个性化的服务。 3七七 WebWeb挖掘技术挖掘技术nWeb挖掘的意义nWeb挖掘的分类nWeb挖掘的含义nWeb挖掘的数据来源 nWeb内容挖掘方法 nWeb访问信息挖掘方法 nWeb结构挖掘方法 4Web挖掘的类型nWeb挖掘依靠它所挖掘的信息来源可以分为:
3、nWeb内容挖掘(Web Content Mining):对站点的Web页面的各类信息进行集成、概化、分类等,挖掘某类信息所蕴含的知识模式。 nWeb访问信息挖掘(Web Usage Mining):Web访问信息挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘。通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。nWeb结构挖掘(Web Structure Mining):Web结构挖掘是对Web页面之间的链接结构进行挖掘。在整个Web空间里,有用的知识不仅包含在Web页面的内容之中,而且也包含在页面的链接结构之中。对于给定的Web页
4、面集合,通过结构挖掘可以发现页面之间的关联信息,页面之间的包含、引用或者从属关系等。5七七 WebWeb挖掘技术挖掘技术nWeb挖掘的意义nWeb挖掘的分类nWeb挖掘的含义nWeb挖掘的数据来源 nWeb内容挖掘方法 nWeb访问信息挖掘方法 nWeb结构挖掘方法 6Web挖掘的含义nWeB挖掘是一个看宽泛的概念,可以简单地描述为:n针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据,应用数据挖掘方法以帮助人们从因特网中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。 7Web挖掘与信息检索n两种截然不同的观点:nW
5、ebWeb上的信息检索是上的信息检索是WebWeb挖掘的一个方面挖掘的一个方面:Web挖掘旨在解决信息检索、知识抽取以及更宽泛的商业问题,是Web上IR技术的延伸。这种观点大多来自于数据挖掘研究领域。nWebWeb挖掘是智能化的信息检索挖掘是智能化的信息检索:对于IR领域的研究人员来说, Web挖掘是IR研究向着智能化的方向发展的结果。n信息检索可能经常被说成是Web挖掘的初级阶段,是为了强调Web挖掘不是简单的信息索引或关键词匹配技术,而是实现信息浓缩成知识的过程,它可以支持更高级的商业决策和分析。 8WebWeb挖掘与信息抽取挖掘与信息抽取nWeb上的IE的研究目的是希望从众多的Web文挡
6、中抽取可供分析的信息,与Web挖掘的关系也有不同的观点:nIEIE是是WebWeb挖掘整个过程的一部分:挖掘整个过程的一部分:这是因为Web上的数据一般是半结构化或无结构的,因此需要进行规格化的信息抽取这样的预处理。nWebWeb挖掘是挖掘是IEIE的一个特殊技术:的一个特殊技术:既然IE是希望把Web蕴藏的信息抽取出来,那么Web挖掘或者文本挖掘只不过是达到这个目的的特殊技术手段。n信息抽取经常被说成是Web挖掘的一个预处理阶段,那是因为在数据挖掘领域,Web挖掘的更广义的理解应该是一个知识提取的完整过程。 9七七 WebWeb挖掘技术挖掘技术nWeb挖掘的意义nWeb挖掘的分类nWeb挖掘
7、的含义nWeb挖掘的数据来源 nWeb内容挖掘方法 nWeb访问信息挖掘方法 nWeb结构挖掘方法 10Web挖掘的主要数据源nWeb挖掘的数据来源是宽泛的:凡是在Web站点中对用户有价值的数据都可以成为它挖掘的数据源。n由于这些对象的数据形式及含义的差异,其挖掘技术会不同。一些比较有代表性的数据源有:n服务器日志数据:Web访问信息挖掘的主要数据源。n在线市场数据nWeb页面nWeb页面超链接关系n其他信息11七七 WebWeb挖掘技术挖掘技术nWeb挖掘的意义nWeb挖掘的分类nWeb挖掘的含义nWeb挖掘的数据来源 nWeb内容挖掘方法 nWeb访问信息挖掘方法 nWeb结构挖掘方法 1
8、2Web内容挖掘的主要方法n一种Web内容挖掘的分类方法是分为代理人方法和数据库方法。n代理人方法代理人方法使用软件系统(代理)来完成内容挖掘。n数据库方法数据库方法将所有的Web数据描述为一个数据库系统。意味着Web是一个多级的异构的数据库系统,可以通过多种查询语言来获得Web的信息来完成信息的抽取。13文本挖掘是Web内容挖掘的基础n文本挖掘(TD)的方式和目标是多种多样的,基本层次有:n关键词检索:最简单的方式,它和传统的搜索技术类似。n挖掘项目关联:聚焦在页面的信息(包括关键词)之间的关联信息挖掘上。n信息分类和聚类:利用数据挖掘的分类和聚类技术实现页面的分类,将页面在一个更到层次上进
9、行抽象和整理。n自然语言处理:揭示自然语言处理技术中的语义,实现Web内容的更精确处理。 n 14搜索引擎与Web内容挖掘n传统的搜索引擎(Searching Engine)效率低下。由于是基于Web中超文本结构分解的:它从一个网页开始的,通过查阅和记录这个网页的所有连接并把它们排列起来,然后再从找到的新页面继续开始重复工作。n利用数据挖掘技术来改进搜索引擎是有价值的。这种价值体现在许多方面。例如,n通过对搜索结果进行关联分析或聚类等,对结果进行清洗和浓缩。n面向主题进行搜索,即只检索与某一主题有关的页面。n聚焦用户感兴趣的页面,在有限的资源下使有效内容挖掘力度提高。15虚拟的虚拟的WebWe
10、b视图视图n一个有效的解决在Web中大量无结构数据的方法是在这些数据之上建立一个MLDB(Multiple Layered Database)。这个数据库是多层次的, 每层索引都比它下一层要小。对于最底层来说,需要了解Web文档结构,而最高层则有着完善的结构并可以通过类似SQL的查询语言进行访问或挖掘。nMLDB提供一个被称为VMV(Virtual Web View)的视图机制,Web中的感兴趣的结构被浓缩在这个视图中。n等级概念(近意词组、词汇和语义联系等)将帮助归纳过程来架构更高层的MLDB。 16个性化与个性化与WebWeb内容挖掘内容挖掘n通过个性化,网页的内容和组织将更加适合用户的需
11、要。个性化服务是Web挖掘技术的重要目标之一。n通过个性化,基于用户所关心内容的广告会被发送到潜在的用户。当一个特别的用户访问一个站点时,会有一个特别为它定制的广告出现,这对那些可能购买的用户来说是一个极大的诱惑。nWeb内容挖掘的目的之一是基于页面内容相似度进行用户分类或聚类的,个性化的建立是通过用户过去的检索内容分析而建立起来的。自动的个性化技术可以通过过去的需要和相似用户的需要来预知特定用户将来的需要。17WebWeb页面内文本信息挖掘页面内文本信息挖掘n挖掘的目标是对页面进行摘要和分类。n页面摘要:对每一个页面应用传统的文本摘要方法可以得到相应的摘要信息。n页面分类:分类器输入的是一个
12、Web页面集(训练集),再根据页面文本信息内容进行监督学习,然后就可以把学成的分类器用于分类每一个新输入的页面。n在文本学习中常用的方法是TFIDF向量表示法,它是一种文档的词集(Bag-of-Words)表示法,所有的词从文档中抽取出来,而不考虑词间的次序和文本的结构。这种构造二维表的方法是:n每一列为一个词,列集(特征集)为辞典中的所有有区分价值的词,所以整个列集可能有几十万列之多。n每一行存储一个页面内词的信息,这时,该页面中的所有词对应到列集(特征集)上。列集中的每一个列(词),如果在该页面中不出现,则其值为0;如果出现k次,那么其值就为k;页面中的词如果不出现在列集上,可以被放弃。这
展开阅读全文