书签 分享 收藏 举报 版权申诉 / 163
上传文档赚钱

类型网络信息内容获取技术课件.pptx

  • 上传人(卖家):三亚风情
  • 文档编号:3280946
  • 上传时间:2022-08-16
  • 格式:PPTX
  • 页数:163
  • 大小:8.20MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《网络信息内容获取技术课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    网络 信息内容 获取 技术 课件
    资源描述:

    1、2022年8月16日星期二网络信息内容获取技术网络信息内容获取技术上节回顾(3)信息获取信息分析表示理解识别信息管控分级过滤阻断审计取证还原被动主动第二章 网络信息内容获取技网络信息内容获取技术术本讲提要本讲提要一、网络信息内容获取模型二、搜索引擎技术三、数据挖掘技术四、信息推荐技术五、信息还原技术1.1 互联网信息类型网络信息发布形式微信微信现代信息传现代信息传播方法播方法网络信息量截至2011年12月底,中国网站数量为230万,中国网页数量为866亿个,平均每个网站的网页数是5588个,平均每个网页的字节数是28.6KB网络信息类型n网络媒体形态n广播式媒体n新闻网站、论坛、博客n交互式媒

    2、体n搜索引擎、多媒体点播、网上交友、网上招聘、电子商务(网络购物)网络信息类型n网络媒体信息:互联网网站公开发布的信息。网络用户通常可以基于通用网络浏览器获得互联网公开发布的信息。n网络通信信息:除了使用浏览器之外的专业客户端软件,实现与特定点的通信或进行点对点通信时所交互的信息。网络信息类型n发布信息类型n文本信息:比例最大n图像信息n音频信息n视频信息网络信息类型n媒体发布方式n直接匿名浏览:公开发布信息n需要身份认证的网络信息发布网络信息类型n网页形态n静态网页n动态网页:含“?”或输入参数的URL网络信息类型n信息交互协议n网页浏览:HTTPn文件传输:ftpn电子邮件:foxmail

    3、,outlookn聊天工具:qq,微信,MSNn多媒体交互工具:skype,rtsp,rtp网络通信信息n专业客户端软件n电子邮件:foxmail,outlookn聊天工具:qq,微信,MSNn多媒体交互信息:skype1.1 网络信息内容获取模型一、网络信息内容获取模型图2-1 网络环境下的信息内容获取模型2.1 网络信息内容获取模型信息检索信息检索 (Information Search,IS Search,IS)是信息的需求者主动地在网上搜寻所需要的信息。1951年,Calvin Mooers首次提出了“信息检索(Information Retrieval,IR)”概念1,并给出了信息检

    4、索的主要任务:即协助信息的潜在用户将信息需求转换成一张文献来源信息列表,而这些文献包含对用户有用的信息。目前通常使用搜索引擎技术完成信息检索功能。2.1 网络信息内容获取模型信息推荐(Information recommendation)又称为信息推送(Information Push),是指网络信息服务系统从网上的信息源或信息提供商获取信息,并通过固定的频道向用户发送信息的新型信息传播系统。2.1 网络信息内容获取模型信息交互是一种双向的信息交流,在信息交互的过程中,信息获取的个体可以通过所交流的信息满足认知上和情感上的信息需求。2.1 网络信息内容获取模型信息浏览方式相当于传统情况下的阅读

    5、、观看、倾听等获取信息的行为。1.2 网络媒体信息获取原理网络媒体信息获取原理n网络信息获取范围:理论上可以覆盖整个国际互联网网络媒体信息获取理想流程网上采集算法 网上采集算法,又称为网络爬虫网络爬虫(Web Crawler)、网络网络蜘蛛蜘蛛(Web Spider)或Web信息采集器信息采集器,是一个自动下载网页的计算机程序或自动化脚本,是搜索引擎的重要组成部分。1.3 网络媒体信息获取的分类全网信息获取定点信息获取1.全网信息获取搜索引擎,大型内容服务提供商google 百度 Yahoo单次全网信息获取一般需要数周乃至数月时间网站提供Sitmap,提高搜索效率获取显示(排名 PageRan

    6、k)2.定点信息获取全网信息检索存储空间要求大,难以保障信息获取的时效性定点获取:重点关注的特定网络区域 深入搜索 定期轮询搜索 3.基于主题的信息获取和元搜索国内元搜索引擎n搜魅网(someta):马虎聚搜:佐意综合搜索(chinazss)比比猫(bbmao)n.3.基于主题的信息获取和元搜索n 高级检索功能:n 提高检索的质量n 使用布尔逻辑符检索n 最后更新页面(时间检索)n 域名过滤(Domain Filter)n 成人过滤(Adult Filter)n 语言选择(Language Selection):n 结果展示(Results Display):排序网络媒体信息获取的技术难点网络

    7、媒体信息获取的技术难点u网络媒体信息网络媒体信息:形态各异、信息类型多样。形态各异、信息类型多样。针对完全异构的网络媒体信息,对信息提取的全面性和时效性提出了更高的要求。u拒绝服务:拒绝服务:部分网络媒体选择屏蔽过于频繁的、来自相同客户端的信息获取操作。u降低访问频率u更换客户端信息网络通信信息获取方案网络通信信息获取方案网络通信:电子邮件、即时通信软件、金融客户端、视频点播信息获取过程网络通信信息镜像网络交互数据重组通信协议数据恢复网络通信信息存储1.3 网络通信信息获取原理网络通信信息获取方案网络通信信息获取方案网络通信信息获取流程本讲提要本讲提要一、网络信息内容获取模型二、搜索引擎技术三

    8、、数据挖掘技术四、信息推荐技术五、信息还原技术二、搜索引擎技术据调查统计显示:全球以中文为母语的人口占总人口的22%以上;2011年底中国网民人数已经超过5亿人;中文网页数量已经占到了全球网页数量的15%以上。搜索引擎已成为中国网民使用最为频繁的互联网应用。庞大的中文用户群、丰富的中文网页资源和中文信息处理特有的难度,以及搜索引擎作为互联网基础工具的重要地位,极大地推动了中文搜索引擎的研究和开发二、搜索引擎技术中文搜索引擎的发展最早见于“748工程”中的汉字情报检索清华大学的中国学术期刊(光盘版)2001年,百度搜索从2003年开始,中文网络信息服务的四大门户网站(新浪、搜狐、网易和腾讯)陆续

    9、推出了自己的搜索引擎服务二、搜索引擎技术中文搜索引擎的关键技术:网页内容分析网页索引查询解析相关性计算二、搜索引擎技术一个通用搜索引擎包括网上采集、索引、查询、排级和提交等算法,相关概念参见表2-1本讲提要本讲提要一、网络信息内容获取模型二、搜索引擎技术2.2.1 网上采集算法2.2.2 排级算法 2.2.3 讨论搜索引擎与垃圾信息关系三、数据挖掘技术四、信息推荐技术五、信息还原技术2.2.1 网上采集算法 网上采集算法,又称为网络爬虫网络爬虫(Web Crawler)、网络网络蜘蛛蜘蛛(Web Spider)或Web信息采集器信息采集器,是一个自动下载网页的计算机程序或自动化脚本,是搜索引擎

    10、的重要组成部分。2.2.1 网上采集算法工作原理工作原理2.2.1 网上采集算法按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)聚焦网络爬虫(Focused Web Crawler)增量式网络爬虫(Incremental Web Crawler)深层网络爬虫(Deep Web Crawler)。实际的网络爬虫系统通常是几种爬虫技术相结合实现网络媒体信息获取原理n1.初始URL集合n2.信息获取n3.信息解析n4.信息叛重2.2.1 网上采集算法爬虫算法爬虫算法1.初始URL集合跟随网页内嵌链接逐级递归便利互联网络2.信息获

    11、取n根据来自网络地址集合或URL队列中的每条网络地址信息,确定获取内容所采用的信息发布协议。基于特定协议的网络交互机制,向信息发布网站请求所需内容。HTTP 文本信息获取范例随着信息媒体形态的增加,信息交互协议的增加,实现信息获取的操作复杂度和网络交互重构难度呈指数级增长2.信息解析根据不同通信协议的具体定义,从网络响应信息相应位置提取发布信息的主体内容信息关键字段n信息来源n信息标题n信息失效时间n信息最近修改时间3.信息解析(HTTP/HTML)4.信息判重主要基于网络媒体信息URL与内容摘要两大元素,实现信息采集/存储的与否判断。URL判重:在信息采集操作启动之前进行是否已经采集是否已经

    12、过期内容摘要判重:采集信息存储时进行MD5从爬虫的角度对互联网进行划分爬虫URL抓取策略l深度优先遍历策略l宽度优先遍历策略l反向链接数策略lPartial PageRank策略lOPIC策略l大站优先策略深度优先遍历策略l指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接l遍历的路径:A-F-G E-H-I B C D宽度优先遍历策略l指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。l遍历路径:A-B-C-D-E-F G H I反向链接数策略l反向链接数:一个网页被其他网页链接指向

    13、的数量。l反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此,很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序。l在真实的网络环境中,由于广告链接、作弊链接的存在,反向链接数不能完全等同的重要程度。因此,搜索引擎往往考虑一些可靠的反向链接数。Partial PageRank策略l对于于已经下载的网页,连同待抓取URL队列中的URL,形成网页集合,计算每个页面的PageRank值,计算完之后,将待抓取URL队列中的URL按照PageRank值的大小排列,并按照该顺序抓取页面OPIC策略l该算法实际上也是对页面进行一个重要性打分。在算法开始前,

    14、给所有页面一个相同的初始现金(cash)。当下载了某个页面P之后,将P的现金分摊给所有从P中分析出的链接,并且将P的现金清空。对于待抓取URL队列中的所有页面按照现金数进行排序。大站优先策略l对于待抓取URL队列中的所有网页,根据所属的网站进行分类。对于待下载页面数多的网站,优先下载。2.2.1 网上采集算法本讲提要本讲提要一、网络信息内容获取模型二、搜索引擎技术2.2.1 网上采集算法2.2.2 排级算法 2.2.3 搜索引擎与垃圾信息关系三、数据挖掘技术四、信息推荐技术五、信息还原技术2.2.2 排级算法网页排级是对搜索结果的分析,使那些更具“重要性”的网页在搜索结果中的排名获得提升,从而

    15、提高搜索结果的相关性和质量 网页排级-网页的“重要性”-网页普及度评分2.2.2 排级算法 两种应用最广、最成功的排级算法HITS2.2.2 排级算法:PageRank2.2.2 排级算法:PageRank原理:原理:民主表决核心思想:核心思想:在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。2.2.2 排级算法:PageRank图的基本概念图的基本概念度度(degree):指和该顶点相关联的边数。在有向图中,度又分为入度入度和出度出度。入度入度(in-degree):以某顶点为弧头,终止于该顶点的弧的数目称为该顶点的入度 出度出度(out-degr

    16、ee):以某顶点为弧头,起始于该顶点的弧的数目称为该顶点的出度在某顶点的入度和出度的和称为该顶点的度度例如:(a)中Vo的入度为1,出度为2,度为32.2.2 排级算法:PageRank2.2.2 排级算法:PageRank2.2.2 排级算法:PageRank1Pr()Pr()(1)()|niiittddtP r()it入度(in-degree)|it出度(out-degree)页面t被访问到的概率,即其PageRank值d影响因子(damping factor),取 0.85d 2.2.2 排级算法:PageRank网页数量过大问题的解决 稀疏矩阵 MapReduce2.2.2 排级算法:

    17、PageRank优点:优点:(1)直接高效(2)主题集中PageRank算法存在的算法存在的缺陷缺陷如下:如下:(1)完全忽略网页内容,干扰挖掘结果(2)结果范围窄(3)影响因子与网页获取数量缺乏科学性PR(PageRank(网页级别))nPRn外部链接的数量n外部链接的质量PR(PageRank(网页级别))n用来表现网页等级的一个标准,级别分别是0到10,是Google用于评测一个网页“重要性”的一种方法nPR值越高说明该网页越受欢迎(越重要)。n例如:一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎(或者说极其重要)。n一般PR值达到4,就算是一

    18、个不错的网站了2.2.2 排级算法:HITS1.Hub页面与Authority页面Hub页面(枢纽页面)和页面(枢纽页面)和Authority页面(权威页面)页面(权威页面)是是HITS算法最基本的两个定义算法最基本的两个定义。“Authority”页面,是指与某个领域或者某个话题相关的高质量网页,比如搜索引擎领域,Google和百度首页即该领域的高质量网页,比如视频领域,优酷和土豆首页即该领域的高质量网页。1.Hub页面与Authority页面 “Hub”页面,指的是包含了很多指向高质量“Authority”页面链接的网页,比如hao123首页可以认为是一个典型的高质量“Hub”网页。2.2

    19、.2 排级算法:HITS图2-4 Hub页与Authority页关系HITS:Hyperlink-Induced Topic Search核心概念:枢纽值枢纽值(Hub Scores):页面上所有导出链接指向页面的权威值之和权威值(权威值(Authority Scores)所有导入链接所在的页面的枢纽值之和 这两个值是相互依存、相互影响的。2.2.2 排级算法:HITS HITS算法的目的即是通过一定的技术手段,在海量网页中找到与用户查询主题相关的高质量“Authority”页面和“Hub”页面,尤其是“Authority”页面,因为这些页面代表了能够满足用户查询的高质量内容,搜索引擎以此作为

    20、搜索结果返回给用户。2.2.2 排级算法:HITS 基本假设1:一个好的“Authority”页面会被很多会被很多好的好的“Hub”页面指向;基本假设2:一个好的“Hub”页面会指向很多好会指向很多好的的“Authority”页面;。算法基本思想:相互增强关系算法基本思想:相互增强关系2.2.2 排级算法:HITS 算法 具体算法:具体算法:可利用以上两个基本假设,以及相互增强关系等原则进行多轮迭代计算,每轮迭代计算更新每个页面的两个权值,直到权值稳定不再发生明显的变化为止。2.2.2 排级算法:HITS 算法1.构建根集合2.扩展集合Base2.2.2 排级算法:HITS 算法3.计算扩展集

    21、base中所有页面的Hub值(枢纽度)和Authority值(权威度)3.4 排序,结果输出。优点:优点:(1)知识范围扩大。(2)搜索时部分地考虑了页面内容,挖掘结果科学性大大增强 不仅应用在搜索引擎领域,而且被“自然语言处理”以及“社交分析”等很多其它计算机领域借鉴使用,并取得了很好的应用效果2.2.2 排级算法:HITS存在的问题存在的问题:(1)计算效率低,实时性差与查询相关的算法(2)“主题漂移”(3)易被作弊者操纵结果 作弊者可以建立一个很好的Hub页面,再将这个网页链接指向作弊网页,可以提升作弊网页的Authority得分(4)结构不稳定 在原有的“扩充网页集合”内,如果添加删除

    22、个别网页或者改变少数链接关系,则HITS算法的排名结果就会有非常大的改变。2.2.2 排级算法:HITSHITS算法与PageRank算法比较n 1.HITS算法是与用户输入的查询请求密切相关的,而PageRank与查询请求无关。所以,HITS算法可以单独作为相似性计算评价标准,而PageRank必须结合内容相似性计算才可以用来对网页相关性进行评价;n 2.HITS算法因为与用户查询密切相关,所以必须在接收到用户查询后实时进行计算,计算效率较低;而PageRank则可以在爬虫抓取完成后离线计算,在线直接使用计算结果,计算效率较高;HITS算法与PageRank算法比较n 3.HITS算法的计算

    23、对象数量较少,只需计算扩展集合内网页之间的链接关系;而PageRank是全局性算法,对所有互联网页面节点进行处理;n 4.从两者的计算效率和处理对象集合大小来比较,PageRank更适合部署在服务器端,而HITS算法更适合部署在客户端;n HITS算法与PageRank算法比较n 5.HITS算法存在主题泛化问题,所以更适合处理具体化的用户查询;而PageRank在处理宽泛的用户查询时更有优势;n 6.HITS算法在计算时,对于每个页面需要计算两个分值,而PageRank只需计算一个分值即可;在搜索引擎领域,更重视HITS算法计算出的Authority权值,但是在很多应用HITS算法的其它领域

    24、,Hub分值也有很重要的作用;n HITS算法与PageRank算法比较n 7.从链接反作弊的角度来说,PageRank从机制上优于HITS算法,而HITS算法更易遭受链接作弊的影响。n 8.HITS算法结构不稳定,当对“扩充网页集合”内链接关系作出很小改变,则对最终排名有很大影响;而PageRank相对HITS而言表现稳定,其根本原因在于PageRank计算时的“远程跳转”。网页排名推荐参考文档:数学之美,吴军,第10章 PageRank google的明主表决式网页排名技术本讲提要本讲提要一、网络信息内容获取模型二、搜索引擎技术2.2.1 网上采集算法2.2.2 排级算法 2.2.3 搜索

    25、引擎与垃圾信息关系三、数据挖掘技术四、信息推荐技术五、信息还原技术2.2.3 搜索引擎与垃圾信息关系2.2.3 搜索引擎与垃圾信息关系Bernard J.Jansen和Amanda Spink的研究结果显示,大约80%的用户只需要搜索结果前3页。为了让广大的网络用户能够看到自己的页面,网站管理者和网页制作者就想方设法让其站点和页面变得有名,以期用户在进行相关内容查询时,目标网页排在结果集的最前面。为此,搜索引擎优化(Search Engine Optimization)应运而生。2.2.3 搜索引擎与垃圾信息关系搜 索 引 擎 优 化(S e a r c h Engine Optimizati

    26、on)搜索引 擎 优 化师(S e a r ch Engine Optimizer,SEOer)利用工具或其他手段,使目标网站符合搜索引擎的搜索规则,从而获得较好的排名2.2.3 搜索引擎与垃圾信息关系2.2.3 搜索引擎与垃圾信息关系SEO可分为两类具有良好素养和道德观念的SEO,他们力图通过优化网站结构、提高页面质量等方法使自己的网页获得好的排名;通过寻找“捷径”提高网页的排名,往往是垃圾信息的制造者。2.2.3 搜索引擎与垃圾信息关系 垃圾信息制造手段垃圾信息制造手段包括提高排名(Boosting)技术关键字垃圾(term spamming)链接垃圾(link spamming)隐藏(H

    27、iding)技术对所使用的Boosting技术进行隐藏,尽量不让用户和网络采集器发现主要技术包括内容隐藏(content hiding)、伪装(cloaking)和重定向(redirection)如何提高PRnGoogle在网站抓取的页面数,数目越多,Pagerank值越高。n但通常Google并不会主动抓取你的网站的所有页面,尤其是网址里带有“?”的动态链接。如何提高PRn最笨的办法是把网站所有的页面都提交给Google,n更好的办法是制作一个静态Html页面,通常被称作“网站地图”或“网站导航”,它里面包含你要添加的所有网址,然后把这个静态页面提交给Google。影响PR的因素n1 与pr

    28、高的网站做链接n2 内容质量高的网站链接n3 加入搜索引擎分类目录n4 加入免费开源目录n5 你的链接出现在流量大、知名度高、频繁更新的重要网站上n6 google对PDF格式的文件比较看重n7 安装Google工具条n8 域名和title标题出现关键词与meta标签等n9 反向链接数量和反向链接的等级提高PR的方法n1、增加网站内容质量,不仅要保持原创性,而且要保证质量。良好的内容不仅有利于用户体验,而且有助于提升搜索引擎对网站友好度、内容的收录和网站权重。n2、登录搜索引擎和分类目录;以及友情链接,如果能获得来自PR值不低于4并与你的主题相关或互补的网站的友情链接,且很少导出链接,那样效果

    29、更好.n3、写一些高质量的软文,发布到大型网站,如果得到大家的认可,你的网址会被无数的网站转载.这种方法对于提高PR值效果最好.n4、搜索引擎收录一个网站的页面数量,如果收录的比例越高,对提高PR值越有利.提高PR的方法n5、提供有价值的网站内容,并进行SEO优化.对提高PR值也非常的重要.n6、最好使网站被三大知名网络目录DMOZ,Yahoo和Looksmart收录,如果能被收录,对PR值的提高非常的迅速.n7、与高PR值网站链接,最好找同行业网站进行友情链接,其次要防止链接欺骗以及PR值劫持的网站。2.2.3 搜索引擎与垃圾信息关系搜索引擎和网络垃圾信息制造者之间的斗争像一场“军备竞赛”本

    30、讲提要本讲提要一、网络信息内容获取模型二、搜索引擎技术三、数据挖掘技术2.3.1 数据挖掘技术历程2.3.2 Web挖掘技术 2.3.3 Web文本挖掘技术四、信息推荐技术五、信息还原技术2.3.1 数据挖掘技术历程1989年8月,IJCAI1989开展“在数据库中发现知识(Knowledge Discovery in Database,KDD)”的研讨会,标志着数据挖掘成为一个新领域。1995年,美国计算机年会(ACM)提出了数据挖掘(Data Mining,DM)概念2.3.1 数据挖掘技术历程数据挖掘(Data Mining,DM)概念:通过从数据库中抽取隐含的、隐含的、未知的、具有潜在

    31、使用价值信息未知的、具有潜在使用价值信息的过程。数据挖掘的对象早就不限于数据库,而可以是存放在任何地方的数据,包括互联网上的信息内容互联网上的信息内容。2.3.1 数据挖掘技术历程数据挖掘技术统计分析类知识发现类其他数据挖掘技术Web数据挖掘分类系统可视化系统空间数据挖掘分布式数据挖掘。本讲提要本讲提要一、网络信息内容获取模型二、搜索引擎技术三、数据挖掘技术2.3.1 数据挖掘技术历程2.3.2 Web挖掘技术 2.3.3 Web文本挖掘技术四、信息推荐技术五、信息还原技术2.3.2 Web挖掘技术挖掘技术Web挖掘技术网络知识发现(knowledge discovery in Web,KDW

    32、)涉及数据库数据库、机器学习机器学习、统计学统计学、模式识别、模式识别、人工智能、计算机语言、计算机网络人工智能、计算机语言、计算机网络等多个领域从大量非结构化、异构非结构化、异构的Web信息资源中发现兴趣性(interestingness)的知识,包括概念、模式、规则、规律、约束及可视化等形式的非平凡过程2.3.2 Web挖掘技术挖掘技术Web挖掘过程(1)资源发现(2)信息选择与预处理(3)综合过程(4)分析过程2.3.2 Web挖掘技术挖掘技术2.3.2 Web挖掘技术挖掘技术WebWeb内容挖掘内容挖掘 WebWeb结构挖掘结构挖掘 WebWeb使用挖掘使用挖掘 处理数据处理数据类型类

    33、型信息检索方法:无结构数据、半结构数据数据库方法:半结构化数据 Web结构数据 用户访问Web数据 主要数据主要数据 自由化文本、HTML标记的超文本 HTML标记的超文本 Web文档内及文档间的超链接Serverlog,Proxy Proxy serverlog,serverlog,Client log 表示方法表示方法 词集、段落、概念、信息检索的三种经典模型对象关系模型 图关系表、图 处理方法处理方法 统计、机器学习、自然语言理解 数据库技术机器学习、专用算法统计、机器学习、关联规则 主要应用主要应用分类、聚类、模式发现 模式发现、数据向导、多层数据库、站点创建与维护页面权重分类聚类本讲

    34、提要本讲提要一、网络信息内容获取模型二、搜索引擎技术三、数据挖掘技术2.3.1 数据挖掘技术历程2.3.2 Web挖掘技术 2.3.3 Web文本挖掘技术四、信息推荐技术五、信息还原技术2.3.3 Web文本文本挖掘技术挖掘技术Web文本挖掘技术从从Web文档和文档和Web活动中发现、抽取感兴趣的、活动中发现、抽取感兴趣的、潜在有用的模式和隐藏的信息的过程。潜在有用的模式和隐藏的信息的过程。Web文本挖掘与普通的平面文本挖掘既有类似之处,又有其自身的特点:每条记录包含字符少,而文本数量巨大BBS、Weblog等形式的网页越来越多地出现了带有个人情感色彩的文章、言论大量不规范用语、网络流行语等。

    35、2.3.3 Web文本文本挖掘技术挖掘技术Web文本挖掘定义指从大量文本的集合C中发现隐含的模式p。如果将C当作输入,p当作输出,那么Web文本挖掘的过程就是从输入到输出的一个映射。Web文本挖掘过程本讲提要本讲提要一、网络信息内容获取模型二、搜索引擎技术三、数据挖掘技术四、信息推荐技术2.4.1 信息推荐概念和形式化定义2.4.2 信息推荐算法五、信息还原技术四、四、信息推荐技术信息推荐技术四、四、信息推荐技术信息推荐技术信息推荐与信息检索的区别信息检索信息检索信息推荐信息推荐关注点关注点检索结果检索结果注重结果之间的关系和排序服务对象服务对象研究用户模型和用户的喜好,基于社会网络进行个性化

    36、的计算主动性主动性用户主导用户主导由用户主导,包括输入查询词和选择结果,结果不好用户会修改查询再次检索系统主导系统主导由系统主导用户的浏览顺序,引导用户发现需要的结果有什么重要的股市信息?有什么重要的股市信息?有什么好的有什么好的旅游景点?旅游景点?附近有什么好的餐厅?附近有什么好的餐厅?Alice这么多商品信这么多商品信息,到底该买息,到底该买那个呢?那个呢?这么多商品信这么多商品信息,到底该买息,到底该买那个呢?那个呢?这么多商品信这么多商品信息,到底该买息,到底该买那个呢?那个呢?有什么重要的股市信息?有什么重要的股市信息?这么多商品信这么多商品信息,到底该买息,到底该买那个呢?那个呢?

    37、下雨了,这下雨了,这个周末可以个周末可以去哪娱乐呢?去哪娱乐呢?有什么好的有什么好的旅游景点?旅游景点?下雨了,这下雨了,这个周末可以个周末可以去哪娱乐呢?去哪娱乐呢?附近有什么好的餐厅?附近有什么好的餐厅?有什么好的有什么好的旅游景点?旅游景点?下雨了,这下雨了,这个周末可以个周末可以去哪娱乐呢?去哪娱乐呢?这么多商品信这么多商品信息,到底该买息,到底该买那个呢?那个呢?附近有什么好的餐厅?附近有什么好的餐厅?有什么好的有什么好的旅游景点?旅游景点?下雨了,这下雨了,这个周末可以个周末可以去哪娱乐呢?去哪娱乐呢?有什么重要的股市信息?有什么重要的股市信息?这么多商品信这么多商品信息,到底该买

    38、息,到底该买那个呢?那个呢?附近有什么好的餐厅?附近有什么好的餐厅?有什么好的有什么好的旅游景点?旅游景点?下雨了,这下雨了,这个周末可以个周末可以去哪娱乐呢?去哪娱乐呢?有什么重要的股市信息?有什么重要的股市信息?这么多商品信这么多商品信息,到底该买息,到底该买那个呢?那个呢?下雨了,这下雨了,这个周末可以个周末可以去哪娱乐呢?去哪娱乐呢?附近有什么好的餐厅?附近有什么好的餐厅?有什么重要的股市信息?有什么重要的股市信息?这么多商品信这么多商品信息,到底该买息,到底该买那个呢?那个呢?下雨了,这下雨了,这个周末可以个周末可以去哪娱乐呢?去哪娱乐呢?附近有什么好的餐厅?附近有什么好的餐厅?有什

    39、么重要的股市信息?有什么重要的股市信息?这么多商品信这么多商品信息,到底该买息,到底该买那个呢?那个呢?下雨了,这下雨了,这个周末可以个周末可以去哪娱乐呢?去哪娱乐呢?四、四、信息推荐技术信息推荐技术四、四、信息推荐技术信息推荐技术四、四、信息推荐技术信息推荐技术应用应用本讲提要本讲提要一、网络信息内容获取模型二、搜索引擎技术三、数据挖掘技术四、信息推荐技术2.4.1 信息推荐概念和形式化定义2.4.2 信息推荐算法五、信息还原技术2.4.1 信息推荐概念和形式化定义信息推荐概念和形式化定义Resnick和Varian在1997年给出了信息推荐的非形式化定义26:利用电子商务网站向客户提供商品

    40、信息和建议,帮助用户决定应购买什么产品,模拟销售人员帮助客户完成购买过程。2.4.1 信息推荐概念和形式化定义信息推荐概念和形式化定义信息推荐有三个组成要素:推荐候选对象、推荐候选对象、用户、推荐方法用户、推荐方法。对象对象用户用户推荐算法推荐算法对象对象对象对象对象对象对象对象用户用户用户用户用户用户用户用户2.4.1 信息推荐概念和形式化定义信息推荐概念和形式化定义信息推荐系统的形式化定义:设C是所有用户(user)的集合,S是所有可以推荐给用户的商品对象的集合,效用函数u()用以计算对象s对用户c的推荐度推荐度(如提供商的可靠性vendor reliability)和产品的可得性可得性(

    41、product availability),即 R是一定范围内的全序的非负实数,信息推荐要研究的问题就是找到推荐度找到推荐度R最大最大的那些对象 ,即:(2-4):u CSRs,argmax(,)s ScC su c s 2.4.1 信息推荐概念和形式化定义信息推荐概念和形式化定义 根据实际面对的问题不同,用户和对象的度量与采样可以使用不同的属性和特征。推荐算法研究的中心问题是效用度u的计算,并非遍历CXS的整个空间,而是分布到一个流形子空间(manifold)上。本讲提要本讲提要一、网络信息内容获取模型二、搜索引擎技术三、数据挖掘技术四、信息推荐技术2.4.1 信息推荐概念和形式化定义2.4

    42、.2 信息推荐算法五、信息还原技术2.4.2 信息信息推荐算法推荐算法基于内容推荐协同过滤推荐组合推荐信息信息推荐推荐 content-based recommendation 根据根据用户用户已已选择的对象选择的对象,推荐其他类似属性的对象作推荐其他类似属性的对象作为推荐为推荐。属于Schafer划分中的Item-to-Item Correlation方法.基于内容推荐基于内容推荐2.4.2 信息信息推荐算法推荐算法对象内容特征(对象内容特征(Content(s):以对象的文字描述为主。用户的资料模型用户的资料模型ContentBasedProfile(c):取决于机器学习方法结合对象内容特

    43、征和用户资料模型,最终的效用函数定义如下:u(c,s)=score(ContentBasedProfile(c),Content(s)Score的计算有不同的方法,例如可以使用向量夹角余弦的距离计算方法:最后得到的u数值用于排序对象,将最靠前的若干个对象推荐给用户。基于内容推荐基于内容推荐22,111(,)cos(,)/kkkcsi ci si ci siiiu c sw ww www2.4.2 信息信息推荐算法推荐算法基于内容推荐协同过滤推荐组合推荐信息信息推荐推荐collaborative filtering recommendation 推荐推荐相似用户相似用户所所选择的对象选择的对象

    44、是推荐系统中最为成功的技术之一协同过滤推荐协同过滤推荐2.4.2 信息信息推荐算法推荐算法基本思路是:找到与当前用户 相似的其他用户 ,计算对象s对于用户的效用值 ,利用效用值对所有s进行排序或者加权操作,找到最适合 的对象 。协同过滤推荐协同过滤推荐curcjc(,)ju c scurcs四、四、信息推荐技术信息推荐技术2.4.2 信息信息推荐算法推荐算法左图是根据客户在系统订单记录由系统采用某种算法推荐商品的一个实际结果图2.4.2 信息信息推荐算法推荐算法协同过滤推荐又可分为两类:启发式方法启发式方法(heuristic-based or memory-based)基于模型的方法(基于模

    45、型的方法(model-based)协同过滤推荐协同过滤推荐2.4.2 信息信息推荐算法推荐算法基本思路是:使用与新用户c相似的用户c对一个对象的评价评价来预测s对新用户c的效用,进而判断是否推荐s给c。启发式方法启发式方法2.4.2 信息信息推荐算法推荐算法 计算用户之间的相似度;对所有与用户相似的用户对对象的评分进行聚合计算,以得到对新用户的效用的统计预测方法。启发式方法启发式方法,aggr()c sc srrcC2.4.2 信息信息推荐算法推荐算法 (2-8)(2-9)(2-10)启发式函数例子启发式函数例子,1cscscCrrn,(,)c sc scCrksim c cr,(,)()c

    46、scc sccCrrksim c crr2.4.2 信息信息推荐算法推荐算法基本思路是:利用用户用户c对众多对象的评分来学习一个c的模型,然后使用概率方法对新的对象s的推荐效用进行预测。基于模型的方法基于模型的方法,0()Pr(|,)nc sc sc sc scirE riri rsS2.4.2 信息信息推荐算法推荐算法基于内容推荐协同过滤推荐组合推荐信息信息推荐推荐基本原理基本原理:通过组合各种推荐技术,避免或弥补各推荐技术的弱点,提升推荐的效果。组合推荐组合推荐2.4.2 信息信息推荐算法推荐算法组合推荐组合推荐后后融合融合组合组合推荐推荐中中融合融合组合组合推荐推荐前前融合融合组合组合推

    47、荐推荐2.4.2 信息信息推荐算法推荐算法基本思路:基本思路:融合两种或两种以上的推荐方法各自产生的推荐结果,判断使用其中的哪个推荐结果更好。属于结果层次上的融合结果层次上的融合最简单的做法就是分别用基于内容的方法和协同过滤推荐方法产生一个推荐预测结果,然后用某种方法组合其结果。后融合组合推荐后融合组合推荐2.4.2 信息信息推荐算法推荐算法基本思路:基本思路:以一种推荐方法为框架,融合另一种推荐方法。中中融合组合推荐融合组合推荐基于内容推荐方法基于内容推荐方法协同过协同过滤方法滤方法协同过滤方法协同过滤方法基于内基于内容方法容方法2.4.2 信息信息推荐算法推荐算法基本思路:基本思路:直接融

    48、合各种推荐方法。前前融合组合推荐融合组合推荐推荐系统框架推荐系统框架协同过协同过滤方法滤方法基于内基于内容方法容方法2.4.2 信息信息推荐算法推荐算法例如:例如:文献31将用户和对象的特征都放到一个统计模型中计算效用函数,研究者使用用户属性z、对象属性w及交互关系x来计算效用r。对象j对于用户i的效用值 计算式可以表示如下:前前融合组合推荐融合组合推荐ijr本讲提要本讲提要一、网络信息内容获取模型二、搜索引擎技术三、数据挖掘技术四、信息推荐技术五、信息还原技术2.5.1 电脑还原技术2.5.2 网页还原技术2.5.3 多媒体信息还原技术2.5.1 电脑还原技术电脑还原技术电脑还原技术电脑还原

    49、技术软件还原软件还原硬件还原硬件还原本地还原本地还原远程还原远程还原主板集成型主板集成型独立网卡型独立网卡型本讲提要本讲提要一、网络信息内容获取模型二、搜索引擎技术三、数据挖掘技术四、信息推荐技术五、信息还原技术2.5.1 电脑还原技术2.5.2 网页还原技术2.5.3 多媒体信息还原技术2.5.2 网页网页还原技术还原技术网页还原技术网页还原技术数据包捕获技术数据包捕获技术协议还原技术协议还原技术网页内容还原技术网页内容还原技术2.5.2 网页网页还原技术还原技术1)数据包捕获技术)数据包捕获技术2.5.2 网页网页还原技术还原技术1)数据包捕获技术)数据包捕获技术一个网络设备通常只接收两种

    50、数据包:一是与自己硬件地址相匹配的数据包;二是发向所有机器的广播数据包。网络数据包的捕获技术采用的网卡接收方式为混杂方式混杂方式,2.5.2 网页网页还原技术还原技术1)数据包捕获技术)数据包捕获技术2.5.2 网页网页还原技术还原技术1)数据包捕获技术)数据包捕获技术数据包数据包捕获方式捕获方式原始套接字原始套接字LibpcapWinpcapJpcap2.5.2 网页网页还原技术还原技术数据包数据包捕获方式捕获方式原始套接字原始套接字LibpcapWinpcapJpcap2.5.2 网页网页还原技术还原技术1)数据包捕获技术)数据包捕获技术数据包数据包捕获方式捕获方式原始套接字原始套接字Li

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:网络信息内容获取技术课件.pptx
    链接地址:https://www.163wenku.com/p-3280946.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库