网络信息内容获取技术课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《网络信息内容获取技术课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 信息内容 获取 技术 课件
- 资源描述:
-
1、2022年8月16日星期二网络信息内容获取技术网络信息内容获取技术上节回顾(3)信息获取信息分析表示理解识别信息管控分级过滤阻断审计取证还原被动主动第二章 网络信息内容获取技网络信息内容获取技术术本讲提要本讲提要一、网络信息内容获取模型二、搜索引擎技术三、数据挖掘技术四、信息推荐技术五、信息还原技术1.1 互联网信息类型网络信息发布形式微信微信现代信息传现代信息传播方法播方法网络信息量截至2011年12月底,中国网站数量为230万,中国网页数量为866亿个,平均每个网站的网页数是5588个,平均每个网页的字节数是28.6KB网络信息类型n网络媒体形态n广播式媒体n新闻网站、论坛、博客n交互式媒
2、体n搜索引擎、多媒体点播、网上交友、网上招聘、电子商务(网络购物)网络信息类型n网络媒体信息:互联网网站公开发布的信息。网络用户通常可以基于通用网络浏览器获得互联网公开发布的信息。n网络通信信息:除了使用浏览器之外的专业客户端软件,实现与特定点的通信或进行点对点通信时所交互的信息。网络信息类型n发布信息类型n文本信息:比例最大n图像信息n音频信息n视频信息网络信息类型n媒体发布方式n直接匿名浏览:公开发布信息n需要身份认证的网络信息发布网络信息类型n网页形态n静态网页n动态网页:含“?”或输入参数的URL网络信息类型n信息交互协议n网页浏览:HTTPn文件传输:ftpn电子邮件:foxmail
3、,outlookn聊天工具:qq,微信,MSNn多媒体交互工具:skype,rtsp,rtp网络通信信息n专业客户端软件n电子邮件:foxmail,outlookn聊天工具:qq,微信,MSNn多媒体交互信息:skype1.1 网络信息内容获取模型一、网络信息内容获取模型图2-1 网络环境下的信息内容获取模型2.1 网络信息内容获取模型信息检索信息检索 (Information Search,IS Search,IS)是信息的需求者主动地在网上搜寻所需要的信息。1951年,Calvin Mooers首次提出了“信息检索(Information Retrieval,IR)”概念1,并给出了信息检
4、索的主要任务:即协助信息的潜在用户将信息需求转换成一张文献来源信息列表,而这些文献包含对用户有用的信息。目前通常使用搜索引擎技术完成信息检索功能。2.1 网络信息内容获取模型信息推荐(Information recommendation)又称为信息推送(Information Push),是指网络信息服务系统从网上的信息源或信息提供商获取信息,并通过固定的频道向用户发送信息的新型信息传播系统。2.1 网络信息内容获取模型信息交互是一种双向的信息交流,在信息交互的过程中,信息获取的个体可以通过所交流的信息满足认知上和情感上的信息需求。2.1 网络信息内容获取模型信息浏览方式相当于传统情况下的阅读
5、、观看、倾听等获取信息的行为。1.2 网络媒体信息获取原理网络媒体信息获取原理n网络信息获取范围:理论上可以覆盖整个国际互联网网络媒体信息获取理想流程网上采集算法 网上采集算法,又称为网络爬虫网络爬虫(Web Crawler)、网络网络蜘蛛蜘蛛(Web Spider)或Web信息采集器信息采集器,是一个自动下载网页的计算机程序或自动化脚本,是搜索引擎的重要组成部分。1.3 网络媒体信息获取的分类全网信息获取定点信息获取1.全网信息获取搜索引擎,大型内容服务提供商google 百度 Yahoo单次全网信息获取一般需要数周乃至数月时间网站提供Sitmap,提高搜索效率获取显示(排名 PageRan
6、k)2.定点信息获取全网信息检索存储空间要求大,难以保障信息获取的时效性定点获取:重点关注的特定网络区域 深入搜索 定期轮询搜索 3.基于主题的信息获取和元搜索国内元搜索引擎n搜魅网(someta):马虎聚搜:佐意综合搜索(chinazss)比比猫(bbmao)n.3.基于主题的信息获取和元搜索n 高级检索功能:n 提高检索的质量n 使用布尔逻辑符检索n 最后更新页面(时间检索)n 域名过滤(Domain Filter)n 成人过滤(Adult Filter)n 语言选择(Language Selection):n 结果展示(Results Display):排序网络媒体信息获取的技术难点网络
7、媒体信息获取的技术难点u网络媒体信息网络媒体信息:形态各异、信息类型多样。形态各异、信息类型多样。针对完全异构的网络媒体信息,对信息提取的全面性和时效性提出了更高的要求。u拒绝服务:拒绝服务:部分网络媒体选择屏蔽过于频繁的、来自相同客户端的信息获取操作。u降低访问频率u更换客户端信息网络通信信息获取方案网络通信信息获取方案网络通信:电子邮件、即时通信软件、金融客户端、视频点播信息获取过程网络通信信息镜像网络交互数据重组通信协议数据恢复网络通信信息存储1.3 网络通信信息获取原理网络通信信息获取方案网络通信信息获取方案网络通信信息获取流程本讲提要本讲提要一、网络信息内容获取模型二、搜索引擎技术三
8、、数据挖掘技术四、信息推荐技术五、信息还原技术二、搜索引擎技术据调查统计显示:全球以中文为母语的人口占总人口的22%以上;2011年底中国网民人数已经超过5亿人;中文网页数量已经占到了全球网页数量的15%以上。搜索引擎已成为中国网民使用最为频繁的互联网应用。庞大的中文用户群、丰富的中文网页资源和中文信息处理特有的难度,以及搜索引擎作为互联网基础工具的重要地位,极大地推动了中文搜索引擎的研究和开发二、搜索引擎技术中文搜索引擎的发展最早见于“748工程”中的汉字情报检索清华大学的中国学术期刊(光盘版)2001年,百度搜索从2003年开始,中文网络信息服务的四大门户网站(新浪、搜狐、网易和腾讯)陆续
9、推出了自己的搜索引擎服务二、搜索引擎技术中文搜索引擎的关键技术:网页内容分析网页索引查询解析相关性计算二、搜索引擎技术一个通用搜索引擎包括网上采集、索引、查询、排级和提交等算法,相关概念参见表2-1本讲提要本讲提要一、网络信息内容获取模型二、搜索引擎技术2.2.1 网上采集算法2.2.2 排级算法 2.2.3 讨论搜索引擎与垃圾信息关系三、数据挖掘技术四、信息推荐技术五、信息还原技术2.2.1 网上采集算法 网上采集算法,又称为网络爬虫网络爬虫(Web Crawler)、网络网络蜘蛛蜘蛛(Web Spider)或Web信息采集器信息采集器,是一个自动下载网页的计算机程序或自动化脚本,是搜索引擎
10、的重要组成部分。2.2.1 网上采集算法工作原理工作原理2.2.1 网上采集算法按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)聚焦网络爬虫(Focused Web Crawler)增量式网络爬虫(Incremental Web Crawler)深层网络爬虫(Deep Web Crawler)。实际的网络爬虫系统通常是几种爬虫技术相结合实现网络媒体信息获取原理n1.初始URL集合n2.信息获取n3.信息解析n4.信息叛重2.2.1 网上采集算法爬虫算法爬虫算法1.初始URL集合跟随网页内嵌链接逐级递归便利互联网络2.信息获
11、取n根据来自网络地址集合或URL队列中的每条网络地址信息,确定获取内容所采用的信息发布协议。基于特定协议的网络交互机制,向信息发布网站请求所需内容。HTTP 文本信息获取范例随着信息媒体形态的增加,信息交互协议的增加,实现信息获取的操作复杂度和网络交互重构难度呈指数级增长2.信息解析根据不同通信协议的具体定义,从网络响应信息相应位置提取发布信息的主体内容信息关键字段n信息来源n信息标题n信息失效时间n信息最近修改时间3.信息解析(HTTP/HTML)4.信息判重主要基于网络媒体信息URL与内容摘要两大元素,实现信息采集/存储的与否判断。URL判重:在信息采集操作启动之前进行是否已经采集是否已经
12、过期内容摘要判重:采集信息存储时进行MD5从爬虫的角度对互联网进行划分爬虫URL抓取策略l深度优先遍历策略l宽度优先遍历策略l反向链接数策略lPartial PageRank策略lOPIC策略l大站优先策略深度优先遍历策略l指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接l遍历的路径:A-F-G E-H-I B C D宽度优先遍历策略l指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。l遍历路径:A-B-C-D-E-F G H I反向链接数策略l反向链接数:一个网页被其他网页链接指向
13、的数量。l反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此,很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序。l在真实的网络环境中,由于广告链接、作弊链接的存在,反向链接数不能完全等同的重要程度。因此,搜索引擎往往考虑一些可靠的反向链接数。Partial PageRank策略l对于于已经下载的网页,连同待抓取URL队列中的URL,形成网页集合,计算每个页面的PageRank值,计算完之后,将待抓取URL队列中的URL按照PageRank值的大小排列,并按照该顺序抓取页面OPIC策略l该算法实际上也是对页面进行一个重要性打分。在算法开始前,
14、给所有页面一个相同的初始现金(cash)。当下载了某个页面P之后,将P的现金分摊给所有从P中分析出的链接,并且将P的现金清空。对于待抓取URL队列中的所有页面按照现金数进行排序。大站优先策略l对于待抓取URL队列中的所有网页,根据所属的网站进行分类。对于待下载页面数多的网站,优先下载。2.2.1 网上采集算法本讲提要本讲提要一、网络信息内容获取模型二、搜索引擎技术2.2.1 网上采集算法2.2.2 排级算法 2.2.3 搜索引擎与垃圾信息关系三、数据挖掘技术四、信息推荐技术五、信息还原技术2.2.2 排级算法网页排级是对搜索结果的分析,使那些更具“重要性”的网页在搜索结果中的排名获得提升,从而
15、提高搜索结果的相关性和质量 网页排级-网页的“重要性”-网页普及度评分2.2.2 排级算法 两种应用最广、最成功的排级算法HITS2.2.2 排级算法:PageRank2.2.2 排级算法:PageRank原理:原理:民主表决核心思想:核心思想:在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。2.2.2 排级算法:PageRank图的基本概念图的基本概念度度(degree):指和该顶点相关联的边数。在有向图中,度又分为入度入度和出度出度。入度入度(in-degree):以某顶点为弧头,终止于该顶点的弧的数目称为该顶点的入度 出度出度(out-degr
16、ee):以某顶点为弧头,起始于该顶点的弧的数目称为该顶点的出度在某顶点的入度和出度的和称为该顶点的度度例如:(a)中Vo的入度为1,出度为2,度为32.2.2 排级算法:PageRank2.2.2 排级算法:PageRank2.2.2 排级算法:PageRank1Pr()Pr()(1)()|niiittddtP r()it入度(in-degree)|it出度(out-degree)页面t被访问到的概率,即其PageRank值d影响因子(damping factor),取 0.85d 2.2.2 排级算法:PageRank网页数量过大问题的解决 稀疏矩阵 MapReduce2.2.2 排级算法:
17、PageRank优点:优点:(1)直接高效(2)主题集中PageRank算法存在的算法存在的缺陷缺陷如下:如下:(1)完全忽略网页内容,干扰挖掘结果(2)结果范围窄(3)影响因子与网页获取数量缺乏科学性PR(PageRank(网页级别))nPRn外部链接的数量n外部链接的质量PR(PageRank(网页级别))n用来表现网页等级的一个标准,级别分别是0到10,是Google用于评测一个网页“重要性”的一种方法nPR值越高说明该网页越受欢迎(越重要)。n例如:一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎(或者说极其重要)。n一般PR值达到4,就算是一
18、个不错的网站了2.2.2 排级算法:HITS1.Hub页面与Authority页面Hub页面(枢纽页面)和页面(枢纽页面)和Authority页面(权威页面)页面(权威页面)是是HITS算法最基本的两个定义算法最基本的两个定义。“Authority”页面,是指与某个领域或者某个话题相关的高质量网页,比如搜索引擎领域,Google和百度首页即该领域的高质量网页,比如视频领域,优酷和土豆首页即该领域的高质量网页。1.Hub页面与Authority页面 “Hub”页面,指的是包含了很多指向高质量“Authority”页面链接的网页,比如hao123首页可以认为是一个典型的高质量“Hub”网页。2.2
19、.2 排级算法:HITS图2-4 Hub页与Authority页关系HITS:Hyperlink-Induced Topic Search核心概念:枢纽值枢纽值(Hub Scores):页面上所有导出链接指向页面的权威值之和权威值(权威值(Authority Scores)所有导入链接所在的页面的枢纽值之和 这两个值是相互依存、相互影响的。2.2.2 排级算法:HITS HITS算法的目的即是通过一定的技术手段,在海量网页中找到与用户查询主题相关的高质量“Authority”页面和“Hub”页面,尤其是“Authority”页面,因为这些页面代表了能够满足用户查询的高质量内容,搜索引擎以此作为
20、搜索结果返回给用户。2.2.2 排级算法:HITS 基本假设1:一个好的“Authority”页面会被很多会被很多好的好的“Hub”页面指向;基本假设2:一个好的“Hub”页面会指向很多好会指向很多好的的“Authority”页面;。算法基本思想:相互增强关系算法基本思想:相互增强关系2.2.2 排级算法:HITS 算法 具体算法:具体算法:可利用以上两个基本假设,以及相互增强关系等原则进行多轮迭代计算,每轮迭代计算更新每个页面的两个权值,直到权值稳定不再发生明显的变化为止。2.2.2 排级算法:HITS 算法1.构建根集合2.扩展集合Base2.2.2 排级算法:HITS 算法3.计算扩展集
21、base中所有页面的Hub值(枢纽度)和Authority值(权威度)3.4 排序,结果输出。优点:优点:(1)知识范围扩大。(2)搜索时部分地考虑了页面内容,挖掘结果科学性大大增强 不仅应用在搜索引擎领域,而且被“自然语言处理”以及“社交分析”等很多其它计算机领域借鉴使用,并取得了很好的应用效果2.2.2 排级算法:HITS存在的问题存在的问题:(1)计算效率低,实时性差与查询相关的算法(2)“主题漂移”(3)易被作弊者操纵结果 作弊者可以建立一个很好的Hub页面,再将这个网页链接指向作弊网页,可以提升作弊网页的Authority得分(4)结构不稳定 在原有的“扩充网页集合”内,如果添加删除
22、个别网页或者改变少数链接关系,则HITS算法的排名结果就会有非常大的改变。2.2.2 排级算法:HITSHITS算法与PageRank算法比较n 1.HITS算法是与用户输入的查询请求密切相关的,而PageRank与查询请求无关。所以,HITS算法可以单独作为相似性计算评价标准,而PageRank必须结合内容相似性计算才可以用来对网页相关性进行评价;n 2.HITS算法因为与用户查询密切相关,所以必须在接收到用户查询后实时进行计算,计算效率较低;而PageRank则可以在爬虫抓取完成后离线计算,在线直接使用计算结果,计算效率较高;HITS算法与PageRank算法比较n 3.HITS算法的计算
23、对象数量较少,只需计算扩展集合内网页之间的链接关系;而PageRank是全局性算法,对所有互联网页面节点进行处理;n 4.从两者的计算效率和处理对象集合大小来比较,PageRank更适合部署在服务器端,而HITS算法更适合部署在客户端;n HITS算法与PageRank算法比较n 5.HITS算法存在主题泛化问题,所以更适合处理具体化的用户查询;而PageRank在处理宽泛的用户查询时更有优势;n 6.HITS算法在计算时,对于每个页面需要计算两个分值,而PageRank只需计算一个分值即可;在搜索引擎领域,更重视HITS算法计算出的Authority权值,但是在很多应用HITS算法的其它领域
24、,Hub分值也有很重要的作用;n HITS算法与PageRank算法比较n 7.从链接反作弊的角度来说,PageRank从机制上优于HITS算法,而HITS算法更易遭受链接作弊的影响。n 8.HITS算法结构不稳定,当对“扩充网页集合”内链接关系作出很小改变,则对最终排名有很大影响;而PageRank相对HITS而言表现稳定,其根本原因在于PageRank计算时的“远程跳转”。网页排名推荐参考文档:数学之美,吴军,第10章 PageRank google的明主表决式网页排名技术本讲提要本讲提要一、网络信息内容获取模型二、搜索引擎技术2.2.1 网上采集算法2.2.2 排级算法 2.2.3 搜索
25、引擎与垃圾信息关系三、数据挖掘技术四、信息推荐技术五、信息还原技术2.2.3 搜索引擎与垃圾信息关系2.2.3 搜索引擎与垃圾信息关系Bernard J.Jansen和Amanda Spink的研究结果显示,大约80%的用户只需要搜索结果前3页。为了让广大的网络用户能够看到自己的页面,网站管理者和网页制作者就想方设法让其站点和页面变得有名,以期用户在进行相关内容查询时,目标网页排在结果集的最前面。为此,搜索引擎优化(Search Engine Optimization)应运而生。2.2.3 搜索引擎与垃圾信息关系搜 索 引 擎 优 化(S e a r c h Engine Optimizati
展开阅读全文