第二章Web搜索引擎工作原理和体系结构课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第二章Web搜索引擎工作原理和体系结构课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 Web 搜索引擎 工作 原理 体系结构 课件
- 资源描述:
-
1、第二章 Web搜索引擎工作原理和体系结构张 宇信息检索研究室计算机科学与技术学院主要内容n基本要求n网页搜集n预处理n查询服务n体系结构n本章小结主要内容n基本要求n网页搜集n预处理n查询服务n体系结构n本章小结基本要求n搜索引擎示意图搜索引擎网页数据库q1,q2,q3 L1,L2,L3 qi:用户通过浏览器提交的查询词或者短语Lj:在一个可接受的时间可接受的时间内返回一个和用户查询匹配匹配的网页信息列表列表基本要求n相关概念n可以接受的时间n即响应时间,通常在“秒”级,是衡量搜索引擎可用性的一个基本指标n匹配n网页中以某种形式包含有 q 的内容n列表n蕴含着一种“序”基本要求n搜索引擎三段式
2、工作流程网页搜集预处理查询服务主要内容n基本要求n网页搜集n预处理n查询服务n体系结构n本章小结网页搜集n搜索引擎软件系统操作的数据n用户查询n内容不可预测n海量网页n数量上动态变化n需要系统去抓取网页搜集n网页的抓取时机n即时抓取n用户提交查询的时候即时去网上抓取网页n缺点:系统效益不高(重复抓取网页)n预先搜集(直接或间接)n定期搜集n每次搜集替换上一次的内容n优点:实现简单n缺点:时新性(freshness)不高;重复搜集带来的额外宽带开销n增量搜集网页搜集n网页的抓取时机(续)n增量搜集n开始时搜集一批网页,以后n只搜集新出现的网页n搜集那些在上次搜集后有过改变的网页n发现自从上次搜索
3、后已经不再存在了的网页,并从网页库中删除n优点:每次搜集的网页量不是很大,可以经常启动搜集过程;时新性比较高n缺点:系统实现比较复杂;不仅搜集过程复杂,而且后续创建索引的过程也很复杂网页搜集n如何抓取网页n爬取nWeb上的网页集合看成一个有向图n搜集过程n搜集过程从给定的初始URL集合S(种子)开始n沿着网页中的链接,按照先深、先广或者某种遍历策略,不停地从S中移出URL,下载相应的网页n解析出网页中的超链接URL,看是否已经被访问过,将未访问过的URL加入集合S网页搜集n如何爬取网页(续)n方法2n系统第一次全面网页搜集后,系统维护相应的URL集合S,以后的搜集基于该集合n每搜到一个网页,如
4、果它发生改变并含有新的URL,则将它们对应的网页也抓取回来,并将这些新的URL也放到集合S中n如果S中某个URL对应的网页不存在了,则将它从S中删除网页搜集n如何爬取网页(续)n方法3n网站拥有者主动向搜索引擎提交它们的网址(为了达到宣传的目的)n系统在一定时间内(两天到数月不等)定向向那些网站派出“蜘蛛”(spider)程序,扫描该网站所有的网页并将有关信息存入数据库中主要内容n基本要求n网页搜集n预处理n查询服务n体系结构n本章小结预处理n关键词的提取n网页源文件n文字内容nHTML标记n为支持后面的查询服务,需要从网页源文件中提取出能够代表它的内容的一些特征n关键词是这种特征最好的代表n
展开阅读全文