搜索引擎工作原理演示文稿课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《搜索引擎工作原理演示文稿课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搜索引擎 工作 原理 演示 文稿 课件
- 资源描述:
-
1、第九章 搜索引擎工作原理第一节 搜索引擎和信息检索第二节 搜索引擎的概念第三节 搜索引擎的历史第四节 搜索引擎的工作原理第一节 搜索引擎和信息检索n对大多数人来说,在Web上搜索信息是一项日常活动。n目前,计算机最普遍的应用是-、-。(搜索和通信)n许多人试图改进搜索引擎,其实都是在信息检索领域工作。n信息检索一词的含义非常宽泛。信息检索如何定义?n从20世纪50年代,该领域的主要焦点是-、-。(text和text documant,文本和文本形式的文档)n网页、电子邮件、学术论文、图书和新闻报道只是文档类型中的一部分。n所有这些文档都有一定的结构,例如与科技期刊论文的内容相关联的标题、作者、
2、日期和摘要信息等。n当用于数据库记录时,这些结构由属性或域组成。n文档和典型的数据记录(如银行账号记录)最重要的区别是?。n文档中的大部分信息以文本形式存放,文本是没有结构。n账号记录中包含两个典型属性:账号和当前余额。无论在格式上,还是意义上,这两个属性都被非常精确的定义。要比较这些属性的值非常容易。n因此可以直接实现某个算法,识别出满足某个查询条件的记录,例如:“找出账号为321456账户”或者“找出余额大于5万美金的账户”n文本的比较容易?n定义一个词、句子、段落或者整个新闻报道的意义,比定义一个账号要难得多。n对人们比较文本的过程进行理解和建模,并设计计算机算法以便精确地执行这种比较,
3、是信息检索的核心。n信息检索的应用逐步扩展到带有结构的多媒体文档、有意义的文本内容和其他媒体。n垂直搜索、企业搜索、桌面搜索。nVertical search:是网络搜索的特殊形式,搜索被限制在特殊的主题上。nenterprise search:是在散布在企业内部网中的大量计算机文件中查找所需信息。n信息检索不仅仅研究基于用户查询的搜索(有时被称为特殊搜索),还包括过滤、分类和问答。n信息检索的关键问题之一是相关性。相关性检索模型。n之二是评价问题。n之三是注重用户和他们的信息需求。n目前人们从网上获取信息的主要工具是浏览器。n通过浏览器得到信息通常有三种方式:直接向浏览器输入一个关心的网址(
4、URL),浏览器返回所请求的网页,根据该网页的内容及其包含的超链接文字的引导,获得所需的内容。此种方式最有针对性。n登录到某知名网站,根据该网站提供的分类目录和相关链接,逐步寻找自己感兴趣的信息。此种方式类似于读报。n登录到某搜索引擎网站,输入代表自己所关心信息的关键词或者短语,依据所返回的相关信息列表、摘要和超链接引导,寻找需要的信息。此种方式适用于用户需求较明确,但不知信息所在位置,所以搜索引擎给出一些相关内容的网址及其相关内容的列表,供用户选择。nURL(uniform resource locator)用来定义互联网上信息资源的一种协议(或者说描述规范),网页的定位通常是以形如http
5、:/host/path/file.html的URL来描述的,n而FTP资源则以形如ftp:/host/path/file的URL来描述。第二节 搜索引擎概念n搜索引擎指的是一种在Web上应用的软件系统,它以一定的策略在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。n呈现在使用者面前的是一个网页界面,使其通过浏览器提交一个词语或者短语,然后很快返回一个可能和用户输入内容相关的信息列表。(注意:在系统内部搜索得到,而不是在Web上搜索)列表中的每一条目代表一篇网页,每个条目至少有三个元素:n标题:以某种方式得到的网页标题。最简单的方式就是从网页的标签中提取的内容。
6、nURL:该网页对应的访问网址。有经验的用户往往通过这个元素对网页内容的权威性进行判断。(注意:链接的是网页的原始出处)n摘要:以某种方式得到的网页内容的摘要。最简单的一种方式就是将网页内容的头若干字节截取下来作为摘要。n所以,从理论上搜索引擎并不保证用户在返回结果列表上看到的标题和摘要内容与其点击URL所看到的内容一致,甚至不保证那个网页存在。(这是搜索引擎和传统信息检索的一个重要区别)。n为了弥补这种差别,现代搜索引擎都保存网页搜集过程中得到的网页全文,并在返回结果列表中提供“网页快照”或者“历史网页”链接,保证用户能看到和摘要信息一致的内容。第三节 搜索引擎的发展历史n在Web出现以前,
7、互联网上就已经存在许多旨在让人们共享的信息资源。此时的信息资源主要存在于各种可以匿名访问的FTP站点,内容以学术技术报告、研究性软件居多。它们以计算机文件的形式存在,文字材料的编码通常是PostScript或者纯文本(当时还没有HTML)n1990年,加拿大University of McGill计算机学院的师生开发软件-Archie,被认为现代搜索引擎的鼻祖。nArchie通过定期搜集并分析FTP系统中存在的文件名信息,提供查找分布在各个FTP主机中文件的服务。(包括提供资源的文件名、文件长度、存放该文件的计算机名及目录名等。)nArchie实际上是一个大型的数据库,在加上与这个数据库相关联
8、的一套检索方法。其工作方式与搜索引擎的基本相同:自动搜集分布在广域网上的信息,建立索引,提供检索服务。n以Web网页为对象的搜索引擎和以FTP文件为对象的检索系统一个基本的不同点在于搜集信息的过程。前者是利用HTML文档之间的链接关系,在Web上一个网页一个网页地“爬取”(crawl),将那些网页“抓”(fetch)到系统来进行分析;后者则根据已有的关于FTP站点地址的知识,对那些站点进行访问,获取其文件目录信息,并不真正将那些文件下载到系统中来。所以如何在Web上抓取网页是搜索引擎要解决的一个基本问题。n1993年,Matthew Gray开发了World Wide Web Wanderer
9、,世界上第一个利用HTML网页之间的链接关系来监测Web发展规模的机器人(robot)程序。刚开始是用来统计互联网上的服务器数量,后发展为能够通过它检索网站域名。由于其爬行的工作方式,也被称为“蜘蛛”。n在文献中crawler,spider,robot,都指的是Web上依据网页之间的超链关系一个个抓取网页的程序,通常也被称为搜集。在搜索引擎系统中,也称为网页搜集子系统。n现代搜索引擎的思路来源于Wanderer,经过不断的改进,1994年7月,Michael Mauldin将John leavitt的蜘蛛程序接入到其索引程序中,创建了为人熟知的Lycos,成为第一个现代意义的搜索引擎。n随着信
10、息技术的发展和信息资源的猛增以及搜索引擎的地位的重要性增强,不断有新的、强的搜索引擎系统推出。由于采用独特的PageRank技术,Google后来居上,成为目前最受欢迎的搜索引擎。n此外,还出现了基于目录的信息服务网站,如Yahoo,被成为目录搜索引擎,以区别于前面的自动搜索引擎,或者被称为网站搜索引擎,以区别于前面的网页搜索引擎。分别具有搜索结果准确或全面的特点。n随着网上资源的增加,单纯依靠人工整理网站目录取得较高精度查询结果的优势逐步退化。目前有两个发展方向:一是利用文本自动分类技术,在搜索引擎上对每篇网页的自动分类,如Google的“网页分类”选项;二是将自动网页爬取和一定的人工分类目
11、录结合,这样既有高信息覆盖率,也有高查准率。n随着信息数量、信息种类的变化以及网民成分的变化,出现了多种的主题搜索引擎、个性化搜索引擎、问答式搜索引擎等的出现,以满足不同的信息需求。n通用搜索引擎的运行出现了分工:专业的搜索引擎技术和搜索数据库服务提供商(如美国的Inktomi,不是直接面向用户的搜索引擎,而是为Hotbot,Looksmart等搜索引擎提供全文网页搜集服务)n搜索引擎在网络信息服务中具有不可替代的地位。虽然其基本工作原理已经相当稳定,但在其质量、性能和服务方式等方面的发展空间很大。搜索引擎设计与核心信息检索问题搜索引擎是信息检索技术在大规模文本集合上的实际应用。“搜索引擎”一
12、词原来是指为文本搜索服务的特殊的硬件。n从20世纪80年代中期开始,在描述用来比较查询和文档并生成文档排序结果的软件系统时,逐渐使用“搜索引擎”一词,而不是“信息检索系统”。信息检索核心问题n相关性 -有效排序n评价 -测试和测量n信息需求 -用户交互n搜索引擎设计中的重要问题包括了信息检索中的各种问题-、-、-。n(参见:搜索引擎:信息检索实践/(美)克罗夫特(Croft,W.B)等著;刘挺等译/机械工业出版社 2010,2:1-7)n在搜索引擎的部署过程中遇到的大规模数据的运行环境,还给搜索引擎带来了许多其他许多难题。搜索引擎设计中的核心问题n效能 有效的搜索和索引n合并新数据 -覆盖率和
13、新鲜度n可扩充性 随着数据量和用户量而增长n自适应 为适应特定应用而作调节n特殊问题 如:垃圾信息1.搜索引擎的效能n评价指标包括response time,query throughput,indexing speed。n响应时间:n查询吞吐量:n索引速度:2.将新数据合并到索引中的速度nCoverage:nRecency或freshness:搜索应用往往要处理动态持续变化的信息。3.可扩充性nScalability:面向一个特定应用的设计应该考虑到数据量和用户量的增长。4.adaptablen搜索引擎的许多功能,比如排序算法、界面或搜索策略,能够为满足新的应用需要而调整和适应。5.spam
14、n为某种商业利益而制作的文档中误导的、不合适的或不相关的信息。n尤其是搜索引擎必须处理一些文档中的垃圾词,这些词会导致搜索引擎响应一些热门查询时被检索出来。n信息检索研究包括了文本和语言的数学模型的建立、带有测试集合与用户的大规模环境的建立以及学术论文的写作。nSearch engineern搜索工程已经成为信息产业中的重要职业。第四节 搜索引擎工作原理n网页搜集n预处理n查询服务一.搜索引擎要达到的基本要求n能够接受用户通过浏览器提交的查询词或者短语;在一个可以接受的时间可以接受的时间内内返回一个和该用户查询匹匹配配的网页信息列列表。表。1.响应时间n可以接受的时间:衡量搜索引擎可用性的一个
15、基本指标,也是与传统检索系统的一个重要区别,通常在“秒”量级。n系统应该在额定吞吐率(throughput或称吞吐量,是指在单位时间里系统完成的总任务量。n对于搜索引擎来说,就是指系统在单位时间里“秒”可以服务的最大用户查询数量)的情况下保持秒级响应时间。这样的响应时间不仅能满足-用户的查询,而且要在系统设计负荷的情况下满足-用户。2.匹配n指的是网页中以某种形式包含有查询词的内容,其中最简单、最常见的形式是查询词在其中直接出现。n当然,如果一个搜索引擎就是以百分之百满足这种简单的包含关系为目标,即使实现了也并不就达到了最好的效果。3.列表n在大多数情况下,检索结果列表相当长。不仅因为网上信息
16、量大,也由于搜索引擎的查询方式简单。这就涉及到“序”(rank)的问题。二、工作原理n高质量的现代搜索引擎一般采用三段式的工作流程:搜集、预处理、服务。(一)网页搜集n搜索引擎这个软件系统操作的数据不仅包括内容不可预测的用户查询,而且还包括在数量上动态变化的海量网页,并且需要抓取。n对于搜索引擎来说,要抓取因特网上所有的网页是不现实。n一是因为有许多网页无法从其他网页的链接中找到;n二是因为存储和处理技术方面的问题。因此搜索引擎的网络蜘蛛只抓取部分重要和相关的网页。n网络信息采集的方式一般分人工采集和自动采集。(参见:网络信息检索技术及搜索引擎系统开发/高凯等/科学出版社 2010,P21)n
17、常规采集有定向和定题之分。n自动采集的优点是信息处理量大、数据更新及时、一般不需人工干预。n自动地发现并下载网页称为爬取(crawling)n下载网页的程序称为爬虫(web crawler)n互联网上的每一个网页都有自己唯一的统一资源定位器(uniform resource locator)或URLnhttp:/www.cs.umass.edu/csinfo/people.htmln用于描述网页URL由三部分组成:协议方案、主机名、资源名。n网页存储在网页服务器上,使用超文本传输协议来和客户端软件交换信息。n网络爬虫有两个任务:下载网页和发现URL。n网络爬虫的工作从一个种子(seed)集合开
18、始,种子集合是作为参数传递给网络爬虫的一个URL的集合。这些种子被添加到URL请求队列中取出URL地址下载解析链接标签n这个过程重复进行,直到网络爬虫用尽存储页面的磁盘空间或者请求队列为空。1.搜集过程n网页搜集的过程是从URL库(初始时包含用户指定的起始种子URL集合,可以是一个或多个)获得输入,解析URL中标明的Web服务器地址、建立连接、发送请求和接收数据,将获得的网页数据存储在原始网页库,并从中提取出链接信息放入网页结构库,同时将待抓取的URL放入URL库,保证整个过程的递归进行,直到URL库为空。下图显示Web信息的搜集过程:抓取提取URL库原始网页网页结构2.系统网页数据库维护的基
19、本策略 A A、定期搜集,批量搜集。优缺点?系统实现简单,但开销大、额外的宽带消耗、时新性不高。B B、增量搜集:搜集新出现的网页;搜集那些在上次搜集后有过改变的网页;发现自上次搜集后已经不再存在的网页,并从库中删除。优缺点?时新性高,但系统实现比较复杂。除新闻网站外,许多网页的内容不是经常变化,研究认为50%的网页的平均生命周期大约为50天,中国每天约30-50万变化的网页,那么一台PC机,在一般的网络条件下,半天就可以搜集完,这样可以每天启动搜集过程,时新性得到了保证。C C、优化的网页搜集策略:在系统能力一定的情况下,若有两类网页,其更新周期差别大,则系统应该将注意力放在更新慢的网页上,
20、以使系统整体的时新性达到比较高的水平。3.搜集的方式n最常见的是一种爬取:将Web上的网页集合看成是一个有向图,搜集过程从给定起始URL集合S(或者说种子)开始,沿着网页中的链接,按照先深、先宽或者别的策略遍历,不停地从S中移除URL,下载相应的网页,解析出网页中的超链接URL,看是否已经被访问过,将未访问的那些URL加入集合S。整个过程犹如蜘蛛(spider)在蜘蛛网(Web)中爬行(crawl)。n多个蜘蛛同时在爬。n任何搜索引擎不可能将Web上的网页搜集完全(通常是在比如磁盘满或者搜集时间已经太长了),因此必须使搜索引擎搜集到比较重要的网页。n按照何种方式可以得到重要网页?n研究表明,按
21、照先宽搜集方式得到的网页集合要比先深搜集得到的网页重要。n为什么?4.如何避免网页的重复搜集n保证每个网页不被重复抓取。原因是一方面搜集程序没有清楚记录已经访问过的URL,二是由于域名与IP对应关系造成的。n解决的办法一是使用两个表:unvisited-table和visited-table,记录未访问、已访问URL和网页内容摘要信息。n二是找出那些指向同一物理位置URL的多个域名和IP,这是一个逐渐积累的过程。n其实域名和IP的对应关系存在四种情况:一对一、一对多、多对一、多对多,前者不会造成重复搜集,后三者会造成重复搜集。n所以首先要积累一定数量的域名和IP,然后将这些域名和IP对应的首页
22、和首页链接出的最开始的几个页面抓取回来,如果比较结果一样,则归为一组,以后搜集时可以只选择其中一个进行搜集。选择时应该优先选择有域名的,有的网站对于直接用IP访问是被禁止的。n例如:对应的IP地址为:202.108.42.73,202.108.42.91,202.108.42.64,202.108.42.63,202.108.42.71,202.108.42.72,但是直接用http:/202.108.42.73访问是被拒绝的。5.如何首先搜集重要的网页nWeb上的信息具有异质性和动态性,由于受时间和储存空间的限制,即使是最大的搜索引擎也不可能将全球所有的网页全部搜集过来,一个好的搜索策略是优
23、先搜集重要的网页,以便能够在最短的时间内把最重要的网页抓取过来,在此要求下,一方面要采用分布并行的体系结构来协调工作,一方面要优先搜集重要网页。n体现网页重要度的特征有哪些?体现网页重要度的特征n网页的入度(?)大,表明被其它网页引用的次数多n某网页的父网页入度(?)大n网页的镜像度高,说明网页内容比较热门,从而显得重要n网页的目录深度(?)小,易于用户浏览到n上述特征中哪些很容易被确定?n网页入度(page indegree),针对一个网页,整个网络中指向该网页的超链接数目。n网页出度(page outdegree),针对一个网页,该网页指向其他网页的超链接数目。nURL目录深度:网页对应的
展开阅读全文