第六章网络信息检索课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第六章网络信息检索课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六 网络 信息 检索 课件
- 资源描述:
-
1、第六章网络信息检索第六章网络信息检索第一节搜索引擎概述第一节搜索引擎概述第二节常用中文搜索引擎第二节常用中文搜索引擎第一节搜索引擎概述第一节搜索引擎概述搜索引擎的定义与类型搜索引擎的定义与类型搜索引擎的定义搜索引擎的定义搜索引擎,英文为搜索引擎,英文为Search Engine是指根据一定的策略、运用特是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。后,为用户提供检索服务的系统。搜索引擎的类型搜索引擎的类型搜索引擎种类繁多,它可以按照内容组织方式和工作机理等进行搜索引擎种类繁
2、多,它可以按照内容组织方式和工作机理等进行区分。区分。下一页返回第一节搜索引擎概述第一节搜索引擎概述按内容组织方式划分按内容组织方式划分第一类是全文检索第一类是全文检索(Full Text Search)的搜索引擎,用户能够对各的搜索引擎,用户能够对各网站的每个网站的每个主主页中的每个词进行搜索。全文搜索引擎的优点是查页中的每个词进行搜索。全文搜索引擎的优点是查询全面而充分。当全文搜索引擎遇到一个网站时,会将该网站上询全面而充分。当全文搜索引擎遇到一个网站时,会将该网站上所有开放的网页全部获取下来,并收入到引擎的数据库中。所有开放的网页全部获取下来,并收入到引擎的数据库中。第一类是建立在分类学
3、基础上的目录分类式搜索引擎。它通过人第一类是建立在分类学基础上的目录分类式搜索引擎。它通过人工方式将所收入的站点进行分类而建立数据库,以提供查询。目工方式将所收入的站点进行分类而建立数据库,以提供查询。目录分类式搜索引擎当遇到一个网站时,先将该网站划分到某个分录分类式搜索引擎当遇到一个网站时,先将该网站划分到某个分类下,再记录一些摘要信息对该网站进行概述性的介绍。类下,再记录一些摘要信息对该网站进行概述性的介绍。下一页上一页返回第一节搜索引擎概述第一节搜索引擎概述按工作机理划分按工作机理划分第一类是机器人搜索引擎,由一个称为蜘蛛第一类是机器人搜索引擎,由一个称为蜘蛛(Spider)的机器人的机
4、器人程序按设计者和网站定制的策略自动在匀程序按设计者和网站定制的策略自动在匀_联网中抓取相应的联网中抓取相应的信息,并通过分析抓取的网页文件获取网页中存在的新的信息,并通过分析抓取的网页文件获取网页中存在的新的URL链接,以此达到层层深入抓取的日的,抓取结束后采用单机存链接,以此达到层层深入抓取的日的,抓取结束后采用单机存储或分布式存储的方式进行磁盘存储,然后由索引器为搜集到储或分布式存储的方式进行磁盘存储,然后由索引器为搜集到的信息建立索引,根据用户的查询输入检索索引库,并将查询的信息建立索引,根据用户的查询输入检索索引库,并将查询结果返回给用户。该类搜索引擎的优点是信息量大,更新及时,结果
5、返回给用户。该类搜索引擎的优点是信息量大,更新及时,无需人工干预无需人工干预;缺点是返回多而杂,必须进行人工筛选。缺点是返回多而杂,必须进行人工筛选。第二类是元搜索引擎,这类搜索引擎没有自己的数据,而是将第二类是元搜索引擎,这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。重复排除、重新排序等处理后,作为自己的结果返回给用户。下一页上一页返回第一节搜索引擎概述第一节搜索引擎概述搜索引擎的工作原理搜索引擎的工作原理搜索引擎构成搜索引擎构成搜索引擎广义上
6、是一种基于互联网的信息查询系统。一个网搜索引擎广义上是一种基于互联网的信息查询系统。一个网络搜索引擎一般由搜索器、索引器、检索器和用户接口四部络搜索引擎一般由搜索器、索引器、检索器和用户接口四部分组成。分组成。搜索器就是帮助用户查找到特定信息的一种工具。而搜索引搜索器就是帮助用户查找到特定信息的一种工具。而搜索引擎中的搜索器却承担了另一个网络数据抓取功能。只有准确擎中的搜索器却承担了另一个网络数据抓取功能。只有准确地获取、表示、存储、组织信息,同时提供便利的访问方式,地获取、表示、存储、组织信息,同时提供便利的访问方式,才能方便用户进行准确的查询。才能方便用户进行准确的查询。下一页上一页返回第
7、一节搜索引擎概述第一节搜索引擎概述需要一种方法对文档进行预处理,在文档间建立一种便于检需要一种方法对文档进行预处理,在文档间建立一种便于检索的数据结构,以此来提高信息检索的速度,这种数据结构索的数据结构,以此来提高信息检索的速度,这种数据结构就是索引。而索引器的工作就是建立一个包含关键信息的索就是索引。而索引器的工作就是建立一个包含关键信息的索引库以备查询。索引器的策略在很大程度上影响了搜索引擎引库以备查询。索引器的策略在很大程度上影响了搜索引擎的效率与准确性。的效率与准确性。检索软件负责提供用户使用搜索引擎的接口。检索软件一般检索软件负责提供用户使用搜索引擎的接口。检索软件一般是一个是一个W
8、eb应用程序,其主要工作包括获取用户制定的搜索应用程序,其主要工作包括获取用户制定的搜索规则规则;查询索引库查询索引库;计算网页搜索请求的关联度计算网页搜索请求的关联度;提供排序后的提供排序后的搜索结果返回。搜索结果返回。用户接口的作用是为用户提供可视化的查询输入和结果输出用户接口的作用是为用户提供可视化的查询输入和结果输出界面,其主要目的是方便用户使用搜索引擎获取有效信息,界面,其主要目的是方便用户使用搜索引擎获取有效信息,可以分为简单接口和复杂接口两种。可以分为简单接口和复杂接口两种。下一页上一页返回第一节搜索引擎概述第一节搜索引擎概述搜索原理搜索原理其搜索原理主要分为四个步骤其搜索原理主
9、要分为四个步骤:从网络上抓取网页,搜索引擎主动派出从网络上抓取网页,搜索引擎主动派出“蜘蛛蜘蛛”程序访问程序访问Internet,对一定,对一定IP地址范围内的互联网站或者网站拥有者主地址范围内的互联网站或者网站拥有者主动向搜索引擎提交的网址进行检索,并将搜集到的信息和网动向搜索引擎提交的网址进行检索,并将搜集到的信息和网页收集到服务器上。页收集到服务器上。建立索引数据库,由索引系统程序对收集到网页进行分析,建立索引数据库,由索引系统程序对收集到网页进行分析,提取相关网页信息提取相关网页信息(包括网页所在包括网页所在URL,编码类型、页面内容编码类型、页面内容包含的关键词、生成时间、大小、相关
10、链接关系等包含的关键词、生成时间、大小、相关链接关系等),根据一,根据一定的相关度算法进行大量复杂计算,得到每个网页针对页面定的相关度算法进行大量复杂计算,得到每个网页针对页面内容及链接中每个关键词的相关度,然后用这些相关信息建内容及链接中每个关键词的相关度,然后用这些相关信息建立网页索引数据库。立网页索引数据库。下一页上一页返回第一节搜索引擎概述第一节搜索引擎概述在索引数据库中搜索,当用户输入关键词搜索后,分解搜索在索引数据库中搜索,当用户输入关键词搜索后,分解搜索请求,由搜索系统从网页索引数据库中找到符合该关键词的请求,由搜索系统从网页索引数据库中找到符合该关键词的所有相关网页。所有相关网
11、页。对搜索结果进行处理排序,所有相关网页针对关键词的相关对搜索结果进行处理排序,所有相关网页针对关键词的相关信息在索引库中都有记录,通常根据网页中关键词的匹配程信息在索引库中都有记录,通常根据网页中关键词的匹配程度,出现的位置、频次、链接质量等计算出各网页的相关度度,出现的位置、频次、链接质量等计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。返回给用户。下一页上一页第一节搜索引擎概述第一节搜索引擎概述搜索引擎的语法规则与检索式的构建搜索引擎的语法规则与检索式的构建语法规则语法规则搜索引擎的语法规则主要包括基
12、本数学规则、限制搜索语法、搜索引擎的语法规则主要包括基本数学规则、限制搜索语法、辅助搜索语法以及布尔逻辑算符。辅助搜索语法以及布尔逻辑算符。基本数学规则基本数学规则连接符号连接符号连接符号主要有连接符号主要有(+)和减号和减号(-)。在检索词前面使用。在检索词前面使用“+”时候,表时候,表示所有检索结果的页面都必须包含该词。检索式为示所有检索结果的页面都必须包含该词。检索式为“+A+B,表示所查的该页面中应出现表示所查的该页面中应出现“A”和和“B”方面的信息。而检索方面的信息。而检索式式“A+B”则表示检索结果页面中一定含有则表示检索结果页面中一定含有+B;,但是不一定包,但是不一定包含有含
13、有“A”的信息。检索词前面使用的信息。检索词前面使用“-”,表示任何检索结果的,表示任何检索结果的页面都不能包含该词语。页面都不能包含该词语。下一页返回第一节搜索引擎概述第一节搜索引擎概述空格、逗号、括号和引号的作用空格、逗号、括号和引号的作用空格的作用与逻辑空格的作用与逻辑“与与”的作用相同。逗号的作用类似于逻的作用相同。逗号的作用类似于逻辑辑“或或”,也是查找那些至少包含一个指定关键词的页面,也是查找那些至少包含一个指定关键词的页面,区别在于检索结果输出时,包含指定关键词越多的页面,其区别在于检索结果输出时,包含指定关键词越多的页面,其排列顺序位置越靠前。括号的作用是使括号内的运算符优先排
14、列顺序位置越靠前。括号的作用是使括号内的运算符优先执行,用来改变复杂检索式中固有逻辑运算符优先级的次序。执行,用来改变复杂检索式中固有逻辑运算符优先级的次序。引号的作用是将引在其中的多个词被当作一个短语来检索。引号的作用是将引在其中的多个词被当作一个短语来检索。下一页上一页返回第一节搜索引擎概述第一节搜索引擎概述限制搜索语法限制搜索语法限制搜索语法是从不同角度限定网络搜索的功能性词语和符限制搜索语法是从不同角度限定网络搜索的功能性词语和符号,对搜索结果起到定向作用和控制作用。主要包括标题搜号,对搜索结果起到定向作用和控制作用。主要包括标题搜索索(Title Search)、网站搜索、网站搜索(
15、Site Search)、网址搜索、网址搜索(URL Search),链接搜索链接搜索(Link Search)、文件搜索、文件搜索(Fileype Search)检索式的构建检索式的构建检索式是指搜索引擎能够理解和运算的查询串,由关键词、检索式是指搜索引擎能够理解和运算的查询串,由关键词、逻辑运算符、搜索语法等构成。关键词是检索式的主体,逻逻辑运算符、搜索语法等构成。关键词是检索式的主体,逻辑运算符和搜索指令根据具体的查询内容,力求使关键词与辑运算符和搜索指令根据具体的查询内容,力求使关键词与内容描述词一致。准确选择关键词,需要对查询内容有一定内容描述词一致。准确选择关键词,需要对查询内容有
展开阅读全文