书签 分享 收藏 举报 版权申诉 / 39
上传文档赚钱

类型搜索引擎概述及技术基础课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:3703757
  • 上传时间:2022-10-06
  • 格式:PPT
  • 页数:39
  • 大小:454.39KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《搜索引擎概述及技术基础课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    搜索引擎 概述 技术 基础 课件
    资源描述:

    1、搜索引擎概述及技术基础 学习内容及学习目标学习内容及学习目标网络新闻采访的基本方法网络新闻采访的基本方法主讲主讲:搜索引擎概述搜索引擎概述 搜索技术基础搜索技术基础 搜索策略及技巧搜索策略及技巧 理解:搜索引擎的组成、工作原理、性能指标以及技术基础理解:搜索引擎的组成、工作原理、性能指标以及技术基础了解:搜索引擎的发展历史、类别以及发展趋势了解:搜索引擎的发展历史、类别以及发展趋势。学习内容学习内容学习目标学习目标主讲主讲:搜索引擎概述搜索引擎概述 搜索技术基础搜索技术基础搜索引擎概述及技术基础搜索引擎概述及技术基础主讲主讲:搜索引擎概述搜索引擎概述 伴随着互联网和超文本链接的应用,现代意义上

    2、的搜索引擎应运而生。伴随着互联网和超文本链接的应用,现代意义上的搜索引擎应运而生。搜索引擎的出现,使人们能够便利地从互联网上获取自己需要的内容。目前,搜索引擎的出现,使人们能够便利地从互联网上获取自己需要的内容。目前,搜索引擎已经成了互联网信息检索的主要工具,被称为搜索引擎已经成了互联网信息检索的主要工具,被称为“网络之门网络之门”。搜索引擎从一个默默无闻的网络工具在搜索引擎从一个默默无闻的网络工具在10多年内迅速窜升成为互联网上多年内迅速窜升成为互联网上仅次于电子邮件的第二大应用,直接诱因是互联网内容的爆炸式增长。时至仅次于电子邮件的第二大应用,直接诱因是互联网内容的爆炸式增长。时至今日,搜

    3、索引擎依然跟不上互联网信息资源的增长速度,它依然是学术界、今日,搜索引擎依然跟不上互联网信息资源的增长速度,它依然是学术界、工业界争相研究、开发的对象。工业界争相研究、开发的对象。Company L主讲主讲:搜索引擎追根溯源可以到最早的信息检索。信息检索(Information Retrieval)最早是由美国学者在1949年提出,主要以印刷文献为检索对象进行手工检索。随着1946年世界上第一台计算机的问世,计算机化的信息检索逐渐取代了手工检索的主流地位。上个世纪70年代,联机信息检索得到商业化应用而日渐流行,从此信息检索用户开始由专业人员向个人用户转移。现代意义上的搜索引擎是在1989年Wo

    4、rld Wide Web协议和超文本链接出现后产生的。1991年,XWAIS提供了一个界面友好的信息搜索系统,但是这个系统要求很特殊的文件格式。同年出现了另外一个美国明尼苏达大学信息检索系统Gopher,成为当时最为流行的检索工具。1993年,美国国家超级计算应用中心NCSA推出第一个基于HTML语言图形化的浏览器Mosaic,借此普通的用户可以轻松地使用互联网。此后,搜索引擎有了非常大的发展。按照网页库的容量、相关度计算技术、用户搜索体验以及商业模式等方面来划分,到目前为止,搜索引擎技术的发展大约经历了两代。v 搜索引擎的出现搜索引擎的出现搜索引擎的发展历史搜索引擎的发展历史搜索引擎概述搜索

    5、引擎概述Company L主讲主讲:1994年,美国网景公司推出支持HTML的浏览器Netscape,这使得HTML格式的信息在网络上迅速膨胀,从而迎来了搜索引擎的真正发展。这年春天,创建了真正意义上的互联网搜索引擎LYCOS。同年,Yahoo公司创立,它提供基于目录的信息检索服务,开辟了搜索引擎的一个新时代。第一代搜索引擎的索引网页量一般都在数百万量级左右,采用全文检索技术和分布式并行运算技术,但极少重新搜集网页并去刷新索引,而且它的检索速度较慢,一般都要等待10秒甚至更长的时间,同时承受的检索请求也受到很大限制,商业模式处于探索期并且尚未成型。v 第一代搜索引擎(第一代搜索引擎(1994年

    6、至年至1997年)年)搜索引擎的发展历史搜索引擎的发展历史搜索引擎概述搜索引擎概述Company L主讲主讲:1999年2月,Google诞生。由于Google可为世界各地的用户提供所需要的搜索结果,而且搜索时间通常不到半秒,一经推出就很受欢迎。目前互联网上的搜索引擎已经达到数千个,性能也有了很大的提高。第二代搜索引擎大多采用分布式协同处理方案,第二代搜索引擎通过链接分析和点击分析方法来计算相关度取得了巨大的成功。另外,以自然语言进行问题解答的搜索引擎在某种程度上改善了用户体验。更重要的是第二代搜索引擎奠定了目前搜索引擎普遍采用的成熟商业模式,Google、百度等均受益于此。随着互联网规模和信

    7、息量的急剧膨胀,在各搜索引擎之间出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。它本身可能并不是直接面向用户的搜索引擎,但向其他搜索引擎提供全文网页搜索服务。从这个意义上来说,它们是搜索引擎的搜索引擎。v 第二代搜索引擎(第二代搜索引擎(1998年至今)年至今)搜索引擎的发展历史搜索引擎的发展历史搜索引擎概述搜索引擎概述Company L主讲主讲:全文搜索引擎(full text search engine)是由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立网页索引数据库,由检索器根据用户输入的查询条件检索索引库,并

    8、将查询结果返回给用户。服务方式是面向网页的全文检索服务。使用这类搜索引擎时,检索者只要在检索口输入关键字,点击“搜索”即可查询。优点:节省了大量时间,获取的信息全面;缺点:信息精确性差、相关性不高。这种类型的搜索引擎国外比较著名的如英文Google、AltaVista、Lycos、Infoseek、Excite、HotBot,国内的如中文Google、百度、中搜、tom 搜索等。v 全文搜索引擎全文搜索引擎搜索引擎的分类搜索引擎的分类搜索引擎概述搜索引擎概述Company L主讲主讲:目录索引搜索引擎(search index/directory)主要以人工方式搜集信息,由编辑人员查看信息之后

    9、,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。用户完全可以不用关键词进行查询,搜索时可直接点击需要查询的信息的种类,仅靠分类目录也可找到需要的信息。优点:链接站点经人工筛选,排误率较高;缺点:人工搜集效率较低,网站管理人员需耗费大量的精力去搜集相关网络文献,而且很难彻底地搜集到相关信息,从而影响到搜集资料的全面性。这类搜索引擎国外著名的门户网站有yahoo、万维网虚拟图书馆、msn、cnn,国内著名的门户网站有中文雅虎、新浪、搜狐、网易等。v 目录索引搜索引擎目录索引搜索引擎搜索引擎的分类搜索引擎的分类搜索引擎概述搜索引擎概述Compa

    10、ny L主讲主讲:元搜索引擎(a meta search engine roundup)是一种调用其他独立搜索引擎的引擎,亦称搜索引擎之母。“元”(meta)为“总的”、“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。这些独立的搜索引擎称为“源搜索引擎”或“搜索资源”,整合、调用、控制和优化利用源搜索引擎的技术称为“元搜索技术”。元搜索技术是元搜索引擎的核心。元搜索引擎在统一的用户查询界面与信息反馈的形式下,共享多个搜索引擎的资源库为用户提供信息服务。元搜索引擎借助于其他搜索引擎进行工作,将用户的本义请示同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处

    11、理后,作为自己的结果返回给用户。v 元搜索引擎元搜索引擎搜索引擎的分类搜索引擎的分类搜索引擎概述搜索引擎概述主讲主讲:搜索引擎的性能指标搜索引擎的性能指标 经过几年的发展,搜索引擎的检索从最初的字符串匹配程序已经演进到能经过几年的发展,搜索引擎的检索从最初的字符串匹配程序已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件,衡量搜索引擎的基本指标也逐渐形成规范。件,衡量搜索引擎的基本指标也逐渐形成规范。搜索引擎概述搜索引擎概述Company L主讲主讲:查全率是系统在进行某一检索时,检索出的相关资料量

    12、与系统资料库中相关资料总量的比率。查全率的计算相对困难一些,因为这意味着对于给定查询,必须计算整个文档集合中相关文档的数目。当文档集合过大时,这种计算是不可行的。对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所有的Web网页,所以查全率很难计算。目前,查全率的概念在逐渐弱化,这是互联网信息资源在量上激增所致。v 查全率查全率搜索引擎的性能指标搜索引擎的性能指标搜索引擎概述搜索引擎概述Company L主讲主讲:查准率是系统在进行某一检索时,检索出的有用资料数量与检索出资料总量的比率,即搜索得到的信息与用户所要求的信息相关性的程度。查准率比较易于度量。对于所获取的文档集合,只要判断每一

    13、篇文档是否和给定查询相关就可以了,其计算是比较直接的。为提高搜索的准确度,大多数的英文搜索引擎都支持逻辑查询。用户可以用多个单词,加上适当的逻辑字符来缩小搜索范围,从而提高搜索结果的准确度。v 查准率查准率搜索引擎的性能指标搜索引擎的性能指标搜索引擎概述搜索引擎概述Company L主讲主讲:检索速度或者说响应时间是提高工作效率的保障,指的是从提交检索命令到查出资料结果所需的时间。最基本的检索速度是应该达到“千万汉字,秒级响应”。v 检索速度检索速度搜索引擎的性能指标搜索引擎的性能指标搜索引擎概述搜索引擎概述Company L主讲主讲:收录范围是指搜索引擎所查找的范围。造成搜索引擎覆盖面差距的

    14、原因是多方面的,如网络带宽、磁盘容量、计算能力等。当然,搜索引擎收录范围的大小仍然是衡量其功能的一个重要指标。v 收录范围收录范围搜索引擎的性能指标搜索引擎的性能指标搜索引擎概述搜索引擎概述Company L主讲主讲:普通搜索引擎总有些搜索结果是点不进去的,少到1%2%,多到8%9%,这也常被用作评测条件之一。有的搜索引擎使用了网页快照功能解决死链接问题,就算搜索结果中的那个网站已关闭,用户还是可以看到搜索引擎自己储存的网页。v 死链接死链接搜索引擎的性能指标搜索引擎的性能指标搜索引擎概述搜索引擎概述Company L主讲主讲:用户负担是指用户在检索过程中付出精力的总和,任何妨碍和延迟用户到达

    15、最终搜索结果的形式都属于用户负担的范畴。包括搜索界面的简洁、搜索结果描述、搜索结果描述显示。v 用户负担用户负担搜索引擎的性能指标搜索引擎的性能指标搜索引擎概述搜索引擎概述Company L主讲主讲:其他评价标准还有:是否支持本目录下搜索,索引数据库更新时间长短,搜索引擎的稳定性,对高级搜索的支持能力强弱等。搜索引擎的性能指标搜索引擎的性能指标搜索引擎概述搜索引擎概述主讲主讲:搜索引擎的未来发展搜索引擎的未来发展n 搜索引擎的多元化:搜索引擎的多元化:多元化即元搜索引擎。元搜索引擎属于新兴的搜索引擎,它代表着搜索引擎的未来,具有更广泛的发展空间。n 搜索引擎的专业化:搜索引擎的专业化:专业化即

    16、专业搜索引擎。如企业查询、人名查询和招聘信息查询等等。n 搜索引擎的智能化:搜索引擎的智能化:智能化即机器人搜索引擎。搜索引擎的智能化反映在两方面:一是对搜索请求的理解,能进行自动词汇拆分;二是对网页内容的分析,能进行自动搜索与标引。n 多媒体化:多媒体化:多媒体搜索引擎是随着宽带技术而发展。未来的互联网是多媒体数据的时代,开发出可查寻图像、声音、图片和电影的搜索引擎是未来一个新的方向。n 个性化:个性化:个性化搜索是要及时更新资料,实现千人千面的效果。水平搜索引擎、垂直搜索引擎。检索知识化:检索知识化是指检索结果以知识为单元的高层次信息检索。搜索引擎概述搜索引擎概述主讲主讲:搜索引擎概述搜索

    17、引擎概述 搜索技术基础搜索技术基础网络新闻采访的基本方法网络新闻采访的基本方法主讲主讲:搜索引擎的工作原理搜索引擎的工作原理 搜索引擎的工作原理可以简单表示为:搜索引擎的工作原理可以简单表示为:从互联网上抓取网页从互联网上抓取网页建立索引数据库建立索引数据库在索引数据库中搜索排序。在索引数据库中搜索排序。搜索技术基础搜索技术基础主讲主讲:搜索引擎的工作原理搜索引擎的工作原理u在互联网上抓取网页在互联网上抓取网页 搜索引擎的数据采集包括人工采集和自动采集两种方式:搜索引擎的数据采集包括人工采集和自动采集两种方式:n 人工采集是指由专门的信息人员跟踪和选取有用的人工采集是指由专门的信息人员跟踪和选

    18、取有用的WWW站点或页面站点或页面n 自动采集是通过自动采集器(如网络机器人自动采集是通过自动采集器(如网络机器人Robots、网络蜘蛛网络蜘蛛Web Spider、爬行者、爬行者Crawler 等)的软件自动跟踪并循环检索网页信息。两种方等)的软件自动跟踪并循环检索网页信息。两种方法各有利弊。法各有利弊。优点是:搜索到的数据具实时性和完整性。优点是:搜索到的数据具实时性和完整性。缺点是:自动采集的目的性差,采集到的信息混乱、无序质量较差,缺点是:自动采集的目的性差,采集到的信息混乱、无序质量较差,满足不了高要求的专业检索的需要。满足不了高要求的专业检索的需要。搜索技术基础搜索技术基础主讲主讲

    19、:搜索引擎的工作原理搜索引擎的工作原理u建立索引数据库建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关信息(包括网由分析索引系统程序对收集回来的网页进行分析,提取相关信息(包括网页所在页所在URL、编码类型、页面内容包含的关键词、关键词的位置、生成时间、编码类型、页面内容包含的关键词、关键词的位置、生成时间、大小、与其它网页链接的关系等),根据一定相关度算法进行大量复杂的计大小、与其它网页链接的关系等),根据一定相关度算法进行大量复杂的计算,得到每一个网页针对页面文字中及超链接中每一个关键词的相关度(或算,得到每一个网页针对页面文字中及超链接中每一个关键词的相关度(或重要性

    20、),然后利用这些相关信息建立网页索引数据库。重要性),然后利用这些相关信息建立网页索引数据库。搜索技术基础搜索技术基础主讲主讲:搜索引擎的工作原理搜索引擎的工作原理u在索引数据库中搜索排序在索引数据库中搜索排序 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合关键词的所有相关网页。因为所有相关网页针对该关键词的相关度在索引数关键词的所有相关网页。因为所有相关网页针对该关键词的相关度在索引数据库中早已算好,所以只需要按照现成的相关度数值排序,相关度越高,排据库中早已算好,所以只需要按照现成的相关度数值排序,相关度越高

    21、,排名越靠前。最后,由页面生成系统将结果的链接地址和页面内容摘要等内容名越靠前。最后,由页面生成系统将结果的链接地址和页面内容摘要等内容组织起来反馈给用户。组织起来反馈给用户。搜索技术基础搜索技术基础主讲主讲:搜索引擎的语法规则搜索引擎的语法规则 搜索引擎一般是通过搜索关键词来完成搜索过程的。如果想要得到最搜索引擎一般是通过搜索关键词来完成搜索过程的。如果想要得到最佳的搜索效果,就要使用搜索的基本语法来组织要搜索的条件。大多数的搜佳的搜索效果,就要使用搜索的基本语法来组织要搜索的条件。大多数的搜索引擎都支持逻辑查询,用户可以用不止一个单词,然后加上适当的逻辑字索引擎都支持逻辑查询,用户可以用不

    22、止一个单词,然后加上适当的逻辑字符来缩小搜索范围,从而显著提高搜索结果的准确度。符来缩小搜索范围,从而显著提高搜索结果的准确度。搜索技术基础搜索技术基础Company L主讲主讲:直接键入关键字,搜索引擎就把包括关键字的网站和与关键字意义相近的网站地址一起返回给用户。例如:输入“网上教学”,搜索引擎就会把“网上学习”、“远程教学”以及“网上教学”等内容的网址一起反馈给用户,因此这种查询方法往往会返回大量不需要的信息。v 直接输入关键字直接输入关键字搜索引擎的语法规则搜索引擎的语法规则搜索引擎概述搜索引擎概述Company L主讲主讲:搜索引擎中常用的操作逻辑符是:and、or、not。and表

    23、示逻辑“与”,可用符号“”表示,and操作符用于搜索包括两个以上关键词的情形,可以帮助改善并限制搜索结果。or表示逻辑“或”,可用“|”来表示。or操作符同and操作符相反,寻找用or连接的几个关键词中至少包含一个的文档。当使用or操作符时,通常返回大量的结果。not表示逻辑“非”,可用“!”来表示。使用not寻找包含not前的关键词但排除not后的关键词的文档。在使用操作符时建议最好用and、or、not而不用符号来表示,因为单词容易记忆而且对其他的搜索要求也通用。组合逻辑操作符时,还应当考虑它们的顺序规则。因为逻辑操作符优先级不同,执行时便有一定的顺序,“与”和“非”命令通常在“或”命令前

    24、执行。v 使用逻辑操作符使用逻辑操作符搜索引擎的语法规则搜索引擎的语法规则搜索引擎概述搜索引擎概述Company L主讲主讲:要求的单词:如果要求特定单词包含在索引的文档中,可以在它前面加一个“”号,并且在号和单词之间不能有空格。如:“Internet”,就会找出包含“Internet”的网站。排除的单词:如果要排除含有特定单词的文档,可以在它前面加一个“”号。如果想查找“网络病毒”而不包含“蠕虫”,应这样写:网络病毒蠕虫。通配符:进行简单查找的时候,可以在单词的末尾加一个通配符来代替任意的字母组合。通配符一般为“*”号。需要注意的一点是:输入代表逻辑关系的字符时,一定要用半角。v 使用使用“

    25、、”连接号和通配符连接号和通配符搜索引擎的语法规则搜索引擎的语法规则搜索引擎概述搜索引擎概述Company L主讲主讲:有些搜索引擎提供了near操作符,它用于寻找在一定区域范围内同时出现的检索单词的文档。这些单词可能并不相邻,间隔越小的排列位置越靠前。其彼此间距控制是:/n,n为数值,意为检索单词的间距最大不超过n个单词。v Near操作符操作符搜索引擎的语法规则搜索引擎的语法规则搜索引擎概述搜索引擎概述Company L主讲主讲:逗号的作用类似于or,也是寻找那些至少包含一个指定关键词的文档。不同的是“越多越好”是它的原则。因此查询时找到的关键词越多,文档排列的位置越靠前。括号的作用和数学

    26、中的括号相似,可以用来使括在其中的操作符先起作用。使用双引号组合关键词,可以告知搜索引擎将关键词或关键词的组合作为一个字符串在其数据库中进行搜索,即用来查询完全符合关键字串的网站。v 使用逗号、括号或引号进行词组查找使用逗号、括号或引号进行词组查找搜索引擎的语法规则搜索引擎的语法规则搜索引擎概述搜索引擎概述Company L主讲主讲:使用title:命令,可以实现主题搜索,也就是查找到在网页的主题中包含有用户所指定的字符的网页。这个命令的格式是title:xxxx,其中xxxx是用户所希望查找的关键字。一般只需要在关键字前加上“t:”即可,不需要将命令写完整,这样搜寻引擎仅会查询网站名称。不同

    27、的搜索引擎该命令的格式不尽相同。在雅虎中,用户必须用t:指令代替title:。而在搜索客中,命令格式是这样的:xxxxtitle。站点搜索使用host:xxxx命令,该命令可以查找到网站名称为xxxx的网站。一些搜索引擎提供查询URL中正文的功能。这和站点搜索功能非常相似。雅虎使用命令u:命令代替url:.链接搜索,查询与特定页面或主机有链接的所有页面。链接搜索使用link:命令。一些搜索引擎使用linkdomain:命令。对于这样一些特定的搜索,一般在搜索引擎的高级搜索页中实现。v Title命令与命令与URL搜索搜索搜索引擎的语法规则搜索引擎的语法规则搜索引擎概述搜索引擎概述Company

    28、 L主讲主讲:要完成一个有效搜索,首先应当确定要搜索的是什么,搜索目标一定要明确而清晰。(1)明确问题的内涵:确定主题,清楚什么样的信息是有用的,什么样的信息是无用的。(2)确定所需答案的数量:要知道最少需要多少信息才足够解决问题。(3)明确查找信息的范围:是要找某种特定的信息,还是某主题相关的全部信息。(4)明确自己所找信息的背景,以加深对问题的理解。(5)列出一个与搜索的信息有关的单词清单,以及一个应当排除的单词清单。这样即可以据此确定关键词,也可以帮助加深对问题的理解。v 确定清晰明确的搜索目标确定清晰明确的搜索目标搜索策略与技巧搜索策略与技巧搜索引擎概述搜索引擎概述Company L主

    29、讲主讲:一旦确定了搜索的需求,使用哪一个搜索服务完全依赖于这种需求。(1)有针对性地选择搜索引擎:用不同的搜索引擎进行查询得到的结果常常有很大的差异,这是因为它们的设计目的和发展走向存在着许多的不同。(2)尽可能缩小搜索范围:比如如果能十分肯定搜索的信息是在新闻档案中,或自己清楚地知道要搜索的是新闻中的某篇文章,但不能确定是哪一个新闻,就可以直接在新闻中搜索,而不必搜索所有网页。(3)使用多元搜索引擎:多元搜索引擎是一种只需输入一次关键词就可以对多个搜索引擎进行查询的搜索代理网站。(4)直接到信息源查找:有时词组搜索太精确或者一个词组无法准确表达所需信息,那么可以直接到信息源中查找。v 选择合

    30、适的搜索工具选择合适的搜索工具搜索策略与技巧搜索策略与技巧搜索引擎概述搜索引擎概述Company L主讲主讲:一旦确定了搜索内容,找到了最适合的搜索引擎,下一步便是如何有效地输入搜索内容。v 确定查询关键词与检索式确定查询关键词与检索式搜索策略与技巧搜索策略与技巧搜索引擎概述搜索引擎概述Company L主讲主讲:(1)选择适当的查询关键词 搜索技巧,最基本同时也是最有效的,就是选择合适的查询词。以下是三条基本原则:n 表述准确:搜索引擎会严格按照用户提交的查询词去搜索,因此,查询词表述准确是获得良好搜索结果的必要前提。n 查询词的主题关联与简练:目前的搜索引擎并不能很好地处理自然语言。因此,

    31、在提交搜索请求时,用户最好把自己的想法,提炼成简单的,而且与希望找到的信息内容主题关联的查询词。n 根据网页特征选择查询词:很多类型的网页都有某种相似的特征,经常地搜索并且总结各类网页的特征现象,并应用到查询词的选择中,就会使得搜索变得准确而高效。v 确定查询关键词与检索式确定查询关键词与检索式搜索策略与技巧搜索策略与技巧搜索引擎概述搜索引擎概述Company L主讲主讲:(2)充分利用各种检索式 检索式由关键词和搜索引擎允许使用的各种运算符组合而成,是搜索策略的具体体现。能否迅速设计出最佳检索式,取决于使用者对检索工具的了解以及对所找信息主题背景信息的了解。检索式的设计经常是一种过程,先用第

    32、一次想到的简单关键词搜索,阅读搜索结果,然后寻找更合适的关键词,设计更佳的检索式。不断重复以上步骤,在搜索过程中不断观察、总结、调整,最终获得最佳的关键词检索式。下面是关键词检索式的一些常用技巧。v 确定查询关键词与检索式确定查询关键词与检索式搜索策略与技巧搜索策略与技巧搜索引擎概述搜索引擎概述Company L主讲主讲:n 使用组合搜索关键词:要进行有效的搜索,最好输入描述所感兴趣的主题的尽可能多而且精确的词或词组。n 使用自然语言搜索:虽然多数搜索引擎对自然语言的处理并不令人满意,但用户在搜索时仍然可以适当运用自然语言。n 适当的名词首字母大写:例如用户搜索“John Bull”得到的结果

    33、可能更多是关于不列颠保护神的,而搜索“john bull”可能得到大量的西班牙斗牛场的休息室信息。n 合理使用逻辑操作符:逻辑操作符提供了一种包括或排除关键字的方法以及控制方法,合理使用逻辑操作符可以起到事半功倍的效果。n 利用选项界定查询:目前越来越多的搜索引擎开始提供更多的查询选项。v 确定查询关键词与检索式确定查询关键词与检索式搜索策略与技巧搜索策略与技巧搜索引擎概述搜索引擎概述Company L主讲主讲:用户应对检索结果进行评估,这种评估包括两个方面:n 信息准确性评估 用户点击任何一条搜索结果之前,快速地分析一下搜索结果的标题和网址,会节省大量的时间。并非所有搜索到的结果都是准确的,因此一定要分析一下摘要文字,看看是否是自己所需要的信息。n 信息可信度评估 未经评估的信息只是一串文字,不能说明任何事情,只有经过分析判断评估之后的文字,才可能成为有价值的信息。因此,用户对检索到信息的可信度必须进行认真的评估,这种可信度的判断主要凭借用户的个人经验。v 评估所找到的信息评估所找到的信息搜索策略与技巧搜索策略与技巧搜索引擎概述搜索引擎概述

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:搜索引擎概述及技术基础课件.ppt
    链接地址:https://www.163wenku.com/p-3703757.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库