搜索引擎概述及技术基础课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《搜索引擎概述及技术基础课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搜索引擎 概述 技术 基础 课件
- 资源描述:
-
1、搜索引擎概述及技术基础 学习内容及学习目标学习内容及学习目标网络新闻采访的基本方法网络新闻采访的基本方法主讲主讲:搜索引擎概述搜索引擎概述 搜索技术基础搜索技术基础 搜索策略及技巧搜索策略及技巧 理解:搜索引擎的组成、工作原理、性能指标以及技术基础理解:搜索引擎的组成、工作原理、性能指标以及技术基础了解:搜索引擎的发展历史、类别以及发展趋势了解:搜索引擎的发展历史、类别以及发展趋势。学习内容学习内容学习目标学习目标主讲主讲:搜索引擎概述搜索引擎概述 搜索技术基础搜索技术基础搜索引擎概述及技术基础搜索引擎概述及技术基础主讲主讲:搜索引擎概述搜索引擎概述 伴随着互联网和超文本链接的应用,现代意义上
2、的搜索引擎应运而生。伴随着互联网和超文本链接的应用,现代意义上的搜索引擎应运而生。搜索引擎的出现,使人们能够便利地从互联网上获取自己需要的内容。目前,搜索引擎的出现,使人们能够便利地从互联网上获取自己需要的内容。目前,搜索引擎已经成了互联网信息检索的主要工具,被称为搜索引擎已经成了互联网信息检索的主要工具,被称为“网络之门网络之门”。搜索引擎从一个默默无闻的网络工具在搜索引擎从一个默默无闻的网络工具在10多年内迅速窜升成为互联网上多年内迅速窜升成为互联网上仅次于电子邮件的第二大应用,直接诱因是互联网内容的爆炸式增长。时至仅次于电子邮件的第二大应用,直接诱因是互联网内容的爆炸式增长。时至今日,搜
3、索引擎依然跟不上互联网信息资源的增长速度,它依然是学术界、今日,搜索引擎依然跟不上互联网信息资源的增长速度,它依然是学术界、工业界争相研究、开发的对象。工业界争相研究、开发的对象。Company L主讲主讲:搜索引擎追根溯源可以到最早的信息检索。信息检索(Information Retrieval)最早是由美国学者在1949年提出,主要以印刷文献为检索对象进行手工检索。随着1946年世界上第一台计算机的问世,计算机化的信息检索逐渐取代了手工检索的主流地位。上个世纪70年代,联机信息检索得到商业化应用而日渐流行,从此信息检索用户开始由专业人员向个人用户转移。现代意义上的搜索引擎是在1989年Wo
4、rld Wide Web协议和超文本链接出现后产生的。1991年,XWAIS提供了一个界面友好的信息搜索系统,但是这个系统要求很特殊的文件格式。同年出现了另外一个美国明尼苏达大学信息检索系统Gopher,成为当时最为流行的检索工具。1993年,美国国家超级计算应用中心NCSA推出第一个基于HTML语言图形化的浏览器Mosaic,借此普通的用户可以轻松地使用互联网。此后,搜索引擎有了非常大的发展。按照网页库的容量、相关度计算技术、用户搜索体验以及商业模式等方面来划分,到目前为止,搜索引擎技术的发展大约经历了两代。v 搜索引擎的出现搜索引擎的出现搜索引擎的发展历史搜索引擎的发展历史搜索引擎概述搜索
5、引擎概述Company L主讲主讲:1994年,美国网景公司推出支持HTML的浏览器Netscape,这使得HTML格式的信息在网络上迅速膨胀,从而迎来了搜索引擎的真正发展。这年春天,创建了真正意义上的互联网搜索引擎LYCOS。同年,Yahoo公司创立,它提供基于目录的信息检索服务,开辟了搜索引擎的一个新时代。第一代搜索引擎的索引网页量一般都在数百万量级左右,采用全文检索技术和分布式并行运算技术,但极少重新搜集网页并去刷新索引,而且它的检索速度较慢,一般都要等待10秒甚至更长的时间,同时承受的检索请求也受到很大限制,商业模式处于探索期并且尚未成型。v 第一代搜索引擎(第一代搜索引擎(1994年
6、至年至1997年)年)搜索引擎的发展历史搜索引擎的发展历史搜索引擎概述搜索引擎概述Company L主讲主讲:1999年2月,Google诞生。由于Google可为世界各地的用户提供所需要的搜索结果,而且搜索时间通常不到半秒,一经推出就很受欢迎。目前互联网上的搜索引擎已经达到数千个,性能也有了很大的提高。第二代搜索引擎大多采用分布式协同处理方案,第二代搜索引擎通过链接分析和点击分析方法来计算相关度取得了巨大的成功。另外,以自然语言进行问题解答的搜索引擎在某种程度上改善了用户体验。更重要的是第二代搜索引擎奠定了目前搜索引擎普遍采用的成熟商业模式,Google、百度等均受益于此。随着互联网规模和信
7、息量的急剧膨胀,在各搜索引擎之间出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。它本身可能并不是直接面向用户的搜索引擎,但向其他搜索引擎提供全文网页搜索服务。从这个意义上来说,它们是搜索引擎的搜索引擎。v 第二代搜索引擎(第二代搜索引擎(1998年至今)年至今)搜索引擎的发展历史搜索引擎的发展历史搜索引擎概述搜索引擎概述Company L主讲主讲:全文搜索引擎(full text search engine)是由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立网页索引数据库,由检索器根据用户输入的查询条件检索索引库,并
8、将查询结果返回给用户。服务方式是面向网页的全文检索服务。使用这类搜索引擎时,检索者只要在检索口输入关键字,点击“搜索”即可查询。优点:节省了大量时间,获取的信息全面;缺点:信息精确性差、相关性不高。这种类型的搜索引擎国外比较著名的如英文Google、AltaVista、Lycos、Infoseek、Excite、HotBot,国内的如中文Google、百度、中搜、tom 搜索等。v 全文搜索引擎全文搜索引擎搜索引擎的分类搜索引擎的分类搜索引擎概述搜索引擎概述Company L主讲主讲:目录索引搜索引擎(search index/directory)主要以人工方式搜集信息,由编辑人员查看信息之后
9、,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。用户完全可以不用关键词进行查询,搜索时可直接点击需要查询的信息的种类,仅靠分类目录也可找到需要的信息。优点:链接站点经人工筛选,排误率较高;缺点:人工搜集效率较低,网站管理人员需耗费大量的精力去搜集相关网络文献,而且很难彻底地搜集到相关信息,从而影响到搜集资料的全面性。这类搜索引擎国外著名的门户网站有yahoo、万维网虚拟图书馆、msn、cnn,国内著名的门户网站有中文雅虎、新浪、搜狐、网易等。v 目录索引搜索引擎目录索引搜索引擎搜索引擎的分类搜索引擎的分类搜索引擎概述搜索引擎概述Compa
10、ny L主讲主讲:元搜索引擎(a meta search engine roundup)是一种调用其他独立搜索引擎的引擎,亦称搜索引擎之母。“元”(meta)为“总的”、“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。这些独立的搜索引擎称为“源搜索引擎”或“搜索资源”,整合、调用、控制和优化利用源搜索引擎的技术称为“元搜索技术”。元搜索技术是元搜索引擎的核心。元搜索引擎在统一的用户查询界面与信息反馈的形式下,共享多个搜索引擎的资源库为用户提供信息服务。元搜索引擎借助于其他搜索引擎进行工作,将用户的本义请示同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处
11、理后,作为自己的结果返回给用户。v 元搜索引擎元搜索引擎搜索引擎的分类搜索引擎的分类搜索引擎概述搜索引擎概述主讲主讲:搜索引擎的性能指标搜索引擎的性能指标 经过几年的发展,搜索引擎的检索从最初的字符串匹配程序已经演进到能经过几年的发展,搜索引擎的检索从最初的字符串匹配程序已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件,衡量搜索引擎的基本指标也逐渐形成规范。件,衡量搜索引擎的基本指标也逐渐形成规范。搜索引擎概述搜索引擎概述Company L主讲主讲:查全率是系统在进行某一检索时,检索出的相关资料量
12、与系统资料库中相关资料总量的比率。查全率的计算相对困难一些,因为这意味着对于给定查询,必须计算整个文档集合中相关文档的数目。当文档集合过大时,这种计算是不可行的。对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所有的Web网页,所以查全率很难计算。目前,查全率的概念在逐渐弱化,这是互联网信息资源在量上激增所致。v 查全率查全率搜索引擎的性能指标搜索引擎的性能指标搜索引擎概述搜索引擎概述Company L主讲主讲:查准率是系统在进行某一检索时,检索出的有用资料数量与检索出资料总量的比率,即搜索得到的信息与用户所要求的信息相关性的程度。查准率比较易于度量。对于所获取的文档集合,只要判断每一
13、篇文档是否和给定查询相关就可以了,其计算是比较直接的。为提高搜索的准确度,大多数的英文搜索引擎都支持逻辑查询。用户可以用多个单词,加上适当的逻辑字符来缩小搜索范围,从而提高搜索结果的准确度。v 查准率查准率搜索引擎的性能指标搜索引擎的性能指标搜索引擎概述搜索引擎概述Company L主讲主讲:检索速度或者说响应时间是提高工作效率的保障,指的是从提交检索命令到查出资料结果所需的时间。最基本的检索速度是应该达到“千万汉字,秒级响应”。v 检索速度检索速度搜索引擎的性能指标搜索引擎的性能指标搜索引擎概述搜索引擎概述Company L主讲主讲:收录范围是指搜索引擎所查找的范围。造成搜索引擎覆盖面差距的
14、原因是多方面的,如网络带宽、磁盘容量、计算能力等。当然,搜索引擎收录范围的大小仍然是衡量其功能的一个重要指标。v 收录范围收录范围搜索引擎的性能指标搜索引擎的性能指标搜索引擎概述搜索引擎概述Company L主讲主讲:普通搜索引擎总有些搜索结果是点不进去的,少到1%2%,多到8%9%,这也常被用作评测条件之一。有的搜索引擎使用了网页快照功能解决死链接问题,就算搜索结果中的那个网站已关闭,用户还是可以看到搜索引擎自己储存的网页。v 死链接死链接搜索引擎的性能指标搜索引擎的性能指标搜索引擎概述搜索引擎概述Company L主讲主讲:用户负担是指用户在检索过程中付出精力的总和,任何妨碍和延迟用户到达
15、最终搜索结果的形式都属于用户负担的范畴。包括搜索界面的简洁、搜索结果描述、搜索结果描述显示。v 用户负担用户负担搜索引擎的性能指标搜索引擎的性能指标搜索引擎概述搜索引擎概述Company L主讲主讲:其他评价标准还有:是否支持本目录下搜索,索引数据库更新时间长短,搜索引擎的稳定性,对高级搜索的支持能力强弱等。搜索引擎的性能指标搜索引擎的性能指标搜索引擎概述搜索引擎概述主讲主讲:搜索引擎的未来发展搜索引擎的未来发展n 搜索引擎的多元化:搜索引擎的多元化:多元化即元搜索引擎。元搜索引擎属于新兴的搜索引擎,它代表着搜索引擎的未来,具有更广泛的发展空间。n 搜索引擎的专业化:搜索引擎的专业化:专业化即
16、专业搜索引擎。如企业查询、人名查询和招聘信息查询等等。n 搜索引擎的智能化:搜索引擎的智能化:智能化即机器人搜索引擎。搜索引擎的智能化反映在两方面:一是对搜索请求的理解,能进行自动词汇拆分;二是对网页内容的分析,能进行自动搜索与标引。n 多媒体化:多媒体化:多媒体搜索引擎是随着宽带技术而发展。未来的互联网是多媒体数据的时代,开发出可查寻图像、声音、图片和电影的搜索引擎是未来一个新的方向。n 个性化:个性化:个性化搜索是要及时更新资料,实现千人千面的效果。水平搜索引擎、垂直搜索引擎。检索知识化:检索知识化是指检索结果以知识为单元的高层次信息检索。搜索引擎概述搜索引擎概述主讲主讲:搜索引擎概述搜索
展开阅读全文