信息管理学基础-第6章-信息检索课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《信息管理学基础-第6章-信息检索课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 管理学 基础 检索 课件
- 资源描述:
-
1、信息检索主讲人:孙祥主讲人:孙祥 经济信息管理教研室经济信息管理教研室Page 2第六章第六章 信息检索信息检索l信息检索的基本概念与原理信息检索的基本概念与原理l信息检索的发展历程信息检索的发展历程l信息检索的技术与方法信息检索的技术与方法l信息检索的步骤与策略信息检索的步骤与策略l网络信息检索网络信息检索Page 3l内容提要内容提要 本章介绍了信息检索的基本概念和原理,并以信息技术发展为主线,梳理了信息检索的发展历程及阶段,讨论了信息检索的步骤和策略的制定,以及信息检索语言和信息检索效率评价,同时介绍了网络信息检索的特点及网络检索工具。第六章第六章 信息检索信息检索Page 4l学习重点
2、学习重点 掌握信息检索的基本概念和原理,掌握信息检索的步骤和策略,熟悉信息检索的发展历程和网络信息检索的特点。第六章第六章 信息检索信息检索56.1 信息检索的基本概念和原理6.1.1 信息检索的含义 为什么要学习信息检索,掌握信息检索工具的使用?可以充分发挥人类知识宝库的作用,有利于开发智力资源;协助有关人员选择正确的科技策略,提高效率、减少人力或投资方面的浪费;可以节省科技人员的宝贵时间;促进专业学习。信息检索的基本概念和原理信息检索的基本概念和原理6信息检索的概念(广义)将信息按一定的方式组织和存储起来,并根据用户的需要检出所需信息的过程。(狭义,单从信息用户的角度)从已存储的信息资源中
3、找出与用户提问相关的文献、知识、事实、数据的逻辑运算和技术操作过程。信息检索的基本概念和原理信息检索的基本概念和原理7信息检索的本质 匹配,将用户提问与信息集合中的数据进行比较和选择的结果。信息检索的基本概念和原理信息检索的基本概念和原理 提问(检索)语言 文献标识 语言匹配匹配8信息检索的基本特征u有确定的目标;u有一个可能的信息解的集合;u有一定的线索可依;u搜索的过程是针对一定的目标、遵循一定的线索、不断缩小搜索范围的求解过程。信息检索的基本概念和原理信息检索的基本概念和原理9信息检索的两个子系统信息检索的基本概念和原理信息检索的基本概念和原理106.1.2 信息检索的分类 按照内容划分
4、u文献检索 (Document Retrieval)u数据检索 (Data Retrieval)u事实检索 (Fact Retrieval)信息检索的基本概念和原理信息检索的基本概念和原理11文献检索 文献检索是以文献为检索对象的一种检索,凡是查找某一主题、某一学科、某一著者的有关文献均属于文献检索的范畴。文献检索是相关性检索,即检索系统不直接解答用户所提出的技术问题本身,只提供与之相关的文献供用户参考。如:查找经济信息处理流程方面的相关论文.信息检索的基本概念和原理信息检索的基本概念和原理12注意:信息检索(Information Retrieval)与文献检索(Document Retri
5、eval)是两个不同的概念,文献检索是信息检索的一种最基本的、最主要的形式。信息检索的基本概念和原理信息检索的基本概念和原理13数据检索(Data Retrieval):是以数据为检索对象,从已收藏数据资料中查找出特定数据的过程。数据检索是一种确定性检索,系统要直接回答用户提出的问题,即直接提供用户所需要的确切的数据。如:某种材料的电阻;某变压器的参数;化学分子式、数据图表等。信息检索的基本概念和原理信息检索的基本概念和原理14事实检索(Fact Retrieval)事实检索即通过对信息集合中已有的基本事实或数据进行处理(逻辑推理),然后得出新的(即未直接存入信息集合中的)事实的过程。如:某产
6、品是哪个厂家生产,第一颗人造卫星是什么时候升空的,按高考分数划分,每个段的新生有多少人?信息检索的基本概念和原理信息检索的基本概念和原理15l 数据和事实检索是要检索出包含在文献中的具体情报;l 文献检索则是要检索出包含所需情报的文献。信息检索的基本概念和原理信息检索的基本概念和原理16按照信息的组织方式划分全文检索多媒体检索超媒体检索依信息存储与检索方式划分手工检索计算机检索信息检索的基本概念和原理信息检索的基本概念和原理17信息检索的特性信息检索的相关性 相关性表明用户是否认为一文献与一提问吻合。信息检索的不确定性 标引的不确定性是指不同标引员在给同一篇信息对象进行标引时会选用不同的标引词
7、,即标引词选用的不一致性。检索词选用的不确定性是指候选检索词集不止一个,检索过程具有试探性。信息检索的逻辑性 检索语言、检索策略(处理信息检索提问的逻辑与查找步骤的科学安排)信息检索的基本概念和原理信息检索的基本概念和原理186.1.3 信息检索的基本原理 对信息资源集合与信息需求集合的匹配和选择。一方面是用户的信息需求,一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出相关的信息。匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。信息检索的基本概念和原理信息检索的基本概
8、念和原理196.1.4 信息检索的模型布尔逻辑检索模型向量空间检索模型概率检索模型模糊检索模型信息检索的基本概念和原理信息检索的基本概念和原理20信息检索的模型 信息检索的模型,就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实际检验,反过来指导信息检索实践。信息检索的基本概念和原理信息检索的基本概念和原理21信息检索模型的组成 (1)用户的需求表示:用户查询的获取与表示。(2)文档的表示:文档内容的识别与表示。(3)匹配机制:用户需求表示与文档表示之间的查询机制,以及它们之间相关性排序的准则和函数表示。(4)反馈修正:对
9、检索结果进行优化。信息检索的基本概念和原理信息检索的基本概念和原理22布尔检索(精确匹配检索)假设检索到的集合中,所有文档关于相关性都是等价的,也假设了相关性是二元的。对于检索评价有2种输出结果:TRUE and FALSE 查询项被描述为布尔逻辑操作符 AND,OR,NOT例 一个文档当且仅当它能够满足布尔查询式时,才将其检索出来信息检索的基本概念和原理信息检索的基本概念和原理23小例子简单查询项为“林肯”,会返回大量包含林肯汽车和林肯总统的文档。不管“林肯”这个词出现多少次,也不管上下文,所有这些文档根据布尔检索模型的排序性质都是等价的。查询项“总统AND林肯”,会返回一组同时包含这两个查
10、询词的文档查询项“总统AND林肯AND Not(汽车OR轿车)”,会去除包含“汽车OR轿车”的文档信息检索的基本概念和原理信息检索的基本概念和原理24优点简单、易于理解;能处理结构化查询,易于表示同义关系和词组;速度快。缺点严格,使用的限制性强;结果不易控制;难以进行定量比较;无法满足特殊查询。信息检索的基本概念和原理信息检索的基本概念和原理25向量空间模型 相比于布尔模型要求的准确匹配,Salton在60年代末提出的向量空间模型采用了“部分匹配”的检索策略(即:出现部分索引词也可以出现在检索结果中);这个模型对于查询与文档的相关度有较强的可计算性和可操作性,并且被广泛应用于文本检索、自动文摘
11、、关键词自动提取、文本分类等方面。信息检索的基本概念和原理信息检索的基本概念和原理26优点使得对查询向量中关键词权重的赋值成为可能;可根据相似度大小对查询结果进行排序并控制输出数量;相比布尔模型要求的准确匹配,VSM模型采用“部分匹配”检索策略。实验表明:向量空间模型比布尔模型检索效果更好。信息检索的基本概念和原理信息检索的基本概念和原理27缺点在模型中,特征项被假设为相互独立,而实际上一个文档中的特征项之间可能存着一定的联系;不能像布尔模型一样支持布尔结构化查询;基于向量空间模型的检索系统较基于布尔模型的检索系统而言,要复杂得多,在大型商业检索系统中使用较少。信息检索的基本概念和原理信息检索
12、的基本概念和原理28概率模型概率排序原则-Robertson(1977)如果一个参考检索排序系统对每个查询的反馈都是数据集中所有文档根据和用户查询的相关性概率值降序排序的结果并且其中的概率值都被尽可能精确地估计出来那么该系统对于用户的整体效果就是基于这些数据能够获得的最好结果给定一个新的文档,搜索引擎的任务是判定这个文档是否属于相关文档集合或者非相关集合。也就是说,系统应该判断文档是相关的还是非相关的,如果相关就返回文档。信息检索的基本概念和原理信息检索的基本概念和原理29优点 文档可以按照他们相关概率递减的顺序来排序。缺点开始时需要猜想把文档分为相关和不相关的两个集合,一般来说很难实际上这种
13、模型没有考虑索引术语在文档中的频率(因为所有的权重都是二值的)假设索引词独立信息检索的基本概念和原理信息检索的基本概念和原理306.2 信息检索的发展历程手工信息检索阶段 机械信息检索阶段 计算机信息检索阶段网络信息检索阶段信息检索的发展历程信息检索的发展历程316.2.1 手工信息检索阶段 信息检索起源于参考咨询工作,参考咨询工作产生的标志是1876年召开的美国图书馆协会第一届大会。1883年,波士顿公共图书馆首次设置了专职参考馆员和参考阅览室;20世纪初,多数图书馆成立了参考咨询部门,主要利用图书馆的书目工具来帮助读者查找图书、期刊或现成答案。逐渐发展到从多种文献源中查找、分析、评价和重新
14、组织信息;“索引”突破了以前的狭隘范畴,成为独立的检索工具;信息检索的发展历程信息检索的发展历程32 40年代进一步包括回答事实性咨询,编制书目、文摘,进行专题文献检索,提供文献代译等。“信息检索”从此成为一项独立的用户服务工作,并逐渐从单纯的经验工作向专业化方向发展。信息检索的发展历程信息检索的发展历程336.2.2 机械信息检索阶段机械信息检索两种基本类型机电信息检索系统光电信息检索系统 机械信息检索并没有发展信息检索语言,只是采用单一的方法对固定的存贮形式进行检索,而且过分依赖于设备,检索复杂,成本较高,检索效率和质量都不理想。信息检索的发展历程信息检索的发展历程346.2.3 计算机信
15、息检索阶段 1971年以前建立的信息检索系统,是传统的批处理检索方式。1971年以后,产生并发展的联机信息检索系统,如OCLC、Dialog在线数据库联机检索系统。信息检索的发展历程信息检索的发展历程356.2.4 网络信息检索阶段 20世纪90年代以来,产生并发展的网络信息检索阶段。信息检索的发展历程信息检索的发展历程366.3 信息检索的技术与方法信息检索技术两个发展方向:传统信息检索向全文文本、多媒体、多载体等新型信息检索的发展,在深度上提高管理和组织信息的能力;信息资源的网络化和分布化,面向互联网中海量的信息资源,在广度上提高管理和组织的能力。信息检索的技术与方法信息检索的技术与方法3
16、76.3 信息检索的技术与方法从检索手段看,信息检索分为:手工信息检索机械信息检索计算机信息检索网络信息检索信息检索的技术与方法信息检索的技术与方法386.3.1手工信息检索的技术与方法手工信息检索工具主要是各种类型的工具书。工具书是根据一定的需要,比较完备地汇集某一方面的资料,并按特定的方法加以编排,专供读者查考检索有关知识、资料、事实的书籍。据工具书的体例和功能,可分为检索型工具书、参考性工具书、词语性工具书、表谱性工具书、图录性工具书和边缘性工具书6种类型。信息检索的技术与方法信息检索的技术与方法39手工信息检索工具目录:它是图书、期刊等单位出版物外表特征的揭示和报道,它以一个完整的出版
17、或收藏单位为著录的基本单位,多按类或题名编排,强调有具体的收藏单位。是以某一“种”文献为一个记录款目。包括:国家书目、出版社目录、馆藏目录、专题目录、联合目录等。信息检索的技术与方法信息检索的技术与方法40索引:是对一组文献集合有系统的指引。一般只起指引特定信息内容及其存储地址的作用。是检索工具的辅助工具。它对文献的外表特征和内容特征用各种检索标识符(字母、数字、汉字等)进行描述,并将它们按一定的规则及排列方式组织起来,然后用文摘号来注明它在文献信息集合中的位。信息检索的技术与方法信息检索的技术与方法41文摘 它也是以“篇”为著录单元,但却是在对文献外部特征进行著录的基础上,还将文献的内容加以
18、浓缩,以最精炼最概括的文字报道文献的主题、方法和结论,并将这些外部特征和内容摘要的记录按一定顺序排列起来所形成的一种文献检索工具。它是检索工具的主体,二次文献的核心。信息检索的技术与方法信息检索的技术与方法42文摘按其目的和用途可分为:指示性文摘 这是旨在把原文的主题范围、目的和方法概括的指示给读者的一种文摘,帮助读者判断原文是否与自己相关以及是否需要阅读原文。字数一般限制在几十个字(中文50100个字,外文3050个词),也有人将其称为简介或简介性文摘。阅读指示性文摘不能代表原文。信息检索的技术与方法信息检索的技术与方法43l 报道性文摘 又称叙述性文摘,它是用来概括原文的内容要点,向读者提
展开阅读全文