信息检索的基础知识学习培训模板课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《信息检索的基础知识学习培训模板课件.ppt》由用户(林田)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 基础知识 学习 培训 模板 课件
- 资源描述:
-
1、第二节第二节 信息检索的基础知识信息检索的基础知识2.1 信息检索的概念指将信息按一定的方式组织和存储起来,并根据用户的需要检出所需信息的过程。包括信息存储和信息检索两个过程。信息存储:将大量无序的信息集中起来,根据其外表特征和内容特征,经过加工,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的工具或系统。外表特征:题名、著者、出版事项等 内容特征:分类号、主题词等 信息检索:指运用编制好的检索工具或系统,从信息集合中查找并获取与用户提问相关的信息的过程。狭义狭义信息源信息源筛选信息筛选信息概念分析概念分析概念转换成检索语言概念转换成检索语言-标引标引信息检索系统信息检索系统概念转
2、换成检索语言概念转换成检索语言-提问提问概念分析概念分析需求分析需求分析信息用户信息用户检检索索策策略略存储过程检索过程信息检索原理信息检索原理检索结果检索结果指以数值或数据为对象的检索,也称为数值检索。如:某地方2017年GDP增长情况、某种材料的电阻系数、计算公式、数据图表等。数据检索指以某一客观事实为对象的检索。如:查找某一名人、机构的基本情况;某一事件发生的时间、地点、过程等。事实检索指以文献线索或文献原文为对象的检索。如:查找哪里有关于“信息检索”的书?查找有关“图书馆资源整合”方面的文章等。文献检索2.2 信息检索的类型 根据检索对象的不同,信息检索分为:信息检索的类型文献检索与数
3、据检索、事实检索的关系文献检索:相关性检索,只检索出包含所需知识信息的文献,不直接解答用户所提出的具体问题。数据检索、事实检索:确定性检索,检索出包含在文献中的知识信息,检索结果可供用户直接利用。通常,文献检索通过二次文献来实现,是信息检索中最基本、最主要的形式。而数据与事实检索则一般是通过三次文献来完成。2.3 信息检索工具2.3.1 概述指用来存储、报道和查找各类信息线索或特定数据和事实的工具或系统。主要包括:(1)二次、三次印刷型手工检索工具 (2)面向计算机和网络的各种数据库检索系统 (3)搜索引擎等网络检索工具 2.3.2 检索工具的作用 a.报道作用:报道已经公开或发表的相关领域的
4、信息及线索。b.存储作用:将已经公开或发表的信息及线索按一定方式存储起来,供用户检索利用。c.检索作用:供读者查找信息及线索。信息检索工具2.4 二次文献的分类分类:目录、题录、文摘、索引(1)目录(Catalog):是以“本”为报道单位,它主要用于反映文献(图书、期刊等)的出版情况或收藏情况,揭示文献外部特征(题名、著者、出版事项等)的检索工具。例:馆藏目录:反映一个图书馆文献收藏情况的目录。联合目录:反映一个地区或一个系统甚至全国或世界范围的图书馆、信息服务机构文献收藏情况的一种统一目录。石家庄铁道大学图书馆馆藏目录,点石家庄铁道大学图书馆馆藏目录,点击题名可查看馆藏地址。击题名可查看馆藏
5、地址。二次文献中国高等教育文献保障系统(中国高等教育文献保障系统(Calis)联合目录,)联合目录,点击题名可查看该文献信息及收藏单位。点击题名可查看该文献信息及收藏单位。(2)题录(Title):是以“篇”为报道单位,揭示文献(期刊论文、会议论文、学位论文、图书章节等)外部特征(篇名、作者、出处等)的检索工具。中国学术期刊网络出版总库中国学术期刊网络出版总库中的部分题录信息中的部分题录信息CCC中的部分题录信息中的部分题录信息二次文献(3)文摘(Abstract):也是以“篇”作为报道单位,描述文献外部特征和内容特征的检索工具。比题录多了一个内容摘要项。中国学术期刊网络出版总库中国学术期刊网
6、络出版总库中的部分文摘信息中的部分文摘信息 SCISCI中的部分文摘信息中的部分文摘信息二次文献(4)索引(Index):是将文献中具有检索意义的事项,按照一定方式有序编排起来,供读者查检使用的一种附属性的检索工具,通常称为辅助索引,起指引作用。常用的索引类型有:分类索引、主题索引、著者索引、引文索引等。二次文献超星数字图书馆的分类索引超星数字图书馆的分类索引EI的的 主题词(受控词)索引主题词(受控词)索引EI的作者索引的作者索引SCI的某篇文章的引文索引的某篇文章的引文索引2.5 文献检索的方法(1)追溯法指以已有的文献后面所附的参考文献为线索查找相关文献的方法。向前追溯法:从一篇有价值的
7、论文出发,利用其后所附的参考文献,查找其引用了哪些文献。由近及远的回溯,越查越深,获取更多相关文献。来龙 向后追溯法:找到一篇有价值的论文后,进一步查找该论文被哪些其它文献引用过。由远及近地追寻,越查资料越新,研究也就越深入。去脉美国科学引文索引(SCI)通过揭示文献的引用与被引用关系来报道文献。文献检索方法(2)常用法:利用常规检索工具查找有关文献的方法 顺查法 按课题的起始年代,按时间顺序由远及近逐年查找。用于掌握课题研究的进展及过程,一般用于撰写研究综述。倒查法以当前时间为起点,由近及远逐年查找文献。一般用于新开课题,以便掌握最近一段时间该课题达到的水平及研究动向。抽查法根据课题所属学科
8、研究发展的某一高峰时期,抽出一个时间段,进行集中查找。文献检索方法(3)综合法(循环法或分段法)常用法+追溯法。即利用常用法检索出一批有用文献,然后利用这些文献所附的参考文献由近及远,或这些文献被引用情况由远及近地查找。如此分段交替循环进行,从而可得到大量相关文献。文献检索方法2.6 文献检索的途径指利用文献的各种特征检索标识,通过检索工具查找所需文献的过程。(1)分类途径按文献内容所属的学科类别来检索文献,使用的检索语言是分类语言。分类法体现知识的系统性,它能把同一学科的信息集中在一起。中国知网:分类号中国知网:分类号TU37混凝土结构方面的文章混凝土结构方面的文章(2)主题途径从文献内容的
9、主题概念出发,按确定的主题词来检索文献主题法打破了传统的学科分类的框框,把分散于各个学科的有关信息集中于同一主题词之下。文献检索途径EI:主题词:主题词Civil Engineering土木工程方面的文章土木工程方面的文章文献检索途径(3)题名途径书名、刊名、篇名等(4)关键词途径(5)作者途径(5)机构途径(6)引文途径从文献的引用和被引用关系查找相关文献。(7)代码途径文献号码(报告号、专利号、标准号等)(8)其他途径例:美国化学文摘中的“分子式索引”一、概述二、分类语言三、关键词语言四、主题词语言第三节第三节 检索语言检索语言 3.1 概述检索语言是根据文献信息的存储和检索的需要而创制的
10、一种人工语言,又称检索标识。信息存储:用来描述文献的内容特征和外部特征,形成检索标识。信息检索:用来描述检索提问,形成提问标识。当提问标识与检索标识完全匹配或部分匹配时,即可命中所需文献信息。检索语言 自然语言自然语言检索语言的分类检索语言的分类描述内容描述内容特征语言特征语言分类号分类号检检索索语语言言主题词(叙词)主题词(叙词)描述外表描述外表特征语言特征语言关键词关键词检索语言人工语言人工语言 分类语言分类语言 题名(书名题名(书名/刊名刊名/篇名)篇名)著者(作者)著者(作者)出版事项(出版者、出版地)出版事项(出版者、出版地)代码(标准号、专利号、报告号、代码(标准号、专利号、报告号
11、、ISBNISBN号、号、ISSNISSN号)号)3.2 分类语言检索语言按学科范畴从上至下、从总体到局部层层划分、展开,形成一种直接体现知识分类的等级制概念的标识系统。每个学科类目都用相对固定的代码作为标识分类号 每一个分类号代表一个特定的知识概念。特点:集中体现学科的系统性,反应事物的从属、派生关系,便于按学科门类进行族性检索。最常见的是体系分类语言3.2.1 体系分类语言 国内:中国图书馆分类法(简称“中图法”)中国科学院图书馆分类法(简称“科图法”)中国人民大学图书馆分类法(简称“人大法”)。国外:杜威十进分类法国际十进分类法等中国图书馆分类法是国家推荐统一使用的分类法分类语言3.2.
12、2 中图分类表的结构(1)基本部类(5个)(2)基本大类(22个)(3)简表(4)详表(5)辅助表分类语言中国图书馆分类法基本部类(5)基本大类(22)一、马、列、毛、邓A 马、列、毛泽东、邓小平理论 二、哲学 B 哲学、宗教 三、社会科学 C 社会科学总论D 政治、法律E 军事F 经济G 文化、科学、教育、体育H 语言、文字I 文学J 艺术K 历史、地理分类语言基本部类(5)基本大类(22)四、自然科学 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学 五、综合性图书 Z
13、 综合性图书 中国图书馆分类法分类语言其中“T工业技术”大类范围广泛,内容繁多,故又在该类基础上采用了双位拉丁字母标记其所属的16个二级类目。TB 一般工业技术 TD 矿业工程 TE 石油、天然气工业 TF 冶金工业 TG 金属学与金属工艺 TH 机械、仪表工业 TJ 武器工业 TK 能源与动力工程 TL 原子能技术 TM 电工技术 TN 无线电电子学、电信技术 TP 自动化技术、计算机技术 TQ 化学工业 TS 轻工业、手工业 TU 建筑科学 TV 水利工程分类语言 简表:又称为基本类目表,是分别对每个基本大类,依据它的某些属性,作进一步划分后而形成的二、三级类目表。如:O 数理科学和化学
14、一度划分:O1数学 O3力学 O4物理学 O6化学 O7晶体学分类语言O1 数学,二度划分:O11古典数学O12初等数学O13高等数学O14数理逻辑、数学基础O15代数、数论、组合理论O17数学分析O18几何、拓扑O19动力系统理论分类语言 详表:整个分类法的正文,亦称正表,由简表进一步细分而成的最小概念性分类表,是类分信息资料的依据,两万个。O17 数学分析 O171分析基础 O172微积分 O172.1微分学 O172.2 积分学分类语言 中国图书馆分类法中国图书馆分类法 比如:比如:房屋建筑工程房屋建筑工程索书号:索书号:TU22/61=分类号分类号TU22+种次种次号号61TU22/6
15、1T:工业技术:工业技术TU:建筑科学:建筑科学TU2:建筑设计:建筑设计TU22:房屋构造设计:房屋构造设计61:种次号,即属于本馆房屋构造设计类第:种次号,即属于本馆房屋构造设计类第61种种图书图书分类语言3.2.3 杜威十进分类法(DDC)世界上流传最广影响最大的分类法 在美国有95的公共图书馆在使用分类语言DDC第21版的类目共有10大类 000 计算机、信息与总类 100 哲学和心理学 200 宗教 300 社会科学 400 语言 500 科学(指自然科学)600 技术应用科学 700 艺术和娱乐 800 文学 900 历史、地理分类语言3.3 主题词语言 定义:国外称叙词,是以概念
16、为基础,经过严格规范化,通过概念组配方式表达文献主题的规范化的词或词组。属于人工语言,经规范化处理。(由文献加工者提取)如:电脑、微机(不规范词)计算机(规范词)。l受主题词表(叙词表)控制l优点:检索结果准确而全面l缺点:需要查阅主题词表 常用INSPEC的词表INSPEC Thesaurus、EI的EI Thesaurus及我国编辑出版的汉语主题词表等。主题词语言从文献的题名和内容中抽取出来的,能够表达主题内容的具有检索意义的关键性词汇。属于自然语言,未经过规范处理。(由文献作者提取)没有固定词表,标引文献时根据文献内容选择恰当的词汇进行组配,以表达文献的内容特征。优点:一是有利于计算机自
17、动抽词标引,适合于电子信息资源的标引和检索。二是符合习惯、容易接受。3.4 关键词语言关键词语言 缺点:查全率、准确率较差。同义词标引引起漏检;多义词标引引起误检 例:同义词,飞机:Airplane、Aircraft、Planes 多义词,cell:电池、细胞关键词语言主题词是经过人工规范的词汇关键词是没有经过规范的自然语言词汇如:图书馆在标引“土豆”、“洋芋”等方面的文献时用“马铃薯”这一规范词。主顾、顾客、购物者、消费者、使用者、读者等用“用户”这一规范词来表达。主题词可以很好地避免漏检,提高检全率。主题词与关键词的区别 分类法与主题法的区别 分类法以学科性质类分文献,它以学科集中文献,属
18、于族性检索,可能造成事物主题文献的分散。主题法以主题词概括文献内容,以事物主题集中文献,属于特性检索,它可能造成学科文献的分散。例如:地下工程系统分析与设计这本书进行标引 分类标引:考虑本文主题内容所属学科及隶属关系:“工业技术建筑科学地下建筑”,相应分类号TU92。主题标引:不需考虑其所属学科专业,直接用描述内容主题词“地下工程“、”系统分析”标引即可。第四节第四节 计算机检索技术计算机检索技术一、计算机检索系统二、检索提问式三、计算机检索步骤 依检索手段,信息检索分为:手工检索:使用印刷型(书本式)的检索工具 计算机检索:运用计算机技术、网络通信技术,通过数据库系统实现检索。检索手段 信息
展开阅读全文