第2章-计算机信息检索技术课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第2章-计算机信息检索技术课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机信息 检索 技术 课件
- 资源描述:
-
1、12022-12-14第1节 计算机检索概述第2节 计算机信息检索系统组成第3节 计算机信息检索的分类第4节 计算机信息检索技术第5节 信息检索的方法*第6节 信息检索的策略*22022-12-141.1 1.1 国内外计算机信息检索发展阶段国内外计算机信息检索发展阶段1975年,从国外引进数据库开展机检服务;1980年,建立国际联机终端开展检索服务;20世纪80年代中后期,自建数据库;90年代初,发展光盘检索;90年代中期,Internet网络化检索阶段。32022-12-14国外计算机信息检索发展阶段国外计算机信息检索发展阶段(P5)(P5)脱机检索阶段(20世纪50-60年代)联机检索阶
2、段(20世纪60-80年代)光盘检索阶段(20世纪80年代中-90年代)网络信息检索阶段(2019-)42022-12-141.2 计算机信息检索的定义计算机信息检索的定义n计算机信息检索的实质就是计算机信息检索的实质就是由计算机将由计算机将输入输入的的检索策略检索策略与与系统中系统中存储存储的的文献特征标识文献特征标识及其及其逻辑组配关系逻辑组配关系进行进行类比、类比、匹配匹配的过程,需要的过程,需要人人机协同作用机协同作用来完成。来完成。n信息存贮信息存贮是将文献、数值、事实等按一定的格式输入到计是将文献、数值、事实等按一定的格式输入到计算机中,加工处理成可供检索的数据库。算机中,加工处理
3、成可供检索的数据库。n信息检索信息检索是将检索提问式按一定的要求输入计算机中,经是将检索提问式按一定的要求输入计算机中,经计算机系统与已存贮在计算机中的数据库进行匹配运算,计算机系统与已存贮在计算机中的数据库进行匹配运算,然后将符合检索提问的数据按要求的格式输出。然后将符合检索提问的数据按要求的格式输出。1.3 1.3 计算机信息检索特点计算机信息检索特点n检索速度快,效益高;n检索功能强,数量大;n检索途径多,手段灵活;n检索范围广;n服务方式多。62022-12-141.4 1.4 计算机信息检索的原理计算机信息检索的原理(P8-11)(P8-11)信息存储信息存储 原始信息原始信息 信息
4、主题信息主题 数据库记录及数据库记录及 信息特征标识信息特征标识 信息检索信息检索 信息需求信息需求 检索主题检索主题 检索提问式及检索提问式及 提问标识提问标识 计算机计算机 检索结果检索结果 主题主题分析分析著录著录标引标引类比类比输出输出主题主题分析分析选定选定编制编制检索语言(主题词表)检索语言(主题词表)72022-12-14信息存储过程信息存储过程n信息存储信息存储就是按照一定标准,将收集就是按照一定标准,将收集到的原始文献进行到的原始文献进行主题概念分析主题概念分析,用,用系统系统规定规定的的语言语言(主题词主题词、分类号分类号)进行进行标引标引,形成信息的,形成信息的特征标识特
5、征标识,进,进行整理与排序,构成可供检索的数据行整理与排序,构成可供检索的数据库,库,主要包括:主要包括:信息的采集、著录、信息的采集、著录、标引和整序等过程标引和整序等过程。82022-12-14信息的著录信息的著录n对所收集的原始信息的对所收集的原始信息的外表特征外表特征(如(如题名题名、著者著者、文献、文献出处出处等)和等)和内容特征内容特征(如(如分类分类号号、主题词主题词、摘要摘要等)进行描述,形成一等)进行描述,形成一条条款目或记录的过程。条条款目或记录的过程。n在数据库中,其外表特征和内容特征通常在数据库中,其外表特征和内容特征通常称之为称之为字段字段,一条记录由若干个不同字段,
6、一条记录由若干个不同字段构成。构成。92022-12-14信息的标引信息的标引n标引:标引:根据一定的规则和程序(根据一定的规则和程序(主题词典或词主题词典或词表表),对文献的主题内容进行分析),对文献的主题内容进行分析,给予每篇文,给予每篇文献献主题词主题词、关键词关键词作为作为存储存储和和检索标识检索标识;或者根;或者根据文献的学科归属,采用某种文献资料分类法,据文献的学科归属,采用某种文献资料分类法,给予给予分类号分类号作为作为检索标识检索标识。102022-12-14信息检索过程信息检索过程n用户用户对检索课题加以分析对检索课题加以分析,明确检索范围,明确检索范围,弄清弄清主题主题概念
7、概念,然后用系统检索语言来,然后用系统检索语言来表示表示主题概念主题概念,形成形成检检索标识索标识及及检索策略检索策略,输入到计算机输入到计算机进行检索进行检索。计算机。计算机按照用户的要求将检索策略按照用户的要求将检索策略转换转换成一系列成一系列提问提问,在专,在专用程序的控制下进行用程序的控制下进行逻辑运算逻辑运算,选出符合要求的,选出符合要求的信息信息输出输出。n计算机检索的过程实际上是一个计算机检索的过程实际上是一个比较、匹配的过程比较、匹配的过程,检索提问只要与数据库中的信息的特征标识及其逻辑检索提问只要与数据库中的信息的特征标识及其逻辑组配组配关系相一致关系相一致,则属,则属“命中
8、命中”,即找到了符合要求,即找到了符合要求的信息。的信息。2 计算机信息检索信息检索系统组成2.1 2.1 系统设备系统设备硬件:硬件:运算器、控制器、存储器、输入输出装置等软件:软件:系统操作程序、数据库管理程序、联机控制程序、应用程序等。通讯线路:通讯线路:电话通讯网、数据通讯网、卫星通讯网等。检索终端:检索终端:信息用户与检索系统主机进行人机对话,实现联机检索的设备。包括上网设备、调制解调器等。数据库:数据库:是计算机检索的对象。是由一个或数个文档构成,并能够满足某一特定目的或某一特定数据处理系统需要的一种数据集合。122022-12-142.2 数据库的构成数据库的构成一定专业范围内的
9、信息记录及其索引的集合体,是计算机信息检索系统的重要组成部分,是信息资源,是检索对象。一定专业范围内的信息记录及其索引的集合体,是计算机一定专业范围内的信息记录及其索引的集合体,是计算机信息检索系统的重要组成部分,是信息资源信息检索系统的重要组成部分,是信息资源,是检索对象。是检索对象。构成数据库的三大要素:构成数据库的三大要素:文档文档记录记录字段字段检索时,计算机按输入检索词的字顺先从指定的倒排文档检索时,计算机按输入检索词的字顺先从指定的倒排文档中找到相匹配的索引词,然后根据索引词后的记录顺序号中找到相匹配的索引词,然后根据索引词后的记录顺序号到顺排档中调出相应的记录。到顺排档中调出相应
10、的记录。132022-12-14文档(文档(FileFile)p数据库中一部分记录的集合数据库中一部分记录的集合,文档由若干记录构成。文档由若干记录构成。p数据库是由一个顺排文档和若干个倒排文档所构成数据库是由一个顺排文档和若干个倒排文档所构成 顺排文档顺排文档是数据库的主体,又称主文档,按每条记是数据库的主体,又称主文档,按每条记 录的顺序号大小排列,检索结果都来自于顺排文档。录的顺序号大小排列,检索结果都来自于顺排文档。倒排文档倒排文档是从顺排档中抽取有检索意义的检索标识,是从顺排档中抽取有检索意义的检索标识,如主题词、著者姓名、化学物质名、刊名等,并如主题词、著者姓名、化学物质名、刊名等
11、,并按索引词的字顺排列,同时在检索标识后注明入按索引词的字顺排列,同时在检索标识后注明入藏顺序号,这就是常见的数据库中的主题词索引、藏顺序号,这就是常见的数据库中的主题词索引、著者索引、刊名索引。著者索引、刊名索引。142022-12-14152022-12-14n由由若干字段若干字段组成的文献单元,是数据库中的基本组成的文献单元,是数据库中的基本文献单元,文献单元,每条记录描述了原始信息的每条记录描述了原始信息的外部外部和和内内部特征部特征。数据库中的一条记录通常代表一篇文献。数据库中的一条记录通常代表一篇文献。n例如:在书目型数据库中,例如:在书目型数据库中,一条记录相当于一条一条记录相当
12、于一条题录题录或或文摘文摘;在全文型数据库中,一;在全文型数据库中,一条记录相当条记录相当于一篇于一篇完整的文献完整的文献;在其它类型数据库中,一条;在其它类型数据库中,一条记录则代表一个信息单元。记录越多,数据库的记录则代表一个信息单元。记录越多,数据库的容量就越大。容量就越大。记录(记录(Record)Record)162022-12-14172022-12-14字段(字段(Field)Field)n字段是构成记录的基本单元,是对文献某一方字段是构成记录的基本单元,是对文献某一方面的特征(包括外表特征和内容特征)进行描面的特征(包括外表特征和内容特征)进行描述的结果。述的结果。n 例如:题
13、名、作者、作者地址、出版年、来源例如:题名、作者、作者地址、出版年、来源(出处)、主题词、文摘等字段是书目数据库(出处)、主题词、文摘等字段是书目数据库中必备字段。为识别每一个字段所表达的文献中必备字段。为识别每一个字段所表达的文献特征,通常每个字段都有固定的名称和缩写特征,通常每个字段都有固定的名称和缩写(或称字段标识符),如,题名字段的标识符(或称字段标识符),如,题名字段的标识符为为TI,作者字段的标识符为,作者字段的标识符为AU等。等。182022-12-142.3 数据库的类型数据库的类型*(P3-4)n参考(文献书目型)数据库n全文数据库n事实数据库n数值数据库192022-12-
14、14参考(文献书目型)数据库参考(文献书目型)数据库是指包含各种是指包含各种数据、信息数据、信息或或知识知识的原始来源和属性的数据的原始来源和属性的数据库;是机读的库;是机读的目录目录、索引索引和和文摘文摘检索工具,检索结果是文检索工具,检索结果是文献的线索而非原文。献的线索而非原文。p存储的是存储的是二次文献二次文献,包括文献的外部特征、题录、文摘,包括文献的外部特征、题录、文摘 和主题词等。和主题词等。p这类数据库占用很大的比例,其代表性的数据库有这类数据库占用很大的比例,其代表性的数据库有 EI Compendex Plus(工程索引工程索引)、INSPEC(科学科学 文摘文摘)和和全国
15、报刊索引全国报刊索引等。等。p图书馆提供的基于网络的联机公共检索目录(图书馆提供的基于网络的联机公共检索目录(OPACOPAC)系统)系统202022-12-14 事实数据库事实数据库存储的是用来描述人物、机构、事物等信息存储的是用来描述人物、机构、事物等信息的情况、过程、现象的事实数据。的情况、过程、现象的事实数据。如名人录、机构指南、大事记、百科全书、手如名人录、机构指南、大事记、百科全书、手册、地图集、企事业名录、计算机程序、音乐册、地图集、企事业名录、计算机程序、音乐等,均可归入事实数据库。等,均可归入事实数据库。例如:中国咨询行、国研网、万方数据(中国例如:中国咨询行、国研网、万方数
16、据(中国企业、公司及产品、中国科技名人、中国科研企业、公司及产品、中国科技名人、中国科研机构等等)机构等等)212022-12-14数值数据库数值数据库主要包含的是数字数据,如各种统计数据、主要包含的是数字数据,如各种统计数据、科学实验数据、科学测量数据等。科学实验数据、科学测量数据等。气像数据、地质资料、化学或物理化合物 特性 的文献数据、人口统计资料、市场调研数据等。222022-12-14全文数据库全文数据库n存储的是原始文献的全文,如杂志论文、报纸新闻、法院案例等。n全文检索可直接获取原始资料,而不是书目检索时的线索,提高了用户的检索效率。如:如:中国知网(中国知网(CNKICNKI)
17、、万方、维普、)、万方、维普、ElsevierElsevier等全文数据库。3 计算机信息检索的分类计算机信息检索的分类1 按信息资源的存储形式分按信息资源的存储形式分2 按信息访问模式分按信息访问模式分 242022-12-143.1 按信息资源的存储形式分按信息资源的存储形式分*(P7-8)(1)全文检索。)全文检索。n以全文数据库存储为基础的检索方式,所谓全文数据库是将以全文数据库存储为基础的检索方式,所谓全文数据库是将一个完整的信息源的全部内容转化为计算机可以识别、处理一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。的信息单元而形成的数据集合。n全文检索
18、系统全文检索系统对对全文数据库全文数据库进行词(字)、句、段落等深层进行词(字)、句、段落等深层次的编辑、加工,同时允许用户采用自然语言表达,借助次的编辑、加工,同时允许用户采用自然语言表达,借助逻逻辑组配辑组配、截词截词、邻词匹配邻词匹配等等检索手段检索手段直接查阅文献原文信息。直接查阅文献原文信息。n全文检索的应用范围包括全文检索的应用范围包括:各种科技期刊、专利文献、新闻各种科技期刊、专利文献、新闻报纸、年鉴、百科、手册、图书报纸、年鉴、百科、手册、图书等全文数据库,等全文数据库,例如:我国例如:我国引进的引进的OCLCOCLC的的first searchfirst search、IEL
19、IEL、Springer LinkSpringer Link、EBSCOEBSCO等等全文数据库以及我国全文数据库以及我国CNKICNKI的中国期刊全文数据库、重庆维普的中国期刊全文数据库、重庆维普的中文科技期刊数据库、超星数字图书馆、万方资源系统的的中文科技期刊数据库、超星数字图书馆、万方资源系统的数字化期刊、学位论文、会议论文等。数字化期刊、学位论文、会议论文等。252022-12-14(2)二次文献检索)二次文献检索*n是针对全文检索而言,也就是分别将文献的是针对全文检索而言,也就是分别将文献的内部特征内部特征(题名、分类等)和(题名、分类等)和外部特征外部特征(作者、出处、年代、(作者
20、、出处、年代、ISSN、语言等)作为、语言等)作为存储存储和和检索检索的匹配标识而形成的匹配标识而形成的数据集合,利用检索系统的检索结果是的数据集合,利用检索系统的检索结果是文献信息文献信息的的题录题录及及文摘文摘。n学科领域覆盖面广,信息量大,可以利用文献线索获学科领域覆盖面广,信息量大,可以利用文献线索获取到一次文献。取到一次文献。n例如:例如:COMPENDEX、INSPEC、SCI等国外数据库;等国外数据库;万方数据的学位论文、会议论文数据库、全国报刊索万方数据的学位论文、会议论文数据库、全国报刊索引、引、Calis西文期刊目次数据库等西文期刊目次数据库等262022-12-14(3)
21、多媒体检索)多媒体检索n就是把就是把文字、声音、图像(形)文字、声音、图像(形)等多种信息的传播载体等多种信息的传播载体通过计算机进行数字化加工、处理而形成的一种综合存通过计算机进行数字化加工、处理而形成的一种综合存储技术。储技术。n利用多媒体检索系统可分别进行利用多媒体检索系统可分别进行视频检索视频检索、声音检索声音检索、图像检索图像检索。多媒体信息检索系统有着广阔的应用前景,。多媒体信息检索系统有着广阔的应用前景,它将广泛用于它将广泛用于电子会议、远程教学、远程医疗、电子图电子会议、远程教学、远程医疗、电子图书馆、艺术收藏和地球资源管理、天气预报、时装设计、书馆、艺术收藏和地球资源管理、天
22、气预报、时装设计、智能群体决策、计算机支持协同工作、金融市场、军事智能群体决策、计算机支持协同工作、金融市场、军事指挥系统、防汛指挥系统指挥系统、防汛指挥系统等方面。等方面。n各大网站均可进行多媒体信息的检索,各大网站均可进行多媒体信息的检索,如:如:GOOGLEGOOGLE、百、百度度等搜索引擎、等搜索引擎、新华社多媒体数据库新华社多媒体数据库是国内最大规模的是国内最大规模的多媒体、多文种新闻信息综合性数据库。多媒体、多文种新闻信息综合性数据库。272022-12-14(4)超文本检索)超文本检索n超文本超文本(Hyper text)是利用计算机将多介质信息是利用计算机将多介质信息按照一定的
23、逻辑按照一定的逻辑联接关系加工、贮存起来,构成可任意连接的、有层次的网状结联接关系加工、贮存起来,构成可任意连接的、有层次的网状结构数据库,是一种联想式的综合信息管理系统。构数据库,是一种联想式的综合信息管理系统。n其中的某些其中的某些字字、符号符号或或短语短语、图形图形和和图像图像起着起着“热链路热链路”(Hotlink)的作用,在显示出来时其字体或颜色变化或者标有下)的作用,在显示出来时其字体或颜色变化或者标有下横线、以区别于一般的正文。当鼠标器的光标移到某个热链路上,横线、以区别于一般的正文。当鼠标器的光标移到某个热链路上,并且按了一下鼠标键之后,鼠标器光标便沿着这条链路并且按了一下鼠标
24、键之后,鼠标器光标便沿着这条链路跳到该文跳到该文件的另一处或另一个文件。件的另一处或另一个文件。n计算机信息检索在经历了传统信息检索、全文文本检索之后,随计算机信息检索在经历了传统信息检索、全文文本检索之后,随着多媒体技术的发展和应用,出现目前这种着多媒体技术的发展和应用,出现目前这种超文本检索方式超文本检索方式。可。可用于用于检索人物、新闻、文档、文艺小说、旅游景点、绘画、古文检索人物、新闻、文档、文艺小说、旅游景点、绘画、古文物、生物物、生物等内容广泛的各种信息。等内容广泛的各种信息。282022-12-143.2 按信息访问模式分按信息访问模式分(P5)根据检索方式分:(1)脱机检索(2
25、)联机检索(3)国际联机检索(4)光盘检索(5)镜像检索(6)网络检索(1)脱机信息检索脱机信息检索是六十年代发展起来的批次检索,用户不与检索系统发生直接联系,只需把检索要求送往检索中心,由检索人员在计算机主机进行文献检索的一种方式。优点:价格便宜,无网络通讯费,检索费 用由用户平摊,随机存储。缺点:一次机会检索,检索结果延误,委 托性检索。(2)联机信息检索联机信息检索联机检索是用户利用终端设备,通过通信网络或通信线路与检索系统联机,进行“人机对话”,从检索中心的数据库查找所需要的文献信息过程。特点:特点:检索的速度快,检索结果可以得到 及时修改。缺点:缺点:检索费用高。(3)国际联机检索)
展开阅读全文