第二讲数据库及检索方法精选课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第二讲数据库及检索方法精选课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 数据库 检索 方法 精选 课件
- 资源描述:
-
1、第二讲数据库及检索方法优选第二讲数据库及检索方法主要内容数据库检索概述数据库检索概述检索词及其应用计算机检索策略与流程(一)(一)数据库检索概述数据库检索概述 数据库是计算机检索系统中存储的信息数据库是计算机检索系统中存储的信息源,按一定的方式组织并储存,借助于源,按一定的方式组织并储存,借助于检索系统随时为用户提供服务的信息集检索系统随时为用户提供服务的信息集合。合。数据库三要素:相关数据、共同存取方相关数据、共同存取方式和一定的组织方式、共享。式和一定的组织方式、共享。通俗地说,数据库是以某一特定方式组通俗地说,数据库是以某一特定方式组织和存放的数据仓库。织和存放的数据仓库。1.1 1.1
2、 数据库概念数据库概念从记录形式(内容性质内容性质)的角度将数据库分为两大类:文献型数据库 非文献型数据库 1.2 1.2 数据库分类数据库分类是一种能直接提供文献线索和文是一种能直接提供文献线索和文献原文的数据库献原文的数据库 收集的记录是根据书刊、技术报收集的记录是根据书刊、技术报告、学位论文、会议报告、专利、告、学位论文、会议报告、专利、报刊新闻等加过工的一次或二次报刊新闻等加过工的一次或二次文献。文献。1.2 1.2 数据库分类数据库分类 文献型数据库文献型数据库u全文型数据库全文型数据库(一次文献一次文献):存贮文献存贮文献全文或部分内容的数据库全文或部分内容的数据库u目录型数据库(
3、二次文献):存储书目录型数据库(二次文献):存储书刊目录、论文题录、文摘等书目线索刊目录、论文题录、文摘等书目线索的数据库的数据库u题录题录/文摘数据库文摘数据库:存储和检索期刊论文外存储和检索期刊论文外部特征及文献摘要信息的数据库部特征及文献摘要信息的数据库u书目数据库书目数据库:存储和检索书目信息的数据库存储和检索书目信息的数据库1.2 1.2 数据库分类数据库分类 文献型数据库文献型数据库收集指南或词典形式的数据记收集指南或词典形式的数据记录,能直接提供具体的术语、录,能直接提供具体的术语、事实、数值和图像等信息的数事实、数值和图像等信息的数据库。据库。1.2 1.2 数据库分类数据库分
4、类 非非文献型数据库文献型数据库u 数据型数据库:数据型数据库:是一种以自然数值是一种以自然数值形式表示、计算机可读的数据集合。形式表示、计算机可读的数据集合。如实验数据、化学分子式、价格等统如实验数据、化学分子式、价格等统计数据、科学实验数据、测量数据等。计数据、科学实验数据、测量数据等。如:中国科学计量指标数据库。如:中国科学计量指标数据库。u 图像型数据库:图像型数据库:存贮有某些图象信存贮有某些图象信息息,如图片如图片,云图云图,工程设计图等工程设计图等.几个不同字段的集合构成记录,一个数据库内的记录往往含有相同的字段。文献类型字段(Document Type Field/DT)最理想
5、的检索效果R、P均为100,但实际上这是不可能的。一般来讲,存取号由69位数字组成,出现在每条联机记录的左上角位置。connection between somking and heart diseaseN表示误检率,则R、P、M、N定义如下:增加检索名词的普遍性-查阅工具如 词表,字典,分类表及字汇表2 检索技术截词检索文献类型字段(Document Type Field/DT)不同的检索系统有不同的符号。增设限制条件至特定栏位及年代A(s)B A、B两词只要在同一字段heart trouble,heart attack.有些联机检索系统,将词表存入计算机,帮助用户进行检索。不同类型数据库的
6、结构不完全相同。因此,在检索系统中设置了位置限定运算符。u事实型数据库:事实型数据库:也称指南型数据库,也称指南型数据库,是一种存贮简单而独立存在的非文献是一种存贮简单而独立存在的非文献信息,如机构、人物、产品、地理位信息,如机构、人物、产品、地理位置、事件等,每个条目都是对一个事置、事件等,每个条目都是对一个事实确切、完整的描述。实确切、完整的描述。u按内容划分有人物数据库、机构名录数按内容划分有人物数据库、机构名录数据库、产品或商品信息数据库、以及投据库、产品或商品信息数据库、以及投资指南库、基金指南库等。资指南库、基金指南库等。1.2 1.2 数据库分类数据库分类 非非文献型数据库文献型
7、数据库u 术语型数据库:术语型数据库:也称词语型数据库。也称词语型数据库。专门存储揭示各类名词、术语、词专门存储揭示各类名词、术语、词语的形、音、义与使用方法、以及语的形、音、义与使用方法、以及词义演变、发展等信息的检索工具。词义演变、发展等信息的检索工具。u 目前多数术语型数据库大多是辞书、目前多数术语型数据库大多是辞书、词典、百科全书等数字化版本。词典、百科全书等数字化版本。数据库数据库文献型数据库文献型数据库非文献型数据库非文献型数据库全文数据库全文数据库题录题录/文摘数据库文摘数据库书书 目目 数数 据据 库库数数 据据 型型图图 像像 型型事事 实实 型型术术 语语 型型目目录录数数
8、据据库库不同类型数据库的结构不完全相同。不同类型数据库的结构不完全相同。文献型数据库的结构层次:文献型数据库的结构层次:字段 记录 文档 1.3 1.3 数据库的结构数据库的结构 数据库中最基本的信息单元,其实体是数据库中最基本的信息单元,其实体是文献的著录项目。记录中的字段标识符一文献的著录项目。记录中的字段标识符一般由两个字母组成般由两个字母组成,如如TI,AB,AU,PY,LATI,AB,AU,PY,LA等等.每个字段都是一条检索该记录的途径每个字段都是一条检索该记录的途径.三种基本字段:三种基本字段:检索系统的存取号检索系统的存取号(Accession Number)基本索引字段基本索
9、引字段(Basic Index Fields)辅助索引字段辅助索引字段(Additional Index Fields)字段字段u存取号存取号 :计算机信息检索系统为该数计算机信息检索系统为该数据库的每一条记录规定的能被计算机识据库的每一条记录规定的能被计算机识别的特定号码。在同一数据库中,别的特定号码。在同一数据库中,每篇每篇文献记录只有一个存取号。文献记录只有一个存取号。一般来讲,一般来讲,存取号由存取号由69位数字组成,出现在每条位数字组成,出现在每条联机记录的左上角位置。联机记录的左上角位置。字段字段逻辑非(逻辑差)是用“not”或“”连接检索概念,A not B(或AB)表示两个概念
10、的排除,即凡含有检索项A并且不含检索项B的记录为命中记录。叙词字段(Descriptor Field/DE)第二讲数据库及检索方法一个检索课题往往涉及多个概念,选择检索词时首先要将检索课题涉及的所有概念分离出来,并针对每一个概念选择尽可能多的检索词。每条记录相当于文摘型或题录型检索刊物的一条著录款目。Microcomputer、Minicomputer等。2 检索技术布尔逻辑算符2 数据库分类 文献型数据库2 数据库分类 文献型数据库要形成若干个既代表信息需求又有检索意义的主题概念,包括所涉及的主题概念有几个,概念的专指度是否适合,哪些是主要的,哪些是次要的,概念之间关系如何等。最理想的检索效
11、果R、P均为100,但实际上这是不可能的。增设限制条件至特定栏位及年代扩大检索策略 减少使用AND;使用Or连接同义词及相关词根据截词的多少,可把截词符分成有限截词符和无限截词符两种。heart disease的同义词有:cardiopathy,heart trouble,heart attack.查看名词索引从而定出与已找得的文章相关的额外检索名词收集的记录是根据书刊、技术报告、学位论文、会议报告、专利、报刊新闻等加过工的一次或二次文献。一个文档由大量的记录组成,而每个记录中又包含有若干字段,这就是文献数据库中的层次结构。基本索引字段:基本索引字段:又称主题字段,又称主题字段,是数是数据库提
12、供的字段检索默认值据库提供的字段检索默认值.用来表达文用来表达文献内容特征的字段献内容特征的字段,如:3篇名字段(篇名字段(Title Field/TI)3文摘字段(文摘字段(Abstract Field/AB)3叙词字段(叙词字段(Descriptor Field/DE)字段字段 辅助索引字段(辅助索引字段(Additional Index Fields):用来表达文献外部特征的用来表达文献外部特征的字段,如:字段,如:著者字段著者字段(Author Field/AU)出版年字段出版年字段(Publication Year Field/PY)刊名字段刊名字段(Journal Field/SO
13、或或JN)语种字段语种字段(Language Field/LA)文献类型字段文献类型字段(Document Type Field/DT)辅助字段种类很多,且随数据库的不同而各有差异。辅助字段种类很多,且随数据库的不同而各有差异。字段字段 几个不同字段的集合构成记几个不同字段的集合构成记录,一个数据库内的记录往往含录,一个数据库内的记录往往含有相同的字段。有相同的字段。每条记录相当于文摘型或题每条记录相当于文摘型或题录型检索刊物的一条著录款目录型检索刊物的一条著录款目。一条记录即一篇文献。一条记录即一篇文献。记录记录一条记录的格式:一条记录的格式:由若干相同相同类型或不同类型的记不同类型的记录组
14、成录组成。一个数据库由若干个文档组成。一个文档由大量的记录组成,而每个记录中又包含有若干字段,这就是文献数据库中的层次结构。文档文档(二)检索理论基础 u 检索词是用户或检索人员给出检索词是用户或检索人员给出的字、词、字符或短语,用于的字、词、字符或短语,用于查找含有它(它们)的记录。查找含有它(它们)的记录。u 检索词分为两类:受控词和非检索词分为两类:受控词和非受控词。受控词。2.1 检索词检索词概念及分类概念及分类检索词检索词受控词受控词非受控词非受控词主题词表主题词表叙词表叙词表分类词表分类词表自然语言索引自然语言索引关键词索引关键词索引2.1 检索词检索词概念及分类概念及分类文献类型
15、字段(Document Type Field/DT)Search terms因此,任何检索工具和检索系统必须力争克服漏检(必要条件),同时尽量避免误检(充分条件)。2 检索技术词位限制检索例如,computer(计算机),在该词根前加“?”,即刊名字段(Journal Field/SO或JN)出版年字段(Publication Year Field/PY)基本索引字段:又称主题字段,是数据库提供的字段检索默认值.heart trouble,heart attack.限制检索的方式有多种,例如进行字段检索、使用限制符、采用限制检索命令等。逻辑非(逻辑差)Wienn图 进行作者检索以找出其合著者N
16、表示误检率,则R、P、M、N定义如下:R=b/a*100 P=b/m*100 M=(1-b/a)*100=100-R N=(1-b/m)*100=100-P题录/文摘数据库:存储和检索期刊论文外部特征及文献摘要信息的数据库“?computer?”,可检出microcomputer、minicomputer、computer、computers、computerised、computerization等。需要关于某一课题的最新信息不同的检索系统有不同的符号。利用技术标准类的数据库查找所谓有限截词,是在检索词后截去有限的字母,例如输入computer?,截词符“?”表示可以有0-1个字母变化,系统
17、即检出带有computer和computers的文献;受控词:受控词:是事先规范化的检索语言,取自主题词是事先规范化的检索语言,取自主题词表、叙词表、分类表等。如果数据库对数据采表、叙词表、分类表等。如果数据库对数据采用了受控标引,并有机读式或印刷版主题词表用了受控标引,并有机读式或印刷版主题词表时,应优先选用其中的受控词。时,应优先选用其中的受控词。特特 点:点:受控词的检索效率高,一旦选定适当的概受控词的检索效率高,一旦选定适当的概念,系统就能检出这一概念的全部内容,而且,念,系统就能检出这一概念的全部内容,而且,由于标引人员已事先解决了自然语言中的同义、由于标引人员已事先解决了自然语言中
18、的同义、近义关系,使检索相对容易近义关系,使检索相对容易。但受控词不能及时反映新事物的发展,而但受控词不能及时反映新事物的发展,而且概念数量有限、结构复杂,不易为非专业人且概念数量有限、结构复杂,不易为非专业人员掌握。员掌握。2.1 检索词检索词概念及分类概念及分类非受控词:非受控词是指非规范化的自然非受控词:非受控词是指非规范化的自然语言词汇,又称自由词。语言词汇,又称自由词。特特 点点:非受控词可以在一定程度上弥补受非受控词可以在一定程度上弥补受控词的不足,非受控词可以是任意选词,控词的不足,非受控词可以是任意选词,其专指性强,而且不需要熟悉词表,新产其专指性强,而且不需要熟悉词表,新产生
19、的名词术语可以及时检索与新概念有关生的名词术语可以及时检索与新概念有关的文献。但非受控词一般不能提供概念的的文献。但非受控词一般不能提供概念的等级结构,不能解决同义词、近义词、相等级结构,不能解决同义词、近义词、相关词的结合或连接问题。关词的结合或连接问题。2.1 检索词检索词概念及分类概念及分类2.2 2.2 检索技术检索技术 布尔逻辑算符布尔逻辑算符 截词检索(外文)截词检索(外文)限制检索(外文)限制检索(外文)u 利用布尔逻辑算符将检索词或代码进利用布尔逻辑算符将检索词或代码进行逻辑组配以表达检索需求的检索方法行逻辑组配以表达检索需求的检索方法u 布尔逻辑算符有三种:布尔逻辑算符有三种
20、:u逻辑与(逻辑乘)逻辑与(逻辑乘)u逻辑或(逻辑和)逻辑或(逻辑和)u逻辑非(逻辑差)逻辑非(逻辑差)2.2 检索技术检索技术布尔逻辑算符布尔逻辑算符2.2 检索技术检索技术布尔逻辑算符布尔逻辑算符u-逻辑与(逻辑乘)逻辑与(逻辑乘)u逻辑与(逻辑乘)是用逻辑与(逻辑乘)是用“and”或或“*”连接连接检索概念,检索概念,A and B(或(或A*B)表示两个概)表示两个概念的交叉,即记录中必须同时含有念的交叉,即记录中必须同时含有A和和B,用用“逻辑与逻辑与”来检索是对检索需求增加限定来检索是对检索需求增加限定因素,可以缩小检索范围。因素,可以缩小检索范围。u用逻辑与组构的检索词越多,检索
21、范围越小,用逻辑与组构的检索词越多,检索范围越小,专指度越强,有助于提高查准率。专指度越强,有助于提高查准率。2.2 检索技术检索技术布尔逻辑算符布尔逻辑算符Search termsResultsapple78,344breeding2,962plantoverty AND crime5,677apple AND breeding AND plant76逻辑与(逻辑乘)逻辑与(逻辑乘)Wienn图图2.2 检索技术检索技术布尔逻辑算符布尔逻辑算符u-逻辑或(逻辑和)逻辑或(逻辑和)u 逻辑或(逻辑和)是用逻辑或(逻辑和)是用“oror”或或“+”连接检索概念,连接检索概念,A or BA or
22、 B(或(或A+BA+B)表示两)表示两个概念的并列,即记录中凡单独含有检个概念的并列,即记录中凡单独含有检索项索项A A或检索项或检索项B B,或者同时含有,或者同时含有A A、B B两两者均为命中记录。者均为命中记录。u 用逻辑或来检索可扩大检索范围,用逻辑或来检索可扩大检索范围,提高查全率。提高查全率。2.2 检索技术检索技术布尔逻辑算符布尔逻辑算符Search termsResultscollege770university33,685,205college OR university33,702,660college OR university OR campus33,703,820
23、逻辑或(逻辑和)逻辑或(逻辑和)Wienn图图2.2 检索技术检索技术布尔逻辑算符布尔逻辑算符u-逻辑非(逻辑差)逻辑非(逻辑差)u 逻辑非(逻辑差)是用逻辑非(逻辑差)是用“notnot”或或“”连接检索概念,连接检索概念,A not BA not B(或(或A AB B)表示两个概念的排除,即凡含有检索项表示两个概念的排除,即凡含有检索项A A并且不含检索项并且不含检索项B B的记录为命中记录。的记录为命中记录。u 用逻辑非来检索,可以缩小检索范用逻辑非来检索,可以缩小检索范围,提高检索的专指度。但这种检索也围,提高检索的专指度。但这种检索也有缺点,即取消部分,往往会把切题的有缺点,即取消
24、部分,往往会把切题的文献丢掉,因此运用逻辑非运算时要慎文献丢掉,因此运用逻辑非运算时要慎重。重。2.2 检索技术检索技术布尔逻辑算符布尔逻辑算符Search termsResultscats3,651,252dogs4,556,515cats NOT dogs81,497逻辑非(逻辑差)逻辑非(逻辑差)Wienn图图 在外文检索中,常会遇到一些词干相同、在外文检索中,常会遇到一些词干相同、词义相近的检索词或有英、美不同拼写的词,词义相近的检索词或有英、美不同拼写的词,为了减少检索词的频繁输入,扩大检索范围,为了减少检索词的频繁输入,扩大检索范围,可使用截词符(通配符),以提高检索效率。可使用截
25、词符(通配符),以提高检索效率。所谓截词,是指在检索词的某个局部截断,所谓截词,是指在检索词的某个局部截断,利用某些检索词的词干或不完整词形加上截词利用某些检索词的词干或不完整词形加上截词符进行检索,其目的是查找某一词干的不同变符进行检索,其目的是查找某一词干的不同变化形式,做到化形式,做到一一“词词”多用多用,防止漏检,从而,防止漏检,从而达到较高的查全率。达到较高的查全率。2.2 检索技术检索技术截词检索截词检索2.2 检索技术检索技术截词检索截词检索截词方式有前截断、后截断、前后截词方式有前截断、后截断、前后截断和中间截断截断和中间截断4种。种。一般用?和一般用?和*表示截词符,不同系表
展开阅读全文