书签 分享 收藏 举报 版权申诉 / 85
上传文档赚钱

类型第二讲数据库及检索方法精选课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4915740
  • 上传时间:2023-01-25
  • 格式:PPT
  • 页数:85
  • 大小:576.54KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《第二讲数据库及检索方法精选课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    第二 数据库 检索 方法 精选 课件
    资源描述:

    1、第二讲数据库及检索方法优选第二讲数据库及检索方法主要内容数据库检索概述数据库检索概述检索词及其应用计算机检索策略与流程(一)(一)数据库检索概述数据库检索概述 数据库是计算机检索系统中存储的信息数据库是计算机检索系统中存储的信息源,按一定的方式组织并储存,借助于源,按一定的方式组织并储存,借助于检索系统随时为用户提供服务的信息集检索系统随时为用户提供服务的信息集合。合。数据库三要素:相关数据、共同存取方相关数据、共同存取方式和一定的组织方式、共享。式和一定的组织方式、共享。通俗地说,数据库是以某一特定方式组通俗地说,数据库是以某一特定方式组织和存放的数据仓库。织和存放的数据仓库。1.1 1.1

    2、 数据库概念数据库概念从记录形式(内容性质内容性质)的角度将数据库分为两大类:文献型数据库 非文献型数据库 1.2 1.2 数据库分类数据库分类是一种能直接提供文献线索和文是一种能直接提供文献线索和文献原文的数据库献原文的数据库 收集的记录是根据书刊、技术报收集的记录是根据书刊、技术报告、学位论文、会议报告、专利、告、学位论文、会议报告、专利、报刊新闻等加过工的一次或二次报刊新闻等加过工的一次或二次文献。文献。1.2 1.2 数据库分类数据库分类 文献型数据库文献型数据库u全文型数据库全文型数据库(一次文献一次文献):存贮文献存贮文献全文或部分内容的数据库全文或部分内容的数据库u目录型数据库(

    3、二次文献):存储书目录型数据库(二次文献):存储书刊目录、论文题录、文摘等书目线索刊目录、论文题录、文摘等书目线索的数据库的数据库u题录题录/文摘数据库文摘数据库:存储和检索期刊论文外存储和检索期刊论文外部特征及文献摘要信息的数据库部特征及文献摘要信息的数据库u书目数据库书目数据库:存储和检索书目信息的数据库存储和检索书目信息的数据库1.2 1.2 数据库分类数据库分类 文献型数据库文献型数据库收集指南或词典形式的数据记收集指南或词典形式的数据记录,能直接提供具体的术语、录,能直接提供具体的术语、事实、数值和图像等信息的数事实、数值和图像等信息的数据库。据库。1.2 1.2 数据库分类数据库分

    4、类 非非文献型数据库文献型数据库u 数据型数据库:数据型数据库:是一种以自然数值是一种以自然数值形式表示、计算机可读的数据集合。形式表示、计算机可读的数据集合。如实验数据、化学分子式、价格等统如实验数据、化学分子式、价格等统计数据、科学实验数据、测量数据等。计数据、科学实验数据、测量数据等。如:中国科学计量指标数据库。如:中国科学计量指标数据库。u 图像型数据库:图像型数据库:存贮有某些图象信存贮有某些图象信息息,如图片如图片,云图云图,工程设计图等工程设计图等.几个不同字段的集合构成记录,一个数据库内的记录往往含有相同的字段。文献类型字段(Document Type Field/DT)最理想

    5、的检索效果R、P均为100,但实际上这是不可能的。一般来讲,存取号由69位数字组成,出现在每条联机记录的左上角位置。connection between somking and heart diseaseN表示误检率,则R、P、M、N定义如下:增加检索名词的普遍性-查阅工具如 词表,字典,分类表及字汇表2 检索技术截词检索文献类型字段(Document Type Field/DT)不同的检索系统有不同的符号。增设限制条件至特定栏位及年代A(s)B A、B两词只要在同一字段heart trouble,heart attack.有些联机检索系统,将词表存入计算机,帮助用户进行检索。不同类型数据库的

    6、结构不完全相同。因此,在检索系统中设置了位置限定运算符。u事实型数据库:事实型数据库:也称指南型数据库,也称指南型数据库,是一种存贮简单而独立存在的非文献是一种存贮简单而独立存在的非文献信息,如机构、人物、产品、地理位信息,如机构、人物、产品、地理位置、事件等,每个条目都是对一个事置、事件等,每个条目都是对一个事实确切、完整的描述。实确切、完整的描述。u按内容划分有人物数据库、机构名录数按内容划分有人物数据库、机构名录数据库、产品或商品信息数据库、以及投据库、产品或商品信息数据库、以及投资指南库、基金指南库等。资指南库、基金指南库等。1.2 1.2 数据库分类数据库分类 非非文献型数据库文献型

    7、数据库u 术语型数据库:术语型数据库:也称词语型数据库。也称词语型数据库。专门存储揭示各类名词、术语、词专门存储揭示各类名词、术语、词语的形、音、义与使用方法、以及语的形、音、义与使用方法、以及词义演变、发展等信息的检索工具。词义演变、发展等信息的检索工具。u 目前多数术语型数据库大多是辞书、目前多数术语型数据库大多是辞书、词典、百科全书等数字化版本。词典、百科全书等数字化版本。数据库数据库文献型数据库文献型数据库非文献型数据库非文献型数据库全文数据库全文数据库题录题录/文摘数据库文摘数据库书书 目目 数数 据据 库库数数 据据 型型图图 像像 型型事事 实实 型型术术 语语 型型目目录录数数

    8、据据库库不同类型数据库的结构不完全相同。不同类型数据库的结构不完全相同。文献型数据库的结构层次:文献型数据库的结构层次:字段 记录 文档 1.3 1.3 数据库的结构数据库的结构 数据库中最基本的信息单元,其实体是数据库中最基本的信息单元,其实体是文献的著录项目。记录中的字段标识符一文献的著录项目。记录中的字段标识符一般由两个字母组成般由两个字母组成,如如TI,AB,AU,PY,LATI,AB,AU,PY,LA等等.每个字段都是一条检索该记录的途径每个字段都是一条检索该记录的途径.三种基本字段:三种基本字段:检索系统的存取号检索系统的存取号(Accession Number)基本索引字段基本索

    9、引字段(Basic Index Fields)辅助索引字段辅助索引字段(Additional Index Fields)字段字段u存取号存取号 :计算机信息检索系统为该数计算机信息检索系统为该数据库的每一条记录规定的能被计算机识据库的每一条记录规定的能被计算机识别的特定号码。在同一数据库中,别的特定号码。在同一数据库中,每篇每篇文献记录只有一个存取号。文献记录只有一个存取号。一般来讲,一般来讲,存取号由存取号由69位数字组成,出现在每条位数字组成,出现在每条联机记录的左上角位置。联机记录的左上角位置。字段字段逻辑非(逻辑差)是用“not”或“”连接检索概念,A not B(或AB)表示两个概念

    10、的排除,即凡含有检索项A并且不含检索项B的记录为命中记录。叙词字段(Descriptor Field/DE)第二讲数据库及检索方法一个检索课题往往涉及多个概念,选择检索词时首先要将检索课题涉及的所有概念分离出来,并针对每一个概念选择尽可能多的检索词。每条记录相当于文摘型或题录型检索刊物的一条著录款目。Microcomputer、Minicomputer等。2 检索技术布尔逻辑算符2 数据库分类 文献型数据库2 数据库分类 文献型数据库要形成若干个既代表信息需求又有检索意义的主题概念,包括所涉及的主题概念有几个,概念的专指度是否适合,哪些是主要的,哪些是次要的,概念之间关系如何等。最理想的检索效

    11、果R、P均为100,但实际上这是不可能的。增设限制条件至特定栏位及年代扩大检索策略 减少使用AND;使用Or连接同义词及相关词根据截词的多少,可把截词符分成有限截词符和无限截词符两种。heart disease的同义词有:cardiopathy,heart trouble,heart attack.查看名词索引从而定出与已找得的文章相关的额外检索名词收集的记录是根据书刊、技术报告、学位论文、会议报告、专利、报刊新闻等加过工的一次或二次文献。一个文档由大量的记录组成,而每个记录中又包含有若干字段,这就是文献数据库中的层次结构。基本索引字段:基本索引字段:又称主题字段,又称主题字段,是数是数据库提

    12、供的字段检索默认值据库提供的字段检索默认值.用来表达文用来表达文献内容特征的字段献内容特征的字段,如:3篇名字段(篇名字段(Title Field/TI)3文摘字段(文摘字段(Abstract Field/AB)3叙词字段(叙词字段(Descriptor Field/DE)字段字段 辅助索引字段(辅助索引字段(Additional Index Fields):用来表达文献外部特征的用来表达文献外部特征的字段,如:字段,如:著者字段著者字段(Author Field/AU)出版年字段出版年字段(Publication Year Field/PY)刊名字段刊名字段(Journal Field/SO

    13、或或JN)语种字段语种字段(Language Field/LA)文献类型字段文献类型字段(Document Type Field/DT)辅助字段种类很多,且随数据库的不同而各有差异。辅助字段种类很多,且随数据库的不同而各有差异。字段字段 几个不同字段的集合构成记几个不同字段的集合构成记录,一个数据库内的记录往往含录,一个数据库内的记录往往含有相同的字段。有相同的字段。每条记录相当于文摘型或题每条记录相当于文摘型或题录型检索刊物的一条著录款目录型检索刊物的一条著录款目。一条记录即一篇文献。一条记录即一篇文献。记录记录一条记录的格式:一条记录的格式:由若干相同相同类型或不同类型的记不同类型的记录组

    14、成录组成。一个数据库由若干个文档组成。一个文档由大量的记录组成,而每个记录中又包含有若干字段,这就是文献数据库中的层次结构。文档文档(二)检索理论基础 u 检索词是用户或检索人员给出检索词是用户或检索人员给出的字、词、字符或短语,用于的字、词、字符或短语,用于查找含有它(它们)的记录。查找含有它(它们)的记录。u 检索词分为两类:受控词和非检索词分为两类:受控词和非受控词。受控词。2.1 检索词检索词概念及分类概念及分类检索词检索词受控词受控词非受控词非受控词主题词表主题词表叙词表叙词表分类词表分类词表自然语言索引自然语言索引关键词索引关键词索引2.1 检索词检索词概念及分类概念及分类文献类型

    15、字段(Document Type Field/DT)Search terms因此,任何检索工具和检索系统必须力争克服漏检(必要条件),同时尽量避免误检(充分条件)。2 检索技术词位限制检索例如,computer(计算机),在该词根前加“?”,即刊名字段(Journal Field/SO或JN)出版年字段(Publication Year Field/PY)基本索引字段:又称主题字段,是数据库提供的字段检索默认值.heart trouble,heart attack.限制检索的方式有多种,例如进行字段检索、使用限制符、采用限制检索命令等。逻辑非(逻辑差)Wienn图 进行作者检索以找出其合著者N

    16、表示误检率,则R、P、M、N定义如下:R=b/a*100 P=b/m*100 M=(1-b/a)*100=100-R N=(1-b/m)*100=100-P题录/文摘数据库:存储和检索期刊论文外部特征及文献摘要信息的数据库“?computer?”,可检出microcomputer、minicomputer、computer、computers、computerised、computerization等。需要关于某一课题的最新信息不同的检索系统有不同的符号。利用技术标准类的数据库查找所谓有限截词,是在检索词后截去有限的字母,例如输入computer?,截词符“?”表示可以有0-1个字母变化,系统

    17、即检出带有computer和computers的文献;受控词:受控词:是事先规范化的检索语言,取自主题词是事先规范化的检索语言,取自主题词表、叙词表、分类表等。如果数据库对数据采表、叙词表、分类表等。如果数据库对数据采用了受控标引,并有机读式或印刷版主题词表用了受控标引,并有机读式或印刷版主题词表时,应优先选用其中的受控词。时,应优先选用其中的受控词。特特 点:点:受控词的检索效率高,一旦选定适当的概受控词的检索效率高,一旦选定适当的概念,系统就能检出这一概念的全部内容,而且,念,系统就能检出这一概念的全部内容,而且,由于标引人员已事先解决了自然语言中的同义、由于标引人员已事先解决了自然语言中

    18、的同义、近义关系,使检索相对容易近义关系,使检索相对容易。但受控词不能及时反映新事物的发展,而但受控词不能及时反映新事物的发展,而且概念数量有限、结构复杂,不易为非专业人且概念数量有限、结构复杂,不易为非专业人员掌握。员掌握。2.1 检索词检索词概念及分类概念及分类非受控词:非受控词是指非规范化的自然非受控词:非受控词是指非规范化的自然语言词汇,又称自由词。语言词汇,又称自由词。特特 点点:非受控词可以在一定程度上弥补受非受控词可以在一定程度上弥补受控词的不足,非受控词可以是任意选词,控词的不足,非受控词可以是任意选词,其专指性强,而且不需要熟悉词表,新产其专指性强,而且不需要熟悉词表,新产生

    19、的名词术语可以及时检索与新概念有关生的名词术语可以及时检索与新概念有关的文献。但非受控词一般不能提供概念的的文献。但非受控词一般不能提供概念的等级结构,不能解决同义词、近义词、相等级结构,不能解决同义词、近义词、相关词的结合或连接问题。关词的结合或连接问题。2.1 检索词检索词概念及分类概念及分类2.2 2.2 检索技术检索技术 布尔逻辑算符布尔逻辑算符 截词检索(外文)截词检索(外文)限制检索(外文)限制检索(外文)u 利用布尔逻辑算符将检索词或代码进利用布尔逻辑算符将检索词或代码进行逻辑组配以表达检索需求的检索方法行逻辑组配以表达检索需求的检索方法u 布尔逻辑算符有三种:布尔逻辑算符有三种

    20、:u逻辑与(逻辑乘)逻辑与(逻辑乘)u逻辑或(逻辑和)逻辑或(逻辑和)u逻辑非(逻辑差)逻辑非(逻辑差)2.2 检索技术检索技术布尔逻辑算符布尔逻辑算符2.2 检索技术检索技术布尔逻辑算符布尔逻辑算符u-逻辑与(逻辑乘)逻辑与(逻辑乘)u逻辑与(逻辑乘)是用逻辑与(逻辑乘)是用“and”或或“*”连接连接检索概念,检索概念,A and B(或(或A*B)表示两个概)表示两个概念的交叉,即记录中必须同时含有念的交叉,即记录中必须同时含有A和和B,用用“逻辑与逻辑与”来检索是对检索需求增加限定来检索是对检索需求增加限定因素,可以缩小检索范围。因素,可以缩小检索范围。u用逻辑与组构的检索词越多,检索

    21、范围越小,用逻辑与组构的检索词越多,检索范围越小,专指度越强,有助于提高查准率。专指度越强,有助于提高查准率。2.2 检索技术检索技术布尔逻辑算符布尔逻辑算符Search termsResultsapple78,344breeding2,962plantoverty AND crime5,677apple AND breeding AND plant76逻辑与(逻辑乘)逻辑与(逻辑乘)Wienn图图2.2 检索技术检索技术布尔逻辑算符布尔逻辑算符u-逻辑或(逻辑和)逻辑或(逻辑和)u 逻辑或(逻辑和)是用逻辑或(逻辑和)是用“oror”或或“+”连接检索概念,连接检索概念,A or BA or

    22、 B(或(或A+BA+B)表示两)表示两个概念的并列,即记录中凡单独含有检个概念的并列,即记录中凡单独含有检索项索项A A或检索项或检索项B B,或者同时含有,或者同时含有A A、B B两两者均为命中记录。者均为命中记录。u 用逻辑或来检索可扩大检索范围,用逻辑或来检索可扩大检索范围,提高查全率。提高查全率。2.2 检索技术检索技术布尔逻辑算符布尔逻辑算符Search termsResultscollege770university33,685,205college OR university33,702,660college OR university OR campus33,703,820

    23、逻辑或(逻辑和)逻辑或(逻辑和)Wienn图图2.2 检索技术检索技术布尔逻辑算符布尔逻辑算符u-逻辑非(逻辑差)逻辑非(逻辑差)u 逻辑非(逻辑差)是用逻辑非(逻辑差)是用“notnot”或或“”连接检索概念,连接检索概念,A not BA not B(或(或A AB B)表示两个概念的排除,即凡含有检索项表示两个概念的排除,即凡含有检索项A A并且不含检索项并且不含检索项B B的记录为命中记录。的记录为命中记录。u 用逻辑非来检索,可以缩小检索范用逻辑非来检索,可以缩小检索范围,提高检索的专指度。但这种检索也围,提高检索的专指度。但这种检索也有缺点,即取消部分,往往会把切题的有缺点,即取消

    24、部分,往往会把切题的文献丢掉,因此运用逻辑非运算时要慎文献丢掉,因此运用逻辑非运算时要慎重。重。2.2 检索技术检索技术布尔逻辑算符布尔逻辑算符Search termsResultscats3,651,252dogs4,556,515cats NOT dogs81,497逻辑非(逻辑差)逻辑非(逻辑差)Wienn图图 在外文检索中,常会遇到一些词干相同、在外文检索中,常会遇到一些词干相同、词义相近的检索词或有英、美不同拼写的词,词义相近的检索词或有英、美不同拼写的词,为了减少检索词的频繁输入,扩大检索范围,为了减少检索词的频繁输入,扩大检索范围,可使用截词符(通配符),以提高检索效率。可使用截

    25、词符(通配符),以提高检索效率。所谓截词,是指在检索词的某个局部截断,所谓截词,是指在检索词的某个局部截断,利用某些检索词的词干或不完整词形加上截词利用某些检索词的词干或不完整词形加上截词符进行检索,其目的是查找某一词干的不同变符进行检索,其目的是查找某一词干的不同变化形式,做到化形式,做到一一“词词”多用多用,防止漏检,从而,防止漏检,从而达到较高的查全率。达到较高的查全率。2.2 检索技术检索技术截词检索截词检索2.2 检索技术检索技术截词检索截词检索截词方式有前截断、后截断、前后截词方式有前截断、后截断、前后截断和中间截断截断和中间截断4种。种。一般用?和一般用?和*表示截词符,不同系表

    26、示截词符,不同系统统,含义不同含义不同.2.2 检索技术检索技术截词检索截词检索-前截词:前截词:将截词符放在词根的前面,后方将截词符放在词根的前面,后方一致,表示在词根的前方有无限个或一致,表示在词根的前方有无限个或有限个字符变化。有限个字符变化。例如,例如,computer(计算机),在(计算机),在该词根前加该词根前加“?”,即,即“?Computer”,可检出:可检出:Microcomputer、Minicomputer等。等。2.2 检索技术检索技术截词检索截词检索-后截词:后截词:将截词符放在词根后面,前方一致。将截词符放在词根后面,前方一致。computer(计算机),在该词根后

    27、加(计算机),在该词根后加“?”,即为,即为“Computer?”,可检出可检出computers、computerised、computerization等。等。2.2 检索技术检索技术截词检索截词检索-前后截词:前后截词:将截词符放在词根的前面和后面,中将截词符放在词根的前面和后面,中间一致。间一致。例如,例如,computer(计算机),在词(计算机),在词根前后都加根前后都加“?”,即为,即为 “?c o m p u t e r?”,可 检 出,可 检 出microcomputer、minicomputer、c o m p u t e r、c o m p u t e r s、compu

    28、terised、computerization等。等。2.2 检索技术检索技术截词检索截词检索-中间截词:中间截词:中间截词又称为中间截词又称为“通常字符检索通常字符检索法法”,它是将截词符置于检索词的中间,它是将截词符置于检索词的中间,而词的前后方一致,通常用于英、美英而词的前后方一致,通常用于英、美英语拼写不同的词的检索。语拼写不同的词的检索。例如,例如,colo?r可检出可检出colour(英(英音)、音)、color(美音)。(美音)。2.2 检索技术检索技术截词检索截词检索根据截词的多少,可把截词符分成有限根据截词的多少,可把截词符分成有限截词符和无限截词符两种。截词符和无限截词符两

    29、种。有限截词:有限截词:所谓有限截词,是在检索词后截去有所谓有限截词,是在检索词后截去有限的字母,例如输入限的字母,例如输入computer?,截词截词符符“?”表示可以有表示可以有0-1个字母变化,系个字母变化,系统即检出带有统即检出带有computer和和computers的的文献;输入文献;输入stud?,表示截三个字母,表示截三个字母,可检索出带有可检索出带有study,studies,studied和和studing等的文献。等的文献。2.2 检索技术检索技术截词检索截词检索 无限截词:无限截词:无限截词是在检索词根后加一个无限截词是在检索词根后加一个“?”或或“*”,表示该词后带任

    30、意字,表示该词后带任意字母的词都可检出,如输入母的词都可检出,如输入comput?则则可检出含有可检出含有computers,computing,computered等文献。等文献。2.2 检索技术检索技术限制检索限制检索运用布尔逻辑算符检索时,只对检索词进行逻运用布尔逻辑算符检索时,只对检索词进行逻辑组配,未限定检索词之间的位置关系及检索辑组配,未限定检索词之间的位置关系及检索词在记录中的位置。在有些情况下,若不限制词在记录中的位置。在有些情况下,若不限制检索词之间的位置关系会影响查准率。因此,检索词之间的位置关系会影响查准率。因此,在检索系统中设置了位置限定运算符。不同的在检索系统中设置了

    31、位置限定运算符。不同的检索系统有不同的符号。检索系统有不同的符号。限制检索的方式有多种,例如进行限制检索的方式有多种,例如进行字段检索字段检索、使用限制符、采用限制检索命令等。使用限制符、采用限制检索命令等。2.2 检索技术检索技术词位限制检索词位限制检索A 字段限定检索:字段限定检索:把检索词限定在某个把检索词限定在某个/些字段中,如果记些字段中,如果记录的相应字段中含有输入的检索词则为命中录的相应字段中含有输入的检索词则为命中记录,否则检不中。记录,否则检不中。例如查找微型机或个人计算机方面的文例如查找微型机或个人计算机方面的文章。要求章。要求微型机微型机一词出现在标题或文摘字一词出现在标

    32、题或文摘字段中,段中,个人计算机个人计算机一词出现在标题或文摘一词出现在标题或文摘字段中,检索式可写为:字段中,检索式可写为:将截词符放在词根后面,前方一致。概念1:somking,smokers,tobacco 概念2:cardiopathy,heart disease,heart trouble,heart attackheart disease的同义词有:cardiopathy,将截词符放在词根的前面和后面,中间一致。但受控词不能及时反映新事物的发展,而且概念数量有限、结构复杂,不易为非专业人员掌握。实检后调整(考虑提高检准率)、优化(低频词和关键词前置)为:需要关于某一课题的最新信息收

    33、集指南或词典形式的数据记录,能直接提供具体的术语、事实、数值和图像等信息的数据库。运用布尔逻辑算符检索时,只对检索词进行逻辑组配,未限定检索词之间的位置关系及检索词在记录中的位置。2 检索技术截词检索辅助字段种类很多,且随数据库的不同而各有差异。检索流程(构建检索策略的步骤)漏检率(omission factor)、最理想的检索效果R、P均为100,但实际上这是不可能的。如:中国科学计量指标数据库。是一种能直接提供文献线索和文献原文的数据库有些联机检索系统,将词表存入计算机,帮助用户进行检索。2 检索技术截词检索一般用?和*表示截词符,不同系统,含义不同.microcomputer?/ti,a

    34、b OR personal computer/ti,ab 如查找如查找wang wei写的文章,可以输写的文章,可以输入检索式:入检索式:auwang wei 2.2 检索技术检索技术词位限制检索词位限制检索B 使用限制符:使用限制符:用表示语种、文献类型、出版国家、出版用表示语种、文献类型、出版国家、出版年代等的字段标识符来限制检索范围。年代等的字段标识符来限制检索范围。如要查找如要查找1989-1999年出版的英文或法文年出版的英文或法文的微型机或个人计算机方面的期刊,并要的微型机或个人计算机方面的期刊,并要求求“微型机和个人计算机微型机和个人计算机出现在标题或文出现在标题或文摘字段中,则

    35、检索式为:摘字段中,则检索式为:(microcomputer?/ti,ab OR personal computer/ti,ab)AND PY(1989:1999)AND(LAEN OR FR)AND DTSerial2.2 检索技术检索技术词位限制检索词位限制检索u C词位限制词位限制:可以是相邻若干词、在同一可以是相邻若干词、在同一句中等句中等.u 以以DIALOG系统所用位置算符为例:系统所用位置算符为例:u A(nW)BA、B两词相隔两词相隔n词,且前后次序不词,且前后次序不变;变;n=1时即时即A()Bu A(nN)BA、B两词相隔两词相隔n词,且前后次序不词,且前后次序不限;限;n

    36、=1时即时即A(N)Bu A(s)B A、B两词只要在同一字段两词只要在同一字段2.2 词表助检词表助检有些数据库有自已的主题词表,词表不有些数据库有自已的主题词表,词表不仅用于标引文献,也可用于助检。仅用于标引文献,也可用于助检。检索者在选用检索词时,可查阅词检索者在选用检索词时,可查阅词表。有些联机检索系统,将词表存入计表。有些联机检索系统,将词表存入计算机,帮助用户进行检索。它能将用户算机,帮助用户进行检索。它能将用户输入的非标准检索词,自动地转换为规输入的非标准检索词,自动地转换为规范词,还可以自动扩检索,如使用同义范词,还可以自动扩检索,如使用同义词检索。词检索。(三)(三)计算机检

    37、索策略计算机检索策略和检索效果和检索效果什么是检索策略什么是检索策略?所谓检索策略广义上是指为实现检索目的所谓检索策略广义上是指为实现检索目的而制订的全盘计划和方案;狭义讲是指检而制订的全盘计划和方案;狭义讲是指检索式。索式。检索式是用来表达用户提问的逻辑表达式,检索式是用来表达用户提问的逻辑表达式,是检索策略的综合体现,通常由检索词和是检索策略的综合体现,通常由检索词和各种逻辑算符、位置算符及检索系统中规各种逻辑算符、位置算符及检索系统中规定的其他连接符号构成。定的其他连接符号构成。在计算机检索中,检索策略直接关系在计算机检索中,检索策略直接关系到检索结果的成败,要想构造高水平到检索结果的成

    38、败,要想构造高水平的检索策略,不仅要求用户对检索系的检索策略,不仅要求用户对检索系统十分了解,还需要对检索课题进行统十分了解,还需要对检索课题进行深入的分析并能灵活运用各种检索方深入的分析并能灵活运用各种检索方法和技巧。法和技巧。3.1 检索式表达检索式表达检索式也称检索提问表达式,是要求系检索式也称检索提问表达式,是要求系统执行的检索语句。统执行的检索语句。简单的检索式由一个检索词和一个字段简单的检索式由一个检索词和一个字段名构成,复杂的检索式则由多个检索词名构成,复杂的检索式则由多个检索词和字段名通过关系算符(包括逻辑算符和字段名通过关系算符(包括逻辑算符与位置算符等)连接而成。与位置算符

    39、等)连接而成。简单检索式:简单检索式:apple/ti 复杂检索式:复杂检索式:(corn or maize)and harvest*)/ti(algae+algal+microalgal)growth()factor?实检后调整(考虑提高检准率)、优化(低实检后调整(考虑提高检准率)、优化(低频词和关键词前置)为:频词和关键词前置)为:(microalgal+algae+algal)(s)growth()factor?(microalgal+algae+algal)(3N)growth()factor?“微藻生长因子微藻生长因子”“图象理解专家系统图象理解专家系统”Image()unders

    40、tand?(expert()system?+artificial()intelligen?)3.2 检索效果参数检索效果参数 包括:包括:查全率查全率(recall factor)、查准率查准率(也称适中率,也称适中率,Pertinency factor?)、漏检率漏检率(omission factor)、误检率误检率(也叫检索噪音,也叫检索噪音,noise factor)以及以及新颖率、检索速度等。新颖率、检索速度等。假设:假设:n为检索系统中文献总量,为检索系统中文献总量,a为为n中与检索课题有关的文献量,中与检索课题有关的文献量,m为检索输出的文献量,为检索输出的文献量,b为为m中与检索

    41、课题有关的文献量中与检索课题有关的文献量(检检准文献量准文献量),则则n、m、a、b之间的关系如图所示。之间的关系如图所示。b为m中与检索课题有关的文献量(检准文献量),图像型数据库:存贮有某些图象信息,如图片,云图,工程设计图等.例如,colo?r可检出colour(英音)、color(美音)。逻辑或(逻辑和)是用“or”或“+”连接检索概念,A or B(或A+B)表示两个概念的并列,即记录中凡单独含有检索项A或检索项B,或者同时含有A、B两者均为命中记录。一个文档由大量的记录组成,而每个记录中又包含有若干字段,这就是文献数据库中的层次结构。了解一些片断信息,解决一些具体问题有些联机检索系

    42、统,将词表存入计算机,帮助用户进行检索。“?computer?”,可检出microcomputer、minicomputer、computer、computers、computerised、computerization等。3 构造检索式 选择检索点了解一些片断信息,解决一些具体问题扩大检索策略 减少使用AND;使用Or连接同义词及相关词三种基本字段:C词位限制:可以是相邻若干词、在同一句中等.一个文档由大量的记录组成,而每个记录中又包含有若干字段,这就是文献数据库中的层次结构。针对每一个概念,选择与之相关的同义词或相关词如:中国科学计量指标数据库。cats NOT dogs如:“吸烟与心脏病

    43、的关系”可以表达为:了解一些片断信息,解决一些具体问题逻辑与(逻辑乘)是用“and”或“*”连接检索概念,A and B(或A*B)表示两个概念的交叉,即记录中必须同时含有A和B,用“逻辑与”来检索是对检索需求增加限定因素,可以缩小检索范围。基本索引字段:又称主题字段,是数据库提供的字段检索默认值.n系统文献总量系统文献总量m 检出文献量检出文献量b为为m中中相相关关文文献献漏检漏检误检误检a为为n中中相关相关文献文献令:令:R表示查全率、表示查全率、P表示查准率、表示查准率、M表示漏检率、表示漏检率、N表示误检率,则表示误检率,则R、P、M、N定义如下:定义如下:R=b/a*100 P=b/

    44、m*100 M=(1-b/a)*100=100-R N=(1-b/m)*100=100-P 最理想的检索效果最理想的检索效果R、P均为均为100,但实际上这是不可能的。但实际上这是不可能的。实验表明:实验表明:R和和P之间存在相反的相之间存在相反的相互依赖关系,即提高互依赖关系,即提高R会降低会降低P,反,反之亦然,如下图检索特性曲线所示。之亦然,如下图检索特性曲线所示。检索特性曲线检索特性曲线对于检索来说,漏检是影响检索质量的对于检索来说,漏检是影响检索质量的最主要因素,故必须将最主要因素,故必须将M 降低到最低限降低到最低限度;误检会降低检索的效率,也会影响度;误检会降低检索的效率,也会影

    45、响检索质量。因此,任何检索工具和检索检索质量。因此,任何检索工具和检索系统必须力争克服漏检系统必须力争克服漏检(必要条件必要条件),同时,同时尽量避免误检尽量避免误检(充分条件充分条件)。(四)(四)计算机检索流程计算机检索流程文献检索课程文献检索课程目的目的:检索流程(构建检索策略的步骤)检索流程(构建检索策略的步骤)分析课题内容分析课题内容选择信息资源选择信息资源构造检索式构造检索式 选择检索点选择检索点进行检索进行检索分析检索结果,调整检索策略分析检索结果,调整检索策略跟进检索跟进检索1).明确检索目的需要关于某一课题的系统详尽的信息需要关于某一课题的系统详尽的信息需要关于某一课题的最新

    46、信息需要关于某一课题的最新信息了解一些片断信息,解决一些具体问了解一些片断信息,解决一些具体问题题2).2).明确课题的主题或主要内容 要形成若干个既代表信息需求要形成若干个既代表信息需求又有检索意义的主题概念,包括所又有检索意义的主题概念,包括所涉及的主题概念有几个,概念的专涉及的主题概念有几个,概念的专指度是否适合,哪些是主要的,哪指度是否适合,哪些是主要的,哪些是次要的,概念之间关系如何等。些是次要的,概念之间关系如何等。3).3).课题涉及的学科范围:课题涉及的学科范围:搞清搞清楚课题所涉及的学科领域、是否跨学科楚课题所涉及的学科领域、是否跨学科研究。研究。4).4).所需信息的数量、

    47、语种、年所需信息的数量、语种、年代范围、类型等具体化指标代范围、类型等具体化指标“?computer?”,可检出microcomputer、minicomputer、computer、computers、computerised、computerization等。heart trouble,heart attack.a为n中与检索课题有关的文献量,cats NOT dogs检索词分为两类:受控词和非受控词。Microcomputer、Minicomputer等。三种基本字段:如果数据库对数据采用了受控标引,并有机读式或印刷版主题词表时,应优先选用其中的受控词。2 检索技术布尔逻辑算符一个文档由

    48、大量的记录组成,而每个记录中又包含有若干字段,这就是文献数据库中的层次结构。1 检索词概念及分类可检出computers、computerised、computerization等。选择哪些语种的信息资源2 检索技术截词检索2 检索技术截词检索2 数据库分类 非文献型数据库一条记录即一篇文献。了解一些片断信息,解决一些具体问题基本索引字段:又称主题字段,是数据库提供的字段检索默认值.例:检索课题例:检索课题-不锈钢焊接不锈钢焊接检索目的检索目的查找范围查找范围了解最新的技术了解最新的技术动态动态利用期刊、会议录类的数利用期刊、会议录类的数据库查找据库查找了解焊缝强度的了解焊缝强度的测试方法和有

    49、关测试方法和有关规格规格利用技术标准类的数据库利用技术标准类的数据库查找查找申请专利申请专利利用专利类数据库查找利用专利类数据库查找4.2 选择信息资源选择信息资源是否与检索课题相关的资源都要检索是否与检索课题相关的资源都要检索选择哪些学科的信息资源选择哪些学科的信息资源选择哪些语种的信息资源选择哪些语种的信息资源信息资源覆盖的年限是否符合需求信息资源覆盖的年限是否符合需求信息资源的特点及针对性信息资源的特点及针对性4.3 构造检索式构造检索式 选择检索点选择检索点检索式检索式 是表达用户检索提问的是表达用户检索提问的逻辑表达式,由基于检索概念逻辑表达式,由基于检索概念产生的检索词和各种组配算

    50、符产生的检索词和各种组配算符构成。构成。检索点检索点 即检索途径或检索入口、即检索途径或检索入口、检索字段。检索点正确与否,检索字段。检索点正确与否,决定着检索结果的数量与质量。决定着检索结果的数量与质量。一个检索课题往往涉及多个概念,选一个检索课题往往涉及多个概念,选择检索词时首先要将检索课题涉及的择检索词时首先要将检索课题涉及的所有概念分离出来,并针对每一个概所有概念分离出来,并针对每一个概念选择尽可能多的检索词。念选择尽可能多的检索词。分析概念可从课题名称入手,出现在分析概念可从课题名称入手,出现在课题名称中的词并不一定都是概念词。课题名称中的词并不一定都是概念词。如:如:“吸烟与心脏病

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:第二讲数据库及检索方法精选课件.ppt
    链接地址:https://www.163wenku.com/p-4915740.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库