信息检索技术课件4.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《信息检索技术课件4.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 技术 课件
- 资源描述:
-
1、 用一个关键词检索可能比较简单容易,但通常检索题目会用到不止一个关键词。下面就讲一下有效组合多个检索概念的方法和技巧。数据库是有高度的组织结构性的,因此,要有效地进行检索需用到一些特殊的技术。当你要用多个词表达你的检索意图时,检索词的输入必须通过数据库能够理解的方式才行。例如:例如:互联网对青少年的影响1.检索检索算符算符首先列出相关的检索词:互联网、青少年、影响。要注意的是,通常名词比形容词、介词、代词更适合作为检索的主题词,你知道吗?有些没有实际意义的虚词在检索中被称为禁用词(stopword),禁用词在检索时通常会被忽略掉;接下来试着把这些检索词组配起来:“互联网互联网”和和“青少年青少
2、年”和和“影响影响”常用到的连接词有AND(与)、OR(或)和NOT(非),下面的篇幅将向你展示连接词的用法 布尔逻辑算符是规定检索词之间逻辑关系的算符,利用布尔逻辑算符进行检索词或代码的逻辑组配,是计算机信息检索系统中最常用的一种检索方法,也称布尔检索。布尔逻辑算符布尔逻辑算符通常通常包括包括以下三种:以下三种:(1)逻辑“或”:(OR)或“+”表示(2)逻辑“与”:(AND)或“*”表示(3)逻辑“非”:(NOT)或“-”表示(1)逻辑逻辑“”(AND或或*)逻辑“与与”(AND)是用来组配具有相互交叉限定关系的检索概念。逻辑“与与”有时也用“*”代替,其含义是检出的记录中同时含有“AND
3、”前后两个检索词。如:查找有关“纳米”和“材料”方面的文献时,其检索式为:Nano AND MaterialsNano*Materials 当你希望所找的文章中包含两个或两个以上的检索概念时,你可以在检索式中用“AND”将这些关键词连接起来,表示这些关键词必须同时出现在记录中的某处。使用“AND”将缩小检索范围。如:如:students AND Internet 输入上面这个检索式,会找到关于students和internet同时出现的文章,只包含其中一个词的文章是不会被检索到的。因此,在连接不同概念的检索词时,AND是非常有用的。在一个检索式中,AND可以被使用多次。如如:students
4、AND Internet AND assignments有的中文数据库用“*”来代替AND,就象下面的这个例子。当然,不是所有的中文数据库都支持这种用法,你可以查看帮助文件加以确认。如:学生如:学生*互联网互联网(2)2)逻辑逻辑“或或”:用:用“OROR”或或“+”表示表示 在检索中,你也可以用逻辑逻辑“或或”(OR)连接关键词。检索式。OR最好用于针对一个概念的同义词检索。很显然,使用OR可以扩大检索范围。例如例如Internet OR Web 使用上面这个检索式,使用了网络的同义词。会找到有关Internet 或 Web的文献或Internet 与Web 同时出现的文献。也可以在一次搜索
5、中多次使用OR:如:如:Internet OR Web OR online OR digital OR wired有的中文数据库在使用OR时需用“+”来代替:互联网互联网+网络网络+在线在线 OR用于组配具有并列关系、概念相同或相近的检索词,如同义词、相关词等。用OR算符的基本作用是扩大检索范围,增加命中的文献量,提高检索的查全率。如:查找“肿瘤”的检索式为:cancer(癌)or tumor(瘤)or carcinoma(癌)(3)逻辑非:逻辑非:“not”或或“-”表示表示NOT的含义是排除,意味着在检索结果中只出现其中的一个关键词而不应出现另一个关键词。例如例如:computer NOT
6、 software 输入上面这个检索式,会检索到有关computer的文章,但这些文章中不应包括和software相关的内容。需要注意的是,有的中文数据库在使用NOT时需用“-”来代替,就象下面的例子。当然,不是所有的中文数据库都支持这种用法,你可以查看帮助文件加以确认.如:如:计算机计算机-软件软件上述检索式用于查找只出现计算机而不出现计算机软件的文献,用于连接排除关系的检索词,即排除不需要的和影响检索结果的概念。用NOT连接检索词A和检索词B,检索式为:A NOT B(或AB)表示检索含有检索词A而不含检索词B的信息,即将包含检索词B的信息集合排除掉。如:查找“动物的乙肝病毒”的文献的检索
7、式为:hepatitis B virus(乙肝病毒)not human(人类)图(图(a)图(图(b)图(图(c)截词符截词符就是用一个符号来代替单词的一部分或某个字母。截词符只用于英文检索。截词检索的作用是减少检索词的输入而保证相关检索概念的涵盖,同时也方便解决语言文字拼写方面的差异(如美式英语和英式英语),避免漏检。这样可以扩大检索范围,提高查全率,节省检索时间。看看下面这些例子:输入wom?n 可以检出woman,women 输入comput*可以检出computer,computus,computing,computative,computator等ComputComput*erer用
8、来对检索词(干)进行扩展。在不同的检索系统中,截词符有不同的表示方法,通常用“?”或者“*”来表示。截词方式:截词方式:按截断的位置来分共有三种:后截断、中间截断、前截断;按截断的字符数量来分:有限截词(limited truncation)、无限截词(unlimited truncation)。平时用得较多的是后截断(无限截词和有限截词)和中间截断(仅允许有限截词)。(1)后截断)后截断后截断即前方一致检索,是最常用的检索技术。将截词符放在一个词干的后边,以表示其后可有无限或有限个字符。后截断无限截词后截断无限截词不说明具体截去字符的数量。截词符是在一个词尾加一个?号,表示在其后可添加任意多
9、个字符,这些字符都被作为检索词进行检索。无限截词通常用 或或 *来表示把截词符放在字根的最后。如:behav?;系统将找出“behave,behaviour,behavioural”等等。后截断有限截词后截断有限截词说明具体截去字符的数量,截词符是在一个词尾加有限个?号,n个?号表示其后可添加的字符数少于等于n个。如:smok?;系统 将对smoke,smoky,smoked,smoker,smokes等进行检索。对于最多允许添加一个字符的情况,则用?的形式表示。如:smok?;将只对 smoke,smoky进行检索。(2)中间截断)中间截断 中间截断是把截词符号放在一个检索词的中间。一般中间
10、截断只允许有限截断。中间截词符中间截词符也称通配符,是在一词中间用若干个?号,表示可插入若干个字符。中间截断主要用于英式和美式单词的不同拼写方式,以及有些词在某个元音位置上出现单复数不同。如:organi?ation将对organisation和organization进行检索。如:wom?n 系统将找出 woman,women“;中文数据库截词一般只能用在词尾,英文数据库则3种方式都可以。(3)前截断)前截断 前截断前截断 用用?或或*来表示来表示把截词符放在字根的左边。如:*Computer,系统在检索时,索引词Microcomputer算命中位置算符:位置算符:表示其连接的两个检索词之间
11、的位置关系(1)(W)与与(nW)算符算符W是with的缩写。(W)表示其连接的两个检索词必须按序出现,中间不允许插词,只能有一空格或标点、符号。如:high(W)class命中的记录中出现的匹配词可能有:high class 或high-class。(nW):与(W)类似,只是它允许插词,插词量小于或等于n个。如:如:silicon(2W)sensorsilicon(2W)sensor;命中的记录中出现的匹配词除上例的外,还可能会有:silicon angular rate sensor,silicon-based chemical sensor等等。(2)(N)与与(nN)算符算符(N):
12、N是near的缩写。(N)表示其连接的两个检索词的词序可变,但两词间不允许插词。(nN):(nN)中的n表示允许插词量少于或等于n个。如:internet(1N)accessing命中记录中除上例的外,还会可能有:accessing the internet,internet/intranet accessing等。(3)(L)(3)(L)算符算符(L):L是limit的缩写。(L)表示其连接的两个检索词之间有主副关系,前者为主,后者为副,可用来连接主、副标题词。它们出现在记录的规范词字段。如:television(L)high definition命中记录的规范词字段(de)中出现的匹配词是
13、:TELEVISION-High definition。(4 4)(S)(S)算符算符 (S):S是Subfield的缩写。(S)表示其连接的两个检索词必须出现在同一子字段中。子字段是指字段中的一部分,如一个句子、一个词组、短语。字段不限,词序不限。如:silicon(S)sensor 命中记录出现的匹配情况如:A vacuum magnetic sensor(VMS)using a silicon field emitter tip was fabricated and demonstrated.(5 5)(F)(F)算符算符(F):F是Field 的缩写。(F)表示其连接的两个检索词必须出
14、现在 同一字段中,字段不限,词序不限。如:pollution(F)control 可检出:control and management of industrial pollution不同算符的比较:不同算符的比较:两个词由不同的算符连接组成不同的检索式,其检索结果显然不同。比如同样两个词用关系较紧的算符其检索结果的记录一定比用关系较松的算符检出的记录数少。以下用electron和device 两词为例,在Ei Compendex数据库检索,其结果如下表所示。位置位置算符按照限制程度的大小排序为:算符按照限制程度的大小排序为:(W)、(nW)最强,最强,(N)、(nN)次之,次之,(S)再次之,
15、再次之,(F)最弱最弱。执行一个课题的检索是有过程、分步来完成的,检索步骤的科学安排称为检索策略(search strategy),它是为实现检索目标而制定的全盘计划或方案。分析检索要求选择数据库确定检索词构成检索式提交计算机结果显示完成满意满意修改检索式不满意不满意 检索课题的分析,即主题分析,明确课题所包含的概念成份及其相互关系。这是检索策略制定的根本出发点,也是影响检索效率高低或成败的关键。要明确以下问题要明确以下问题:分析课题的主要内容及其所涉及的学科范围。所需文献的类型、语种、年代及文献量的范围。对查新、查准、查全的指标要求,及其侧重。通过检索需求的目的的分析,有针对性的选择相关信息
16、源,主要确定以下几个方面:(1 1)是否要对所有与检索课题相关的资源进行检索,如果是,则不但要考虑检索一次文献和二次文献的数据库,而且对于网上其它资源;如搜索引擎、学科导航专题BBS等也要进行查询。(2 2)究竟要选择哪些信息源;如查找生物学方面的信息,则可能会涉及医学方面的信息资源,所以要考虑跨学科的问题。(3 3)选择哪些语种的信息源:是中文还是西文?还是两者兼顾。(4 4)信息源覆盖的年限是否符合要求。大多数数字信息资源覆盖的年限都是近20年的内容,如果课题需要更早的资料,就要考虑手工检索的问题;还有些数据库由于更新速度的原因,无法提供最新的信息,也是要考虑的因素,考虑用其它相关资源来予
展开阅读全文