第二讲网络信息检索基本方法-课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第二讲网络信息检索基本方法-课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 网络 信息 检索 基本 方法 课件
- 资源描述:
-
1、LOGO第二讲第二讲 网络信息检索基本方法网络信息检索基本方法2010-9-13【目的与要求目的与要求】v 掌握布尔逻辑检索等网络信息检索的基本技术。掌握布尔逻辑检索等网络信息检索的基本技术。v 熟悉网络信息检索的途径和步骤。熟悉网络信息检索的途径和步骤。【重点重点】v 布尔逻辑语言、邻近检索、截词检索布尔逻辑语言、邻近检索、截词检索【难点难点】v 邻近检索邻近检索影响信息检索质量的因素影响信息检索质量的因素v 信息资源本身的质量对信息检索的影响(鱼龙混杂,参差不齐)信息资源本身的质量对信息检索的影响(鱼龙混杂,参差不齐)v 检索软件对信息检索的影响(不同的搜索引擎,数据库系统)检索软件对信息
2、检索的影响(不同的搜索引擎,数据库系统)v 用户水平对信息检索的影响用户水平对信息检索的影响 网络信息检索的基本技术网络信息检索的基本技术网络信息检索的基本途径网络信息检索的基本途径网络信息检索基本步骤网络信息检索基本步骤网络信息检索网络信息检索基本方法基本方法 MACTH计算机将检索提计算机将检索提问词问词文献记录标引词文献记录标引词信息检索过程的实质:信息检索过程的实质:智能检智能检索索 基本技术基本技术邻近检索邻近检索 字段限字段限制检索制检索 布尔逻辑检索布尔逻辑检索 截词检索截词检索 模糊检索模糊检索词组检索词组检索 一、网络信息检索的基本技术一、网络信息检索的基本技术1.布尔逻辑检
3、索(布尔逻辑检索(boolean logic)v 逻辑检索是一种比较成熟、较为流行的检索技术,现代的情报检索系统大多都采用这种技术。v 逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符(boolean logic operator),v 它的作用主要是利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检索单元(或检索v 标识)组配成一个具有复杂概念的检索式,以满足课题检索的要求。v 主要运算符有“和(and,*)”、“或(or,+)”、“非(not,-)”。v运算优先级顺序为运算优先级顺序为NOT、AND、OR,可以用括号,可以用括号“()”改变它们的运算顺序。改变它们的运算顺序
4、。如如A and(B or C),检索顺序为先检索顺序为先B或或C,然后再与然后再与A实例:实例:v【实例】在搜索引擎中输入“电视台-中央电视台”,查询结果不包含“中央电视台”。逻辑算符举例逻辑算符举例查找关于查找关于“动物保护动物保护”的文献:的文献:v“动物动物 AND 保护保护”查找有关冬虫夏草的文献:查找有关冬虫夏草的文献:v“冬虫夏草冬虫夏草 or 冬虫草冬虫草 or 虫草虫草”查找关于能源方面的文章,但关于查找关于能源方面的文章,但关于“核能核能”的不要:的不要:v“energy not nuclear”(energy-nuclear)检索西红柿种植技术的相关文章:检索西红柿种植技
5、术的相关文章:v(西红柿西红柿+番茄番茄)*(种植种植+栽培栽培+培育培育)Exercise1:v 查找电子图书的标准查找电子图书的标准(Digital book OR electronic book OR e-book OR online book)AND standardv Goolge的默认运算符就是逻辑的默认运算符就是逻辑“与与”,用空格、,用空格、“AND”和和“+”都表示,而逻辑都表示,而逻辑“非非”只能用只能用“-”而而不能用不能用“NOT”表示。表示。v 百度的默认运算符是逻辑百度的默认运算符是逻辑“或或”,空格、,空格、“OR”均表均表示逻辑示逻辑“或或”。v 在在ISI W
6、eb of Knowledge平台上,逻辑算符平台上,逻辑算符“AND”、“NOT”、“OR”不区分大小写,但不支不区分大小写,但不支持以持以“*”、“-”、“+”代替。代替。v 在在Science Direct中,逻辑中,逻辑“非非”是用是用“AND NOT”表示,而不是我们常用的表示,而不是我们常用的“NOT”。2.词组检索(词组检索(phrase search)v 通常在所检索词上加通常在所检索词上加“”“”对所检索词视为词组处理,表示检索与对所检索词视为词组处理,表示检索与“”“”内形内形式完全相同的短语,以提高检索的精度和准确度,因而也有人称之为式完全相同的短语,以提高检索的精度和准
7、确度,因而也有人称之为“精精确检索确检索”(exact search)。)。v 例如:例如:“动物保护动物保护”,表示动物保护是个词组,检索结果动物和保护不能,表示动物保护是个词组,检索结果动物和保护不能分开。若不加分开。若不加“”“”,检索结果可以是动物保护、动物多样性保护、动物栖,检索结果可以是动物保护、动物多样性保护、动物栖息地保护、动物资源保护等形式。息地保护、动物资源保护等形式。v Science Direct用双引号用双引号“”“”表示宽松短语检索,标点符号、连表示宽松短语检索,标点符号、连字符、停用字等会被自动忽略,如检索式为字符、停用字等会被自动忽略,如检索式为“heart a
8、ttack”会会检出包含检出包含“heart attack”和和“heart-attack”的检索结果。的检索结果。v 在该数据库中,精确检索是用在该数据库中,精确检索是用“”表示。表示。v 邻近检索有时又被称为位置算符检索。v 因此,我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系,从而使检索出的文献更确切地符合用户要求,提高查准率。v 在不同的检索系统中,所采用的位置算符是不同的,功能也有差异。在不同的检索系统中,所采用的位置算符是不同的,功能也有差异。下面以全球最大的联机检索系统Dialog为例来说明位置算符的用法,OCLC也是如此。3.邻近检索(邻近检索(proximity s
9、earch)布尔逻辑运算符和词组检索虽然能有效的扩大和缩小检索范围,但无法对检索词之间的相对位置进行限制 文献记录中词语的相对次序或位置不同,所表达的意思可能不同又称为位置算符检索,用来规定检索系统原始记录中的检索词之间的特定位置关系 同样一个检索表达式中词语的相对次序不同,其表达的检索意图也不一样我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系,从而使检索出的文献更确切地符合用户要求,提高查准率。Eg:“粉末的掺合与颜料包装”(W)WITH算符算符v 表示两个检索词前后次序固定,二者之间只能间隔连字符、空格或表示两个检索词前后次序固定,二者之间只能间隔连字符、空格或者是逗号。者是逗号
10、。【实例实例】在在OCLC中输入中输入communication w satellite;wN(with N)算符算符v 表示两个检索词之间插有表示两个检索词之间插有n个词,但顺序不能颠倒。个词,但顺序不能颠倒。v 表达式:表达式:A WN B AB两词靠近,次序为两词靠近,次序为A先先B后,中间最多可后,中间最多可加加n个词。个词。v【实例实例】在在EBSCO中输入中输入communication w3 satellite;N(Near)算符算符 N(Near)表示两个检索词可以互换顺,二者之间只能间隔连字符、空格或者是逗号。表达式:表达式:A N B:AB两词靠近,次序可变。两词靠近,次序
11、可变。【实例】在OCLC中输入communication n satellite;nN(Near N)算符算符v 表示两个检索词之间可以插入表示两个检索词之间可以插入 n 个词并且词序可以颠个词并且词序可以颠倒倒v 表达式:表达式:A(nN)B:AB两词靠近,次序可变,中间两词靠近,次序可变,中间最多可加最多可加n个词。个词。【实例】在EBSCO中输入communication n3 satellite;比较:在EBSCO中输入source and law、source w2 law(F)Field (F)表示在此运算符两侧的检索词必须同时出现在文献记录的同一)表示在此运算符两侧的检索词必须同
12、时出现在文献记录的同一字段内,如出现在篇名字段、文摘字段等,但两个词的前后顺序字段内,如出现在篇名字段、文摘字段等,但两个词的前后顺序不限,夹在两个词之间的词的个数也不限。不限,夹在两个词之间的词的个数也不限。(S)算符算符v(S)算符表示在此运算符两侧的检索词必须同时出现在算符表示在此运算符两侧的检索词必须同时出现在文献记录的子字段或同一段话中,两个词次序不限,中间文献记录的子字段或同一段话中,两个词次序不限,中间插入词的数量也不限。插入词的数量也不限。4.截词检索截词检索(truncation/wildcat)v 截词检索又称部分一致检索,是指在检索标识中保留相同的部分,截词检索又称部分一
13、致检索,是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中,计算机会将所有含有相用相应的截词符代替可变化部分。检索中,计算机会将所有含有相同部分标识的记录全部检索出来。截词符用同部分标识的记录全部检索出来。截词符用“?”或或“*”标识。标识。v 截词检索是预防漏检,提高查全率,尤其适用于英语,常用于处理截词检索是预防漏检,提高查全率,尤其适用于英语,常用于处理词语的单复数,不同拼写方式,相同词根的近义词,以及动词的不词语的单复数,不同拼写方式,相同词根的近义词,以及动词的不同形式等。同形式等。后截断无限截断无限截断同根词检索同根词检索如:physic?截词检索与截词检索算符P
14、hysicphysicsphysicstphysicalismPhysicphysicsphysicst如:physic*有限截断有限截断单复数单复数中截断中截断用用于中美拼写不同于中美拼写不同和单复数和单复数前截断前截断同根词检同根词检索索m?nmanmenv 特别提示:特别提示:“*”、“?”的比较的比较v“*”,无限截词,代表,无限截词,代表0-无数个字符如无数个字符如regard*,代表代表regard,regarding,regardless等。等。v“?”,有限截词,代表,有限截词,代表0-1个字符,如个字符,如library?,?,library,librarys。5.字段限制检
15、索技术(字段限制检索技术(field limiting)组成数据库的最小单位是记录,组成数据库的最小单位是记录,一条完整的记录中的每一个著录事项为字段。一条完整的记录中的每一个著录事项为字段。一般来说,数据库的记录基本包括下列字段:一般来说,数据库的记录基本包括下列字段:v 题名(题名(TI,title)、v 关键词(关键词(KW,keyword)、v 主题词(主题词(DE,descriptor)、v 文摘(文摘(AB,abstract)、v 全文(全文(FT,Full text)、v 作者(作者(AU,author)、v 作者机构(作者机构(CS,Coporate Source)v 期刊名称
16、期刊名称(JN,Journal)、v 出版国出版国(CO,Country)、v 出版年份出版年份(PY,Publication Year)、v 语种语种 (LA,Language)v 字段限制检索就是通过限制字段和限制字段的范围来缩小检索结字段限制检索就是通过限制字段和限制字段的范围来缩小检索结果,达到精确检索的方法。果,达到精确检索的方法。v 检索方式主要有:限定字段检索和限定范围检索检索方式主要有:限定字段检索和限定范围检索(1)限定字段检索:将检索词限定在特定的字段中,一般有两种表达方式。)限定字段检索:将检索词限定在特定的字段中,一般有两种表达方式。前缀方式,将检索词放在所限定的字段代
17、码之后,如用在著者(前缀方式,将检索词放在所限定的字段代码之后,如用在著者(AU)、刊)、刊名(名(JN)、出版年()、出版年(PY)、语种()、语种(LA)等字段后,)等字段后,例如:例如:AU=Evans,A.,LA=Chinese 后缀方式,将检索词放在字段代码之前,之后用字段限定符号:后缀方式,将检索词放在字段代码之前,之后用字段限定符号:in 或或/;如:;如:Furniture/TI即家具一词出现在题目中。即家具一词出现在题目中。v(2)限定范围检索:是通过使用限定符来限制信息的检索范围,以达到)限定范围检索:是通过使用限定符来限制信息的检索范围,以达到优化检索的方法。优化检索的方
18、法。v 不同的检索系统略有不同,常通过使用的有:不同的检索系统略有不同,常通过使用的有:“=、=、:、:”等。等。v 表达式:字段名表达式:字段名=(=、)、)v 例如:例如:PY=1995 即限定出版年份为即限定出版年份为1995及以后的文献;及以后的文献;PY=1996:2005即即1996年至年至2005年的文章年的文章思考:比较思考:比较3个检索式检索结果的不同个检索式检索结果的不同v“Information retrieval”/TI vInformation AND retrieval/TI vInformation(F)retrieval v不仅要求在题名字段中,还要求两者必须与
19、输入的形式完全相同不仅要求在题名字段中,还要求两者必须与输入的形式完全相同 v只要求在题名字段中,而不严格限制它们是短语,如只要求在题名字段中,而不严格限制它们是短语,如“information organization methods for effective retrieval”v只需要在同一个字段中只需要在同一个字段中Exercise 2:v 查找华中科技大学罗俊院士查找华中科技大学罗俊院士1999年以来发表的文章?年以来发表的文章?v AU=Luo Jun AND(CS=Huazhong Univ*)AND PY=1999v 查找查找2002年出版或发表的关于克隆人立法方面的英文著作
20、或论文。年出版或发表的关于克隆人立法方面的英文著作或论文。v“The legislation of human cloning”or human clone and legislat*and LA=English and PY=2002大多数网络检索工具都有类似于字段限制检索的功能,可将查找范围限制在大多数网络检索工具都有类似于字段限制检索的功能,可将查找范围限制在特定的范围中,如:特定的范围中,如:v 标题(标题(title)v 图像(图像(image)v 文本(文本(text)v 统一资源定位符(统一资源定位符(url)v 网站(网站(site)v 链接(链接(link)v 举例:举例:u
21、rl: Link:whitehouse.gov site:www.harvard.edu6.区分大小写检索(区分大小写检索(case-sensitive)v china-china,China,CHINA v ChinaChina v Windows,windows 7.模糊检索(模糊检索(fuzzy search)v 又称概念检索又称概念检索(相关检索)(相关检索)。当我们输入一个检索词时,搜索引擎不仅反馈。当我们输入一个检索词时,搜索引擎不仅反馈包括了该关键词的网址,同时也发来与关键词意义相近的内容。包括了该关键词的网址,同时也发来与关键词意义相近的内容。v 如如“检索检索”,查找查找,寻
22、找寻找,找寻找寻,找一找找一找.v 如如“土豆土豆”,模糊检索的检索结果中会返回包括,模糊检索的检索结果中会返回包括“土豆土豆”、“马铃薯马铃薯”、“洋芋洋芋”等含义相近或相关的内容。等含义相近或相关的内容。v 现在大多数搜索引擎都有这种功能,只不过模糊程度不同。现在大多数搜索引擎都有这种功能,只不过模糊程度不同。8.自然语言检索(自然语言检索(natural language search)v 即直接采用自然语言中的字、词、句进行提问式检索,即直接采用自然语言中的字、词、句进行提问式检索,同一般口语一样。同一般口语一样。v 智能检索智能检索 v Could you please give m
23、e some information on English literature?v 这种智能检索也是搜索引擎发展的趋势。这种智能检索也是搜索引擎发展的趋势。v 实际检索时,需要将上述各种方法综合使用才能获得最实际检索时,需要将上述各种方法综合使用才能获得最佳检索效果。如佳检索效果。如“查找查找2000年以来年以来Peter Suber教教授撰写的关于开放存取授撰写的关于开放存取”的论文?可以构建检索式为:的论文?可以构建检索式为:Open Access OR OA OR*free resources OR Open Source)AND(AU=Peter Suber)AND PY=2000。
24、v 检索式的构建不是一蹴而就的,需要根据检索结果的多检索式的构建不是一蹴而就的,需要根据检索结果的多寡和精准程度进行不断调整。另外需要特别注意的是,寡和精准程度进行不断调整。另外需要特别注意的是,不同的检索系统所使用的算符类型和符号各异,本文拘不同的检索系统所使用的算符类型和符号各异,本文拘于篇幅无法一一列举,因此使用检索系统尤其是数据库于篇幅无法一一列举,因此使用检索系统尤其是数据库前必须浏览帮助系统,详细了解字段及算符的设置情况,前必须浏览帮助系统,详细了解字段及算符的设置情况,以确定最合适的途径进行检索。以确定最合适的途径进行检索。Play time:找的就是你:找的就是你VS游戏规则:
25、1.至少使用两种以上的检索技术,如:字段名+布尔逻辑+截词检索2.检索式至少由三段构成,如(位置=)+(衣服颜色=)+(性别=)3.猜中方得分;猜不中则出题方得分4.双方轮流出题,每方5题为限5.被猜者继续出题6.不能简单使用在教室的位置二二.网络信息检索的基本途径网络信息检索的基本途径v 即我们常说的检索点即我们常说的检索点Access Point 检索点即是检索信息或文献时所通过或使用的渠道检索点即是检索信息或文献时所通过或使用的渠道,而检索工具提而检索工具提供的检索点是多种多样的,它以检索的对象文献的特征而定。供的检索点是多种多样的,它以检索的对象文献的特征而定。科技文献有两方面的特征,
展开阅读全文