信息检索语言与技术课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《信息检索语言与技术课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 语言 技术 课件
- 资源描述:
-
1、1信息检索语言与技术信息检索语言与技术文燕平21 1 信息检索语言信息检索语言 检索语言,是信息存储与检索过程中 用于描述信息特征和表达用户信息提问的一种专门语言。检索的运算匹配就是通过检索语言的匹配来实现的。检索语言是人与检索系统对话的基础。31.1 1.1 什么是信息检索语言什么是信息检索语言v语言词汇语法 信息检索语言的词汇信息检索语言的词汇:分类号、检索词、代码 信息检索语言的语法信息检索语言的语法:如何正确描述记录和有效地检索记录的一整套规则规则。4检索语言的类型检索语言的类型检索语言检索语言的类型的类型描述内容描述内容特征语言特征语言描述外表描述外表特征语言特征语言主题语言分类语言
2、题名语言著者语言号码语言关键词语言标题词语言叙词语言51.1.1 1.1.1 文献信息分类语言文献信息分类语言v分类语言是用分类号来表达文献主题概念,分类语言是用分类号来表达文献主题概念,并将文献按学科性质分门别类地系统组织并将文献按学科性质分门别类地系统组织起来的一种检索语言。起来的一种检索语言。v利用分类语言编制的分类表主要有利用分类语言编制的分类表主要有中国中国图书馆分类法图书馆分类法(简称中图法)、(简称中图法)、美美国国会图书馆分类法国国会图书馆分类法、美国的、美国的十进制十进制图书分类法图书分类法、国际专利分类表国际专利分类表以以及印度的及印度的冒号分类法冒号分类法。6中国图书馆图
3、书分类法7中图法中图法结构示意图结构示意图A 马克思主义、列宁主义 毛泽东思想、邓小平理论B 哲学、宗教C 社会科学总论D 政治、法律E 军事F 经济G 文化、科学、教育、体育H 语言、文字I 文学J 艺术K 历史、地理N 自然科学总论O 数理科学和化学P 天文学、地球科学Q 生物科学R 医药、卫生S 农业科学T 工业技术U 交通运输V 航空、航天X 环境科学、安全科学Z 综合性图书U1 综合运输U2 铁路运输U4 公路运输U6 水路运输U8 航空运输U41 道路工程U44 桥涵工程U45 隧道工程U46 汽车工程U48 其他道路 运输工具U49 交通工程与公路 运输技术管理U441 结构原理
4、、结构力学U442 勘测、设计与计算U443 桥梁构造U444 桥梁建筑材料U445 桥梁施工U446 桥梁试验观测与检定U447 桥梁安全与事故U448 各种桥型U449 涵洞工程 基本大类基本大类 简表简表 详表详表8中国科学院图书馆图书分类法简表(第三版)中国科学院图书馆图书分类法简表(第三版)21 历史、历史学27 经济、经济学31 政治、社会生活34 法律、法学36 军事、军事学37 文化、科学、教育、体育41 语言、文字学42 文学48 艺术49 无神论、宗教学51 数学52 力学53 物理学54 化学55 天文学56 地球科学(地学)58 生物科学61 医药、卫生65 农业科学6
5、6 农作物67 园艺68 林业、林业科学71 工程技术72 能源学、动力工程73 电技术、电子技术74 矿业工程75 金属学(物理冶金)76 冶金学77 金属工艺、金属加工78 机械工程、机器制造81 化学83 食品工业85 轻工业、手工业及生活供应技术86 土木建筑工程87 运输工程9人大法简表人大法简表4.经济5.军事6.法律7.文化、教育、科学、体育8.艺术9.语言、文字10.文学11.历史12.地理14.医药卫生15.工程技术16.农业科学技术10000 总论 100 哲学 200 宗教 300 自然科学 400 应用科学 600 历史、地理 700 历史、地理800 语文900 美术
6、310 数学320 天文330 物理340 化学350 地质360 生物、博物370 植物380 动物390 人类学410 医学420 家政430 农业440 工程450 矿冶460 化学工业470 制造480 商业490 商学441 土木工程442 道路工程443 水利工程444 船舶工程445 市政工程446 机械工程447 陆空交通448 电气工程449 核子工程11杜威十进分类法杜威十进分类法(DDC)(DDC)000 总论100 哲学 200 宗教 300 社会科学 400 语言 500 自然科学600 应用科学 700 艺术 800 文学 900 历史、地理510 数学 520 天
7、文学530 物理学540 化学550 地球科学560 古生物学570 生命科学 580 植物学 590 动物学621 应用物理学 622 采矿 623 军事及航海工程 624 土木工程 625 道路工程 627 水力工程 628 卫生及市政工程 629 其它工程 610 医学 620 工程与应用科学 630 农业 640 家政650 管理科学660 化学工业670 制造业680 特种制造业690 建筑 12美国国会图书馆分类法美国国会图书馆分类法(LCC)(LCC)A 综合性类目 B 哲学、宗教 C 历史辅助科学 D 历史与地方志(美洲以外)EF 美洲历史与地方志 G 地理学、人类学H 社会科
8、学J 政治学K 法律 L 教育 M 音乐 N 艺术 P 语言、文字学 Q 自然科学 R 医学S 农业、矿业T 工业技术U 军事科学V 海军Z 目录学、图书馆学QA 数学 QB 天文学 QC物理学 QD 化学 QE 地质学 TA 工程总论 TC 水力工程 TD 卫生工程和市政工程 TF 铁道工程和运输 TG 桥梁工程 TH 建筑工程 13 国际专利分类法(IPC)各部的内容各部的内容pA-生活需要生活需要 pB-作业;运输作业;运输pC-化学;冶金化学;冶金pD-纺织;造纸纺织;造纸pE-固定建筑物固定建筑物pF-机械工程;照明;加热;武器;爆破机械工程;照明;加热;武器;爆破pG-物理物理pH
9、-电学电学14 国际专利分类法(IPC)类目采用字母类目采用字母数字数字-字母字母-数字混数字混合标记法:部合标记法:部用字母表示,大类用字母表示,大类-用用数字表示,小类又是字母,组用数字表示,数字表示,小类又是字母,组用数字表示,主组和分组间用主组和分组间用/分开。分开。vF部部v02大类大类vF小类小类v1/00主组主组v1/24分组分组15 国际专利分类法(IPC)有些分组与分组之间有从属级别关系,一有些分组与分组之间有从属级别关系,一般用圆点和缩位的办法继续细分。其分组般用圆点和缩位的办法继续细分。其分组的等级分类法为:的等级分类法为:1 1、其等级完全由类名前的圆点数决定,、其等级
10、完全由类名前的圆点数决定,而不是根据分组的编号来决定而不是根据分组的编号来决定2 2、为了避免重复,圆点也用来替代那些等、为了避免重复,圆点也用来替代那些等级直接比它更高一级的组的类名。级直接比它更高一级的组的类名。16 国际专利分类法(IPC)举例 分类号分类号F02F1/32F02F1/32的内容是指燃气发动机上的的内容是指燃气发动机上的一种具有冷却装置、用于空冷、形状是散热一种具有冷却装置、用于空冷、形状是散热片式的一种顶阀式的汽缸盖。片式的一种顶阀式的汽缸盖。17国际专利分类法(IPC)举例 B 作业、运输 分部:交通运输 B64 飞行器、航空、宇宙飞船 B64C 飞行、直升飞机 B6
11、4C25/00 起落装置 25/02 起落架 25/08 非固定的,如:可抛弃的 25/10 可快放的,可折叠的或其他的 25/18 操作机构 25/26 操纵或锁定系统 25/30 应急动作的部大类小类主组一点分组二点分组三点分组如果检索的主题涉及飞机的可如果检索的主题涉及飞机的可抛弃的起落架,那么确定的分抛弃的起落架,那么确定的分类号应该是:类号应该是:B64C25/08B64C25/0818分类语言的优缺点分类语言的优缺点p优点优点以学科和专业集中文以学科和专业集中文献的,有较好的族性献的,有较好的族性检索效果检索效果将概念逐级划分,便将概念逐级划分,便于扩大和缩小检索范于扩大和缩小检索
12、范围围p缺点缺点对新兴学科、边缘学对新兴学科、边缘学科或交叉学科而产生科或交叉学科而产生的类目不能及时体现。的类目不能及时体现。必须了解科学分类体必须了解科学分类体系,否则不容易找到系,否则不容易找到准确的类目。准确的类目。191.1.2 1.1.2 网络信息分类网络信息分类Internet是一个巨大的信息量丰富的知识库,需要采取有效的信息组织方式和检索方式才能更加有效地利用它获取知识。网络信息的“爆炸性”增长挑战了等级结构和分面分类的极限,传统分类法因受到其昂贵的维护费用和学习成本、漫长的更新周期和复杂的使用局限,不能很好地满足互联网知识组织的需求,使得非专业用户开始寻求新的分类方式来组织网
13、络信息资源。20二.公众分类法的产生与发展-1何谓何谓FolksonomyFolksonomy?Folksonomy,是一种新的网络信息分类方法。Folksonomy是一个创造词,是由社会性书签服务中最具特色的自定义标签(Tag)功能衍生而来。Folksonomy Folks+Taxonomy,Folks在英文中是表示一群人,一伙人的意思。Taxonomy则是指分类法。而Folksonomy是指“公众”自发定义的标签分类,我们将它称为“公众分类”,也有人称之为大众分类、通俗分类、分众分类、社群分类等。21二.公众分类法的产生与发展-2FolksonomyFolksonomy内涵内涵:简单理解这
14、个概念就是Tags(标签)。Folksonomy就是由网络信息用户自发为某类信息定义一组标签进行描述,并最终根据标签被使用的频次选用高频标签作为该类信息类名的一种为网络信息分类的方法。在大部分的web2.0网站中,资源都是由用户来自己去标注,可以说并没有专家去对资源进行分类。22二.公众分类法的产生与发展-3FolksonomyFolksonomy示例示例1 1:23二.公众分类法的产生与发展-4FolksonomyFolksonomy示例示例2 2:24二.公众分类法的产生与发展-5FolksonomyFolksonomy与元数据比较:与元数据比较:方面元数据Folksonomy定义关于数据
15、的数据(data about data)关于数据的标签(tag about data)目的组织信息以方便用户使用 组织信息以方便用户使用 制作人专业人士 公众(网络用户)制作成本高低维护费用大小(几近于零)更新周期长即时规范性分类架构事先制定、严谨、准确、标准、规范、权威分类架构未事先制定、标签因人而异、自由标注,品质参差不齐 便利性复杂、麻烦简单、方便时效性滞后适时直观性差及时反映大众兴趣热点与发展趋势覆盖面小越来越广25二.公众分类法的产生与发展-6FolksonomyFolksonomy应用应用:宽公众分类法(宽公众分类法(Broad Broad FolksonomyFolksonomy
16、)特点特点:面向大众,拥有大量异质用户。这里的异质是指用户在认知能力、知识结构和兴趣领域上具有一定差异,每个用户都可能用自己的语言对社区中现有或尚未添加的内容提供与众不同的标签,每一个内容都存在相当多的标签来描述。它所构建的是一个大众分类体系平台。其原理如右图所示。26二.公众分类法的产生与发展-7FolksonomyFolksonomy应用应用:宽公众分类法(宽公众分类法(Broad FolksonomyBroad Folksonomy)如右图的曲线所示:对于一个网络资源对象,可能存在5 种标签来描述它,其中使用最多的是tag2,说明这是被最广泛接受的词汇,而曲线的尾端可能会出现很多通用性较
17、差、较不常用的tags,形成长尾(long-tail)。宽公众分类提供了一种工具,能够了解用户的用词习惯,抽取准确的受控词。27二.公众分类法的产生与发展-8FolksonomyFolksonomy应用应用:窄公众分类法(窄公众分类法(Narrow Narrow FolksonomyFolksonomy)特点:用户特质 因为用户在知识结构和兴趣领域上具有很大的同质性。所以窄公众分类的可以用于为某一领域或专业的信息或知识提供共享平台。28二.公众分类法的产生与发展-9FolksonomyFolksonomy发展趋势:v公众分类法自2005年初被提出以来受到广泛的关注,并在快速演化和升级,随着大众
18、持续的需求和新的技术手段的加盟,它推陈出新的速度要快于目前元数据,成为目前海量网络资源组织的热点研究方向。vTag正在开始Web环境下对信息“分类”的一种革命性的改变。这是一种广大民众参与信息分类的规模化作业。在用户充分参与的前提下,公众分类法可提高知识组织效率,成为网络资源组织和信息检索的重要辅助手段。29三.公众分类法的特点-1 FolksonomyFolksonomy优点:优点:与传统分类法相比,这种分类法的特点在于它并没有采用预先制定的信息分类法和词表,而是用户根据个人的使用习惯,以自定义的自由词为数字资源对象进行标注和分类。所以公众分类法比传统的等级分类和分面分类法更接近用户大众并易
19、于被他们接受,自由灵活是其突出的优点。用户可以对其感兴趣的内容进行标识,提供一个或者多个标签,或什么也不作,仅浏览他人的标签。人们不必了解DCMI修饰符,也不必查询杜威十进制分类法(DDC)。30三.公众分类法的特点-2 FolksonomyFolksonomy优点:优点:用户对内容进行标注后,他人可立刻看到这些标签,如果认为标签不合适,还可以自行增加新的标签,因此共建共享是其另一重要特色。常用的标签按字顺排列,形成图1所示的标签云图(TagCloud)。这种TagCloud不同于传统的、针对文字本身的关键字检索,而是一种模糊化、智能化的分类。31三.公众分类法的特点-3 Folksonomy
20、Folksonomy优点:优点:动态更新是其有别于传统分类法的又一个重要特色。动态更新是随着人们使用不同标签标识内容信息,被使用最多的标签就最能说明这条信息的特点。一些使用频率低的标签逐渐“淡出”人们的视野,而那些使用频率高的标签会在标签云图以字号变大的形式反映出来,这种更新可让人随时发现当前人们关注的“热点”和“走势”。32三.公众分类法的特点-4FolksonomyFolksonomy缺点:缺点:缺乏层次性(缺乏层次性(lack of hierarchylack of hierarchy)公众分类法与传统分类法的一个显著不同是:它是一种平面的分类方式,系统在整体信息的组织上,是一个用词构成
21、的平面结构,因而很难使用它来揭示复杂的关系。33三.公众分类法的特点-5FolksonomyFolksonomy缺点:缺点:表达概念的模糊性表达概念的模糊性 基于公众分类法的数字资源采用的是根据用户自定义的词,进行描述、分类和检索,这就造成了标签的模糊性,主要表现在以下四个方面:缺乏语义精确性(lack of semantic precision)由于用户认知程度不同,对标签词义的理解各异,导致对同一事物的揭示存在很大的差异。比如在同一标签下,可能会发现彼此完全没有关系的内容。缺乏同义词控制(lack of synonym control)由于用户用词习惯的不同,会出现大量的同义词,例如不同的
22、词表达同一的概念:土豆/马铃薯,又如一个词的不同写法:web2/web20/web2.0,还有同一个词在英语中用户可能会使用单数或复数形式,等等。词的多义性问题。比如“china”这个标签,到底指中国,还是指瓷器。用户标签五花八门,可能会产生大量“噪音”,加重系统负担,降低分类的准确性。这些都会造成查找的困难。34四.几点建议-1 对于公众分类法在目前的应用中存在的精确性和缺乏层次等问题,如果能与目录分类法(Taxonomy)相结合,然后再对能够用作标签的词汇进行控制,(controlled vocabulary)那将是很好的解决途径。35四.几点建议-2 对Tag进行排序 除了按照字顺和权重
23、排序之外,还有多种形式,包括动态形式,如结合相关反馈、合作过滤、点击次数等。36四.几点建议-3 对Tags进行聚类 为了达到更好地揭示资源之间的相互关系,对Tags进行聚类能够帮助用户通过一个tag更快地发现与之相关的内容。以宾夕法尼亚大学(University of Pennsylvania)图书馆的“PennTag”项目6为例,图6是用户点击“film”这个标签之后,出现的按照字顺排列的与film相关的(related to film)内容。37四.几点建议-4 对Tag进行层级化 现在的标签是平面结构,不能很好地反映他们之间的层次关系。如果可以与叙词表结合使用,利用已有的叙词表中的层级
24、关系,希望将来可以实现从平面的标签到网状的概念地图(Concept Maps)。38四.几点建议-5 对Tag进行规范化 由于标签完全由用户自行创建,这种自由导致了标签的表示法不规范,例如:拼写错误,单复数形式混用,另外,由于目前大多数应用系统只支持单个词,用户为了更清楚地表达自己的意思,往往会使用符号来形成复合词,例如:目前一些del.icio.us(即“美味书签”,当前网络上最大的书签类站点)的用户使用如下的Tag来表示编程语言:Programming/C+,Programming/Java和Programming/XHTML等。39四.几点建议-6 右图5是随机抽取的一定数量的带有连接符
展开阅读全文