医学一体化语言系统(UMLS)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《医学一体化语言系统(UMLS)课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 一体化 语言 系统 UMLS 课件
- 资源描述:
-
1、医学一体化语言系统(UMLS)n中研信公司前言n20世纪中叶是情报语言学研究中人工语言发展的鼎盛时期,20世纪末叶是人工语言与自然语言相结合的新兴阶段。n自然语言由于存在词汇的同义、多义现象,词汇的模糊性和不确定性,词汇量的巨大,词间关系不明晰等问题,不可能单纯使用它进行检索,所以需要用一种受控检索语言对检索和标引所用的词汇进行控制,把用户的语言和标引人员的语言统一起来。由于信息量的扩充,给人工语言的处理带来了很大的困难。n(1)工作量大。因为其工作繁难,国外的信息检索系统中有75%的运行费用要用于人工标引。(2)效率低。标引员要正确标引一篇文献,往往要耗时一个半小时以上。n(3)一致性差。美
2、国的Cleverton曾做过一些试验,他指出:两组人为同一主题编出的叙词表,其中词的同一率仅60%。两位有经验的标引员用同一叙词表对同一篇文献进行标引,其标引词的同一率仅有30%左右。两个在同一库中用同一检索系统检索同一问题的人,检索出的结果的同一率仅有40%。两位科研人员根据同一提问判断一组指定文献的相关性,其同一率不会超过60%。n(4)词表的不完备性影响了标引的质量。词表的更新赶不上时代发展的步伐。庞大的词表,使标引速度大大地降低。n(5)标引员与检索员都必需熟悉词表才能工作,使用非常不便。因此,必须发展使用电脑来进行自动标引。早在1956年,美国的H.P.Luhn就开始了文献自动标引的
3、试验;60年代初,美国的G.Salton教授在自动标引方面取得了令世界瞩目的成就。n中医药文献数据库在多年的建库过程中,深刻体会到标引工作的复杂性与耗时、人、财量。n为实现自动标引与自由检索,以及数据库的深层次加工与数据挖掘。现行方法有二个方面。n数据库结构的拆分与细化。n语言处理。美国国立医学图书馆研制了统一的医学语言系统(Unified Medical Language System,UMLS),其目的在于克服计算机生物医学信息检索中相同的概念具有不同的表达方式,有用的信息分散在不同的数据库系统中。一、UMLS的建立与发展过程n建立目的:旨在建立一个计算机化的可持续发展的生物医学检索语言集
4、成系统和机读情报资源指南系统,其目的在于提高计算机程序“理解”用户提问中生物医学词汇语义的能力,并利用这种理解帮助用户检索和获取相关的机读情报。UMLS是计算机化的情报检索语言集成系统,它不仅是语言翻译、自然语言处理及语言规范化的工具,而且是实现跨数据库检索的词汇转换系统,它可以帮助用户在联接情报源,包括计算机化的病案记录、书目数据库、事实数据库以及专家系统的过程中对其中的电子式生物医学情报作一体化检索。是使医疗卫生专业人员和研究工作者能够通过多种交互检索程序,克服由于不同系统语言差异性和不同数据库相关情报的分散性所造成的诸多情报检索问题,帮助用户从电子病案系统、书目数据库、图像数据库、事实数
5、据库、专家系统等各种联机情报源中检索和获取综合性或特定性的情报信息。主要解决:1)同一概念由于不同的人或在不同的数据库中可能会有不同的表达方式;2)数据库系统分散所造成的检索不完整的问题。发展过程n1986-1988的第一阶段,其研究和开发的重点是调查用户需求、开发研究工具、确定UMLS的性能及其实施方案、界定系统组成等。在此阶段主要界定了UMLS的三个组成部分即超级叙词表、语义网络、情报源图谱,并且进行了包括Mesh、SNOMED、CMIT和PDQ词表在内的联接试验。n1989-1991年为UMLS的发展阶段,其开发的重点是迅速研制和发行三个UMLS产品的试验版,同时继续开展用户调查和UML
6、S功能开发。n92年至今为应用阶段,1996年UMLS新增了一个组成部分即“专家词典”。在此阶段,许多研究机构利用UMLS 进行基于Internet的应用开发,如决策支持系统DX plain、文献检索系统Web medicine、临床Web搜索系统Clin web、医学世界检索Medical world search以及集成化的Med weaver等。同时进行了NLM/AHCPR大规模词汇测试。二、UMLS的组成n超级叙词表(Metathesaurus)n语义网络(Semantic Network)n情报源图谱(Information sources Map ISM)n专家词典(Special
7、ist Lexicon)四个部分组成。这四部分紧密联系、不可分割,构成了一个有机的整体。n(1)超级叙词表n超级叙词表是生物医学概念、术语、词汇及其等级范畴的广泛集成。“Meta”意即超越、含盖。n 1997年第8版的超级叙词表收录了来源于30多种生物医学词表和分类表的能表达33万多个概念的739439个词汇,2001年12版收录了83万个概念,190万个词。到2002年,第13版超级叙词表收录了776940个概念共210万个词。n来源:这些概念和词来自60 多个生物医学受控词表、术语表、分类表、专家系统中的词汇、词典及工具性词表等,如Mesh表及其葡萄牙语、西班牙语、法语、德语、俄语等各种译
8、本、医学系统化术语表、国际疾病分类修订第 10 版及其他各版、护理诊断分类、麻省总医院研制开发的DX plain专家系统、多兰氏图解医学辞典、校对词表3.1 版等。n概念组织:叙词表是依据概念(concept)或涵义(meaning)组织起来的,其根本目的是将相同概念的交替名称和不同形式联系在一起,并识别不同概念之间的联系。因此,可以说概念是超级叙词表组织系统的中心。保留原有词表中概念与关系,同时增加了一个新的关联。整合成一个庞大的可控的知识库。n对于同一概念的不同术语以及不同的变异形式,超级叙词表采用三级结构模式,即概念(I 级)-术语(II 级)-词串(III 级),将一个概念的多种不同术
9、语连同多个变异词串有序地组织在一起。对于不同的概念,超级叙词表采用多种“关系”概念如相关概念、组配概念、共现概念等来描述不同概念之间的关系。表达相同概念的不同形式款目关联n表达相同概念的语词串接起来,并在不同概念间建立关系,便于主题相关性的判断。n在Meta中的每一个概念都会被指定一个概念识别码(unique concept identifier,简称CUI)。CUI本身不具意义,只用作连结的指针。而每一个表达概念含意的字符串(name or string),不管是大小写的分别或语文上拼字的不同,凡是有差异者均视为一个独立的字符串,而分别赋予不同的字符串识别码(unique string id
10、entifier,简称SUI)。由于Meta实际上是由英文款目所构成的,所以不同词型间表达相同概念的语词要能连结在一起,就必须依赖一般形式识别码术语码(common term identifier,简称LUI)的指引。Concept(CUI)Terms(LUIs)Strings(SUIs)C0004238 Atrial Fibrillation(preferred)Atrial Fibrillations Auricular Fibrillation Auricular FibrillationsL0004238 Atrial Fibrillation(preferred)Atrial Fib
11、rillationsS0016668 Atrial Fibrillation(preferred)S0016669 Atrial FibrillationsL0004327(synonym)Auricular Fibrillation Auricular FibrillationsS0016899 Auricular Fibrillation(preferred)S0016900(plural variant)Auricular Fibrillations表1:字符串“Atrial Fibrillation”(心房纤维颤动)和字符串“Atrial Fibrillations”在系统中被视为不同
12、的字符串,故分别给予不同的SUI编码。然此二字符串实际上仅是单复数形上的差别,所以会被指引到相同的Term identifier(LUIs);同理“Auricular Fibrillation”和“Auricular Fibrillations”也会同样被指引到另一个term identifier(LUIs)。而当系统检视term identifier时会发现“Artial Fibrillation”和“Auricular Fibrillation”在意义上是一致的,所以二个LUIs会被指引到相同的concept identifier(CUIs)。如此循序建立四个不同形式但表达相同概念之语词间
13、的关系。不同语词间关系建立之后,会牵涉到选择用语的问题,如:概念的标准用语、参照互见及缩写形式等。为了节省在选择选用语时所花费的心力,Meta的处理程序是建立索引表间的优先级。以UMLS现有的策略而言,MeSH是Meta所涵盖索引词中,拥有最高优先权的索引系统,所以MeSH中出现的概念词均视为选用词(preferred term),而其它索引表中若有出现表达相同概念而形式不同的语词时,则视为参照款目。同理,若在MeSH中未涵盖的概念,则依第二顺位的索引表来决定选用词的形式,依此类推。Meta利用LUIs来串接SUIs及CUIs。但是这种处理方式有可能导致一个字符串若含有多种意义时,可能会被错误
14、指引。尤其是Meta中包含多个索引表系统,此类状况当然可能发生。举例:字符串Cold的含义可能指温度上的冷,也可能是指一般感冒,因此在SUIs中将其分别定义为cold(1)、cold(2),在String部份就会产生四个与cold近似的字。因cold、cold(1)、cold(2)在拼字上仅有些许差异,故被指引到同一个LUI,相对的Common Cold则被指定为另一个LUI。而检视Term identifier时,根据语词含义,再分别指引到所属含义的CUIs,其中Cold因语义模糊,所以被指引到二个Concept identifier,系统以此方式解决同一字符串不同内涵会被错误指引的问题。然
15、而在以后的版本中,有关处理同形异义的问题,可能会采用限定词的方式,如“cold(temperature)”,“cold(disease)”等。FIGURE 2.Concepts(CUIs)Concepts(CUIs)Terms(LUIs)Terms(LUIs)Strings(SUIs)Strings(SUIs)C0009264C0009264 cold temperaturecold temperatureL0215040 L0215040 cold temperaturecold temperatureS0288775S0288775 cold temperatureL0009264 L00
16、09264 Cold Cold ColdColdS0007170S0007170 Cold S0026353S0026353 ColdC0009443 C0009443 Common ColdCommon ColdL0009443 Common ColdS0026747S0026747 Common ColdL0009264 Cold ColdS0007171S0007171 Cold S0026353S0026353 Cold不同概念间关联的建立 n在Meta中展示了不同概念间的各种关系,而这些关系的建立,有些是取自原有的索引表架构,有些则是在建构Meta时所赋与的。例如“Atrial Fi
17、brillation”(心房纤维颤动)和“Arrhythmia”(心律失常)在MeSH中是以层级架构来展示二词间的隶属关系。但“Atrial Fibrillation”在本质上也是一种“Arrhythmia”在MeSH中却没有被展现,此即Meta在建构时所新添的关系。另外,有时也会有来自其它索引典所建立起来的概念关系应用到Meta上。例如概念词“Paroxysmal Atrial Fibrillation”(阵发性心房纤维颤动)在Meta中被指引为“Atrial Fibrillation”的下位词(Narrowed term),即是取自MeSH,ICD-9,SNOMED等索引表中所建立的架构。
展开阅读全文