新编-(大学课件)面向综合语言知识库建设的汉语词义消歧与标注语言模型研究.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《新编-(大学课件)面向综合语言知识库建设的汉语词义消歧与标注语言模型研究.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大学课件 新编 大学 课件 面向 综合 语言 知识库 建设 汉语 词义 标注 模型 研究
- 资源描述:
-
1、面向综合语言知识库建设的汉语词义消歧与标注语言模型研究 docin/sundae_meng内容提要n一、绪 论n二、国内外研究现状分析n三、词语义项的表征及其可计算性n四、基于多知识源的知识提取与融合n五、面向汉语词义排歧与标注的语言模型n六、标注语料的一致性保证与正确性评价n七、面向真实文本的汉语词义标注实验系统的设计与实现n八、结 束 语docin/sundae_meng一、国内外研究现状基于规则的词义消歧方法基于词典知识的词义消歧方法有指导的统计词义消歧方法无指导的统计词义消歧方法v现有研究存在的问题与改进策略伪词法-可解决训练语料不足的问题少数几个词-只适于对消歧算法的研究docin/
2、sundae_meng二、我们的目标、优势及对策 研究的目标与内容目标:建设高质量的大规模汉语综合语言知识库内容:汉语语料库建设过程中汉语词义消歧与标注的基本方法和关键技术。所具有的优势人员优势:文理交叉;资源优势:世界上最大的标注语料库,语法信息词典等docin/sundae_meng二、我们的目标、优势及对策 拟解决的问题知识源的选择;基于多知识源的知识提取与融合;基于知识的词义消歧模型与算法;模型的评价与一致性检验方法 研究方法与技术路线开发试验平台用于模型与算法的实验研究;采用同形标注与义项标注两步走战略;docin/sundae_meng内容提要n一、绪 论n二、国内外研究现状分析n
3、三、词语义项的表征及其可计算性n四、基于多知识源的知识提取与融合n五、面向汉语词义排歧与标注的语言模型n六、标注语料的一致性保证与正确性评价n七、面向真实文本的汉语词义标注实验系统的设计与实现n八、结 束 语docin/sundae_meng题引意义训释表征方式及其可计算性义原表征方式及其可计算性概念依存关系表征方式及其可计算性由可计算性看表征方式对词义消歧的作用结论三、词义的表征及其可计算性三、词义的表征及其可计算性 docin/sundae_meng三、词义的表征及其可计算性三、词义的表征及其可计算性 3.1 题引 W-i S1 S2 W-1 W Sk W+1 Sn W+i语料消歧S1S2
4、SkSn W词典描述自然语言处理中的多义词问题自然语言处理中的多义词问题 多义词在信息检索、机器翻译、文本校对等领域都会引起歧义,它的表征方法直接关系到词义消歧的可计算性和可实现性。多义词:多义词:同一个词形(word form)表达了多个不同的意义。docin/sundae_meng 知识表示是机器学习的关键,如何表征和获取词义消歧知识,是自然语言处理研究的任务之一。如何在词典中实现词语的多个义项的表征?如何在词典中实现词语的多个义项的表征?传统辞书的释义方式意义训释语义原语描述语言义原表征概念依存关系概念依存关系表征 它们的可计算性如何?三、词义的表征及其可计算性三、词义的表征及其可计算性
5、 3.1题引docin/sundae_meng题引意义训释表征方式及其可计算性义原表征方式及其可计算性概念依存关系表征方式及其可计算性由可计算性看表征方式对词义消歧的作用结论三、词义的表征及其可计算性三、词义的表征及其可计算性 docin/sundae_meng三、词义的表征及其可计算性三、词义的表征及其可计算性 3.2意义训释表征方式及其可计算性3.2.1 3.2.1 表征形式表征形式以自然语言形式定义和解释词语意义【仪表】人的外表 测定温度、气压、电量、血压等的仪器问题问题:自然语言本身的模糊性、歧义性,造成多义词解释的递归性。引发歧义膨胀docin/sundae_meng 2 7 2 1
6、v 2)1(v )1(v 抓住)(坏)强烈的作用使物体变()用强力取;捉(搬动用手或其他方式抓住、)(拿)掌握(用手拿或攥握握;拿把握三、词义的表征及其可计算性三、词义的表征及其可计算性 3.2意义训释表征方式及其可计算性docin/sundae_meng3.2.2 3.2.2 可计算性及其应用可计算性及其应用在词义消歧中的应用:在词义消歧中的应用:20世纪80年代是一种流行知识资源。词义消歧:Lesk(1986)应用Oxford Advanced learners Dictionary释义辞典进行词义消歧。可计算性:可计算性:比较弱所采用的方法各个义项的释义部分与其所在上下文词语间的覆盖度,
7、确定它在该上下文中的适当意义。但释义部分简明时,与上下文的覆盖度为0;通过同义词扩充增大上下文的窗口,增大覆盖度。但仅应用这种释义词典不好进行同义词的计算。三、词义的表征及其可计算性三、词义的表征及其可计算性 意义训释表征方式及其可计算性docin/sundae_meng题引意义训释表征方式及其可计算性义原表征方式及其可计算性概念依存关系表征方式及其可计算性由可计算性看表征方式对词义消歧的作用结论三、词义的表征及其可计算性三、词义的表征及其可计算性 docin/sundae_meng3.3.1 3.3.1 表征方式表征方式知网采用义原来表示概念义原:最基本的、不易于再分割的、意义最小的语义单位
8、。空间变换:将数量非常大(6万多个概念)的概念空间,映射到维数有限的义原空间。从而使文本内容的计算可实现化。多义词的表示示例如下:三、词义的表征及其可计算性三、词义的表征及其可计算性 3.3义原表征方式及其可计算性docin/sundae_meng【仪表】NO.=096060 W_C=仪表 G_C=E_C=W_E=bearing G_E=N E_E=DEF=attribute|属性,bearing|仪态,&human|人 NO.=096061 W_C=仪表 G_C=N E_C=W_E=meter G_E=N E_E=DEF=tool|用具,*measure|测量三、词义的表征及其可计算性三、词
9、义的表征及其可计算性 义原表征方式及其可计算性docin/sundae_meng采用知识词典描述语言(KDML)对概念进行定义描述公式:“义原顺序特殊符号分隔符”包括1500个左右的“义原”,符号(*,%,$,#,&)和标点(=,)。特点概念定义形式化,描述复杂度低,一致性好。便于计算。是一个能描述概念及概念属性之间关系的语义网络。便于推理。三、词义的表征及其可计算性三、词义的表征及其可计算性 义原表征方式及其可计算性docin/sundae_meng3.3.2 3.3.2 可计算性及其实现可计算性及其实现义原空间+概念描述的公式化=很强的可计算性。面向不同的应用其可计算性的实现方法不同机器翻
10、译:词语相似度的计算信息检索:词语相似度的计算句法结构消歧:词语间的关联度计算 词义消歧:词语间的关联度计算 自动问答系统:语义推理计算 三、词义的表征及其可计算性三、词义的表征及其可计算性 义原表征方式及其可计算性docin/sundae_meng相似度、相关度等的计算在知网中,对描述概念的义原表达式的不同理解和运用,会形成不同的相似度、关联度或推理求解的计算方法。词语相似度的计算 语义表达式分解成四个部分:(1)第一基本义原描述式;(2)辅助基本义原描述式;(3)关系义原描述式;(4)符号义原描述式。三、词义的表征及其可计算性三、词义的表征及其可计算性 义原表征方式及其可计算性docin/
11、sundae_meng计算以上四部分的相似度,并分别记为:sim1(C1,C2),sim2(C1,C2),sim3(C1,C2),sim4(C1,C2)则词C1和C2的总体相似度可计算如下:41ii1j21ji21)C,C(sim)C,C(sim其中,i(1i4)是可调节的参数,且有:1+2+3+4=1,1234。反映了Sim1到Sim4对于总体相似度所起到的作用依次递减。三、词义的表征及其可计算性三、词义的表征及其可计算性 义原表征方式及其可计算性docin/sundae_meng由于义原根据上下位关系可以构成一个树状的义原层次结构,所以,可采用语义距离相似度的计算办法,近似计算两个基本义原
12、的相似度sim1(C1,C2):式中,p1和p2分别表示两个概念的第一基本义原,d为两个义原在树状义原层次结构中的路径距离,为一个可调节的参数,表示两个义原的相似度为0.5时,其在义原层次结构树中的路径距离,是为计算参数d而做的标定和补充。d)p,p(sim)C,C(sim21211三、词义的表征及其可计算性三、词义的表征及其可计算性 义原表征方式及其可计算性docin/sundae_meng词语相关度的计算 反映的是两个词语互相关联的程度,可以用这两个词语在同一个语境中共现的可能性来衡量。一般情况下,两个词语的相似度高,其相关度也较高,但两个词的相关度高,其相似度却未必高。知网中的义原分为6
13、大类,每一类都是树状结构,各类之间又通过解释义原相互联系,义原树中的上下位关系构成了义原的相似度,义原与解释义原的关系形成了义原的关联度。三、词义的表征及其可计算性三、词义的表征及其可计算性 义原表征方式及其可计算性docin/sundae_meng两个义原的关联度可按下式计算:)ji,2j,i1(D)p,p(d1max)2C,1C(relji式中,pi和pj分别表示两个概念的第一基本义原;D为横向关联影响深度,即某一义原向上第几层的解释义原对其特征的影响,D取一个合适的值,如果超过这个深度,则认为其没有影响。d(pi,pj)为义原pi出现在义原pj的解释义原中出现的向上数的层数。三、词义的表
14、征及其可计算性三、词义的表征及其可计算性 义原表征方式及其可计算性docin/sundae_meng许云等经过考虑实例影响因素,同时考虑词语义项的相似度和相关度,给出了下面计算词汇相关度的计算公式:)C,C(ExampD)C,C(d1)C,C(simmax)W,W(R21341ii1j21221ji121式中1+2+3=1。第一部分考虑了两个概念的相似度,第二部分考虑了两个概念的相关度,第三部分则是实例影响因素,它是通过知网中的概念(词语义项)描述实例中的信息进一步提高语义相关计算的合理性,计算公式如下:三、词义的表征及其可计算性三、词义的表征及其可计算性 义原表征方式及其可计算性docin/
15、sundae_mengExamp(C1,C2)=max Sim(Cei,Cj)(1i,j2,ij)利用义原同现实现词义消歧 在词义消歧中,直接通过计算多义词所在语句的义原同现概率,并经过互信息的选择来确定多义词的词义,这种思路比上面的计算相似度的方法要简单。这里,Cei为第i个义项的实例单词集合中的任一个词的义项。三、词义的表征及其可计算性三、词义的表征及其可计算性 义原表征方式及其可计算性docin/sundae_meng题引意义训释表征方式及其可计算性义原表征方式及其可计算性概念依存关系表征方式及其可计算性由可计算性看表征方式对词义消歧的作用结论三、词义的表征及其可计算性三、词义的表征及其
16、可计算性 docin/sundae_meng3.4.1 3.4.1 表征方式表征方式人脑对词语的组织与普通词典不同上下位关系动物飞禽走兽天鹅鸡山鸡 家鸡人脑:按词义信息来组织词语,可建立起各种概念间的依存关系,便于推理 普通词典:按照字母顺序来 组织词语 三、词义的表征及其可计算性三、词义的表征及其可计算性 3.4 概念依存关系表征方式及其可计算性docin/sundae_meng 概念之间的依存关系(或语义关系)可以有很多种,是对现实世界中各种事物间关系的反映:同义关系反义关系上下位关系部分整体关系时间关系位置关系相近关系三、词义的表征及其可计算性三、词义的表征及其可计算性 概念依存关系表征
17、方式及其可计算性docin/sundae_meng 希望将词语按人脑的形式组织成机读词典,便于自然语言处理的应用,便于推理、计算。WordNet-Princeton大学 FrameNet-California大学Berkeley分校 MindNet-Microsoft CCD-北京大学 三、词义的表征及其可计算性三、词义的表征及其可计算性 概念依存关系表征方式及其可计算性docin/sundae_meng目标:概念形式化、具体化,通过词汇意义对其进行计算和操作,建立起概念之间的多种语义联系和推理,增强机器可计算性,实现自动语义推理 三、词义的表征及其可计算性三、词义的表征及其可计算性 概念依存
18、关系表征方式及其可计算性docin/sundae_meng3.4.2 3.4.2 可计算性及其实现可计算性及其实现可计算性的体现可计算性的体现Wordnet或CCD被组织成一种树形图。可计算性的实现主要通过概念间的层次关系树来实现。树中的每个节点代表一个概念,两个节点之间的路径长度可被用来表示两个概念的语义距离。通过语义距离实现词语相似度的计算。不同的应用需求其可计算性的体现方法不一样。三、词义的表征及其可计算性三、词义的表征及其可计算性 概念依存关系表征方式及其可计算性docin/sundae_meng词语相似度的计算方法根据WordNet中词节点间上下位关系构成的最短路径实现计算 根据两个
19、词的公共祖先节点的最大信息量来衡量两个词的语义相似度;除了利用WordNet节点间的路径长度外,还考虑概念层次树的深度 利用WordNet节点间的路径长度和节点所在的区域密度,考虑了WordNet中概念描述粗细程度不均匀的因素利用wordnet的同义词集、属类词和意义解释三个集合中抽取出候选同义词的词汇语义特征,两概念的相似度可通过计算其在三个不同意义特征空间中的距离来得到。三、词义的表征及其可计算性三、词义的表征及其可计算性 概念依存关系表征方式及其可计算性docin/sundae_meng一种利用语义距离计算词语相似度的方法 设s1,s2为词语w1和w2在wordnet中对应的词义,考虑w
20、ordnet中概念结点间的路径长度以及各概念在树中的深度,则词语w1和w2间的语义距离SD可按下式计算)root,s(Dis)ca,s(Dis)root,s(Dis)ca,s(Dis21)w,w(SD221121式中,ca表示词语w1和w2之义项s1,s2在wordnet中的共同祖先概念节点,Dis函数表示两个概念在wordnet中位置之间的路径长度。三、词义的表征及其可计算性三、词义的表征及其可计算性 概念依存关系表征方式及其可计算性docin/sundae_meng根据词义间的距离可计算两个词语的相似度如下)w,w(SD2121e)w,w(sim可以看出,两词语的语义距离愈大,其相似度愈小
21、。当两个词语的语义距离为0时,其相似度为1,这时两个词为绝对相似。三、词义的表征及其可计算性三、词义的表征及其可计算性 概念依存关系表征方式及其可计算性docin/sundae_meng题引意义训释表征方式及其可计算性义原表征方式及其可计算性概念依存关系表征方式及其可计算性结构性词典由可计算性看表征方式对词义消歧的作用结论三、词义的表征及其可计算性三、词义的表征及其可计算性 docin/sundae_meng三、词义的表征及其可计算性三、词义的表征及其可计算性 结构性词典结构性词典n语法信息词典、语义词典是一种结构性词典。n结构性词典中蕴含了丰富的语法和语义信息,便于采用数据挖掘算法实现。n易
22、于采集的知识,使其应用词义消其具有很好的作用。docin/sundae_meng题引意义训释表征方式及其可计算性义原表征方式及其可计算性概念依存关系表征方式及其可计算性结构性词典由可计算性看表征方式对词义消歧的作用结论三、词义的表征及其可计算性三、词义的表征及其可计算性 docin/sundae_meng人是依据上下文语境知识来消解词语的歧义。人是依据上下文语境知识来消解词语的歧义。1)他因病毒感染而发烧。2)这台机器由于感染病毒而瘫痪。1)生活是生命的现在进行式,把握当下,因为现在 就是未来!2)紧紧把握方向盘。三、词义的表征及其可计算性三、词义的表征及其可计算性 3.5由可计算性看词义表征
23、方式在词义消歧中的作用docin/sundae_meng计算机是怎样消解歧义的?计算机是怎样消解歧义的?设词语 W 有 N 个词义,在特定的上下文环境C 中只有 S是正确的词义,每个词义 Sk 和上下文 C 存在关系 R(Sk|C),词义消歧就是寻求同C关系最强的词义S:计算机是依据上下文知识来消歧的。计算机是依据上下文知识来消歧的。arg max(|)kSR SC三、词义的表征及其可计算性三、词义的表征及其可计算性 由可计算性看词义表征方式在词义消歧中的作用docin/sundae_meng就词义消歧来讲,仅应用普通的释义辞典,采用lesk的方法效果是不会很好的 余晓峰利用知网中的语义原语,
24、通过词语相似度计算实现词义消歧试验取多义词上下文前后各一个实词计算相似度时,词义消歧正确率为37.3%;取句中除多义词以外的所有实词参与相似度计算时,词义消歧正确率为42.06%。张国清利用知网的义原表达式,计算多义词各义项的义原与其上下文中其它词的义原同现概率,再利用互信息来实现多义词歧义消解,取得了71%的消歧正确率。三、词义的表征及其可计算性三、词义的表征及其可计算性 由可计算性看词义表征方式在词义消歧中的作用docin/sundae_meng基于wordnet的词义消歧计算的文章不是很多,朱靖波等在词义消歧研究中,应用wordnet进行词语相似度计算,对词义消歧模型进行数据平滑,以提高
25、词义消歧的正确率。=我们做什么?统计方法的缺点:没有充分利用语句中的词义信息;数据稀疏问题 我们的研究:将统计语言模型和语法信息词典、语义词典、Hotnet等资源相结合,建立基于多种知识资源的词义消歧与标注模型 三、词义的表征及其可计算性三、词义的表征及其可计算性 由可计算性看词义表征方式在词义消歧中的作用docin/sundae_meng题引意义训释表征方式及其可计算性义原表征方式及其可计算性概念依存关系表征方式及其可计算性由可计算性看表征方式对词义消歧的作用小结三、词义的表征及其可计算性三、词义的表征及其可计算性 docin/sundae_mengn普通释义辞典可计算性弱nWordnet,
展开阅读全文