(精品PPT)综合型语言知识库的建设与利用课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《(精品PPT)综合型语言知识库的建设与利用课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 精品PPT 精品 PPT 综合 语言 知识库 建设 利用 课件
- 资源描述:
-
1、中文信息处理介绍中文信息处理介绍 Introduction to Chinese Information Processing YU Shiwen ZHU XuefengInstitute of Computational Linguistics,School of electronics engineering and computer science,Peking University ( ICL/PKU )April, 23, 2007, Moscow 北京大学计算语言学研究所http:/主要内容主要内容中文信息处理概要中文信息处理概要 汉语信息处理的主攻方向汉语信息处理的主攻方向 综合
2、型语言知识库介绍综合型语言知识库介绍研究中的课题研究中的课题与与 CIP 相关的信息相关的信息结语与致谢结语与致谢 北京大学计算语言学研究所http:/*主要内容主要内容中文信息处理概要中文信息处理概要 汉语信息处理的主攻方向汉语信息处理的主攻方向 综合型语言知识库介绍综合型语言知识库介绍研究中的课题研究中的课题与与 CIP 相关的信息相关的信息结语与致谢结语与致谢 北京大学计算语言学研究所http:/* *相关的术语及其所指相关的术语及其所指 Chinese Information Processing(CIP) 中文信息处理中文信息处理 Chinese character Informat
3、ion Processing 汉字信息处理汉字信息处理CIP Chinese character (IT) = Chinese ideograph (Sinology) Chinese language Information Processing 汉语信息处理汉语信息处理 Natural Language Processing(NLP) 自然语言处理自然语言处理L Language Information Processing 语言信息处理语言信息处理(1) (1) NLP/ CIP(2) (2) Chinese-centered Multi-lingual Information Proc
4、essing 以汉语为核心的多语言以汉语为核心的多语言信息处理信息处理北京大学计算语言学研究所http:/* *相关的术语及其所指相关的术语及其所指 Natural Language Understanding 自然语言理解自然语言理解自然语言处理的最高境界自然语言处理的最高境界Computational Linguistics 计算语言学计算语言学ABBYY Headquarters V. Selegey:“both linguistic and computational aspects of Chinese modeling”ICL/PKUICL/PKU 以文科学科命名,设在理科的信息科
5、学以文科学科命名,设在理科的信息科学技术学院,正好显著地反映了文理交叉的特点。技术学院,正好显著地反映了文理交叉的特点。 北京大学计算语言学研究所http:/* *“汉语信息处理汉语信息处理” ” 在研究什么?在研究什么?实用系统:实用系统: (1 1)人工系统的自然语言界面(问答系统)人工系统的自然语言界面(问答系统) (2 2)机器翻译与机器辅助翻译)机器翻译与机器辅助翻译 (3 3)信息检索、信息提取与搜索引擎)信息检索、信息提取与搜索引擎 (4 4)文本管理(文本分类与聚类、文献摘要与述评、)文本管理(文本分类与聚类、文献摘要与述评、OCROCR后处理)后处理) (5 5)词典计算机辅
6、助编纂)词典计算机辅助编纂 (6 6)领域知识工程(术语提取、知识元数据库、百科全书编撰)领域知识工程(术语提取、知识元数据库、百科全书编撰) (7 7)语音接口技术(语音识别的后处理、语音合成的预处理)语音接口技术(语音识别的后处理、语音合成的预处理) (8 8)自然语言处理系统评测技术)自然语言处理系统评测技术 (9 9)面向语言本体研究与语言教学的应用)面向语言本体研究与语言教学的应用 汉语信息处理既立足于汉字信息处理,汉语信息处理既立足于汉字信息处理,又区别于汉字信息处理。又区别于汉字信息处理。处理对象不再是单个的汉字或字符串,处理对象不再是单个的汉字或字符串,而是语言学的单位:词、短
7、语、句子乃至篇章、文档集合。而是语言学的单位:词、短语、句子乃至篇章、文档集合。两者之间也有联系两者之间也有联系: :拼音汉字转换、简繁转换、拼音汉字转换、简繁转换、OCR OCR 后处理、后处理、 文献检索、语音识别与合成等等。文献检索、语音识别与合成等等。北京大学计算语言学研究所http:/* *关于关于“汉语信息处理汉语信息处理”的基本认识的基本认识自然语言处理是数值型计算机在非数值领域最早的自然语言处理是数值型计算机在非数值领域最早的应用(应用(MT)。但在)。但在“自然语言理解自然语言理解” 的层次上,的层次上,至至今没有突破今没有突破:(1 1)依据对人类语言机制的认识)依据对人类
8、语言机制的认识(2 2)语言既是对象,又是工具)语言既是对象,又是工具 (3 3)依据对当代计算机能力的认识)依据对当代计算机能力的认识(4 4)依据)依据NLPNLP技术发展的历史经验技术发展的历史经验汉语理解研究和其他语言一样困难。汉语理解研究和其他语言一样困难。需要交流。希望与俄国同行交流。需要交流。希望与俄国同行交流。在技术层面上,汉语信息处理又有在技术层面上,汉语信息处理又有特殊的课题。特殊的课题。北京大学计算语言学研究所http:/*主要内容主要内容中文信息处理概要中文信息处理概要 汉语信息处理的主攻方向汉语信息处理的主攻方向 综合型语言知识库介绍综合型语言知识库介绍研究中的课题研
9、究中的课题与与 CIP 相关的信息相关的信息结语与致谢结语与致谢 北京大学计算语言学研究所http:/实例之一实例之一关于自动升降晾衣架的对话关于自动升降晾衣架的对话Husband丈夫理解了妻子的意思吗?丈夫理解了妻子的意思吗?虚词词义:才(数量词前后,意义不同)虚词词义:才(数量词前后,意义不同)背景知识:保修期背景知识:保修期知识激活机制?知识激活机制? 自然语言(汉语)理解的困难自然语言(汉语)理解的困难北京大学计算语言学研究所http:/实例之二实例之二关于关于“沙漠化沙漠化”的文章的文章 “几年前由于种植籽瓜有利可图,使大批的种植者几年前由于种植籽瓜有利可图,使大批的种植者就到过渡就
10、到过渡带来开垦,带来开垦,。在这样的绿洲和沙漠过渡带开垦,极易造。在这样的绿洲和沙漠过渡带开垦,极易造成风蚀。成风蚀。” 2001年年9月号月号就就/ 到到/ 就到就到/ 到到/ 到过到过/ 过过/ 过渡过渡/ 带带/ 来来/ 带来带来/未登录词的识别未登录词的识别知识背景知识背景认知机制认知机制 *自然语言(汉语)理解的困难自然语言(汉语)理解的困难北京大学计算语言学研究所http:/汉语信息处理的主攻方向汉语信息处理的主攻方向自然语言理解研究特别困难,目前难以突破。自然语言理解研究特别困难,目前难以突破。退而求其次:自然语言处理(退而求其次:自然语言处理(汉语信息处理汉语信息处理)。)。计
11、算机处理自然语言的第一个障碍计算机处理自然语言的第一个障碍是是歧义歧义问题。问题。人能够利用语言知识、语境信息、人能够利用语言知识、语境信息、背景知识消解歧义。背景知识消解歧义。计算机进行机械式的分析,计算机进行机械式的分析,面临的困难要大得多。面临的困难要大得多。以下介绍信息处理所遇到的以下介绍信息处理所遇到的汉语歧义的类型汉语歧义的类型和和 求解之道。求解之道。北京大学计算语言学研究所http:/词语切分问题词语切分问题: 白天鹅白天鹅可能的切分:可能的切分:白天鹅白天鹅/-/-白白/ / 天鹅天鹅/-/-白天白天/ / 鹅鹅/-/-白白/ / 天天/ / 鹅鹅/ /计算机程序可以按某种算
12、法实现这种切分,给出一种或多种结果。对否?计算机程序可以按某种算法实现这种切分,给出一种或多种结果。对否?白天鹅飞过来了白天鹅飞过来了白白/ / 天鹅天鹅/ / 飞飞/ / 过来过来/ / 了了白天鹅可以看家白天鹅可以看家白天白天/ / 鹅鹅/ / 可以可以/ / 看看/ / 家家/ /白天鹅在湖里游泳白天鹅在湖里游泳白白/ / 天鹅天鹅/ / ?白天?白天/ / 鹅鹅/ / ?同形词辨析:同形词辨析:只只量词量词 q zhi1 ?副词?副词 d zhi3?这只会测水温的鸭子这只会测水温的鸭子这这/ / 只只/ / 会会/ / 测测/ / 水温水温/ / 的的/ / 鸭子鸭子/ / (切分无歧
13、义)(切分无歧义)这这/r /r 只只/q /q 会会/v /v 测测/v /v 水温水温/n /n 的的/u /u 鸭子鸭子/n , /n , 挺有用的挺有用的这这/r /r 只只/d /d 会会/v /v 测测/v /v 水温水温/n /n 的的/u /u 鸭子鸭子/n /n ,没什么用,没什么用汉语信息处理主攻方向汉语信息处理主攻方向歧义消解歧义消解北京大学计算语言学研究所http:/读音相同的读音相同的“连连”也有不同的词性(意义)也有不同的词性(意义): 一个连有三个排一个连有三个排“连连”是名词是名词 n 我们兄弟心连心我们兄弟心连心“连连”是动词是动词 v 苹果可以连皮吃苹果可以
14、连皮吃“连连”是介词是介词 p词义辨析:词义辨析:讲真话讲真话 / / 讲卫生讲卫生短语结构的歧义短语结构的歧义: m + q + n + “的的” + n三个大学的老师三个大学的老师 三三/m 个个/q 大学大学/n 的的/u 老师老师/n 三三/m 个个/q 大学大学/n 的的/u 老师老师/n 三三/m 个个/q 大学大学/n 的的/u 老师老师/n 三所大学的老师三所大学的老师 三三/m 所所/q 大学大学/n 的的/u 老师老师/n 三位大学的老师三位大学的老师 三三/m 位位/q 大学大学/n 的的/u 老师老师/n 汉语信息处理主攻方向汉语信息处理主攻方向歧义消解歧义消解北京大学
15、计算语言学研究所http:/ 句子结构的歧义句子结构的歧义例例1 1 会员会员 选举选举 他他 当当 主席主席 例例2 2 学生学生 认为认为 他他 是是 校长校长 n v r v nn v r v n (切分、标注无歧义)(切分、标注无歧义) S S NP VP NP VP NP VP S NP VP n v r v n n v r v n 图 5.2 句法树 1 图 5.3 句法树 2 句法结构(树)不同北京大学计算语言学研究所http:/汉语语义分析汉语语义分析(切分、标注、句法分析都无歧义)(切分、标注、句法分析都无歧义) 熊猫熊猫/n /n 吃吃/v /v 竹笋竹笋/n /n 学生学
16、生/n /n 吃吃/v /v 食堂食堂/n /n 民工民工/n /n 吃吃/v /v 大碗大碗/n/n 老师老师/n /n 写写/v /v 毛笔毛笔/n/n汉语语义指向分析汉语语义指向分析 写写/v /v 好好/a /a 了了/u /u (文章文章) 写写/v /v 累累/a /a 了了/u /u (老师老师) 写写/v /v 秃秃/a /a 了了/u /u (毛笔毛笔)汉语语境分析汉语语境分析 小张小张/n /n 打针打针/v /v 去去/v /v 了了/u /u (护士?病人?)(护士?病人?) 语义歧义以及依赖语境的歧义消解语义歧义以及依赖语境的歧义消解北京大学计算语言学研究所http:
17、/ 其他:长句与句号、逗号其他:长句与句号、逗号 中文中常有长句子,一逗到底。例:中文中常有长句子,一逗到底。例:“新一届测绘学名词审定委员会的主要特点是年青化,吸新一届测绘学名词审定委员会的主要特点是年青化,吸收收了一些工作在教学、科研前沿的青年专家学者,充分发挥了一些工作在教学、科研前沿的青年专家学者,充分发挥他们接触新知识多,对名词工作热情高、活力大的特长,他们接触新知识多,对名词工作热情高、活力大的特长,同中老年专家共同做好新一届委员会的名词审定工作。同中老年专家共同做好新一届委员会的名词审定工作。” 形式上的一句话包含形式上的一句话包含100100多个汉字。多个汉字。除第一个分句外,
18、后面的分句都没有主语。除第一个分句外,后面的分句都没有主语。 北京大学计算语言学研究所http:/ 1. 你得藏在一个你得藏在一个你看得见他,可是你看得见他,可是 他看不见你的他看不见你的地方。地方。(逗号断开了结构)(逗号断开了结构)2. 车臣武装分子和世界其他地区的车臣武装分子和世界其他地区的 恐怖分子是一丘之貉,应该合力恐怖分子是一丘之貉,应该合力 打击他们。打击他们。 (分句的主语省略,(分句的主语省略,“他们他们”又指谁?)又指谁?)其他:长句与句号、逗号其他:长句与句号、逗号北京大学计算语言学研究所http:/小明要求小明要求他他爸爸给爸爸给他他弟弟买一件弟弟买一件他他喜欢的衣服,
19、喜欢的衣服,他他同意了。同意了。(4 个个 “ “他他” ” ,各指谁?),各指谁?)重庆队得重庆队得8888分,客场负于台湾队分,客场负于台湾队2 2分。分。(CBA, , 台湾队和重庆队各得多少分?比赛地点?)台湾队和重庆队各得多少分?比赛地点?) 其他:指代与省略其他:指代与省略北京大学计算语言学研究所http:/ 我在家里。我在家里。(be)(be) 我在家里看书。我在家里看书。(in)(in) 我在看书。我在看书。 (-ing(-ing) ) 你在干什么?你在干什么?看书。看书。 你喜欢干什么?你喜欢干什么?看书。看书。 如果我是你,我就去了。如果我是你,我就去了。 如果我有时间,我
20、就去。如果我有时间,我就去。 其他:时态、语态、语气其他:时态、语态、语气北京大学计算语言学研究所http:/汉语信息处理还有其他障碍汉语信息处理还有其他障碍 隐喻隐喻 幽默幽默 夸张夸张 双关双关 影射影射 20062006年年1111月月“中国中文信息学会二十五周年学术会议中国中文信息学会二十五周年学术会议”俞士汶报告:俞士汶报告:“文学语言与自然语言理解研究文学语言与自然语言理解研究” 北京大学计算语言学研究所http:/*主要内容主要内容中文信息处理概要中文信息处理概要 汉语信息处理的主攻方向汉语信息处理的主攻方向 综合型语言知识库介绍综合型语言知识库介绍研究中的课题研究中的课题与与
21、CIP 相关的信息相关的信息结语与致谢结语与致谢 北京大学计算语言学研究所http:/关于一般的自然语言处理系统关于一般的自然语言处理系统语言知识库应用程序应用程序-语言知识库是自然语言处理系统不可或缺的组成部分,语言知识库的语言知识库是自然语言处理系统不可或缺的组成部分,语言知识库的规模和质量在很大程度上决定了自然语言处理系统的成败。面向自然规模和质量在很大程度上决定了自然语言处理系统的成败。面向自然语言处理的语言知识库对语言本体研究和语言教学也有重要意义。语言处理的语言知识库对语言本体研究和语言教学也有重要意义。自然语言处理系统自然语言处理系统NLP是世界性难题北京大学计算语言学研究所ht
22、tp:/语言单位不清晰语言单位不清晰: :语素、词、短语、句子语素、词、短语、句子词缺乏形态变化词缺乏形态变化: :词类多功能与词的兼类词类多功能与词的兼类虚词虚词: : 词形与实词无区别、隐现不定词形与实词无区别、隐现不定 句子与句法结构:句子与句法结构:嵌套不需要附加成分嵌套不需要附加成分 主谓结构作谓语主谓结构作谓语 不完整,缺省主语不完整,缺省主语 时态、语态和语气的表现缺乏形式标记时态、语态和语气的表现缺乏形式标记形式和意义之间的对应关系复杂形式和意义之间的对应关系复杂 (吃香蕉、吃筷子、吃食堂)(吃香蕉、吃筷子、吃食堂) *书面汉语特点及其对信息处理的影响书面汉语特点及其对信息处理
23、的影响北京大学计算语言学研究所http:/ 吕叔湘:吕叔湘:“有了形态变化,语法分析就比较容有了形态变化,语法分析就比较容易进行。没有严格的形态变化,在语法分析上就比易进行。没有严格的形态变化,在语法分析上就比较容易引起问题。较容易引起问题。” 汉语缺乏形态变化,缺乏形式标记,自动分析汉语缺乏形态变化,缺乏形式标记,自动分析也就缺少可以把握的线索。汉语自动分析如果不比也就缺少可以把握的线索。汉语自动分析如果不比其他的语言更困难,至少不会比其他的语言更容易。其他的语言更困难,至少不会比其他的语言更容易。 汉语信息处理尤其需要汉语信息处理尤其需要 大规模的高质量的大规模的高质量的 语言知识库的支持
24、。语言知识库的支持。 书面汉语特点及其对信息处理的影响书面汉语特点及其对信息处理的影响北京大学计算语言学研究所http:/ICL/PKU的现代汉语语言知识库的现代汉语语言知识库基于上述认识,积基于上述认识,积2020余年之努力,余年之努力,ICL/PKUICL/PKU已经开发:已经开发:(1 1)现代汉语语法信息词典现代汉语语法信息词典(8 8万词语)万词语)(2 2)面向汉英机器翻译的)面向汉英机器翻译的现代汉语语义词典现代汉语语义词典(6 6万记录)万记录)(3 3)面向跨语言文本处理的)面向跨语言文本处理的中英文概念词典中英文概念词典 (约(约1010万概念)万概念)(4 4)大规模现代
25、汉语)大规模现代汉语基本标注语料库基本标注语料库(60006000多万汉字)多万汉字)(5 5)句子对齐的)句子对齐的双语语料库双语语料库 (8080万英汉句对)万英汉句对)(6 6)多个专业领域的)多个专业领域的术语库术语库 (3535万条英汉对照术语)万条英汉对照术语)(7 7)现代汉语)现代汉语短语结构规则库短语结构规则库(600600条规则)条规则)(8 8)用于语言知识库开发的)用于语言知识库开发的各种工具软件各种工具软件 规模大、种类多、质量上乘,已经在诸多实用系统的开发规模大、种类多、质量上乘,已经在诸多实用系统的开发中得到应用,产生了广泛影响,仍期待合作与进一步发展中得到应用,
展开阅读全文