第10讲自然语言理解课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第10讲自然语言理解课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10 自然语言 理解 课件
- 资源描述:
-
1、第10讲 自然语言理解 自然语言与自然语言理解 自然语言理解的层次模型 汉语的特点及汉语理解面临的困难 自然语言理解的应用第一节第一节 自然语言与自然语言理解自然语言与自然语言理解自然语言:是指人类种族集团的本族语言,是我们日常使用的语言 八大语系 汉藏语系、印欧语系、亚非语系、阿尔泰语系、乌拉尔语系、尼日尔-刚果语系、马来-玻里尼西语系和德拉维达语系。5600多种不同的语言和方言 使用人口最多的语言有汉语、英语、俄语、日语、法语和德语等。自然语言是相对于人工语言(程序设计语言)而言的。语言是思维的载体,是人际交流的重要工具。自然语言理解(计算语言学)是人工智能领域的重要分支,也是一个极其活跃
2、的研究领域 什么是“理解”?从微观上来说,理解是指从自然语言到机器内部表示之间的一种映射 从宏观上讲,理解是指能够完成我们所希望的一些功能 自然语言理解分为两个方面:书面语理解和口语理解 书面语理解 将文字输入计算机 计算机识别和理解文字、词、短语、句子、段落和篇章 按指定的目标作出相应的回答或反映 口语理解 用口语对计算机讲话 计算机识别和理解语音输入,把语音流变换为文字流 然后按书面语理解 最后利用语音合成将回答转换成声音输出 美国认知心理学家 G.M.Ulson 提出判别计算机是否理解自然语言的四条标准:问答:能够回答与输入语言材料有关的问题 文摘:能够对所给的语言材料进行文摘 释义:能
3、用不同的词语复述所给的语言材料 翻译:具有将语言材料转译成另一种语言的能力 计算机只要达到了以上标准的一条,就可以说它能够理解自然语言 计算机理解自然语言是极其困难的,因为不仅要有相应的语言学知识,而且还要有领域知识和上下文信息 困难主要体现在各级语言单位与其语义之间的映射关系多种多样 一对一、多对一、一对多、多对多 如果计算机能够理解自然语言,人-机间的信息交流将能够以人们熟悉的本族语进行。创造和使用自然语言是人类高度智能的表现,对自然语言理解的研究有助于揭开人类智能的奥秘,深化我们对语言能力和思维本质的认识。自然语言理解研究的发展 以关键字匹配为主流的早期历史(1950-1960年代)五六
4、十年代开发的自然语言理解系统主要依靠关键字匹配技术来识别输入句子的意义,而不是真正意义上的理解。系统中事先存放了大量包含关键字的模式,每个模式都和一个解释相对应。待理解句子输入系统,系统将句子与模式逐个匹配,一旦匹配成功便立刻得到对应的解释。如:人-机接口系统(列车数据库查询系统)模式:经过吗?解释:询问是否经过,执行查询指令,如 SQL 语句 问题:571次经过金华吗?以句法-语义分析为主流的中期历史(1970-1980年代)句法分析 识别构成句子的各个成分以及它们之间的相互关系,例如确定每个动词的主语和宾语,以及每个修饰性的词或短语所修饰的成分。分析结果一般是句子的一棵分析树。语义分析 根
5、据输入句子的句法结构和句中每个实词的词义推导出能反映这个句子意义的某种形式化表示。结果可以是逻辑表达式、语义网络或其它一些复杂的数据结构。以走向实用化和工程化为特征的近期历史(1980-以后)一批商品化的自然语言人-机接口和机器翻译系统出现在市场上。1990年8月,13届国际计算语言学大会,首次提出了处理大规模真实文本的战略目标。语料库语言学兴起,它顺应了大规模真实文本处理的需求,提出了以计算机语料库为基础的语言学研究及自然语言处理新思路。汉语机器理解研究的发展 1956年开始俄汉机译系统的研究,1959年完成,采用的技术主要是词对词翻译和模式匹配。1978年后开始了真正意义上的汉语理解研究,
6、经过二十几年的发展,在汉语的句法和语义分析、各级语言单位的语义表示与获取、歧义消解等方面都取得了进展,并建立了一批实验系统,其中一些系统已经实用化、商品化。目前国内开展此项研究的单位 北京大学(俞士汶)清华大学(黄昌宁、周明)东北大学(姚天顺)山西大学(刘开瑛、郭炳炎)哈工大(王开铸)微软中国研究院第二节第二节 自然语言理解的层次模型自然语言理解的层次模型自然语言语言单位的构成是分层次的 对于汉语,分为以下几层:字、词、短语、句、段落、篇章 自然语言理解应遵循单向依赖关系 任一较大语言单位的理解,必须在较小语言单位理解的基础上进行 较小语言单位的理解,必须在较大语言单位制约条件的限制下获得 自
7、然语言理解应分层次,层层推进(自然语言理解的层次模型)分词篇章段落语句短语文 字 流语 音 流理 解 结 果(篇 章 语 义 的机 内 表 示)R1R5R4R3R2F1F4F3F2 Ri 是第 i 层的规则系统 Fi 是第 i+1 层对第 i 层的制约条件 此模型分为五个层次 分词层、短语层、语句层、段落层、篇章层 分词层 把彼此间没有符号隔开的文字流(书面语)或语音流(口语)在规则 R1 的作用下,变换为一个个词组成的序列(词串),而词串的正确性受上一层制约条件的限制 如:“自然|语言|理解|是|人工智能|领域|的|重要|分支”短语层 把词串中彼此孤立的词在规则 R2 的作用下,组成一个个词
展开阅读全文