书签 分享 收藏 举报 版权申诉 / 28
上传文档赚钱

类型第10讲自然语言理解课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:3860580
  • 上传时间:2022-10-19
  • 格式:PPT
  • 页数:28
  • 大小:268.64KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《第10讲自然语言理解课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    10 自然语言 理解 课件
    资源描述:

    1、第10讲 自然语言理解 自然语言与自然语言理解 自然语言理解的层次模型 汉语的特点及汉语理解面临的困难 自然语言理解的应用第一节第一节 自然语言与自然语言理解自然语言与自然语言理解自然语言:是指人类种族集团的本族语言,是我们日常使用的语言 八大语系 汉藏语系、印欧语系、亚非语系、阿尔泰语系、乌拉尔语系、尼日尔-刚果语系、马来-玻里尼西语系和德拉维达语系。5600多种不同的语言和方言 使用人口最多的语言有汉语、英语、俄语、日语、法语和德语等。自然语言是相对于人工语言(程序设计语言)而言的。语言是思维的载体,是人际交流的重要工具。自然语言理解(计算语言学)是人工智能领域的重要分支,也是一个极其活跃

    2、的研究领域 什么是“理解”?从微观上来说,理解是指从自然语言到机器内部表示之间的一种映射 从宏观上讲,理解是指能够完成我们所希望的一些功能 自然语言理解分为两个方面:书面语理解和口语理解 书面语理解 将文字输入计算机 计算机识别和理解文字、词、短语、句子、段落和篇章 按指定的目标作出相应的回答或反映 口语理解 用口语对计算机讲话 计算机识别和理解语音输入,把语音流变换为文字流 然后按书面语理解 最后利用语音合成将回答转换成声音输出 美国认知心理学家 G.M.Ulson 提出判别计算机是否理解自然语言的四条标准:问答:能够回答与输入语言材料有关的问题 文摘:能够对所给的语言材料进行文摘 释义:能

    3、用不同的词语复述所给的语言材料 翻译:具有将语言材料转译成另一种语言的能力 计算机只要达到了以上标准的一条,就可以说它能够理解自然语言 计算机理解自然语言是极其困难的,因为不仅要有相应的语言学知识,而且还要有领域知识和上下文信息 困难主要体现在各级语言单位与其语义之间的映射关系多种多样 一对一、多对一、一对多、多对多 如果计算机能够理解自然语言,人-机间的信息交流将能够以人们熟悉的本族语进行。创造和使用自然语言是人类高度智能的表现,对自然语言理解的研究有助于揭开人类智能的奥秘,深化我们对语言能力和思维本质的认识。自然语言理解研究的发展 以关键字匹配为主流的早期历史(1950-1960年代)五六

    4、十年代开发的自然语言理解系统主要依靠关键字匹配技术来识别输入句子的意义,而不是真正意义上的理解。系统中事先存放了大量包含关键字的模式,每个模式都和一个解释相对应。待理解句子输入系统,系统将句子与模式逐个匹配,一旦匹配成功便立刻得到对应的解释。如:人-机接口系统(列车数据库查询系统)模式:经过吗?解释:询问是否经过,执行查询指令,如 SQL 语句 问题:571次经过金华吗?以句法-语义分析为主流的中期历史(1970-1980年代)句法分析 识别构成句子的各个成分以及它们之间的相互关系,例如确定每个动词的主语和宾语,以及每个修饰性的词或短语所修饰的成分。分析结果一般是句子的一棵分析树。语义分析 根

    5、据输入句子的句法结构和句中每个实词的词义推导出能反映这个句子意义的某种形式化表示。结果可以是逻辑表达式、语义网络或其它一些复杂的数据结构。以走向实用化和工程化为特征的近期历史(1980-以后)一批商品化的自然语言人-机接口和机器翻译系统出现在市场上。1990年8月,13届国际计算语言学大会,首次提出了处理大规模真实文本的战略目标。语料库语言学兴起,它顺应了大规模真实文本处理的需求,提出了以计算机语料库为基础的语言学研究及自然语言处理新思路。汉语机器理解研究的发展 1956年开始俄汉机译系统的研究,1959年完成,采用的技术主要是词对词翻译和模式匹配。1978年后开始了真正意义上的汉语理解研究,

    6、经过二十几年的发展,在汉语的句法和语义分析、各级语言单位的语义表示与获取、歧义消解等方面都取得了进展,并建立了一批实验系统,其中一些系统已经实用化、商品化。目前国内开展此项研究的单位 北京大学(俞士汶)清华大学(黄昌宁、周明)东北大学(姚天顺)山西大学(刘开瑛、郭炳炎)哈工大(王开铸)微软中国研究院第二节第二节 自然语言理解的层次模型自然语言理解的层次模型自然语言语言单位的构成是分层次的 对于汉语,分为以下几层:字、词、短语、句、段落、篇章 自然语言理解应遵循单向依赖关系 任一较大语言单位的理解,必须在较小语言单位理解的基础上进行 较小语言单位的理解,必须在较大语言单位制约条件的限制下获得 自

    7、然语言理解应分层次,层层推进(自然语言理解的层次模型)分词篇章段落语句短语文 字 流语 音 流理 解 结 果(篇 章 语 义 的机 内 表 示)R1R5R4R3R2F1F4F3F2 Ri 是第 i 层的规则系统 Fi 是第 i+1 层对第 i 层的制约条件 此模型分为五个层次 分词层、短语层、语句层、段落层、篇章层 分词层 把彼此间没有符号隔开的文字流(书面语)或语音流(口语)在规则 R1 的作用下,变换为一个个词组成的序列(词串),而词串的正确性受上一层制约条件的限制 如:“自然|语言|理解|是|人工智能|领域|的|重要|分支”短语层 把词串中彼此孤立的词在规则 R2 的作用下,组成一个个词

    8、组,并得到词组的内部结构(词与词之间的关系,如主谓结构、动宾结构、偏正结构等)语句层 在规则 R3 的作用下,对语句进行句法分析和语义分析,得到语句的分析树和语句的语义表示 段落层 考察语句之间的关系,在规则 R4 的作用下,将语句序列组合成若干个段落 注意自然段和意义段的区别 篇章层 考察段落之间的关系,在规则 R5 的作用下,得到整个篇章的结构表示和机内语义表示第三节第三节 汉语的特点汉语的特点及汉语理解面临的困难及汉语理解面临的困难汉语不利于机器理解的几个特点 汉语在构词方法上主要是词根复合法,而不是词缀派生法,缺乏形态标记,主要以虚词和语序表示各种语法关系。词类与句法成分之间不存在一一

    9、对应的关系,如谓语可由名词、动词或形容词充当,而形容词又可作谓语、定语和状语等。汉语语法有重“意合”,轻形式,以意驭形的特点,使得句法分析和语义分析往往不能相对独立,只有二者同时或交叉进行才能取得好的效果。在汉语中,不仅主宾语可以省略,谓语动词可以省略,甚至定语和定语中心词也可以省略,因而汉语的理解特别强调对语境知识的利用。汉语各个分析层面上的歧义现象非常严重。语音识别时的同音字 句子的歧义切分 词法分析时的多义词和兼类词 句法分析时的同形异构 语义分析时的语义组合层次歧义和语义组合关系歧义语音识别的困难 同音字 如:施氏食狮史(赵元任)石室诗士施氏嗜狮,誓食十狮,氏时时适市视狮。十时,氏适市

    10、,适十狮适市。是时,氏视是十狮。恃十石矢势,使是十狮逝世,氏拾是十狮尸适石室。石室湿,使侍试拭石室。石室拭。氏始试食是十狮尸。食时,始识是十狮尸实石十狮尸。是时,氏始识是实事实。试释是事。歧义切分 如:唐代杜牧“清明”诗七绝清明时节雨纷纷,路上行人欲断魂;借问酒家何处有,牧童遥指杏花村。改写为词:清明时节雨,纷纷路上行人,欲断魂。借问酒家何处?有牧童,遥指杏花村。改写为剧本:清明时节雨纷纷路上行人欲断魂:借问酒家何处有?牧童遥指:杏花村!词切分中的歧义 固有歧义:根据不同语境所出现的分词歧义 例:(1)物理学是一门基础科学。物理学起来很难。例:(2)将来的上海将有严重的污染。他将来上海。组合歧

    11、义:本身并不组成一个词,在不同语境下,产生不同的组合切分 例:他的确切地址在这儿。这块肉的确切得不错。词的歧义 词性歧义:一个词有多种词性(兼类)例:汉语学习十分重要。(名词)他们努力学习汉语。(动词)词义歧义:一个词有多种词义 例:红花。(红颜色的)红军。(革命的)结构歧义 即词组成词组乃至句子时,由于其组成的词或词组间可能存在不同的语法或语义关系而出现的(潜在)歧义现象。(1)“VP+的+是+NP”型歧义结构 例:“反对的是少数人”(2)“N1+N2+N3”型歧义结构 例:“北欧语言研究会”(3)“ADJ+N1+N2”型歧义结构 例:“小学生词典”(4)“VP+N1+的+N2”型歧义结构

    12、例:“咬死了猎人的狗”(5)“VP+ADJ+的+N”型歧义结构 例:“喜欢干净的小孩”等等指代和省略中的歧义 指代歧义:指代词(如我、你、他等)和代词词组(如“这一点”,“那件事”等)所指的事件可能存在歧义。例:老师给大家讲了一个动人的故事,这使大家很激动。省略歧义:自然语言中,经常有省略,该省略的不省略反而显得罗嗦,但有时也会由此产生歧义。例:他说(得/他)不清楚。第四节 自然语言理解的应用自然语言人机接口 例:数据库汉语查询接口WTCDIS(北京信息工程学院软件研究中心)用自然语言查询学生信息(1)请给出来自湖北的学生名单。(祈使句)(2)哪些学生来自湖北?(疑问句)(3)请问来自湖北的学

    13、生有哪些?(祈使疑问句)(4)来自湖北的学生名单。(省略句)(5)找出所有这样的学生:他们来自湖北。(复合句)一次查询处理的系统流程见下图:(查询处理流程图)机器翻译与机助翻译原文输入译文输出机器内部表示词典原文分析.词法分析.语法分析.语义分析译文综合.成分调整.修辞加工.查目标语言词典(机器翻译示意图)机器翻译的困难:词的多义性:源语言可能一词多义,而目的语言要表达这些不同的含义需要使用不同的词汇。文法的多义性:对源语言中合乎文法规则但有多义的句子,其每一可能的意思均可在目标语言中用不同的文法结构来表达。头语重复引用:源语言中的一个代词可指多个事物,但在目的语言中要有不同的代词,正确地选用

    14、代词需要了解其确切的指代对象。成语:必须识别源语言中的成语,它们不能直接按字面意思翻译成目的语言。自动文摘 就是利用计算机自动地从原始文献中提取文摘。文摘是准确全面地反映某一文献中心内容的简洁连贯的短文。自动文摘的主要方法:自动摘录:计算词频和句子的权重,确定权重最高的若干句子作为文摘内容,并按顺序输出。(最简单)基于理解的自动文摘:利用语言学知识获取语言结构,利用领域知识进行判断、推理,得到文摘的意义表示,最后从意义表示中生成摘要。(理想情况)信息抽取:(1)定义文摘框架,它以空槽的形式提出应从原文中获取的各项内容。(2)利用特征词从文本中抽取相关的短语或句子填充文摘框架。信息抽取与基于理解

    15、的自动文摘相比只对有用的文本片段进行有限深度的分析,其效率和灵活性显著提高。版 面 信 息 提 取词 频 统 计关 键 词 识 别句 法 分 析语 义 分 析篇 章 结 构 分 析版 面 信 息词 频 信 息关 键 词 信 息句 法 信 息语 义 信 息概 念 统 计 信 息句 间 关 系篇 章 结 构抽 象概 括集 成自 然语 言生 成原 文摘 要文 本 信 息 的 中 间 表 示原 文 分 析(抽 取 信 息)摘 要 生 成(信 息 表 示)浓 缩(信 息 压 缩)综 合 评 判 与 识 别(选 出 关 键 信 息)分 析 理 解 过 程摘 要 生 成 过 程(一个自动文摘系统的框图)Web上的智能搜索引擎WWWROBOT查询分析文档分析信息检索文档表示查询表达词切分格式过滤待处理文档库文档索引库知识库用户接口相关信息输出(搜索引擎结构框图)

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:第10讲自然语言理解课件.ppt
    链接地址:https://www.163wenku.com/p-3860580.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库