书签 分享 收藏 举报 版权申诉 / 53
上传文档赚钱

类型第10章自然语言理解及其应用课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4525402
  • 上传时间:2022-12-16
  • 格式:PPT
  • 页数:53
  • 大小:590.95KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《第10章自然语言理解及其应用课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    10 自然语言 理解 及其 应用 课件
    资源描述:

    1、第第 10 章章 自然语言理解及其应用自然语言理解及其应用 教材:教材:王万良人工智能及其应用(第王万良人工智能及其应用(第2版版)高等教育出版社,高等教育出版社,2008.6第10章 自然语言理解及其应用10.1 自然语言理解的概念与发展历史自然语言理解的概念与发展历史 10.2 语音分析语音分析10.3 词法分析词法分析10.4 句法分析句法分析10.5 语义分析语义分析 10.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 10.7 机器翻译机器翻译10.8 语音识别语音识别第10章 自然语言理解及其应用10.1 自然语言理解的概念与发展历史自然语言理解的概念与发展

    2、历史 10.2 语音分析语音分析10.3 词法分析词法分析10.4 句法分析句法分析10.5 语义分析语义分析 10.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 10.7 机器翻译机器翻译10.8 语音识别语音识别10.1.1 自然语言理解的概念微观角度:从自然语言到机器内部的一个映射。微观角度:从自然语言到机器内部的一个映射。宏观角度:使机器能够执行人类所期望的某种语言宏观角度:使机器能够执行人类所期望的某种语言功能。功能。(1)回答问题:计算机正确地回答用自然语言输入的有关问)回答问题:计算机正确地回答用自然语言输入的有关问题。题。(2)文摘生成:机器能产生输入文

    3、本的摘要。)文摘生成:机器能产生输入文本的摘要。(3)释义:机器能用不同的词语和句型来复述输入的自然语)释义:机器能用不同的词语和句型来复述输入的自然语言信息言信息。(4)翻译:机器能)翻译:机器能把一种语言翻译成另外一种语言。把一种语言翻译成另外一种语言。10.1.2 自然语言理解研究的产生与发展 1.萌芽时期萌芽时期(20世纪世纪40年代末年代末50年代初)年代初)2.以关键词匹配技术为主的时期以关键词匹配技术为主的时期(20世纪世纪60年代始年代始)A.Donald Booth&W.Weaver M.Chomsky 形式语言和文法形式语言和文法3.以句法语义分析技术为主的时期以句法语义分

    4、析技术为主的时期(20世纪世纪70年代后)年代后)4.基于知识的自然语言理解发展时期基于知识的自然语言理解发展时期 5.基于大规模语料库的自然语言理解发展时期基于大规模语料库的自然语言理解发展时期 68年B.Raphael:语义检索系统SIRJ.Weizenbaum:心理医疗ELIZA 72年W.Woods:语音接口LUNART.Winograd:英语对话SHEDLU第10章 自然语言理解及其应用10.1自然语言理解的概念与发展历史自然语言理解的概念与发展历史 10.2 语音分析语音分析10.3 词法分析词法分析10.4 句法分析句法分析10.5 语义分析语义分析 10.6 基于语料库的大规模

    5、真实文本的处理基于语料库的大规模真实文本的处理 10.7 机器翻译机器翻译10.8 语音识别语音识别文字表达句子的层次:词素词或词形词组或句子。声音表达句子的层次:音素音节音词音句。语言处理过程分为五个层次:语音分析、词法分析、句法分析、语义分析和语用分析。语用分析:研究语言所存在的外界环境对语言使用产语用分析:研究语言所存在的外界环境对语言使用产生的影响。生的影响。构成单词发音的独立单元是音素。上下文不同而发音不同。语音分析就是根据音位规则,从语言流中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。10.2 语音分析第10章 自然语言理解及其应用10.1自然语言理

    6、解的概念与发展历史自然语言理解的概念与发展历史 10.2 语音分析语音分析10.3 词法分析词法分析10.4 句法分析句法分析10.5 语义分析语义分析 10.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 10.7 机器翻译机器翻译10.8 语音识别语音识别10.3 词法分析 定义定义:从句子中切分出单词,找出词汇的各个词素,并确定其词义。例:例:unchangeable:un-change-able 英语词法分析英语词法分析 特点:切分单词容易,找出词素复杂。特点:切分单词容易,找出词素复杂。例:例:importable分为分为 import-able或或 im-po

    7、rt-able词法分析算法举例:词法分析算法举例:repeatlook for word in dictionary if not found then modify the wordUntil word is found or no further modification possible 10.3 词法分析例如例如:对于单词对于单词catches、ladies可以做如下的分析。可以做如下的分析。catches ladies,词典中查不到词典中查不到 catche ladie 修改修改1:去掉:去掉s catch ladi 修改修改2:去掉:去掉e lady 修改修改3:把:把i变成变成y

    8、这样,在修改这样,在修改2的时候,就可以找到的时候,就可以找到catch,在修改,在修改3的时候就可以找到的时候就可以找到lady。例如:优秀人才学人才学例如:优秀人才学人才学1.优秀人才学人才学优秀人才学人才学2.优秀人才学人才学优秀人才学人才学 汉语词法分析汉语词法分析 特点:找出词素简单,切分出词困难。ly副词后辍;ed动词过去分词第10章 自然语言理解及其应用10.1自然语言理解的概念与发展历史自然语言理解的概念与发展历史 10.2 语音分析语音分析10.3 词法分析词法分析10.4 句法分析句法分析10.5 语义分析语义分析 10.6 基于语料库的大规模真实文本的处理基于语料库的大规

    9、模真实文本的处理 10.7 机器翻译机器翻译10.8 语音识别语音识别10.4 句法分析10.4.1 乔姆斯基的形式文法乔姆斯基的形式文法 10.4.2 句法分析树句法分析树10.4.3 转移网络转移网络10.4.4 扩充转移网络扩充转移网络10.4.1 乔姆斯基的形式文法1950年提出,表示形式:年提出,表示形式:G=(T,N,S,P)T:终结符集合:终结符集合 N:非终结符集合:非终结符集合 S:起始符:起始符 P:产生式规则集:产生式规则集 T=(the,man,killed,a,deer,likes)N=(S,NP,VP,N,ART,V,Prep,PP)S=S P:(1)SNP+VP

    10、(2)NPN (3)NPART+N (4)VPV (5)VPV+NP (6)ARTthe|a (7)Nman|deer (8)Vkilled|likes例例 1 G=(T,N,S,P)n 1型文法型文法:上下文有关文法上下文有关文法n 2型文法:上下文无关文法型文法:上下文无关文法 n 3型文法:正则文法型文法:正则文法 左左线性文法:线性文法:ABt 或或 At(ABtCt*t)右线性文法右线性文法:AtB或或At产生式规则产生式规则:xy 产生式规则产生式规则:xy例:例:ABCDE ABCDE XaYXbY 产生式规则:产生式规则:Axn 0型文法:无约束短语结构文法型文法:无约束短语结

    11、构文法10.4.1 乔姆斯基的形式文法10.4.2 句法分析树 例如例如:The man killed a deer.S NP+VP ART+N+VP The man+VP The man+V+NP The man killed+NP The man killed+ART+N The man killed a deer.在对一个句子进行分析的过程中,如果把分析句子各在对一个句子进行分析的过程中,如果把分析句子各成分间关系的推导过程用树形图表示出来,那么这种图成分间关系的推导过程用树形图表示出来,那么这种图称为句法分析树。称为句法分析树。10.4.2 句法分析树句法分析树举例句法分析树举例10.

    12、4.3 转移网络例:例:转移网络的一般结构转移网络的一般结构由结点和带有标记的弧构成,其中结点表示状态,弧对由结点和带有标记的弧构成,其中结点表示状态,弧对应于符号,实现从一个状态转移到另一个状态。应于符号,实现从一个状态转移到另一个状态。开始状态中间状态终止状态NPVP开始状态开始状态中间状态中间状态终止状态终止状态ARTNVNPVNSNP+VPNPART+NNPNNPV+NPNPV10.4.3 转移网络例例 The man laughed.10.4.4 扩充转移网络ATN(augmented transition network)ATN由一组转移网络组成:每个由一组转移网络组成:每个TN都

    13、有一个网络名,都有一个网络名,弧上的条件扩充为条件加上操作。由寄存器的方式实现。弧上的条件扩充为条件加上操作。由寄存器的方式实现。数:单数和复数,缺省为空数:单数和复数,缺省为空 ATN的寄存器构成:句法特征寄存器和句法功能寄存器。的寄存器构成:句法特征寄存器和句法功能寄存器。n 特征寄存器:每一维特征都由一个特征名和一组特征特征寄存器:每一维特征都由一个特征名和一组特征值以及一个缺省值来表示。值以及一个缺省值来表示。n 功能寄存器:反映了句法成分之间的关系和功能功能寄存器:反映了句法成分之间的关系和功能。10.4.4 扩充转移网络短语(短语(NP)的扩充转移网络)的扩充转移网络:fg A:N

    14、umber*.Number gh C:Number*.Number or q 应用:检查应用:检查NP中数的一致问题,其中特征是中数的一致问题,其中特征是“数数”,值为单数和复数。值为单数和复数。C是弧上的条件,是弧上的条件,A是弧上的操作。是弧上的操作。*是当前值。是当前值。q this book,the book,the books,these books 可以顺利可以顺利通过,而通过,而this books或或these book就无法通过。就无法通过。第10章 自然语言理解及其应用10.1 自然语言理解的概念与发展历史自然语言理解的概念与发展历史 10.2 语音分析语音分析10.3 词

    15、法分析词法分析10.4 句法分析句法分析10.5 语义分析语义分析 10.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 10.7 机器翻译机器翻译10.8 语音识别语音识别10.5 语义分析 语义分析是将句法成分与应用领域中的目标表示语义分析是将句法成分与应用领域中的目标表示相关联。相关联。简单做法:依次使用独立的句法分析程序和语义解释程序。缺点:使句法分析、语义分析分离语义文法格文法10.5.1 语义文法 语义文法是将文法知识和语义知识组合起来,以统语义文法是将文法知识和语义知识组合起来,以统一的方式定义为文法规则集。一的方式定义为文法规则集。舰船信息:SPRESEN

    16、T the ATTRIBUTE OF SHIPPRESENTWhat is|Can you tell meATTRIBUTElength|classSHIPthe SHIPNAME|CLASSNAMESHIPNAMEHUANGHE|CHANGJIANGCLASSNAMEcarrier|submarine10.5.2 格文法 目的:目的:为了找出动词和跟动词处在结构关系中的名词的为了找出动词和跟动词处在结构关系中的名词的语义关系,同时也涉及动词或动词短语与其他的各种名词语义关系,同时也涉及动词或动词短语与其他的各种名词短语之间的关系。短语之间的关系。特点:允许以动词为中心构造分析结果,尽管文法规

    17、则特点:允许以动词为中心构造分析结果,尽管文法规则只描述句法,但分析结果产生的结构却对应于语义关系,只描述句法,但分析结果产生的结构却对应于语义关系,而非严格的句法关系。而非严格的句法关系。例:例:Mary hit Bill Bill was hit by Mary (Hit(Agent Mary)(Dative Bill)10.5.2 格文法SSNPNPVPVPVNPVPPBillMaryhitwas hitbyBillMary主动句和被动句的句法分析树第10章 自然语言理解及其应用10.1 自然语言理解的概念与发展历史自然语言理解的概念与发展历史 10.2 语音分析语音分析10.3 词法分

    18、析词法分析10.4 句法分析句法分析10.5 语义分析语义分析 10.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 10.7 机器翻译机器翻译10.8 语音识别语音识别10.6.1 语料库及其特征1990年l 3届国际计算机语言学大会提出大规模真实文本目标基于规则方法的缺点:自然语言理解的复杂性,各种基于规则方法的缺点:自然语言理解的复杂性,各种知识的知识的“数量数量”繁多,高度的不确定性和模糊性。繁多,高度的不确定性和模糊性。传统词典特征及不足:传统词典特征及不足:l 特征:把各类不同的信息放入一个词汇单元中,包特征:把各类不同的信息放入一个词汇单元中,包括拼音、读音

    19、、词形变化及派生词、词根、短语、时括拼音、读音、词形变化及派生词、词根、短语、时态变换的定义及说明、同义词、反义词、特殊用法注态变换的定义及说明、同义词、反义词、特殊用法注释,偶尔还有图示或插图。释,偶尔还有图示或插图。l 不足:以不足:以“树树”为例,解释为一种大型的、木制的、为例,解释为一种大型的、木制的、多年生长的、具有明显树干的植物。多年生长的、具有明显树干的植物。缺失了很多构造性信息10.6.1 语料库及其特征9090年代,自然语言理解的研究在基于规则的技术中引年代,自然语言理解的研究在基于规则的技术中引入语料库,包括统计方法、基于实例的方法和通过语入语料库,包括统计方法、基于实例的

    20、方法和通过语料加工手段使语料库转化为语言知识库的方法等。料加工手段使语料库转化为语言知识库的方法等。l WordNet语料库:语料库:1990年由年由Princeton大学的大学的Miller等人等人设计和构造的。设计和构造的。l包含将近包含将近95 600个词形个词形(51 500单词和单词和44100搭配词搭配词)和和70 100个词义,分为名词、动词、形容词、副词和虚词个词义,分为名词、动词、形容词、副词和虚词5类。类。lWordNet中,按语义而不是按词性来组织词汇信息,名中,按语义而不是按词性来组织词汇信息,名词有词有57 000个,含有个,含有48 800个同义词集,分成个同义词集

    21、,分成25类文件,类文件,平均深度平均深度12层。最高层为根概念,不含有固有名词。层。最高层为根概念,不含有固有名词。10.6.2 汉语自动分词方法(1)最大匹配法:)最大匹配法:在计算机中存放一个分词用词典,在计算机中存放一个分词用词典,从待切分的文本中按自左到右的顺序截取一个定长的从待切分的文本中按自左到右的顺序截取一个定长的汉字串,与词典中的词进行匹配,若匹配不成功,则汉字串,与词典中的词进行匹配,若匹配不成功,则把该字符串从右边逐次减去一个汉字,再与词典中的把该字符串从右边逐次减去一个汉字,再与词典中的词进行匹配,直到成功为止。词进行匹配,直到成功为止。(2)逆向最大匹配法)逆向最大匹

    22、配法:从待切分文本中截取字符串的从待切分文本中截取字符串的方向是从右到左。匹配不成功时,将所截取的汉字串方向是从右到左。匹配不成功时,将所截取的汉字串从左至右逐次减去一个汉字,再与词典中的词进行匹从左至右逐次减去一个汉字,再与词典中的词进行匹配,直到匹配成功为止。配,直到匹配成功为止。(3)逐词遍历匹配法)逐词遍历匹配法:逐词遍历匹配法中存放的词按逐词遍历匹配法中存放的词按由长到短的顺序,逐个与待切分的语料文本进行匹配,由长到短的顺序,逐个与待切分的语料文本进行匹配,直到把文本中的所有词都切分出来为止。直到把文本中的所有词都切分出来为止。10.6.2 汉语自动分词方法 汉语自动分词难点:汉语自

    23、动分词难点:(1)词的概念(2)岐义问题(3)未登录词的识别 各类名字、缩略语、派生词、专业术语 10.6.3 汉语词性的标注方法 难点:难点:兼类词的词类歧义排除兼类词的词类歧义排除 意义意义(1)对文本进行文法分析或句法分析等更高层次的文本加)对文本进行文法分析或句法分析等更高层次的文本加 工提供基础。工提供基础。(2)通过对标注过的语料进行统计分析等处理。)通过对标注过的语料进行统计分析等处理。具有两个或两个以上词性的词具有两个或两个以上词性的词 10.6.4 汉语词义的标注方法 难点:多义词的歧义排除难点:多义词的歧义排除 意义意义(1)对文本中的每个词根据其所属上下文给出它的语义编码

    24、。)对文本中的每个词根据其所属上下文给出它的语义编码。(2)语音合成、情报检索、机器翻译、自动校对等。)语音合成、情报检索、机器翻译、自动校对等。第10章 自然语言理解及其应用10.1 自然语言理解的概念与发展历史自然语言理解的概念与发展历史 10.2 语音分析语音分析10.3 词法分析词法分析10.4 句法分析句法分析10.5 语义分析语义分析 10.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 10.7 机器翻译机器翻译10.8 语音识别语音识别10.7 机器翻译10.7.1 机器翻译方法概述机器翻译方法概述 10.7.2 范例式机器翻译系统范例式机器翻译系统10.

    25、7.3 翻译记忆翻译记忆 10.7.1 机器翻译方法概述发展历程:发展历程:直接型直接型间接型间接型中间语言型中间语言型转换型转换型 1.直译式翻译系统直译式翻译系统(direct translation MT systems)通过快速的分析和双语词典,将原文译出。通过快速的分析和双语词典,将原文译出。2.规则式翻译系统规则式翻译系统(rule-based MT systems)先分析原文内容,产生原文的句法结构,再转换成译先分析原文内容,产生原文的句法结构,再转换成译 文的句法结构,最后再生成译文。文的句法结构,最后再生成译文。10.7.1 机器翻译方法概述 3.中介语式翻译系统中介语式翻译

    26、系统(inter-lingual MT systems)先生成一种中介的表达方式,而非特定语言的结构;先生成一种中介的表达方式,而非特定语言的结构;再由中介的表达式,转换成译文。再由中介的表达式,转换成译文。基于规则的翻译基于规则的翻译中介语式的翻译中介语式的翻译10.7.1 机器翻译方法概述 4.知识库式翻译系统知识库式翻译系统(knowledge-based MT systems)翻译经常需要除了词汇之外的各种知识,使用知识获取翻译经常需要除了词汇之外的各种知识,使用知识获取工具工具(knowledge acquisition),以充实知识库的内容。,以充实知识库的内容。6.范例式翻译系统

    27、范例式翻译系统(example-based MT systems)将过去的翻译结果,当成范例,产生一个范例库。将过去的翻译结果,当成范例,产生一个范例库。5.统计式翻译系统统计式翻译系统(Statistics-based MT systems)源语言中任一句子都可能是目标语言中某些句子相似。源语言中任一句子都可能是目标语言中某些句子相似。7.混合式翻译系统混合式翻译系统(Statistics-based MT systems)同时采用多种策略,以达成翻译的目标。同时采用多种策略,以达成翻译的目标。10.7.1 机器翻译方法概述 范例式翻译系统(范例式翻译系统(example-based MT

    28、systems)对被翻译的源语句通过翻译实例数据库检索出要翻译的对被翻译的源语句通过翻译实例数据库检索出要翻译的 目标语句目标语句。范例式机器翻译系统主要包括两部分工作:范例式机器翻译系统主要包括两部分工作:(1)建立翻译实例数据库。建立翻译实例数据库。(2)翻译的操作检索算法。)翻译的操作检索算法。10.7.2 范例式机器翻译系统 基本原理:用户利用已有的原文和译文,建立起一个或基本原理:用户利用已有的原文和译文,建立起一个或多个翻译记忆库,在翻译过程中,系统将自动搜索翻译多个翻译记忆库,在翻译过程中,系统将自动搜索翻译记忆库中相同或相似的翻译资源(如句子、段落等),记忆库中相同或相似的翻译

    29、资源(如句子、段落等),给出参考译文,使用户避免无谓的重复劳动,只需专注给出参考译文,使用户避免无谓的重复劳动,只需专注于新内容的翻译。翻译记忆库同时在后台不断学习和自于新内容的翻译。翻译记忆库同时在后台不断学习和自动储存新的译文,变得越来越动储存新的译文,变得越来越“聪明聪明”。德国塔多思(德国塔多思(TRADOS)公司的翻译记忆软件基于)公司的翻译记忆软件基于UNICODE(统一字符编码),支持(统一字符编码),支持55种语言,覆盖种语言,覆盖了几乎所有语言版本的了几乎所有语言版本的 Windows9598NT。10.7.3 翻译记忆第10章 自然语言理解及其应用10.1 自然语言理解的概

    30、念与发展历史自然语言理解的概念与发展历史 10.2 语音分析语音分析10.3 词法分析词法分析10.4 句法分析句法分析10.5 语义分析语义分析 10.6 基于语料库的大规模真实文本的处理基于语料库的大规模真实文本的处理 10.7 机器翻译机器翻译10.8 语音识别语音识别10.8.1 引言 语音识别用语音作为输入,口语对话与语音信号中语音识别用语音作为输入,口语对话与语音信号中语言提取的不同:语言提取的不同:(1)上下文猜测)上下文猜测 (2)肢体语言传达信息)肢体语言传达信息 机器翻译用印刷文本作为输入,能清楚地区分单个机器翻译用印刷文本作为输入,能清楚地区分单个单词和单词串单词和单词串

    31、。fare|fairmale|mail10.8.2 语音信号采集与预处理 语音信号采集系统语音信号采集系统l 基于单片机,基于单片机,DSP芯片芯片l 基于基于PC机机 语音信号预处理语音信号预处理l预滤波预滤波(1)抑制输入信号各频域分量中频率超出采样频率的)抑制输入信号各频域分量中频率超出采样频率的一半的所有分量,以防止混叠干扰。一半的所有分量,以防止混叠干扰。(2)抑制)抑制50Hz的电源工频干扰。的电源工频干扰。10.8.2 语音信号采集与预处理 语音信号预处理语音信号预处理l 采样:对信号进行量化,量化不可避免地会产生误采样:对信号进行量化,量化不可避免地会产生误差。量化后的信号值与

    32、原信号值之间的差值为量化误差。量化后的信号值与原信号值之间的差值为量化误差,又称为量化噪声。差,又称为量化噪声。l 预加重:预加重:是提升高频部分,使信号的频谱变得平坦,是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。求频谱,以便于频谱分析或声道参数分析。l端点检测:包含语音的一段信号中确定出语音的起点端点检测:包含语音的一段信号中确定出语音的起点以及终点。以及终点。10.8.2 语音信号采集与预处理过零率:信号中波形穿越零电平的次数来描述幅度变化的剧烈程度。ZCR(i)=|

    33、sgn(xi(n)sgn(xi(n+1)|10.8.3 语音信号特征参数提取声波有两个主要特征:振幅和频率。声波有两个主要特征:振幅和频率。线性预测编码(线性预测编码(LPC):基本思想:由于语音样点之间存在相关性,所以可基本思想:由于语音样点之间存在相关性,所以可以用过去以用过去p个样点值来预测现在或个样点值来预测现在或未来的样点值。未来的样点值。10.8.4 矢量量化矢量量化(矢量量化(vector quantization,VQ)技术是七十)技术是七十年代后期发展起来的一种数据压缩和编码技术。年代后期发展起来的一种数据压缩和编码技术。在标量量化中整个动态范围被分成若干个小区间,在标量量化

    34、中整个动态范围被分成若干个小区间,每个小区间有一个代表值,对于一个输入的标题信每个小区间有一个代表值,对于一个输入的标题信号,量化时落入小区间的值就用这个代表值代替。号,量化时落入小区间的值就用这个代表值代替。矢量量化的基本原理:将若干个标量数据组成一个矢量量化的基本原理:将若干个标量数据组成一个矢量在多维空间给予整体量化,从而可以在信息量矢量在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。损失较小的情况下压缩数据量。10.8.5 识别识别系统的输入是从语音信号中提出的特征参数识别系统的输入是从语音信号中提出的特征参数语音识别所采用的方法一般有:语音识别所采用的方法一般有:

    35、模板匹配法。在训练阶段,用户将词汇表中的每一个词依模板匹配法。在训练阶段,用户将词汇表中的每一个词依次说一遍,将其特征矢量作为模板存入模板库。在识别阶次说一遍,将其特征矢量作为模板存入模板库。在识别阶段,将输入语音的特征矢量序列依次与模板库中的每个模段,将输入语音的特征矢量序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。板进行相似度比较,将相似度最高者作为识别结果输出。随机模型法。如隐马尔可夫模型随机模型法。如隐马尔可夫模型(HMM)。用。用HMM的概率的概率参数来对似然函数进行估计与判决,从而得到识别结果。参数来对似然函数进行估计与判决,从而得到识别结果。概率语法

    36、分析法。不同的人说同一些语音时,相应的语谱概率语法分析法。不同的人说同一些语音时,相应的语谱总有一些共同的特点以区分于其他语音。将区别性特征与总有一些共同的特点以区分于其他语音。将区别性特征与来自构词、句法、语义等语用约束相互结合,构成由底向来自构词、句法、语义等语用约束相互结合,构成由底向上或自顶向下的交互作用知识系统。上或自顶向下的交互作用知识系统。10.8.6基于隐马尔可夫模型的语音识别方法隐马尔可夫模型:隐马尔可夫模型:表示序列可能出现的一种方法。表示序列可能出现的一种方法。y跟在ph后面出现的概率跟在t后面出现的概率例例 序列:1 2 3 3 4。则概率0.90.50.40.6=0.

    37、108 状态隐含,观察可测状态隐含,观察可测10.8.6 基于隐马尔可夫模型的语音识别方法(1)观察符号是一帧帧的语音参数(2)状态序列是具体的语音内容LPC或MFCC前进,后退例:例:解决三个基本问题:解决三个基本问题:(1)输出概率计算问题:给定观察序列 和HMM模型,计算输出概率 。(2)状态序列解码问题:给定观察序列 和HMM模型,确定最优的转移序列。(3)模型参数估计问题:调整模型 的参数,以使 最大。),(21toooO),(21toooO),(BA10.8.6 基于隐马尔可夫模型的语音识别方法)(OP)(OP输入语音输入语音比较结果比较结果语音分析语音分析矢量量化矢量量化语音模型语音模型比较判断比较判断HMM训练训练概率计算概率计算特征提取特征提取10.8.6 基于隐马尔可夫模型的语音识别方法基于HMM的孤立字(词)识别THE ENDArtificial Intelligence Principles and Applications

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:第10章自然语言理解及其应用课件.ppt
    链接地址:https://www.163wenku.com/p-4525402.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库