《人工智能应用概论》课件第5章-智能语音技术.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《人工智能应用概论》课件第5章-智能语音技术.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能应用概论 人工智能 应用 概论 课件 智能 语音 技术
- 资源描述:
-
1、人工智能应用概论课件第5章-智能语音技术PARTPART1 1智能语音技术的概念智能语音技术的概念 创新中国是由中央电视台联合深圳市委宣传部于2018年1月22日推出的一部纪录片,该片主要讲述了最新科技成就和创新精神,用鲜活的故事记录中国伟大的创新实践。这部聚焦前沿科学突破与科技热点,以鲜活故事记录当下中国创新实践的纪录片,还以一种特殊的方式联结科技与人文:利用智能语音和人工智能技术,让已逝的著名配音艺术家李易老师的声音重现荧幕,完成了整部纪录片的配音。这也是全球第一部全篇采用人工智能配音的纪录片。【案例】【案例】1.1 智能语音技术的概念1.1.1 自动语音识别(Automatic Spee
2、ch Recognition,ASR)广义上来讲智能语音技术有各种各样的定义,以上是常见的一些热门的场景。本书重点介绍语音识别技术(ASR)。自动语音识别是指让机器识别人说出的话,即将语音转换成相应的文本内容,然后根据内容信息执行人的某种意图。自动语音识别又称自动言语识别,这项任务涉及将输入声学信号与存储在计算机内存的词表(语音、音节、词等)相匹配,而匹配个别语词的标准技术则要用输入信号与预存的波形(或波形特征/参数)相比较(模型匹配)。1.1 智能语音技术的概念1.1.2 声纹识别(Voiceprint Recognition,VR)声纹识别,生物识别技术的一种,也称为说话人识别,包括说话人
3、辨认和说话人确认。声纹识别就是把声信号转换成电信号,再用计算机进行识别。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。声纹识别有两种应用场景:1:1验证(简称验证,Verification),比如显示为女朋友/老婆的电话号打来,接听之后发现声音不是她,那就让人紧张;1:n验证(又称识别,Identification),比如陌生电话打来,对方说一句字面上没有任何意义的老王,是我啊,如果真是熟人,你就能很快辨得TA的身份,如果认为不是,那就有可能是某省的人打来的了。1.1 智能语音技术的概念1.1.3 语音合成(Text to Speech
4、,TTS)语音合成,又称文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。1.1 智能语音技术的概念1.1.4 机器翻译源语言-目标语言。产品形态主要有三大类;翻译机、翻译手机和翻译耳机。1.1 智能语音技术的概念1.1.5 对话机器人对话机器人历史悠久,从1966年MIT的精神治疗师机器人ELIZA到现在已有半个世纪。针对用户不同类型的问题,常见的对话机器人有如下几种类型:检索型单轮对话机器人检索型单轮对话机器人:简单问题的提问和回答;知识图谱型机器人知识图谱型机器人:知识图谱型机器人(KG-Bot,也称为问答系统),
5、利用知识图谱进行推理并回答一些事实型问题。任务型多轮对话机器人任务型多轮对话机器人:任务型多轮机器人(Task-Bot)通过多次与用户对话交互来辅助用户完成某项明确具体的任务。闲聊型机器人闲聊型机器人:真实应用中,用户与系统交互的过程中不免会涉及到闲聊成分。闲聊功能可以让对话机器人更有情感和温度。1.1 智能语音技术的概念1.1.6 声学事件检测 声学事件检测是指对连续音频信号流中具有明确语义的片段进行检测与标定的过程。它是机器对环境声音场景进行识别和语义理解的重要基础,并将在未来类人机器人声音环境的语义理解、无人车行车周边环境的声音感知等方面发挥重要的作用。1.2 语音识别发展历程概述 语音
6、识别技术的研究起始于20世纪50年代,由于受到当时计算能力的限制,直到20世纪70年代才出现了一些实验性研究成果。自21世纪以来,语音识别技术取得了许多突破,并得到了广泛的应用。当前,尽管语音识别技术相对成熟,但在大规模语音语料的实时采集与精准标注、特定语种的音素集设计与优化、语音识别的鲁棒性增强等方面依然面临诸多难题。1.2 语音识别发展历程 1952年,美国贝尔实验室的Davis等人率先研制出了一个针对特定人的独立数字识别系统,该系统能够成功识别10个英语数字1956年,Olson和Belar开发出的系统能够识别10个不同音节,1959年Fry和Denes开发的识别系统能够识别9个辅音和4
7、个元音,他们利用模板匹配技术和谱分析技术进一步改善了音素的识别精度。同期,在美国麻省理工学院(MIT)林肯实验室设计的ForgieandForgie元音识别系统利用带通滤波器能够针对非特定人识别10个元音。1.2 语音识别发展历程 20世纪60年代初,Faut和Stevens等人对语音生成的理论方法进行了探索性研究。1962年,东京大学的Doshita和Sakai通过分析语音的过零率识别不同的音素,设计开发了一种硬件实现的音素识别系统,同期,他们推出了对近30年来的语音识别技术产生了巨大影响的三个研究项目。RCA实验室的研究人员Martin提出了基于语音信号端点检测的时间归一化方法和能够解决语
8、音信号非匀速问题的实用方法,显著降低了语音识别得分的变化;Reddy在连续语音识别领域进行的开创性研究在连续语音识别系统领域至今仍处于领先地位。1.2 语音识别发展历程 20世纪70年代,语音识别研究领域又取得了一系列重大突破,孤立词的识别已经成为可能。模板匹配思想和动态规划方法在语音识别中得到了应用,ltakura将低比特率条件下的语音编码的LPC技术应用扩展到了语音识别领域,AT&T贝尔实验室开展了针对非特定人语音识别的实验,生成非特定人模型的技术得到了普遍认同与广泛应用。1.2 语音识别发展历程 20世纪80年代的标志性成果就是统计建模方法,研究重点由模板匹配方法逐步向统计建模方法转变,
9、特别是HMM被广泛应用到语音识别研究中。20世纪80年代中期,HMM模型被世界各国的语音识别研究者所熟悉和采纳,神经网络也成为了一个新的研究方向,该时期对神经网络技术的优点和局限性以及该技术与经典的信号分类方法之间的关系有了深刻的理解,由此促进了神经网络技术在语音识别领域的应用。20世纪80年代后期,人们开始研制大词汇量连续语音识别系统,主要研究成果多得益于美国DAPRA的支持,研究机构主要有CMU、林肯实验室、SRI、MIT和ATT贝尔实验室。1.2 语音识别发展历程 进入20世纪90年代,语音识别研究的成果开始走出实验室,并且达到了商用目的。这一时期的研究热点包括鲁棒的语音识别、基于语音段
10、的建模方法、声学语音学统计模型、隐马尔可夫模型与人工神经网络的结合等,而研究重点集中在听觉模型、讲者自适应、快速搜索识别算法及语言模型。同期,最大似然线性回归(MLLR)、最大后验概率准则估计(MAP)、以决策树状态聚类等算法被提出和应用,进一步提升了系统的性能,由此催生了一批商用语音识别系统,比如DragonSystem公司的Naturally Speaking、IBM公司的ViaVoice、Microsoft公司的Whisper、Nuance公司的NuanceVoicePlatform语音平台、Sun公司的VoiceTone等。在美国DARPA和NIST研究计划的推动下,更多新的语音识别任
11、务被不断尝试并取得了更优的识别性能,当前国外的相关应用系统以Apple公司推出的Siri为龙头。1.2 语音识别发展历程 21世纪以来,语音识别在技术突破和应用研究两方面不断深入。在置信度和句子确认方面提出了针对口语的健壮性语音识别,这些技术对处理复杂的病句非常有效。利用区分性训练技术训练声学模型也取得了显著的效果。在实际应用方面,语音搜索、综合音频和视频的多模态语音识别技术受到广泛关注。随着计算机技术和信号处理技术的快速发展,健壮性语音识别已达到真正意义上的应用,能够实现自由的人机交互。当前,作为人机交互接口的关键技术,自动语音识别已成为信息技术领域最为关注的技术之一,并逐渐形成一个颇具竞争
展开阅读全文