语音信号处理第8章-语音信号情感处理课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《语音信号处理第8章-语音信号情感处理课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 处理 情感 课件
- 资源描述:
-
1、第第8章章 语音信号情感处理语音信号情感处理情感的声学特征分析情感的声学特征分析实用语音情感的识别算法实用语音情感的识别算法概述概述情感理论与情感诱发实验情感理论与情感诱发实验应用与展望应用与展望何为情感?何为情感?吃惊吃惊眉毛向上挑眉毛向上挑眼睛圆睁眼睛圆睁嘴唇无意识地张开嘴唇无意识地张开恐惧恐惧双眉上扬,聚拢双眉上扬,聚拢上眼皮上扬上眼皮上扬眼袋紧绷眼袋紧绷双唇向两耳水平方双唇向两耳水平方向略微拉伸向略微拉伸悲伤悲伤上层眼皮下垂上层眼皮下垂两眼无光两眼无光两侧嘴角微微下拉两侧嘴角微微下拉l情感行为识别:情感行为识别:面部表情识别面部表情识别语音情感识别语音情感识别姿态识别姿态识别l生理模式
2、识别:生理模式识别:皮肤电反应皮肤电反应呼吸呼吸心率心率体温体温脑电波等脑电波等多模态情感识别多模态情感识别8.1概述概述计算机要能够更加主动的适应操作者的需要,首先必须能计算机要能够更加主动的适应操作者的需要,首先必须能够识别操作者的情感,而后再根据情感类型来调整交互对够识别操作者的情感,而后再根据情感类型来调整交互对话的方式。对于情感信息处理技术的研究包括多个方面,话的方式。对于情感信息处理技术的研究包括多个方面,主要有情感特征分析、情感识别(如肢体情感识别、面部主要有情感特征分析、情感识别(如肢体情感识别、面部情感识别和语音情感识别等)、情感模拟(如情感语音合情感识别和语音情感识别等)、
3、情感模拟(如情感语音合成等)。成等)。近年来,语音情感的研究进展可以大致分为四个方面:一、近年来,语音情感的研究进展可以大致分为四个方面:一、情感特征的选择和优化;二、建模算法的研究;三、自然情感特征的选择和优化;二、建模算法的研究;三、自然情感数据库的建立;四、关注情感模型适应能力的环境自情感数据库的建立;四、关注情感模型适应能力的环境自适应方法,如上下文信息、跨语言、跨文化,和性别差异适应方法,如上下文信息、跨语言、跨文化,和性别差异等。等。lMITlCMUl东京大学东京大学l早稻田大学早稻田大学l日内瓦大学日内瓦大学 情绪研究实验室情绪研究实验室l伯明翰大学伯明翰大学国内外研究现状国内外
4、研究现状l中科院计算所:研究带有表情和动作的虚拟人。中科院计算所:研究带有表情和动作的虚拟人。l中科院自动化所:基于生物特征的身份验证。中科院自动化所:基于生物特征的身份验证。l中科院心理学所、生物所:情绪心理学、生理学研究中科院心理学所、生物所:情绪心理学、生理学研究l中科院软件所:智能用户界面中科院软件所:智能用户界面l浙江大学:虚拟人物、情绪系统构造浙江大学:虚拟人物、情绪系统构造l北京工业大学:多功能感知机同情感计算的融合研究。北京工业大学:多功能感知机同情感计算的融合研究。l东南大学:语音情感识别东南大学:语音情感识别l南京航空航天大学:语音情感计算。南京航空航天大学:语音情感计算。
5、l中国科技大学:基于内容的交互式感性图像检索的研究中国科技大学:基于内容的交互式感性图像检索的研究l重庆大学:智能服务、增强现实、环境感知、重庆大学:智能服务、增强现实、环境感知、智能手表等,注重软件方面的研究。智能手表等,注重软件方面的研究。l海南大学:军用无线局域网结构中的可穿戴计海南大学:军用无线局域网结构中的可穿戴计算机。算机。l哈工大:哈工大:“具有六种面部表情及视觉的类人头具有六种面部表情及视觉的类人头像型机器人及行为研究像型机器人及行为研究” ,于,于20042004年研制出年研制出具有八种面部表情的仿人头像机器人系统,并具有八种面部表情的仿人头像机器人系统,并进行了表情实验,实
6、现了喜、怒、哀、乐、悲进行了表情实验,实现了喜、怒、哀、乐、悲伤、严肃、吃惊、自然伤、严肃、吃惊、自然( (中性中性) )等等8 8种表情。种表情。l索尼公司的索尼公司的AIBO狗狗 :第一个实现规模商品化:第一个实现规模商品化的宠物机器人(的宠物机器人(2006年生产年生产6万只,收益万只,收益10亿亿美元),美元), QRIO、SDR-4X等宠物机器人。为等宠物机器人。为有情感交互能力的机器人及相关的研究打开了有情感交互能力的机器人及相关的研究打开了想象的空间。想象的空间。典型应用典型应用lPepperPepper是一款人形机器人,由日本软银集团和是一款人形机器人,由日本软银集团和法国法国
7、AldebaranAldebaran Robotics Robotics研发,可综合考虑周研发,可综合考虑周围环境,并积极主动地作出反应。机器人配备围环境,并积极主动地作出反应。机器人配备了语音识别技术、呈现优美姿态的关节技术,了语音识别技术、呈现优美姿态的关节技术,以及分析表情和声调的情绪识别技术,可与人以及分析表情和声调的情绪识别技术,可与人类进行交流。类进行交流。8.2情感理论与情感诱发实验情感理论与情感诱发实验1)基本情感论)基本情感论8.2.1 8.2.1 情感的心理学理论情感的心理学理论基本情感论认为,人类的复杂的情感是由若干种有限的基基本情感论认为,人类的复杂的情感是由若干种有限
8、的基本情感构成的,基本情感按照一定的比例混合构成各种复本情感构成的,基本情感按照一定的比例混合构成各种复合情感。基本情感论认为情感可以用离散的类别模型来描合情感。基本情感论认为情感可以用离散的类别模型来描述,目前大部分的情感识别系统,都是建立在这一理论体述,目前大部分的情感识别系统,都是建立在这一理论体系之上的。系之上的。在心理学领域对基本情感类别的定义还没有一个统一的结在心理学领域对基本情感类别的定义还没有一个统一的结论,然而在语音情感识别的文献中,较多的研究者采用的论,然而在语音情感识别的文献中,较多的研究者采用的是六种基本情感状态:是六种基本情感状态:“喜悦喜悦”、“生气生气”、“惊讶惊
9、讶”、“悲悲伤伤”、“恐惧恐惧”和和“中性中性”。人类情绪的基本类型人类情绪的基本类型 快乐快乐 愤怒愤怒 恐惧恐惧 悲哀悲哀1.快乐:追求并达到所盼望的目的。快乐快乐: :盼望的目的盼望的目的达到后继之而来的达到后继之而来的紧张解除时的情绪紧张解除时的情绪体验。体验。 愤怒愤怒: :愿望不能达到或愿望不能达到或事与愿违,并一再受到妨事与愿违,并一再受到妨碍的情况下产生的情绪体碍的情况下产生的情绪体验。验。恐惧恐惧:由于缺乏:由于缺乏处理或摆脱可怕处理或摆脱可怕的情景或事物的的情景或事物的能力引起的情绪能力引起的情绪体验。体验。悲伤:悲伤:与失去所与失去所热爱的事物或所热爱的事物或所盼望的东西
10、有关盼望的东西有关的体验。的体验。 8.2.1 8.2.1 情感的心理学理论情感的心理学理论2)维度空间论)维度空间论维度模型,是由效价度和维度模型,是由效价度和唤醒度组成的二维空间:唤醒度组成的二维空间:1)效价度或者快乐度,其理效价度或者快乐度,其理论基础是正负情感的分离论基础是正负情感的分离激活,主要体现为情感主激活,主要体现为情感主体的情绪感受,是对情感体的情绪感受,是对情感和主体关系的一种度量;和主体关系的一种度量;2)唤醒度或者激活度,指与唤醒度或者激活度,指与情感状态相联系的机体能情感状态相联系的机体能量激活的程度,是对情感量激活的程度,是对情感的内在能量的一种度量。的内在能量的
11、一种度量。8.2.2 8.2.2 实用语音情感数据库的建立实用语音情感数据库的建立1)概述)概述语音情感数据库的建立,是研究语音情感的必需的研究基语音情感数据库的建立,是研究语音情感的必需的研究基础,具有极为重要的意义。目前国际上流行的语音情感数础,具有极为重要的意义。目前国际上流行的语音情感数据库有据库有AIBO(Artificial Intelligence Robot)语料库、)语料库、VAM(The Vera am Mittag)数据库、丹麦语数据库)数据库、丹麦语数据库(Danish Emotional Speech,DES)、柏林数据库、)、柏林数据库、SUSAS(Speech u
12、nder Simulated and Actual Stress)数据)数据库等。库等。8.2.2 8.2.2 实用语音情感数据库的建立实用语音情感数据库的建立2)实用语音情感数据库的需求)实用语音情感数据库的需求情感语料可以分为自然语音、诱发语音和表演语音三类。情感语料可以分为自然语音、诱发语音和表演语音三类。表演语料的优点是容易采集,缺点是情感表现夸张,与实表演语料的优点是容易采集,缺点是情感表现夸张,与实际的自然语音有一定的差别。早期基于表演语料的识别系际的自然语音有一定的差别。早期基于表演语料的识别系统,它的情感模型在实验室条件下是符合样本数据的,在统,它的情感模型在实验室条件下是符合
13、样本数据的,在实验测试中也能获得较高的识别率,但是在实际条件下,实验测试中也能获得较高的识别率,但是在实际条件下,系统的情感模型与真实的情感数据不能符合的很好,导致系统的情感模型与真实的情感数据不能符合的很好,导致应用中的技术瓶颈。应用中的技术瓶颈。面向实际应用的需求,实用语音情感数据库必须要保证语面向实际应用的需求,实用语音情感数据库必须要保证语料的真实可靠,不能采用传统的表演方式采集数据。通过料的真实可靠,不能采用传统的表演方式采集数据。通过实验心理学中的方法来诱发实用语音情感数据,可尽可能实验心理学中的方法来诱发实用语音情感数据,可尽可能的使训练数据接近真实的情感数据。的使训练数据接近真
14、实的情感数据。8.2.2 8.2.2 实用语音情感数据库的建立实用语音情感数据库的建立3)建立过程和一般规范)建立过程和一般规范参考国内外著名语料库及其相关的规范,实用语音情感数参考国内外著名语料库及其相关的规范,实用语音情感数据库建立的流程主要包含五个步骤:制定情感诱发方式、据库建立的流程主要包含五个步骤:制定情感诱发方式、情感语音采集、数据检验与补录、语句切分与标注和听辨情感语音采集、数据检验与补录、语句切分与标注和听辨测试。测试。规范规范详细说明详细说明发音人规范描述发音人的年龄、性别、教育背景和性格特征等。语料设计规范描述语料的组织和设计内容,包括文本内容设计、情感选择、语料来源等。录
15、音规范描述录音环境的软硬件设备、录音声学环境等技术指标。数据存储技术规范描述采样率、编码格式、语音文件的存储格式及其技术规范。语料库标注规范情感标注内容和标注系统说明。法律声明发音人录音之后签署的有关法律条文或者声明。8.2.2 8.2.2 实用语音情感数据库的建立实用语音情感数据库的建立4)数据检验)数据检验录音过程通常在安静的实验室内进行。每次录音后,应进录音过程通常在安静的实验室内进行。每次录音后,应进行数据的检验与补录,及时对语音文件进行人工检验,以行数据的检验与补录,及时对语音文件进行人工检验,以排除录音过程中可能出现的错误。例如,查看并剔除语音排除录音过程中可能出现的错误。例如,查
16、看并剔除语音中的信号过载音段、不规则噪声(如咳嗽等)和非正常停中的信号过载音段、不规则噪声(如咳嗽等)和非正常停顿造成的长时静音等。对于错误严重的录音文件,必要时顿造成的长时静音等。对于错误严重的录音文件,必要时进行补录。进行补录。8.2.3 8.2.3 情感语料的诱发方法情感语料的诱发方法1)通过计算机游戏诱发情感语料)通过计算机游戏诱发情感语料因为人类声音中蕴含的情感信息受到无意识的心理状态变因为人类声音中蕴含的情感信息受到无意识的心理状态变化的影响,以及社会文化导致的有意识的说话习惯的控制,化的影响,以及社会文化导致的有意识的说话习惯的控制,所以实用语音情感数据库的建立需要考虑语音中情感
17、的自所以实用语音情感数据库的建立需要考虑语音中情感的自然流露和有意识控制。然流露和有意识控制。通过计算机游戏诱发情感的方法的优势在于通过游戏中画通过计算机游戏诱发情感的方法的优势在于通过游戏中画面和音乐的视觉、听觉刺激,能提供一个互动的、具有较面和音乐的视觉、听觉刺激,能提供一个互动的、具有较强感染力的人机交互环境,能够有效的诱发出被试的正面强感染力的人机交互环境,能够有效的诱发出被试的正面情感与负面情感。情感与负面情感。8.2.3 8.2.3 情感语料的诱发方法情感语料的诱发方法2)通过认知作业诱发情感语料)通过认知作业诱发情感语料除了游戏诱发以外,通过认知作业可诱发包括烦躁、疲劳除了游戏诱
18、发以外,通过认知作业可诱发包括烦躁、疲劳和自信等心理状态下的情感。在一个重复的、长时间的认和自信等心理状态下的情感。在一个重复的、长时间的认知作业中,采用噪声诱发、睡眠剥夺等手段可辅助诱发负知作业中,采用噪声诱发、睡眠剥夺等手段可辅助诱发负面情绪。认知作业现场的情感识别具有重要的实际意义,面情绪。认知作业现场的情感识别具有重要的实际意义,特别是在航天、航空、航海等长时间的、高强度的工作环特别是在航天、航空、航海等长时间的、高强度的工作环境中,对工作人员的负面情感的及时检测和调控具有非常境中,对工作人员的负面情感的及时检测和调控具有非常重要的意义。烦躁、疲劳和自信等心理状态对认知过程有重要的意义
19、。烦躁、疲劳和自信等心理状态对认知过程有重要的影响,是评估特殊工作人员的心理状态和认知作业重要的影响,是评估特殊工作人员的心理状态和认知作业水平的一个重要因素。水平的一个重要因素。8.2.4 8.2.4 情感语料的主观评价方法情感语料的主观评价方法为了保证所采集的情感语料的可靠性,需要进行主观听辨为了保证所采集的情感语料的可靠性,需要进行主观听辨评价,每条样本由评价,每条样本由10名未参与录音的人员进行评测。一般名未参与录音的人员进行评测。一般认为人类区分信息等级的极限能力为认为人类区分信息等级的极限能力为7 2,故可以引入九,故可以引入九分位的比例标度来衡量信息等级。例如,采用标度分位的比例
20、标度来衡量信息等级。例如,采用标度1、3、5、7、9表示情感的五种强度,对应极弱,较弱,一般,表示情感的五种强度,对应极弱,较弱,一般,较强,极强五个等级。较强,极强五个等级。由于采取多人评测,为了得到第由于采取多人评测,为了得到第 条情感样本的评价结果,条情感样本的评价结果,需要将所有听辨人的测评结果进行融合,采用加权融合的需要将所有听辨人的测评结果进行融合,采用加权融合的准则得到该条情感样本的评判结果为:准则得到该条情感样本的评判结果为:1MjiijiaEE8.3情感的声学特征分析情感的声学特征分析8.3.1 8.3.1 情感特征提取情感特征提取用于语音情感识别的声学特征大致可归纳为韵律学
21、特征、用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征三种类型:基于谱的相关特征和音质特征三种类型:1)韵律是指语音中凌驾于语义符号之上的音高、音长、)韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化,是对语音流表达方式的一种结快慢和轻重等方面的变化,是对语音流表达方式的一种结构性安排。最常用的韵律特征有时长、基频、能量等。构性安排。最常用的韵律特征有时长、基频、能量等。2)基于谱的相关特征被认为是声道形状变化和发声运动)基于谱的相关特征被认为是声道形状变化和发声运动之间相关性的体现,使用的谱特征一般有线性预测系数、之间相关性的体现,使用的谱特征
22、一般有线性预测系数、线性预测倒谱系数、美尔倒谱系数等。线性预测倒谱系数、美尔倒谱系数等。3)声音质量是人们赋予语音的一种主观评价指标,用于)声音质量是人们赋予语音的一种主观评价指标,用于衡量声音质量的声学特征一般有:共振峰频率及其带宽、衡量声音质量的声学特征一般有:共振峰频率及其带宽、频率微扰和振幅微扰、声门参数等。频率微扰和振幅微扰、声门参数等。8.3.1 8.3.1 情感特征提取情感特征提取特征序号特征名称1-4短时能量的最大值、最小值、均值、方差5短时能量抖动6-7短时能量的线性回归系数及其均方误差8250Hz以下短时能量占全部短时能量的比例9-12基音频率的最大值、最小值、均值、方差1
展开阅读全文