语音信号处理第12章课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《语音信号处理第12章课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 处理 12 课件
- 资源描述:
-
1、12.1 12.1 概述概述v随着信息技术的高速发展和人类对计算机的依赖性的不断增随着信息技术的高速发展和人类对计算机的依赖性的不断增强,人机的交互能力越来越受到研究者的重视。在人机交互强,人机的交互能力越来越受到研究者的重视。在人机交互中需要解决的问题实际上与人和人交流中的重要因素是一致中需要解决的问题实际上与人和人交流中的重要因素是一致的,最关键的都是的,最关键的都是“情感智能情感智能”的能力。因此计算机要能够的能力。因此计算机要能够更加主动的适应操作者的需要,首先必须能够识别操作者的更加主动的适应操作者的需要,首先必须能够识别操作者的情感,而后再根据情感的判断来调整交互对话的方式。情感,
2、而后再根据情感的判断来调整交互对话的方式。v包含在语音信号中的情感信息是一种很重要的信息资源,它包含在语音信号中的情感信息是一种很重要的信息资源,它是人们感知事物的必不可少的部分信息。所以包含在语音信是人们感知事物的必不可少的部分信息。所以包含在语音信号中的情感信息的计算机处理研究,分析和处理语音信号中号中的情感信息的计算机处理研究,分析和处理语音信号中的情感特征、判断和模拟说话人的喜怒哀乐等是一个意义重的情感特征、判断和模拟说话人的喜怒哀乐等是一个意义重大的研究课题。大的研究课题。12.2 12.2 语音信号中的情感分类和情感语音信号中的情感分类和情感 特征分析特征分析v12.2.112.2
3、.1情感的分类情感的分类v要研究语音信号的情感,首先需要根据某些特性标准对语音要研究语音信号的情感,首先需要根据某些特性标准对语音情感做一个有效合理的分类,然后在不同类别的基础上研究情感做一个有效合理的分类,然后在不同类别的基础上研究特征参数的性质。特征参数的性质。v经过经过PlutchikPlutchik等人的多年研究,通过在激活评价空间上对情等人的多年研究,通过在激活评价空间上对情感进行分析,认为情感分布在一个圆形的结构上,结构的中感进行分析,认为情感分布在一个圆形的结构上,结构的中心是自然原点。由于各种情感在自然原点的周围排成了一个心是自然原点。由于各种情感在自然原点的周围排成了一个圆形
4、,所以这种对情感进行分类的方法叫做圆形,所以这种对情感进行分类的方法叫做“情感轮情感轮(Emotion Wheel)”(Emotion Wheel)”。对于任何一个情感语句,可以根据其。对于任何一个情感语句,可以根据其情感强度和情感方向,在情感轮所组成的二维平面中用唯一情感强度和情感方向,在情感轮所组成的二维平面中用唯一的一个情感矢量的一个情感矢量 来表示。其中情感强度表现为这个情感矢来表示。其中情感强度表现为这个情感矢量的幅度值,而情感方向则表现为该情感矢量的角度。量的幅度值,而情感方向则表现为该情感矢量的角度。Ev不同于不同于PlutchikPlutchik的分类手段,的分类手段,FoxF
5、ox提出的三级情感模型,则提出的三级情感模型,则是按照情感中表现的主动和被动的程度不同将情感分成不同是按照情感中表现的主动和被动的程度不同将情感分成不同的等级,如表的等级,如表12-112-1所示。等级越低,分类越粗糙,等级越高,所示。等级越低,分类越粗糙,等级越高,分类越精细。分类越精细。12.2.2 12.2.2 情感特征分析情感特征分析v语音之所以能够表达情感,是因为其中包含能体现情感特征语音之所以能够表达情感,是因为其中包含能体现情感特征的参数。情感的变化通过特征参数的差异而体现。因此研究的参数。情感的变化通过特征参数的差异而体现。因此研究从语音信号中提取这些反映情感的参数,对于情感语
6、音识别从语音信号中提取这些反映情感的参数,对于情感语音识别等具有极其重要的意义。通常在语音情感识别时使用的主要等具有极其重要的意义。通常在语音情感识别时使用的主要特征参数包括以下内容。特征参数包括以下内容。vMurrayMurray和和ArnottArnott总结了情感和语音参数的关系如表总结了情感和语音参数的关系如表12-312-3所示。所示。v当当人处于愤怒的情感时,其生理特征较平时突出,如心跳加人处于愤怒的情感时,其生理特征较平时突出,如心跳加快、皮肤电压升高、血压升高等,这同时也影响到了语音特快、皮肤电压升高、血压升高等,这同时也影响到了语音特征参数的变化。首先由于生理变化的缘故,胸腔
7、的回声和呼征参数的变化。首先由于生理变化的缘故,胸腔的回声和呼吸声在语音信号中所占的比重将有所增加,振幅强度也大大吸声在语音信号中所占的比重将有所增加,振幅强度也大大高于普通的情感,语速也较普通语句快,是加速句和加强句高于普通的情感,语速也较普通语句快,是加速句和加强句的结合。为了增加生气的效果,基音在重音处语调的突变,的结合。为了增加生气的效果,基音在重音处语调的突变,成为了生气状态的一个重要特征。成为了生气状态的一个重要特征。v对于高兴时的情感,与愤怒情感时的生理特征有相似之处,对于高兴时的情感,与愤怒情感时的生理特征有相似之处,它的声音中也往往带有呼吸的声音,但是和其它情感的主要它的声音
8、中也往往带有呼吸的声音,但是和其它情感的主要不同之处在于,人处于高兴的状态时,它的基音变化通常是不同之处在于,人处于高兴的状态时,它的基音变化通常是一条向上弯曲的曲线。句子的振幅强度也集中在句子的末尾一条向上弯曲的曲线。句子的振幅强度也集中在句子的末尾的一两个字,整个句子的声调的调域要比平静语句高。句中的一两个字,整个句子的声调的调域要比平静语句高。句中非关键性的字和词的调形拱度就变得平坦一些,甚至失去本非关键性的字和词的调形拱度就变得平坦一些,甚至失去本调,而成为前后相邻两调的中间过渡。调,而成为前后相邻两调的中间过渡。v由于悲伤情感属于压抑情感类,所以它的时长较平静语句慢,由于悲伤情感属于
9、压抑情感类,所以它的时长较平静语句慢,强度也大大低于其它各种情感,基音的变化也是一条向下弯强度也大大低于其它各种情感,基音的变化也是一条向下弯曲的曲线。由于语速较慢的缘故,每一个字的读音彼此都拉曲的曲线。由于语速较慢的缘故,每一个字的读音彼此都拉得很开,所以字调的调形保留了其单字的调形,多字调的效得很开,所以字调的调形保留了其单字的调形,多字调的效果弱化。但由于在悲的语句中几乎每个字都夹杂了一定程度果弱化。但由于在悲的语句中几乎每个字都夹杂了一定程度的鼻音,所以要进行鼻音化的处理,使悲的语句的调阈降低,的鼻音,所以要进行鼻音化的处理,使悲的语句的调阈降低,整个语句趋于平坦化。整个语句趋于平坦化
10、。v恐惧情感在语速、基音、基音范围上同高兴情感、生气情感恐惧情感在语速、基音、基音范围上同高兴情感、生气情感的语句相类似,不同的地方仅在于语句的清晰度较其它情感的语句相类似,不同的地方仅在于语句的清晰度较其它情感精确。在实际的识别过程中目前还没有找到识别该种情感的精确。在实际的识别过程中目前还没有找到识别该种情感的有效特征参数。有效特征参数。v厌恶情感由于和生气情感具有较高的相似性,在很多研究文厌恶情感由于和生气情感具有较高的相似性,在很多研究文献中被归入生气情感中进行研究,大部分的特征参数和生气献中被归入生气情感中进行研究,大部分的特征参数和生气情感类似。同生气时的主要区别在于基音的变化率比
11、较宽,情感类似。同生气时的主要区别在于基音的变化率比较宽,并在语句末端有向下倾斜的趋势。并在语句末端有向下倾斜的趋势。v在汉语语音情感信息处理的研究方面,作为基础研究,其超在汉语语音情感信息处理的研究方面,作为基础研究,其超音段特征的研究将占较大比例。对于喜、怒、惊、悲四种情音段特征的研究将占较大比例。对于喜、怒、惊、悲四种情感,汉语语音信号的时间构造、振幅构造、基频构造和共振感,汉语语音信号的时间构造、振幅构造、基频构造和共振峰构造等特征的构造特点和分布规律,可以分析如下。峰构造等特征的构造特点和分布规律,可以分析如下。v时间构造的分析时间构造的分析:分析情感语音:分析情感语音 的时间构造主
12、要着眼于不同情感的时间构造主要着眼于不同情感 语音的发话时间构造的差别。我语音的发话时间构造的差别。我 们可以计算出每一情感语句从开们可以计算出每一情感语句从开 始到结束的持续时间,这一时间始到结束的持续时间,这一时间 包括句中的无声部分,因为无声包括句中的无声部分,因为无声 部分本身对情感是有贡献的。然后就情感语句的发话持续时部分本身对情感是有贡献的。然后就情感语句的发话持续时间长度(以下简称为间长度(以下简称为T T)以及平均发话速率)以及平均发话速率(音节音节/秒秒)和情感和情感的关系进行了分析和比较。的关系进行了分析和比较。v从图从图12-212-2可以看出,在发话的持续时间上,愤怒、
13、惊奇的发可以看出,在发话的持续时间上,愤怒、惊奇的发音长度和平静发音相比压缩了,而欢快、悲伤的发音长度却音长度和平静发音相比压缩了,而欢快、悲伤的发音长度却伸长了。在被压缩的愤怒、惊奇中,愤怒的发音最短,其次伸长了。在被压缩的愤怒、惊奇中,愤怒的发音最短,其次是惊奇。欢快和悲伤相比,悲伤伸长很多,而欢快只是稍稍是惊奇。欢快和悲伤相比,悲伤伸长很多,而欢快只是稍稍伸长。通过进一步的观察可知,这些现象的产生是由于和平伸长。通过进一步的观察可知,这些现象的产生是由于和平静语音相比,在情感语音中一些音素被模糊地发音、拖长或静语音相比,在情感语音中一些音素被模糊地发音、拖长或省略掉了的缘故。根据上述分析
14、结果,我们可以利用情感语省略掉了的缘故。根据上述分析结果,我们可以利用情感语音的时间构造很容易地区分欢快、悲伤和其它情感信号。也音的时间构造很容易地区分欢快、悲伤和其它情感信号。也可以通过设定某些时间特征阈值,来区分欢快和悲伤的情感可以通过设定某些时间特征阈值,来区分欢快和悲伤的情感信号。信号。v振幅构造的分析振幅构造的分析:信号的振幅特征与各种情感信息具有较强信号的振幅特征与各种情感信息具有较强的相关性。的相关性。因此,在一些有关情感分析的研究中,振幅构造因此,在一些有关情感分析的研究中,振幅构造特性都是作为重要特征加以分析研究的。情感语句的振幅构特性都是作为重要特征加以分析研究的。情感语句
15、的振幅构造分析,主要针对振幅平均能量以及动态范围(以下分别简造分析,主要针对振幅平均能量以及动态范围(以下分别简称为称为A A和和A rangeA range)等特征量进行分析比较。)等特征量进行分析比较。v 从分析结果可知,欢快、愤怒、惊奇从分析结果可知,欢快、愤怒、惊奇3 3种情感发音信号和平种情感发音信号和平静发音信号相比振幅将变大,相反地,悲伤和平静相比,振静发音信号相比振幅将变大,相反地,悲伤和平静相比,振幅将减小。而且从听取实验可知,情感信号具有这样的倾向,幅将减小。而且从听取实验可知,情感信号具有这样的倾向,即,欢快、愤怒、惊奇的平均振幅越大,悲伤的平均振幅越即,欢快、愤怒、惊奇
16、的平均振幅越大,悲伤的平均振幅越小,其情感效应表现的越明显。利用振幅特征,我们可以很小,其情感效应表现的越明显。利用振幅特征,我们可以很清楚地把欢快、愤怒、惊奇和悲伤区分开来,另外,振幅特清楚地把欢快、愤怒、惊奇和悲伤区分开来,另外,振幅特性也具有一定的区分欢快、愤怒和惊奇情感信号的能力。性也具有一定的区分欢快、愤怒和惊奇情感信号的能力。v基频构造的分析基频构造的分析:基音频率也是反映情感信息的重要特征之基音频率也是反映情感信息的重要特征之一。为了分析情感语音信号基频构造的特征,首先要求出情一。为了分析情感语音信号基频构造的特征,首先要求出情感语音信号的平滑的基频轨迹曲线,然后分析不同情感信号
17、感语音信号的平滑的基频轨迹曲线,然后分析不同情感信号基频轨迹曲线的变化情况,找出不同的情感信号各自具有的基频轨迹曲线的变化情况,找出不同的情感信号各自具有的基频构造特征。分析可知,不同情感信号轨迹曲线的的动态基频构造特征。分析可知,不同情感信号轨迹曲线的的动态范围、整个曲线的基频平均值以及变化率范围、整个曲线的基频平均值以及变化率(以下分别简称为以下分别简称为F0,F0 rangeF0,F0 range和和F0 rate)F0 rate)等特征可以反映不同情感的变化。等特征可以反映不同情感的变化。v 和平静语音信号相比、欢快、愤怒和惊奇的平均基频、动和平静语音信号相比、欢快、愤怒和惊奇的平均基
展开阅读全文