第二章音频信息处理ver30-课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第二章音频信息处理ver30-课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 音频 信息处理 ver30 课件
- 资源描述:
-
1、第二章第二章 音频信息处理音频信息处理1 多媒体技术的特点是多媒体技术的特点是交互式交互式地地综合处理声文图综合处理声文图信息。在信息。在多媒体系统中语音和音乐是不可少的。没有音频的视频是不多媒体系统中语音和音乐是不可少的。没有音频的视频是不可接受的。音频和视频同步,才能使视频图像更具真实性。可接受的。音频和视频同步,才能使视频图像更具真实性。娓娓动听的音乐和解说,会使静态图像变得更加丰富多彩。娓娓动听的音乐和解说,会使静态图像变得更加丰富多彩。可视电话、电视会议中的声音更为重要。可视电话、电视会议中的声音更为重要。第二章第二章 音频信息处理音频信息处理22.1 2.1 声音概述声音概述(重点
2、)(重点)2.2 2.2 音频信息数字化音频信息数字化(重点)(重点)2.3 2.3 音频文件的格式音频文件的格式2.4 2.4 语音压缩编码语音压缩编码(重点)(重点)2.5 2.5 音乐合成和音乐合成和MIDI MIDI(重点)(重点)第二章第二章 音频信息处理音频信息处理3一、一、声音及其分类声音及其分类1、声音、声音 声音是通过空气传播的一种连续的波,声音是通过空气传播的一种连续的波,称为声波称为声波。基本参数基本参数 频率:频率:声音的声音的频率,频率,体现音调的体现音调的高低高低振幅振幅:声波压力的声波压力的大小,大小,体现声音的体现声音的强弱强弱第二章第二章 音频信息处理音频信息
3、处理4声音信号由许多频率不同的信号组成,是声音信号由许多频率不同的信号组成,是复合信号。复合信号。重要参数重要参数带宽带宽:复合信号的频率范围复合信号的频率范围例如:例如:高保真高保真(high-fidelityaudio)声音的频率范围为声音的频率范围为10Hz20000Hz,其带宽约为,其带宽约为20KHz。而视频信号的带宽而视频信号的带宽是是6MHz。第二章第二章 音频信息处理音频信息处理52 2、声音的分类、声音的分类 声音:声音:无规则的噪音无规则的噪音和和有规则的音频信号有规则的音频信号。音频信号携带的信息可分为:语言、音乐和音效等三类。音频信号携带的信息可分为:语言、音乐和音效等
4、三类。第二章第二章 音频信息处理音频信息处理63 3、声音的三要素、声音的三要素 音调、音色和音强音调、音色和音强是声音的三要素。是声音的三要素。在任一时刻,在任一时刻,模拟声波模拟声波信号曲线都可以分解为一系列信号曲线都可以分解为一系列正弦正弦波波的线性叠加。的线性叠加。其中其中0 0称为称为基频或基音基频或基音(最低的音波最低的音波);n n*0 0称为称为0 0的的n n次次谐波分量谐波分量或称为或称为泛音泛音,其频率是基频,其频率是基频的整数倍。的整数倍。)sin()(000nnnnAtf第二章第二章 音频信息处理音频信息处理7 音调音调 在音乐中称为在音乐中称为音高音高,音高是指声波
5、的,音高是指声波的基频基频。将基频取对。将基频取对数后与人的音高感觉成线性关系,音律中最常见的数后与人的音高感觉成线性关系,音律中最常见的1212平均律平均律中的音阶划分,就是在频率对数坐标取等分而得来的。中的音阶划分,就是在频率对数坐标取等分而得来的。音色音色 取决于声波的取决于声波的频谱频谱,即由混入基音的泛音所决定的。各,即由混入基音的泛音所决定的。各阶谐波即泛音的幅度比例不同,随时间衰减的程度不同,则阶谐波即泛音的幅度比例不同,随时间衰减的程度不同,则音色就不同。若中高频泛音丰富,音色就明亮,如小号;若音色就不同。若中高频泛音丰富,音色就明亮,如小号;若低频泛音丰富,音色就低沉,如低音
6、贝司。低频泛音丰富,音色就低沉,如低音贝司。第二章第二章 音频信息处理音频信息处理8 音强音强 取决于声波信号的取决于声波信号的强弱程度强弱程度,即与声音信号的幅度成正,即与声音信号的幅度成正比。人耳在辨别声音的能力只有在音强适中时才最灵敏。比。人耳在辨别声音的能力只有在音强适中时才最灵敏。由于人的听觉响应与声音信号强度不是成线性关系,因由于人的听觉响应与声音信号强度不是成线性关系,因此一般用声音信号幅度取对数后再乘此一般用声音信号幅度取对数后再乘2020所得值来描述声强,所得值来描述声强,以以分贝(分贝(dBdB)为单位,此时称为为单位,此时称为音量音量。在处理音频信号时,。在处理音频信号时
7、,一般用一般用动态范围动态范围来定义音频信号的相对强度:来定义音频信号的相对强度:动态范围动态范围=20=20loglog(信号的最大强度(信号的最大强度/信号最小强度)信号最小强度)单位:单位:dBdB第二章第二章 音频信息处理音频信息处理9二、音频信号二、音频信号(1 1)语音:具有语言内涵和人类约定成俗的特殊媒体。)语音:具有语言内涵和人类约定成俗的特殊媒体。(2 2)音乐:规范的符号化了的声音。)音乐:规范的符号化了的声音。(3 3)音效)音效(响):人类熟悉的其他声音,如动物发声、机器产响):人类熟悉的其他声音,如动物发声、机器产生的声音、自然界的风雨雷电声等。生的声音、自然界的风雨
8、雷电声等。音频的音频的作用作用:直接通过讲话表达信息、制造某种效果和气直接通过讲话表达信息、制造某种效果和气氛、演奏音乐等。氛、演奏音乐等。第二章第二章 音频信息处理音频信息处理101、音频音频人类听觉所感知范围内的频率,也称人类听觉所感知范围内的频率,也称声频。声频。音频音频(Audio):频率范围是频率范围是20Hz20KHz的声音信号(人耳能听到)的声音信号(人耳能听到)次声波次声波(subsonic):频率低于频率低于20Hz的信号的信号(亚音)亚音)超声波超声波(ultrasonic):频率高于:频率高于20KHz的信号的信号(超音频)超音频)说明说明1:次声波和超声波次声波和超声波
9、之间之间的音频为的音频为可听声波可听声波,属于属于多媒体音频多媒体音频信息范畴。信息范畴。第二章第二章 音频信息处理音频信息处理11说明说明2 2:人的发音器官发出的声音频率大约是人的发音器官发出的声音频率大约是80803400Hz3400Hz,但人说,但人说话的信号频率通常为话的信号频率通常为3003003000Hz3000Hz,人们把在这种频率范围的,人们把在这种频率范围的信号称为信号称为语(话)音语(话)音(speech)(speech)信号信号;实际上,人最敏感的频率范围是实际上,人最敏感的频率范围是3KHz5KHz。对于高于对于高于1820kHz和低于和低于1620Hz的的声音信号,
10、无论音强如何,一般人声音信号,无论音强如何,一般人都听不到。都听不到。第二章第二章 音频信息处理音频信息处理12Q:地震来临前,狗、老鼠等动物会比我们人类早知道,并有地震来临前,狗、老鼠等动物会比我们人类早知道,并有一些异常反应,请解释原因。一些异常反应,请解释原因。地震地震时能量主要时能量主要集中在集中在次声波次声波 狗狗、猫等动物的听觉范围比人、猫等动物的听觉范围比人广广如如:狗的听觉范围是:狗的听觉范围是15Hz50000Hz 猫猫的听觉范围是的听觉范围是60Hz56000Hz。第二章第二章 音频信息处理音频信息处理132 2、音频信号、音频信号用电压或电流模拟信号表示声音信号,在用电压
11、或电流模拟信号表示声音信号,在多媒体技术中采用的是数字化音频信息。多媒体技术中采用的是数字化音频信息。3 3、音频信息处理技术、音频信息处理技术(1 1)音频获取技术(语音的采集、识别和理解)音频获取技术(语音的采集、识别和理解)(2 2)音频合成技术(音乐的合成和语音的合成)音频合成技术(音乐的合成和语音的合成)(3 3)音频定位技术(模拟立体声、音频)音频定位技术(模拟立体声、音频/视频同步)视频同步)(4 4)音频编码、解码技术)音频编码、解码技术(5 5)音频网络传输技术)音频网络传输技术第二章第二章 音频信息处理音频信息处理144 4、音频信号的技术指标音频信号的技术指标 频带宽度频
12、带宽度:音频信号的频率范围,是衡量:音频信号的频率范围,是衡量音质音质的标准。的标准。频带越宽,包含的音频信号分量越丰富,则音质越好。频带越宽,包含的音频信号分量越丰富,则音质越好。通常将音质定义为通常将音质定义为4 4个等级标准:个等级标准:CD-DA唱盘为唱盘为10Hz22KHz;FM广播为广播为20Hz15KHz;AM广播为广播为50Hz7KHz;数字电话为数字电话为200Hz3.4KHz。第二章第二章 音频信息处理音频信息处理15第二章第二章 音频信息处理音频信息处理16 动态范围动态范围 动态范围动态范围2020loglog(信号的最大强度(信号的最大强度/信号的最小强度)信号的最小
13、强度)动态范围越大,说明音频信号的相对变化范围大,动态范围越大,说明音频信号的相对变化范围大,音响音响效效果越好。果越好。几种音频业务的动态范围几种音频业务的动态范围 音质效果音质效果 AM广播广播 FM广播广播 数字电话数字电话 CDDA 动态范围(动态范围(dB)40 60 50 100 第二章第二章 音频信息处理音频信息处理17 信噪比信噪比SRN(Signal to Noise Rate,dB)信噪比:信噪比:有用信号有用信号的平均功率与的平均功率与噪音噪音的平均功率之比。的平均功率之比。信噪比越高,则音效越好。信噪比越高,则音效越好。例:例:设设 ,采样精度,采样精度16位表示位表示
14、 ,求其求其SNR?)/lg(20noisesignalVVSNR 1noiseV162signalVSNR96dB第二章第二章 音频信息处理音频信息处理18说明:说明:通常通常信噪比分为系统输入信号的信噪比信噪比分为系统输入信号的信噪比SRN(in)和系统)和系统输出信号的信噪比输出信号的信噪比SRN(out)。)。一般来说,在语音和图像信号的编码中,一般来说,在语音和图像信号的编码中,主观主观的质量评价的质量评价较较客观客观的质量评价更为恰当。的质量评价更为恰当。第二章第二章 音频信息处理音频信息处理195.5.音频信号的特点音频信号的特点 由于音频由于音频是是依赖时间的连续媒体,因此音频
15、处理的依赖时间的连续媒体,因此音频处理的时序性时序性要求高;要求高;由于人类接收声音有两个通道,因此计算机合成的声音应由于人类接收声音有两个通道,因此计算机合成的声音应是是立体声立体声;由于语音信号携带了情感意向,因此对语音信号的处理还由于语音信号携带了情感意向,因此对语音信号的处理还要抽取要抽取语意语意等其等其它它信息。信息。第二章第二章 音频信息处理音频信息处理20三、数字音频三、数字音频1.1.数字音频数字音频 将模拟的将模拟的(连续的连续的)声音波形数字化声音波形数字化(离散化离散化),以便利用数,以便利用数字计算机进行处理的过程。(字计算机进行处理的过程。(A/DA/D转换)转换)主
16、要包括主要包括采样采样、量化量化和和编码编码几个方面。几个方面。2.2.数字音频的技术指标数字音频的技术指标 采样频率采样频率、量化位数量化位数、声道数声道数、编码算法编码算法 数字音频的数字音频的质量质量取决于:取决于:采样频率采样频率和和量化位数量化位数这两个重要这两个重要参数。此外,声道的数目、相应的音频设备也是影响参数。此外,声道的数目、相应的音频设备也是影响音频质量音频质量的原因。的原因。第二章第二章 音频信息处理音频信息处理213.3.数字音频等级数字音频等级信号类型 频率范围(Hz)采样率(kHz)量化精度(位)电话话音 2003400 8 8 宽带音频 507000 16 16
17、 调频广播 2015k 37.8 16 高质量音频 2020k 44.1 16 各种声音质量的压缩比各种声音质量的压缩比声音质量声音质量宽带(宽带(kHz)声道声道数据率(数据率(Kb/s)压缩比压缩比CD音质音质15双声道立体声双声道立体声1121281:141:12接近接近CD15双声道立体声双声道立体声961:16调频广播调频广播11双声道立体声双声道立体声56641:271:24中波广播中波广播7.5单声道单声道321:24短波广播短波广播4.5单声道单声道161:48电话音质电话音质2.5单声道单声道81:96第二章第二章 音频信息处理音频信息处理234.4.从人机交互的角度看音频信
18、号处理从人机交互的角度看音频信号处理(1 1)人)人计算机计算机 包括:音频获取、语音识别和理解等;包括:音频获取、语音识别和理解等;(2 2)计算机)计算机人人 包括:音乐合成、语音合成、立体声模拟等;包括:音乐合成、语音合成、立体声模拟等;(3 3)人)人计算机计算机人人 包括:语音采集、音频编码包括:语音采集、音频编码/解码、音频传输、基于内容解码、音频传输、基于内容的检索等;的检索等;第二章第二章 音频信息处理音频信息处理24一、模拟信号与数字信号一、模拟信号与数字信号 在时间和幅度上都连续的信号称为在时间和幅度上都连续的信号称为模拟信号。模拟信号。在时间和幅度上都离散,用数字表示的信
19、号称为在时间和幅度上都离散,用数字表示的信号称为数字信号。数字信号。对模拟信号的处理:比较复杂,难于精确控制,成本高。对模拟信号的处理:比较复杂,难于精确控制,成本高。将模拟信号数字化目的:将模拟信号数字化目的:处理简单,控制精确处理简单,控制精确。第二章第二章 音频信息处理音频信息处理25二、二、模拟信息数字化的主要优点模拟信息数字化的主要优点 数字信号计算是一种数字信号计算是一种精确精确的运算方法,它的运算方法,它不受时间和环境变不受时间和环境变化化的影响;的影响;表示部件功能的数学运算不是物理上实现的功能部件,而是表示部件功能的数学运算不是物理上实现的功能部件,而是仅用数学运算去模拟,其
20、中的仅用数学运算去模拟,其中的数学运算也相对容易实现数学运算也相对容易实现;可以对数字运算部件进行可以对数字运算部件进行编程编程,如欲改变算法或改变某些功,如欲改变算法或改变某些功能,还可对数字部件进行再编程。能,还可对数字部件进行再编程。第二章第二章 音频信息处理音频信息处理26三、模拟声音数字化过程三、模拟声音数字化过程采样采样在某特定时刻对模拟信号进行测量叫在某特定时刻对模拟信号进行测量叫采样。采样。每隔相等的一段时间进行采样,称为每隔相等的一段时间进行采样,称为均匀采样均匀采样,否则为否则为非均匀采样。非均匀采样。量化量化把信号幅度划分成若干小段,若每段都是相等的,称为把信号幅度划分成
21、若干小段,若每段都是相等的,称为线性量化线性量化,否则称为,否则称为非线性量化非线性量化。编码编码:将离散的模拟信号转化为数字信号,即对量化后:将离散的模拟信号转化为数字信号,即对量化后的离散值用二进制代码取代。的离散值用二进制代码取代。第二章第二章 音频信息处理音频信息处理271、采样、采样采样采样(sampling)在时间轴上对信号数字化。在时间轴上对信号数字化。采样周期采样周期:对连续信号采样的时间间隔:对连续信号采样的时间间隔T采样频率采样频率:单位时间内的采样次数(:单位时间内的采样次数(1/T)。)。采样频率越高,可恢复的声音保真度越好。采样频率越高,可恢复的声音保真度越好。常用采
22、样频率常用采样频率 11.025KHz、22.05KHz、44.1KHz、48KHz。如何保证采样的声音不失真?如何保证采样的声音不失真?第二章第二章 音频信息处理音频信息处理28奈魁斯特奈魁斯特(Nyquiest)采样定理采样定理:若对某一模拟信号进行采样,只要采样频率若对某一模拟信号进行采样,只要采样频率f(1/T)高于高于输入信号最高频率输入信号最高频率fC的两倍的两倍(f2fC),则经过采样后的采样信,则经过采样后的采样信号能够包含原模拟信号的全部信息,且经过反变换和低通滤号能够包含原模拟信号的全部信息,且经过反变换和低通滤波后可不失真地恢复原模拟信号。波后可不失真地恢复原模拟信号。例
23、如,例如,电话话音信号的频率约为电话话音信号的频率约为 3.4kHz,采样频率选,采样频率选 8kHz。第二章第二章 音频信息处理音频信息处理292、量化:量化:对声音信号波形振幅值的离散化对声音信号波形振幅值的离散化量化误差(或量化噪音)量化误差(或量化噪音):量化后的振幅代表值与真实振幅值之间的差。量化后的振幅代表值与真实振幅值之间的差。量化跨度量化跨度:在分割振幅时一个个小区间的宽度:在分割振幅时一个个小区间的宽度量化精度量化精度(位数位数):每个声音样本的二进制位数每个声音样本的二进制位数(bit per sample,bps)第二章第二章 音频信息处理音频信息处理30第二章第二章 音
24、频信息处理音频信息处理31声音数字化的两个关键问题:声音数字化的两个关键问题:每秒钟需要采集多少个声音样本,即每秒钟需要采集多少个声音样本,即采样频率采样频率多少。多少。每个声音样本的位数每个声音样本的位数(bit per sample,bps)是多少,也是多少,也就是就是量化位数(精度)量化位数(精度)。量化位数量化位数决定了量化等级决定了量化等级M=2n。显然,量化位数越多,则显然,量化位数越多,则量化精度越高即量化后声音信号越接近原始信号,但量化后的量化精度越高即量化后声音信号越接近原始信号,但量化后的数据量也越大。数据量也越大。第二章第二章 音频信息处理音频信息处理32 量化位数每增加
25、一位,信噪比改善量化位数每增加一位,信噪比改善6dB(1)量化位数)量化位数W、最大振幅、最大振幅A、量化跨度、量化跨度q之间的关系:之间的关系:q=A/2w-1(2)当量化跨度远小于信号振幅时:)当量化跨度远小于信号振幅时:q=A/2w(3)量化噪音功率:)量化噪音功率:(4)将信噪比用分贝表示:)将信噪比用分贝表示:SNR(dB)=22202)2(1211212wqAqdxxqE 6)21(log20)22(log1021log1010211010dBEEww第二章第二章 音频信息处理音频信息处理333 3、编码编码按一定格式记录采样和量化后的数字数据按一定格式记录采样和量化后的数字数据
展开阅读全文