1、3.1 3.1 数据编码数据编码教师:教师:了解各类数据采集的基本方法了解各类数据采集的基本方法能够解释文本、音频等数据的编码原理能够解释文本、音频等数据的编码原理理解数据编码的意义和作用理解数据编码的意义和作用1 13 32 2学习目标学习目标智能公交系统是智慧城市的重要组成部分,它的应用提高了城市公交的运营效率,方便了人们的出行。市民在办理市民卡时,一般要到指定地点办理录入信息、拍摄照片等手续。想一想,在办理市民卡的流程中,管理系统都收集了哪些数据?生活中还有哪些数据可以采集以及如何采集?表现形式表现形式实例实例采集该数据的设备采集该数据的设备文本姓名、键盘、数字年龄、图像声音讲话的声音、
2、视频监控视频摄像机、想一想,在办理市民卡的流程中,管理系统都收集了哪些数据?生活中还有哪些数据可以采集以及如何采集?表现形式表现形式实例实例采集该数据的设备采集该数据的设备文本姓名、家庭住址、性别、手机号键盘、手写输入、语言输入数字年龄、身高、体重、身份证号键盘、手写输入、数字化采集仪图像照片手机、相机、扫描仪声音讲话的声音、音乐、其他声音手机、录音机、录音笔视频监控视频、电影摄像机、手机、摄像头想一想,在办理市民卡的流程中,管理系统都收集了哪些数据?生活中还有哪些数据可以采集以及如何采集?这些数据计算机能直接处理吗?这些数据计算机能直接处理吗?编码就是信息从一种形式或格式转换成另一种形式或格
3、编码就是信息从一种形式或格式转换成另一种形式或格式的过程。式的过程。指用预先规定的方法将文字、数字或其他对象编成可以指用预先规定的方法将文字、数字或其他对象编成可以存储在计算机里的数值。存储在计算机里的数值。编码编码模拟信号与数字信号模拟信号与数字信号模拟信号模拟信号一般用传感器直接获得,如声音、温度、压强等。模拟信号的值随时间而连续变化,波形光滑数字信号数字信号一般随时间而产生非连续的变化。数字信号可以由模拟信号转化而来,数字信号的值即数字数据,可直接用计算机所能理解的二进制表示,方便计算机对其处理。模拟信号:连续变化,温度可以自己估读出来,可以是区间里的任何一个数字数字信号:离散,不连续,
4、只能是固定的数字音频编码音频编码将模拟声音数据转换为数字数据的这一个过程,称为声音的数字化。01采样采样02量化量化03编码编码对模拟声音信号按给定的时间间隔进行采样对采样数据进行量化将量化后的数据用二进制数值表示声音数字化声音数字化时间时间1s2s3s4s5s1 12 23 34 45 5振振幅幅 采样:以相等的采样:以相等的时间间隔测时间间隔测得声音得声音模拟信号的值。模拟信号的值。采样点越多还是越少采样点越多还是越少质量更好?质量更好?时间时间1s2s3s4s5s12341056789振振幅幅每秒采集每秒采集2 2次次每秒采集每秒采集1 1次次 采样频率越高声音还原度越好;采样频率越高声
5、音还原度越好;但记录数据越多,但记录数据越多,存储容量存储容量越高。越高。时间时间1s2s3s4s5s2145135752 量化:将采样点的值量化:将采样点的值分级量化分级量化,变换到最接近的数字。变换到最接近的数字。振振幅幅 用有限个数近似表示原来连续变用有限个数近似表示原来连续变化的值。化的值。01234567量量化化值值2.12分级越多还是越少分级越多还是越少质量会更好?质量会更好?1s2s3s4s5s2145135752量量化化值值012345671214时间时间1s2s3s4s5s52910271115115024681195311013157量量化化值值3 3位位二进制二进制4 4
6、位位二进制二进制101155样本序号样本序号1 12 23 34 45 5量化值(十进制)529107二进制编码01010010100110100111样本序号678910量化值(十进制)11151152二进制编码10111111101101010010 编码:确立编码规则,优化数据排列。编码:确立编码规则,优化数据排列。未压缩、无损压缩与有损压缩未压缩、无损压缩与有损压缩010100101001WAV无压缩:声音质量高无压缩:声音质量高所占存储容量较大所占存储容量较大A A A E E E E E E E E E E优化数据优化数据排列方式排列方式A 0 3 E 1 0APE无损无损压缩:还
7、原压缩数据后压缩:还原压缩数据后 与压缩前相同与压缩前相同有损压缩:损失信息,提高压缩有损压缩:损失信息,提高压缩 比例,减少存储容量比例,减少存储容量MP3AMR热身小游戏热身小游戏我会读心术,你信吗?我会读心术,你信吗?二进制转换为十进制(对应数字与权值相乘):10011(2)=19(10)10011=1*20+1*21+0*22+0*23+1*24=19从右往左进行运算!十进制转换为二进制(除二取余法):19(10)=10011(2)199421022222余 数11001从低往高进行读取!二进制与十进制相互转换二进制与十进制相互转换100(2)=_(10)25(10)=_(2)1001
8、(2)=_(10)14(10)=_(2)4 411001110019 911101110练一练练一练ordord:字符字符编码编码chr:chr:编码编码字符字符必须在必须在二进制数之前加二进制数之前加“0b0b”,表,表示一个二进制数值示一个二进制数值binbin:十进制十进制 二进制二进制 查看数据编码查看数据编码例如:例如:2222第一位:不在第一位:不在 0 0第二位:第二位:在在 1 1第三位:第三位:在在 1 1第四位:第四位:不在不在 0 0第五位:第五位:在在 1 1第六位:第六位:不在不在 0 0第七位:第七位:不在不在 0 0转化为十进制:转化为十进制:2 21 1+2+2
9、2 2+2+24 4=22=22二进制:二进制:00101100010110文本数据包括字母、数字、标点符号、汉字等ASCII码和Unicode码是最经典的两种编码方案文本数据的编码通过对其中每一个字符进行编码实现字符编码字符编码 美国信息交换标准美国信息交换标准代码代码 (American American Standard Code for Information Standard Code for Information InterchangeInterchange)字符集:字符集:大小写字母、数字、常大小写字母、数字、常用符号等用符号等128128个个字符字符ASCIIASCII码(十
10、进制)码(十进制)字符字符031控制字符或通信专用字符(不可见)32空格4857数字096590大写英文字母AZ97122小写英文字母az其他英文标点符号、运算符号、括号等Unicode码:在原来的ASCII码前加上8个0,如大写字母X的ASCII码是88(十进制),二进制就为_,所以Unicode码为_。10110000000000111001 Unicode码为了解决传统字符编码方案的局限性而产生。Unicode码字符集是全球可以共享的编码字符集,涵盖了世界上主要的文字符号,其中包括简繁体汉字,共74686汉字。信息交换用汉字编码字符集信息交换用汉字编码字符集基本集基本集收录收录67636
11、763个汉字个汉字,一级汉字,一级汉字37553755个,二级汉字个,二级汉字30083008个个包括包括拉丁字母、希腊字母等拉丁字母、希腊字母等在内的在内的682682个字符个字符字符字符编码:编码:兼容兼容ASCIIASCII编码编码;1 1个字个字节表示节表示ASCIIASCII规定的英文字符规定的英文字符,采用,采用2 2个字节表示个字节表示1 1个个汉字汉字以及其他字符。以及其他字符。GB2312-1980GB2312-1980兼容兼容CB233121980CB233121980标准,收入标准,收入汉字汉字2100321003个汉字,个汉字,883883个符号,个符号,共计共计2188621886个字符个字符GBKGBK汉字内码扩展规范汉字内码扩展规范包含包含GBKGBK字符集和字符集和CJKCJK统一汉字扩充统一汉字扩充A A的汉字,的汉字,共计共计2753327533个汉字个汉字GB2312-1980GBKGB18030-2000在在GB180302000GB180302000的基础的基础上,增加了上,增加了CJKCJK统一汉字统一汉字扩充扩充B B的汉字及其他汉字,的汉字及其他汉字,共计共计7024470244个汉字。个汉字。GB2312-1980GBKGB18030-2000GB18030-2005小结小结好好学习好好学习 天天向上天天向上