第5章-数字媒体及应用(江苏专转本计算机)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第5章-数字媒体及应用(江苏专转本计算机)课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字 媒体 应用 江苏 计算机 课件
- 资源描述:
-
1、第5章 数字媒体及应用5.1 5.1 文本与文本处理文本与文本处理5.2 5.2 图像与图形图像与图形5.3 5.3 数字声音及应用数字声音及应用5.4 5.4 数字视频及应用数字视频及应用5.1 文本与文本处理 文字文字:是一种书面语言,它由一系列字符是一种书面语言,它由一系列字符(character)的书写符号构成。的书写符号构成。文本文本(text):):文字信息在计算机中的表文字信息在计算机中的表示形式示形式,是基于特定字符集的、具有上下,是基于特定字符集的、具有上下文相关性的一个字符流,是计算机中最常文相关性的一个字符流,是计算机中最常用的一种数字媒体。用的一种数字媒体。组成文本的基
2、本元素组成文本的基本元素是字符,字符在计算机中采用二进制编码是字符,字符在计算机中采用二进制编码表示。表示。文本在计算机中的处理文本在计算机中的处理 文本在计算机中的处理过程:文本在计算机中的处理过程:文本准备(例如汉字的输文本准备(例如汉字的输入)入) 、文本编辑、文本处理、文本存储与传输、文本展现等、文本编辑、文本处理、文本存储与传输、文本展现等,根据应用场合的不同,各个处理环节的内容和要求可能有很根据应用场合的不同,各个处理环节的内容和要求可能有很大的差别。大的差别。文本存储文本存储与传输与传输(阅读器)(阅读器)文本处理文本处理(文本处理软件)(文本处理软件)文本准备文本准备电子文本电
3、子文本文本编辑文本编辑(编辑器)(编辑器)格式化的格式化的电子文本电子文本文本展现文本展现5.1 文本与文本处理 文本信息的输入方法:文本信息的输入方法:(P130第第13题题)人工输入人工输入:通过键盘、手写笔或语音输入方式输入字符:通过键盘、手写笔或语音输入方式输入字符特点:速度慢、成本高,不适合需处理大批量文字的特点:速度慢、成本高,不适合需处理大批量文字的应用应用自动输入自动输入:将纸介质上的文本通过识别技术自动转换为:将纸介质上的文本通过识别技术自动转换为文字的编码文字的编码特点:速度快,效率高特点:速度快,效率高文字的自动识别分为:印刷体识别和手写体识别文字的自动识别分为:印刷体识
4、别和手写体识别5.1.1 文本准备文本信息的输入方法文本信息的输入文本信息的输入人工输入人工输入自动识别输入自动识别输入键盘输入键盘输入联机手写输入联机手写输入语音输入语音输入印刷体识别印刷体识别手写体识别手写体识别 汉字输入编码方法的分类汉字输入编码方法的分类 数字编码数字编码:使用一串数字来表示汉字的编码方法,例如:使用一串数字来表示汉字的编码方法,例如区位区位码码等等 缺点:缺点: 难以记忆,不易推广难以记忆,不易推广 字音编码字音编码:一种基于汉语拼音的编码方法,简单易学,适合:一种基于汉语拼音的编码方法,简单易学,适合于非专业人员于非专业人员 缺点:同音字引起的重码多,需增加选择操作
5、缺点:同音字引起的重码多,需增加选择操作 字形编码字形编码:将汉字的字形分解归类而给出的编码方法,重码:将汉字的字形分解归类而给出的编码方法,重码少、输入速度较快,如五笔字形法和表形码等少、输入速度较快,如五笔字形法和表形码等 缺点:编码规则不易掌握缺点:编码规则不易掌握 形音编码形音编码:吸取了字音编码和字形编码的优点,使编码规则:吸取了字音编码和字形编码的优点,使编码规则适当简化、重码减少适当简化、重码减少 缺点:不易掌握缺点:不易掌握1.汉字键盘输入 以平常书写的习惯,把要输入的汉字写在一块叫书写板的以平常书写的习惯,把要输入的汉字写在一块叫书写板的设备上,书写板将笔尖的运动(包括抬笔、
6、落笔、笔段轨设备上,书写板将笔尖的运动(包括抬笔、落笔、笔段轨迹以及各笔段之间的时间关系等)按时间采样后发送到计迹以及各笔段之间的时间关系等)按时间采样后发送到计算机中,由计算机软件自动进行识别,然后用该汉字(或算机中,由计算机软件自动进行识别,然后用该汉字(或符号)对应的代码进行保存。符号)对应的代码进行保存。汉王笔汉王笔 正识率正识率 95 95 90 90,速度,速度 12 12字字/ /秒秒中科院自动化所,华旗资讯科技发展有限公司(爱国者)中科院自动化所,华旗资讯科技发展有限公司(爱国者)2.联机手写汉字识别(笔输入)使用语音输入文本的系统也叫做使用语音输入文本的系统也叫做“听写机听写
7、机”或或“语音打字机语音打字机”按照不同的应用及要求,语音识别的功能区别:按照不同的应用及要求,语音识别的功能区别: 孤立语音孤立语音/连续语音识别连续语音识别 小词汇量小词汇量/大词汇量语音识别大词汇量语音识别 特定人特定人/非特定人语音识别非特定人语音识别最高目标:非特定人大词汇量的连续语音识别技最高目标:非特定人大词汇量的连续语音识别技术术3.汉语语音识别印刷体印刷体汉字识别:汉字识别:将传统纸介质上的文字信息自动输入将传统纸介质上的文字信息自动输入计算机并转换为数字文本形式的一种技术,也叫做汉字计算机并转换为数字文本形式的一种技术,也叫做汉字OCR(Optical Character
8、Recognition)。)。(P130第第2题题)印刷体文字识别的过程印刷体文字识别的过程4.印刷体汉字识别(汉字OCR)5.1.2 字符的编码 字符是组成文本的基本元素,字符在计算机中采字符是组成文本的基本元素,字符在计算机中采用二进制编码表示用二进制编码表示。 1. 西文字符的编码西文字符的编码字符集字符集:常用字符的集合。:常用字符的集合。西文字符集西文字符集:由拉丁字母、数字、标点符号及一:由拉丁字母、数字、标点符号及一些特殊符号组成。些特殊符号组成。字符的编码字符的编码:字符集中每一个字符各有一个代码,:字符集中每一个字符各有一个代码,即字符的二进制位表示即字符的二进制位表示, ,
9、称为该字符的编码。称为该字符的编码。美国标准信息交换码美国标准信息交换码(American Standard Code for Information Interchange):使用使用7个个二进位对字符进行编码二进位对字符进行编码(叫做标准(叫做标准ASCII码),称为码),称为ISO-646标准。标准。基本的基本的ASCII字符集共有字符集共有128个字符个字符(P125 例例1、P127第第1题题)96个可打印字符(常用字母、数字、标点符号等)个可打印字符(常用字母、数字、标点符号等)32个控制字符个控制字符特殊字符的特殊字符的ASCII码码空格(空格(32)A(65)a(97)0(48
10、)(P128第第17、19题题)ASCII码0 1 2 3 4 5 6 7 8 90 1 2 3 4 5 6 7 8 9 A B C D E FA B C D E F控制字符控制字符01234567b b3 3b b2 2b b1 1b b0 0 b b6 6b b5 5b b4 4标准标准ASCII码是七位的编码,但字节是计算机中最基本的处理单位,码是七位的编码,但字节是计算机中最基本的处理单位,故以一个字节来存放一个故以一个字节来存放一个ASCII字符。字符。每个字节中多出来的一位一般每个字节中多出来的一位一般保持为保持为“0”。扩充扩充ASCII字符集:标准字符集:标准ASCII字符集只
11、有字符集只有128个不同的字符,在很多个不同的字符,在很多应用中无法满足要求。应用中无法满足要求。ISO陆续制定了一批适用于不同地区的扩充陆续制定了一批适用于不同地区的扩充ASCII字符集,每个扩充字符集,每个扩充ASCII字符集分别可以扩充字符集分别可以扩充128个字符,这些个字符,这些扩充字符的编码均是扩充字符的编码均是高位为高位为1的八位代码的八位代码(十进制数十进制数128255),称为,称为扩扩展展ASCII码码。扩充ASCII字符集(1)GB2312-80汉字编码汉字编码信息交换用汉字编码字符集信息交换用汉字编码字符集基本集基本集(GB2312-80)组成:组成:第一部分:字母、数
12、字和各种符号第一部分:字母、数字和各种符号,包括拉丁字母、俄,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共文、日文平假名与片假名、希腊字母、汉语拼音等共682个个(统称为(统称为GB2312图形符号)图形符号)第二部分:一级常用汉字,共第二部分:一级常用汉字,共3755个,按汉语拼音排列个,按汉语拼音排列第三部分:二级常用字,共第三部分:二级常用字,共3008个,按偏旁部首排列个,按偏旁部首排列2.汉字的编码(1)GB2312-80汉字编码汉字编码 区位码区位码:GB2312国标字符集构成一个二维平面,它分成国标字符集构成一个二维平面,它分成94行、行、94列,行号称为区号,
13、列号称为位号列,行号称为区号,列号称为位号。每一个汉字。每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的或符号在码表中都有各自的位置,字符的位置用它所在的区号区号(行号行号)及位号及位号(列号列号)来表示来表示。每个汉字的区号和位号每个汉字的区号和位号分别用分别用1个字节来表示个字节来表示,如:如:“大大”字的区号字的区号20,位号,位号83,区位码是,区位码是20 83用用2个字节表示为:个字节表示为:00010100 01010011(即十六进制即十六进制1453H)2.汉字的编码 GB2312-80汉字编码汉字编码一级汉字一级汉字(3755个)个)二级汉字二级汉字(3008个
14、)个)(扩充使用)(扩充使用)位号:位号: 19423字母、数字和各种符号字母、数字和各种符号 区号:区号:1916555687942.汉字的编码(1)GB2312-80汉字编码汉字编码国标交换码国标交换码: 为了避免汉字区位码与通信控制码的冲突,为了避免汉字区位码与通信控制码的冲突,ISO2022规定,规定,每个汉字的区号和位号必须分别加上每个汉字的区号和位号必须分别加上32(即二进制(即二进制0010 0000,十六进制十六进制20H),经过这样处理得到的代码称为汉),经过这样处理得到的代码称为汉字的字的“国标交换码国标交换码”(简称(简称交换码交换码)。)。因此,因此,“大大”字的交换码
15、是字的交换码是: 00110100 01110011。2.汉字的编码(1)GB2312-80汉字编码汉字编码机内码机内码:问题:文本中的汉字与西文字符经常是混合在一问题:文本中的汉字与西文字符经常是混合在一起使用的,汉字信息如不予以特别的标识,起使用的,汉字信息如不予以特别的标识,将汉将汉字的区号和位号必须分别加上字的区号和位号必须分别加上160(即二进制即二进制1010 0000,十六进制十六进制A0H),就可以得到该汉字的,就可以得到该汉字的“机机内码内码”,又称内码。,又称内码。如:如:“大大”字的内码是:字的内码是:10110100 11110011(B4F3)2.汉字的编码综上所述,
16、可以总结如下公式:综上所述,可以总结如下公式:(P127页第页第2题题) 国标码国标码=区位码区位码+2020H 机内码机内码=区位码区位码+A0A0H(2)GBK汉字内码扩充规范汉字内码扩充规范问题:问题:GB2312-80只有只有6763个汉字,使用时功能不够个汉字,使用时功能不够。解决方法:解决方法:1995年年发布发布GBK,全称为汉字内码扩展规全称为汉字内码扩展规范,它与范,它与GB2312国标汉字字符集及其内码保持兼容。国标汉字字符集及其内码保持兼容。 GBK/1:GB2312中的符号;中的符号;GBK/2:GB2312中的全部汉字;中的全部汉字; GBK/4和和GBK/3:包括繁
17、体字在内的大量汉字;包括繁体字在内的大量汉字;GBK/5:符号。符号。 例如:計機係等例如:計機係等繁体汉字繁体汉字和冃冄円冇鎔等和冃冄円冇鎔等生僻的汉字生僻的汉字。 2.汉字的编码(2)GBK汉字内码扩充规范汉字内码扩充规范(P129第第23题题)组成:组成:21003个汉字,个汉字,883个图形符号个图形符号GBK的编码是用的编码是用2字节编码表示,第字节编码表示,第1字节字节的最高位为的最高位为”1”,第,第2字节的最高位不一定字节的最高位不一定是是”1”,与,与GB2312-80保持兼容保持兼容。2.汉字的编码(3)UCS/Unicode与与GB18030汉字编码标准汉字编码标准 (a
18、)通用编码字符集通用编码字符集UCS/UnicodeUCS/Unicode用用4个字节个字节对全世界现代书面文对全世界现代书面文字所使用的所有字符、符号进行编码(记作字所使用的所有字符、符号进行编码(记作 UCS-4)优点是编码空间大,能容纳足够多的各种字优点是编码空间大,能容纳足够多的各种字符集符集(13亿字符亿字符);缺点是;缺点是4字节的字符编码使字节的字符编码使存储空间浪费严重。存储空间浪费严重。2.汉字的编码(3)UCS/Unicode与与GB18030汉字编码标准汉字编码标准 (b)GB18030-2000编码编码(P125页例页例2) GB18030-2000汉字编码标准时为了既
19、兼容汉字编码标准时为了既兼容GB2312和和GBK,又尽快向,又尽快向UCS/Unicode编码标准编码标准过度,而在过度,而在2000年颁布的汉字编码国家标准。该年颁布的汉字编码国家标准。该标准在标准在GB-2312和和GBK的基础上进行扩充,增加了的基础上进行扩充,增加了4字节编码,收录的汉字达到字节编码,收录的汉字达到27000个。个。2.汉字的编码 文本是计算机表示文字及符号信息的最常用也是最基本的文本是计算机表示文字及符号信息的最常用也是最基本的一种数字媒体。由于文字和符号采用了二进制编码表示,一种数字媒体。由于文字和符号采用了二进制编码表示,因而可以方便地进行编辑、排版和各种分析处
20、理(如统计、因而可以方便地进行编辑、排版和各种分析处理(如统计、排序、分类、索引、检索等)。排序、分类、索引、检索等)。使用计算机制作的数字文本,根据用途分为:使用计算机制作的数字文本,根据用途分为:简单简单文本、丰富格式文本和超文本三类文本、丰富格式文本和超文本三类。(P130(P130第第1111题题) ) 5.1.3 文本的分类与表示 简单文本(简单文本(plain text):):是由一连串用于表达正文内容的是由一连串用于表达正文内容的的字符(包括汉字)所组成的,的字符(包括汉字)所组成的,它几乎不包含任何其他格它几乎不包含任何其他格式信息和结构信息式信息和结构信息。这种文本通常称为。
21、这种文本通常称为纯文本或纯文本或ASCII文本,文本,其文件后缀名是其文件后缀名是.txt。 特性:呈现为一种特性:呈现为一种线性线性结构,写作与阅读均按顺序进行。结构,写作与阅读均按顺序进行。文件体积小,通用性好,几乎所有的文字处理软件都能识文件体积小,通用性好,几乎所有的文字处理软件都能识别和处理,但不能插入图片、表格等,也不能建立超链接别和处理,但不能插入图片、表格等,也不能建立超链接。1.简单文本(纯文本) 文件内容有字符的编码、数字图像、数字声音、文件内容有字符的编码、数字图像、数字声音、数字视频信息、标记信息。数字视频信息、标记信息。(P130第第14题题) 例如例如RTF文件、文
22、件、DOC文件、文件、PDF文件、文件、HTML文件文件。 RTF是为便于不同的丰富格式文本能在不同的软是为便于不同的丰富格式文本能在不同的软件和系统中互相交换使用而提出的一种件和系统中互相交换使用而提出的一种中间格式中间格式标记语言标记语言。(P127第第3题题)2.丰富格式文本 超文本也称为超文本也称为非线性文本非线性文本(P128第第12题、题、P131第第16题题) 超文本超文本(hypertext)的阅读方式的阅读方式 传统的顺序式阅读传统的顺序式阅读 通过链接、跳转、导航、回溯等操作实现跳跃式通过链接、跳转、导航、回溯等操作实现跳跃式阅读阅读 超文本的结构:采用超文本的结构:采用网
23、状网状结构来组织信息,各信息块结构来组织信息,各信息块按照其内容的关系互相链接按照其内容的关系互相链接 例如,例如,Windows中的中的”帮助帮助”文件或者使用浏览器从文件或者使用浏览器从Web服务器上下载的网页服务器上下载的网页(html或或htm文件文件)。3.超文本超文本ABCDEFGH超文本结构超文本结构(1)面向通信的文本处理软件面向通信的文本处理软件(P128第第16题题)计算机网络上最普及的应用是用电子邮件进行通信。大多计算机网络上最普及的应用是用电子邮件进行通信。大多数情况下电子邮件正文的内容一般都是简单文本,因此电数情况下电子邮件正文的内容一般都是简单文本,因此电子邮件内嵌
24、的文本编辑器功能比较简单,操作使用方便。子邮件内嵌的文本编辑器功能比较简单,操作使用方便。 典型软件:微软公司的典型软件:微软公司的Outlook Express,具有文字的增、,具有文字的增、删、改以及字体、字号的设置功能,也可以设定一些简单删、改以及字体、字号的设置功能,也可以设定一些简单的格式和插入一些图片。当然邮件所带的附件并不受此限的格式和插入一些图片。当然邮件所带的附件并不受此限制。在互联网上进行聊天所使用的文本处理软件更加简单。制。在互联网上进行聊天所使用的文本处理软件更加简单。3.常用文本处理软件(2)面向办公的文本处理软件面向办公的文本处理软件功能要求:功能要求: 文本制作的
25、高效率、高质量文本制作的高效率、高质量 软件面向非专业用户,易学好用软件面向非专业用户,易学好用 文本处理能力,既功能丰富,又操作简单文本处理能力,既功能丰富,又操作简单 排版功能排版功能典型软件:典型软件: MS-Office WPS20003.常用文本处理软件(3)面向出版的文本处理软件面向出版的文本处理软件 排版软件的主要功能:将文字、图形和图像等合理地安排排版软件的主要功能:将文字、图形和图像等合理地安排在页面内在页面内 .ps文件:排版软件的输出的一种使用页面描述语言(例如文件:排版软件的输出的一种使用页面描述语言(例如PostScript)描述的文件,该文件记录了每一个页面的排版描
展开阅读全文