中文信息处理-概述课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《中文信息处理-概述课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文信息处理 概述 课件
- 资源描述:
-
1、第六章第六章 中文信息处理中文信息处理概概 述述1谢谢欣赏2019-8-29一、中文信息处理一、中文信息处理 计算机科学技术百科全书(清华大学出版社,1998)中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。中文信息处理分为汉字信息处理与汉语信息处理两部分 中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。2谢谢欣赏2019-8-29参考文献参考文献 中文信息处理技术原理与应用,李宝安等,清华大学
2、出版社,2005年7月第1版 中文信息处理技术教程,朱巧明,清华大学出版社,2005年版 计算语言学概论,俞士汶主编,商务印书馆,2003年9月第1版 计算语言学,刘颖,清华大学出版社,2002年版 中国语言文字网 3谢谢欣赏2019-8-294谢谢欣赏2019-8-29中文信息处理中文信息处理 中文信息处理分为汉字信息处理与汉语信息处理两部分 信息的两个层次:符号层 中文/汉语/汉字内容层 符号所承载的意义 中文信息处理的两个层次:字符处理(输入、存储、输出等)内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译等等)5谢谢欣赏2019-8-29符号层的信息处理符号层的信息处理 拼音
3、文字:小字符集 比较容易 非拼音文字:大字符集 难度很大汉字是一个大字符集 说文解字(东汉):9353字 玉篇(南朝)收录16,917字 广韵(宋代)收字26,194字 字汇(明朝)收录33,197字 康熙字典(清朝)收录47,043字 汉语大字典(1992年)5.6万 中华字海(1994年)8.6万 拉丁字母只有26个符号 斯拉夫字母只有33个符号 阿尔明尼亚字母只有38个符号 泰米尔字母只有36个符号 缅甸字母只有52个符号 泰文字母只有44个符号 老挝字母只有27个符号 藏文字母只有35个符号 韩文字母只有24个符号 日文假名只有48个符号6谢谢欣赏2019-8-29符号层的信息处理符号
4、层的信息处理汉字输入汉字输入自动输入自动输入键盘输入键盘输入字形识别字形识别声音识别声音识别手写体识别手写体识别印刷体识别印刷体识别在线手写在线手写脱机手写脱机手写整字键盘整字键盘通用键盘通用键盘主辅式主辅式感应式感应式形码形码音码音码形音结合码形音结合码1234567897谢谢欣赏2019-8-29内容层的信息处理内容层的信息处理原文原文输入译前编辑词法分析句法分析语义分析语境分析内部表示转换译词选择译后编辑译文输出词形变化句子生成译文123456789101112需要语言知识!8谢谢欣赏2019-8-29中文信息处理的现状和发展趋势中文信息处理的现状和发展趋势 现状符号层的处理成果已经得到
5、广泛应用;中文输入/字库/字处理软件/排版/内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索9谢谢欣赏2019-8-29二、文字信息处理的二、文字信息处理的基本问题基本问题 文字信息的计算机处理过程要用计算机来处理文字,必须解决如何把文字输入计算机并在计算机中存储起来,进行适当处理之后再输出文字等问题。10谢谢欣赏2019-8-29二、文字信息处理的二、文字信息处理的基本问题基本问题 文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码代表一个字母或文字。在英文信息中,以26个字母作为文字信息处理的单位,因此要对26个字母逐个地确定代替它的
6、数码。汉字一般是以一个整字作为文字信息处理的单位,因此要对每一个整字惟一地确定代表它的数码。这一数码统称为代码(code)在计算机内部处理文字信息时,就像处理数据一样对待。处理完毕后,再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能,使文字信息处理也能够分享计算机技术的这一独特优点,从而实现文字信息处理的高效化。11谢谢欣赏2019-8-29二、文字信息处理的二、文字信息处理的基本问题基本问题 英文字符的编码标准是ASCII码,即美国信息交换标准代码。这是七位的二进制代码,它是美国国家标准学会(ANSI)为计算机的信息交换提出的标准,后来由国际标准组织(ISO)确定为国际
7、标准字符编码。为了和国际标准兼容,我国根据它制定了英文字符编码国家标准,即GB1988。其中除了将货币符号置换为人民币符号外,其他都与ASCII码相同。12谢谢欣赏2019-8-29计算机的键盘原本就是为英文输入设计的,只要按照字母击键,就可以输入英文。键盘的译码电路按照所击的键产生英文字符的ASCII码,输入到计算机的内存中。经过编辑的文本仍然以ASCII码表示。输出时,这些代码必须转换成字符字形的点阵,以便显示或打印。因此,计算机必须存储每个英文字符、数码以及标点符号的点阵信息。这些点阵信息构成了所谓“字模库”。字模库的点阵以有点或无点来表示文字和符号。汉字信息的计算机处理过程与英文信息处
8、理过程是类似的。不过,由于汉字信息的特点,以及要考虑与英文信息处理系统兼容等问题,处理的难度更大。我国经过多年的研究,汉字处理的基本问题已经解决。汉字信息处理的基本问题汉字信息处理的基本问题13谢谢欣赏2019-8-29三、中文信息处理主要研究对象三、中文信息处理主要研究对象 基础研究:汉字字频统计、词频统计、汉语自动分词、句法属性研究、汉字编码字符集、通用汉字样本库、汉字属性字典、语料库等 输入技术:中文输入法、中文手写输入、中文语音输入、光学字符识别等。输出技术:汉字字模技术(字体库)、汉字激光照排、汉语语音合成、动态组字等。外字处理:动态组字、造字、电子书等。存储技术:汉字库标准中文、字
9、符编码等。转换技术:繁简转换等 14谢谢欣赏2019-8-29三、中文信息处理主要研究对象三、中文信息处理主要研究对象 信息处理:中文情报检索、中文文本校对、机器翻译、自然语言理解、中文人机界面、语义网、电子字典、电脑辅助翻译等 中文化:软件的国际化(internationalization)和本土化(localization)。中文编程:目前有两种发展,一种是英文coding直接翻译,以降低开发人员的语言学习成本;一种是根据中文特点,发展出融合中国人思维模式的新的计算机语言。15谢谢欣赏2019-8-29为了用0、1代码串表示汉字,在汉字系统或通信系统之间交换信息,必须给每个汉字规定一个统一
10、的代码。这就是汉字的交换码。1981年5月,我国国家标准总局颁布信息交换用汉字编码字符集(GB 2312-80),作为汉字交换码编码的国家标准,简称国家标准汉字编码,或国标码。收进该标准的字符共有7 445个。其中一级汉字3 755个,二级汉字3 008个,共计6 763个。一、二级汉字约占近代文献汉字累计使用频度的99.99%。为便于查找,一级汉字按汉语拼音顺序排列;二级汉字一般不易熟记它们的发音,故按部首和笔画排列。另外还包括常用符号、序号、GB 1988图形字符集、日文假名、希腊字母、俄文字母、汉语拼音、注音字符、制表符号等。四、汉字编码标准16谢谢欣赏2019-8-29累计使用频度不足
展开阅读全文