《应用汉字识别》课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《应用汉字识别》课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用汉字识别 应用 汉字 识别 课件
- 资源描述:
-
1、应用汉字识别PPT课件1、文字识别问题1 1)汉字识别)汉字识别2 2)汉字)汉字OCROCR技术发展历史技术发展历史3 3)国内主要研究机构)国内主要研究机构1)汉字识别 汉字识别属于文字识别(OCR)的范畴,文字识别是模式识别的重要应用领域。汉字识别技术涉及到模式识别、图像处理、人工智能、模糊数学、组合论、信息论、计算机等多个学科,也涉及到语言文字学、心理学等学科,是一门综合性的技术。汉字识别难度 印刷体识别 最容易最容易 已经有了大量实际应用,图书馆数字化已经有了大量实际应用,图书馆数字化脱机手写体识别最难脱机手写体数字的识别已有实际应用外,比如邮政编码的自动识别汉字等文字的脱机手写体识
2、别还处在实验室阶段 联机手写体识别相对容易,PDA等的推广,大量应用2)汉字OCR技术发展历史 西文OCR技术研究始于50年代 Optical Character Recognition(OCR)几乎所有的早期模式识别研究者都进行过字符识别的几乎所有的早期模式识别研究者都进行过字符识别的研究。随后的研究。随后的 30 30 多年来,字符识别一直是模式识别多年来,字符识别一直是模式识别的重要内容之一的重要内容之一印刷体汉字的识别最早可以追溯到60年代1966年,IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1,000个印刷体汉字2
3、)汉字OCR技术发展历史 70年代以来,日本人做了许多工作 日本的常用汉字有日本的常用汉字有20002000个左右个左右 19771977年东芝综合研究所研制了可以识别年东芝综合研究所研制了可以识别20002000个汉字的个汉字的单体印刷汉字识别系统单体印刷汉字识别系统 8080年代初期,日本武藏野电气研究所研制的可以识别年代初期,日本武藏野电气研究所研制的可以识别2 2300300个多体汉字的印刷体汉字识别系统,代表了当时汉个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平字识别的最高水平 日本的三洋、松下、理光和富士等公司也有其研制的日本的三洋、松下、理光和富士等公司也有其研制的
4、印刷汉字识别系统印刷汉字识别系统 简评 这些系统在方法上,大都采用基于这些系统在方法上,大都采用基于KLKL数字变换的匹配数字变换的匹配方案,使用了大量专用硬件,其设备有的相当于小型方案,使用了大量专用硬件,其设备有的相当于小型机甚至大型机,价格极其昂贵,没有得到广泛应用机甚至大型机,价格极其昂贵,没有得到广泛应用2)汉字OCR技术发展历史 我国自70年代后期开始字符识别方面的研究,80年代以后,台湾和香港发展的也很快 7070年代末期到年代末期到8080年代末期年代末期 算法和方案探索算法和方案探索 :单体汉字识别:单体汉字识别 9090年代初期年代初期 由实验室走向市场,初步实用由实验室走
5、向市场,初步实用 9090年代后期年代后期混排混排 多语言混排文本:如中英文多语言混排文本:如中英文 多字体混排文本:如:宋,楷体,多字体混排文本:如:宋,楷体,)多字号混排文本:不同大小多字号混排文本:不同大小当前进展状态 2000年代后 识别率、鲁棒性的提高识别率、鲁棒性的提高 单纯单纯OCROCR文档分析文档分析 多语混排,多字号,多字体多语混排,多字号,多字体 版面分析版面分析 文本的结构文本的结构 表格,图像(如插图),公式表格,图像(如插图),公式 摄像设备(非扫描仪)摄像设备(非扫描仪)名片名片手机摄像手机摄像通讯录通讯录3)国内主要研究机构 汉王科技 中科院自动化所中科院自动化
6、所 19851985年刘迎建开发出国内第一个联机手写汉字识别系统,并获国家发明专利年刘迎建开发出国内第一个联机手写汉字识别系统,并获国家发明专利。19931993年初,在中科院自动化研究所的支持下创办了中国汉王科技公司,出年初,在中科院自动化研究所的支持下创办了中国汉王科技公司,出任总经理任总经理 中科院计算所智能计算机研究中心中科院计算所智能计算机研究中心国内主要研究机构/人物 其他 清华大学电子系图像所清华大学电子系图像所 丁晓青教授丁晓青教授 北京信息工程学院北京信息工程学院 沈阳自动化研究所沈阳自动化研究所 2、汉字识别系统1 1)系统构成)系统构成2 2)OCROCR技术流程技术流程
7、3 3)预处理)预处理-归一化归一化1)系统构成信号采集方式 脱机识别 扫描仪或者摄像设备扫描仪或者摄像设备 数字图像信号数字图像信号 联机手写识别 手写屏,手写输入板手写屏,手写输入板 运动轨迹电信号,记录了笔划和笔顺信息运动轨迹电信号,记录了笔划和笔顺信息 电磁式或压电式,在书写时,笔在板上的运动轨迹(在板上的坐标)被转化电磁式或压电式,在书写时,笔在板上的运动轨迹(在板上的坐标)被转化为一系列的电信号,电信号可以串行地进入到计算机中,从这些电信号我们为一系列的电信号,电信号可以串行地进入到计算机中,从这些电信号我们可以比较容易地抽取笔划和笔顺的信息可以比较容易地抽取笔划和笔顺的信息.2)
8、OCR技术一般流程流程简介 1)图像获取 将文本转换为图象点阵将文本转换为图象点阵 扫描仪扫描仪 (Scanner)(Scanner)其它光电扫描设备其它光电扫描设备 如传真机,摄象机如传真机,摄象机 不同获取设备的差异不同获取设备的差异 扫描仪:最优扫描仪:最优 摄像机:识别难度大摄像机:识别难度大流程简介 2)图像预处理 滤除干扰噪声滤除干扰噪声 倾斜校正倾斜校正 各种滤波处理各种滤波处理 3)版面分析 完成对于文本图象的总体分析完成对于文本图象的总体分析 区分出文本段落及排版顺序,图象、表格的区域区分出文本段落及排版顺序,图象、表格的区域 对于文本区域将进行识别处理对于文本区域将进行识别
9、处理 对于表格区域进行专用的表格分析及识别处理对于表格区域进行专用的表格分析及识别处理 对于图象区域进行压缩或简单存储。对于图象区域进行压缩或简单存储。流程简介 4)行字切分 将大幅的图象先切割为行将大幅的图象先切割为行 从图象行中分离出单个字符从图象行中分离出单个字符 5)特征提取模式表示问题 整个环节中最重要的一环,提取的特征的稳定性及有整个环节中最重要的一环,提取的特征的稳定性及有效性,直接决定了识别的性能效性,直接决定了识别的性能 从单个字符图象上提取统计特征或结构特征从单个字符图象上提取统计特征或结构特征 包括细化包括细化(Thinning)(Thinning),归一化,归一化(大小
10、等大小等)等步骤等步骤流程简介 6)文字识别 模式识别研究范畴模式识别研究范畴 从学习得到的特征库中找到与待识字符相似度最高的从学习得到的特征库中找到与待识字符相似度最高的字符类字符类 7)后处理 利用词义、词频、语法规则或语料库等语言先验知识利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程对识别结果进行校正的过程3)归一化为了消除汉字点阵位置上的偏差,需要把整个汉字点阵图形移动到规定的位置上,这个过程被称做位置归一化。3)归一化(,)(,),BRk i jc i jc i ji A j L,BRIi A j LGik i j,BRJi A j LGjk i j下面计算水
11、平和垂直方向的散度I 和 J :2(,)2IRBIj Li Ak i j i G(,)(,),BRk i jc i jc i ji A j L2(,)J2RBJj Li Ak i jj G3、汉字的结构特性分析周边特征分析周边特征分析游程统计特征及分析游程统计特征及分析笔划特征及分析笔划特征及分析字根统计特征及分析字根统计特征及分析汉字的图像点阵0(,)(,)1i jf i j处为黑色否则周边特征分析(,)(,)1,1,2,.,1,(,)0LP n lP f n iilf n l(,)(,1)1,1,2,.,1,(,1)0RP n lP f n niilf n nl (,)(,)1,1,2,.
展开阅读全文