图象理解理论和系统课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《图象理解理论和系统课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 图象 理解 理论 系统 课件
- 资源描述:
-
1、章毓晋清华大学电子工程系 100084 北京图象工程(下)第2页第11讲章毓晋(TH-EE-IE)第第1212章章图象理解理论和系统图象理解理论和系统 12.1从感知到理解 12.2图象理解理论框架 12.3图象理解系统模型12.6讨论和展望 第3页第11讲章毓晋(TH-EE-IE)12.1从感知到理解从感知到理解 1.感知理解的研究方法感知理解的研究方法(1)分析方法分析方法从分析视觉刺激开始得到了对大脑结构研究结果的支持已发现存在完成基本功能的特殊细胞,例如感知边缘、线条、运动方向等的细胞建立在不变假设上。对一个给定的视网膜投影模式,可以认为有无穷个可能的场景会导致该模式的产生。不变假设认
2、为,在这么多个可能的场景中,观察者总会选择一个且只选择一个 第4页第11讲章毓晋(TH-EE-IE)12.1从感知到理解从感知到理解 1.感知理解的研究方法感知理解的研究方法(2)综合方法 试图在感观刺激中找出所观察世界的等价物 认为视网膜上的光学图象(包括图象随时间的变化)应该包含感知空间目标所需要的全部信息其基于思路是复杂和密集的视网膜刺激可帮助进入视觉世界的不变量,即其最基本和本质的特性 第5页第11讲章毓晋(TH-EE-IE)12.1从感知到理解从感知到理解 2.图象理解系统图象理解系统完成视觉感知理解的系统是图象理解系统视觉信息从广义上说包括:由人类视觉系统感知的信息 由人类发明的各
3、种视觉装置所获取的信息 以及由这些信息推导出的其它表示形式 从上述这些信息中抽象出来的高级表达和行为规划以及与这些信息密切相关的知识和处理这些信息所需的经验 第6页第11讲章毓晋(TH-EE-IE)12.1从感知到理解从感知到理解 2.图象理解系统图象理解系统采集、表达、处理、分析和理解上述信息 基本问题是模式问题(表达)基本问题是组织问题(管理)理论还不完善,仅初步的理论框架马尔(Marr)提出的视觉计算理论 对人类视觉系统了解不充分信号处理问题 人工智能问题 第7页第11讲章毓晋(TH-EE-IE)12.2图象理解理论框架图象理解理论框架 12.2.1马尔视觉计算理论12.2.2对马尔理论
4、框架的改进12.2.3关于马尔重建理论的讨论12.2.4新理论框架的研究 第8页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论马尔1982年出版了视觉一书 Marr D.1982.Vision A Computational Investigation into the Human Representation and Processing of Visual Information.W.H.Freeman 一个理解视觉信息处理的框架要先理解视觉目的再去理解其中细节 第9页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论1.视觉是一个复杂的信息加工过程视觉是一个复
5、杂的信息加工过程视觉是一个远比人所想象更为复杂的信息加工任务和过程,而且其难度常不为人们所正视 为理解视觉这个复杂的过程,要解决两个问题 视觉信息的表达问题:某些信息是突出的和明确的,另一些信息则是隐藏的和模糊的 视觉信息的加工问题:对信息处理、分析、理解,将不同表达形式转换,逐步抽象 第10页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论2.视觉信息加工的三个要素视觉信息加工的三个要素计算理论;算法实现;硬件实现 计算理论计算理论可计算性问题可计算性问题:一个任务要用计算机完成,它应该是可以被计算的一般对于某个特定的问题,如果存在一个程序,对于给定的输入,这个程序都能在有限步
6、内给出输出,这个问题就是可计算的 第11页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论2.视觉信息加工的三个要素视觉信息加工的三个要素计算理论计算理论视觉问题是否可用现代计算机计算?对计算机给定输入,能否得到人类视觉可获得的类似结果两方面的研究内容:计算的是什么以及为什么要计算它们;提出一定的约束条件,它们可唯一地确定最终得到的运算结果 第12页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论2.视觉信息加工的三个要素视觉信息加工的三个要素算法实现算法实现需要给加工所操作的实体选择一种合适的表达选择加工的输入和输出表达确定完成表达转换的算法一般情况下可以有许多可
7、选的表达算法的确定常取决于所选的表达给定一种表达,可有多种完成任务的算法 第13页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论2.视觉信息加工的三个要素视觉信息加工的三个要素硬件实现硬件实现有了表达和算法在物理上如何实现算法也是必不可少的 算法的确定常依赖于物理上实现算法硬件的特点同一个算法也可由不同的技术途径实现 第14页第11讲章毓晋(TH-EE-IE)2.视觉信息加工的三个要素视觉信息加工的三个要素视觉信息加工三要素的含义 要素要素名称名称含义和所解决的问题含义和所解决的问题1计算理论什么是计算目的,为什么要这样计算2表达和算法怎样实现计算理论,什么是输入输出表达,用什
8、么算法实现表达间的转换3硬件实现怎样在物理上实现表达和算法,什么是计算结构的具体细节12.2.1马尔视觉计算理论第15页第11讲章毓晋(TH-EE-IE)2.视觉信息加工的三个要素视觉信息加工的三个要素 它们之间有一定的逻辑因果联系,但并无绝对的依赖关系 实际上看成两个层次更恰当 一旦有了计算理论,表达和算法与硬件实现是互相影响的12.2.1马尔视觉计算理论表达和算法硬件实现计算理论第16页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论3.视觉信息的三级内部表达视觉信息的三级内部表达(1)基素表达(primal sketch)一种2-D表达,它是图象特征的集合,描述了物体上属性
9、发生变化的轮廓部分只用基素表达不能保证得到对场景的唯一解释(a)(b)(c)(d)(e)第17页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论3.视觉信息的三级内部表达视觉信息的三级内部表达(2)2.5-D表达(2-D sketch)将物体可见面正交投影分解成单元表面用法线代表单元表面的取向将各法线画出,叠加于物体轮廓内可见面上 第18页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论3.视觉信息的三级内部表达视觉信息的三级内部表达(2)2.5-D表达(2-D sketch)本征图,表示了物体表面面元的朝向可将2.5-D图转化成(相对)深度图 既表达了一部分物体轮
10、廓的信息(这与基素表达类似)表达了以观察者为中心、可观察到的物体表面的取向信息 与人所理解的3-D物体一致(可见物体轮廓以内目标的3-D信息,如边界、深度,反射特性等)第19页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论3.视觉信息的三级内部表达视觉信息的三级内部表达(2)2.5-D表达(2-D sketch)将2.5-D图转化成(相对)深度图给定z(x,y)对x和y的偏导p和q,理论上讲可通过在平面上沿任意曲线的积分来恢复z(x,y)为最小化误差可选择z(x,y)满足),(),(0000)dd(),(),(yxyxyqspyxzyxzyxqzpzIyxdd )()(22第2
11、0页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论3.视觉信息的三级内部表达视觉信息的三级内部表达(3)3-D表达(3-D representation)以物体为中心(即也包括了物体不可见部分)的表达形式 在以物体为中心的坐标系中描述3-D物体的形状及其空间组织 空间占有数组,单元分解,几何模型广义圆柱体表达方法 第21页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计算理论3.视觉信息的三级内部表达视觉信息的三级内部表达 从计算机或信息加工的角度来说,视觉可计算性问题可分成几个步骤,步骤之间是某种表达形式,而每个步骤都是把前后两种表达形式联系起来的计算/加工方法第22
12、页第11讲章毓晋(TH-EE-IE)3.视觉信息的三级内部表达视觉信息的三级内部表达 名称名称目的目的基元基元图象表达场景的辉度或物体的照度象素(值)基素图表达图象中亮度变化位置、物体轮廓的几何分布和组织结构零交叉、端点、边缘段、边界等2.5-D图在以观察者为中心的坐标系中表达物体可见表面的取向、深度、边界等性质局部表面朝向(“针”基元)、表面朝向的不连续点、深度、深度上不连续点3-D图在以物体为中心的坐标系中,用体元或面元集合描述形状和形状的空间组织形式3-D模型,以轴线为骨架,将体元或面元附在轴线上12.2.1马尔视觉计算理论第23页第11讲章毓晋(TH-EE-IE)12.2.1马尔视觉计
展开阅读全文