智能控制-第八章-学习控制系统概要课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《智能控制-第八章-学习控制系统概要课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 智能 控制 第八 学习 控制系统 概要 课件
- 资源描述:
-
1、智智 能能 控控 制制Intelligent ControlIntelligent Control第八章第八章 学习控制系统学习控制系统8.1 学习控制概述学习控制概述8.1.1 什么是学习控制什么是学习控制1.学习的各种定义学习的各种定义定义定义8.1 一个具有生存能力的动物在它的一生中能够被其经受的环境所改造。一个具有生存能力的动物在它的一生中能够被其经受的环境所改造。一个能够繁殖后代的动物至少能够生产出与自身相似的动物(后代),即使这一个能够繁殖后代的动物至少能够生产出与自身相似的动物(后代),即使这种相似可能随着时间变化。如果这种变化是自我可遗传的,那么,就存在一种种相似可能随着时间变
2、化。如果这种变化是自我可遗传的,那么,就存在一种能受自然选择影响的物质。如果该变化是以行为型式出现,并假定这种行为是能受自然选择影响的物质。如果该变化是以行为型式出现,并假定这种行为是无害的,那么这种变化就会世代相传下去。这种从一代至其下一代的变化型式无害的,那么这种变化就会世代相传下去。这种从一代至其下一代的变化型式称为种族学习或系统发育学习,而发生在特定个体上的这种行为变化或行为学称为种族学习或系统发育学习,而发生在特定个体上的这种行为变化或行为学习,则称为个体发育学习习,则称为个体发育学习。Wiener(维纳)于维纳)于1965年对学习给出一个比较普遍的定义:年对学习给出一个比较普遍的定
3、义:C.Shannon在在1953年对学习给予较多限制的定义:年对学习给予较多限制的定义:定义定义8.2 假设()一个有机体或一部机器处在某类环境中,或者同该环境假设()一个有机体或一部机器处在某类环境中,或者同该环境有联系;()对该环境存在一种有联系;()对该环境存在一种“成功的成功的”度量或度量或“自适应自适应”度量;()这种度量;()这种度量在时间上是比较局部的,也就是说,人们能够用一个比有机体生命期短的度量在时间上是比较局部的,也就是说,人们能够用一个比有机体生命期短的时间来测试这种成功的度量。对于所考虑的环境,如果这种全局的成功度量,时间来测试这种成功的度量。对于所考虑的环境,如果这
4、种全局的成功度量,能够随时间而改善,那么我们就说,对于所选择的成功度量,该有机体或机器能够随时间而改善,那么我们就说,对于所选择的成功度量,该有机体或机器正为适应这类环境而学习。正为适应这类环境而学习。Osgood在在1953年从心理学的观点提出学习的定义:年从心理学的观点提出学习的定义:定义定义8.3 在同类特征的重复环境中,有机体依靠自己的适应性使自身行为及在同类特征的重复环境中,有机体依靠自己的适应性使自身行为及在竞争反应中的选择不断地改变和增强。这类由个体经验形成的选择变异即在竞争反应中的选择不断地改变和增强。这类由个体经验形成的选择变异即谓学习。谓学习。Tsypkin为学习和自学习下
5、了较为一般的定义:为学习和自学习下了较为一般的定义:定义定义8.4 学习是一种过程,通过对系统重复输入各种信号,并从外部校正该学习是一种过程,通过对系统重复输入各种信号,并从外部校正该系统,从而系统对特定的输入作用具有特定的响应。自学习就是不具外来校正系统,从而系统对特定的输入作用具有特定的响应。自学习就是不具外来校正的学习,即不具奖罚的学习,它不给出系统响应正确与否的任何附加信息。的学习,即不具奖罚的学习,它不给出系统响应正确与否的任何附加信息。Simon对学习给予更准确的定义:对学习给予更准确的定义:定义定义8.5 学习表示系统中的自适应变化,该变化能使系统比上一次更有效地学习表示系统中的
6、自适应变化,该变化能使系统比上一次更有效地完成同一群体所执行的同样任务。完成同一群体所执行的同样任务。Minsky用一个比较一般的学习判据代替改善学习判据,他的判用一个比较一般的学习判据代替改善学习判据,他的判据只要求变化是有益的:据只要求变化是有益的:定义定义8.6 学习在于使我们的智力工作发生有益的变化。学习在于使我们的智力工作发生有益的变化。定义定义8.7 学习系统是一个能够学习有关过程的未知信息,并用所学信息作为学习系统是一个能够学习有关过程的未知信息,并用所学信息作为进一步决策或控制的经验,从而逐步改善系统的性能。进一步决策或控制的经验,从而逐步改善系统的性能。定义定义8.8 如果一
7、个系统能够学习某一过程或环境的未知特征固有信息,并用如果一个系统能够学习某一过程或环境的未知特征固有信息,并用所得经验进行估计、分类、决策或控制,使系统的品质得到改善,那么称该所得经验进行估计、分类、决策或控制,使系统的品质得到改善,那么称该系统为学习系统。系统为学习系统。定义定义8.9 学习控制能够在系统进行过程中估计未知信息,并据之进行最优控学习控制能够在系统进行过程中估计未知信息,并据之进行最优控制,以便逐步改进系统性能。制,以便逐步改进系统性能。定义定义8.10 学习控制是一种控制方法,其中的实际经验起到控制参数和算法学习控制是一种控制方法,其中的实际经验起到控制参数和算法类似的作用。
8、类似的作用。定义定义8.11 如果一个学习系统利用所学得的信息来控制某个具有未知特征的如果一个学习系统利用所学得的信息来控制某个具有未知特征的过程,则称该系统为学习控制系统。过程,则称该系统为学习控制系统。总之,学习控制的定义,可用数学描述如下:总之,学习控制的定义,可用数学描述如下:定义定义8.12 在有限时间域在有限时间域0,T内,给出受控对象的期望的响应内,给出受控对象的期望的响应yd(t),寻求某,寻求某个给定输入个给定输入uk(t),使得,使得uk(t)的响应的响应yk(t),在某种意义上获得改善;其中,在某种意义上获得改善;其中,k为为搜索次数,搜索次数,t 0,T。称该搜索过程为
9、学习控制过程。当。称该搜索过程为学习控制过程。当k时,时,yk(t)yd(t),则该学习控制过程是收敛的。则该学习控制过程是收敛的。根据上述定义,可把学习控制的机理概括如下:根据上述定义,可把学习控制的机理概括如下:寻找并求得动态控制系统输入与输出间的比较简单的关系。寻找并求得动态控制系统输入与输出间的比较简单的关系。执行每个由前一步控制过程的学习结果更新了的控制过程。执行每个由前一步控制过程的学习结果更新了的控制过程。改善每个控制过程,使其性能优于前一个过程。改善每个控制过程,使其性能优于前一个过程。8.1.2 为什么要研究学习控制为什么要研究学习控制 自适应控制系统能够在不确定的条件下进行
10、有条件的决策。自适应控制系统能够在不确定的条件下进行有条件的决策。学习系统是自适应系统的发展与延伸,它能够按照运行过程中学习系统是自适应系统的发展与延伸,它能够按照运行过程中的的“经验经验”和和“教训教训”来不断改进算法,增长知识,以便更广来不断改进算法,增长知识,以便更广泛地模拟高级推理、决策和识别等人类的优良行为和功能。泛地模拟高级推理、决策和识别等人类的优良行为和功能。自适应控制的应用范围比较有限。自适应控制的应用范围比较有限。当受控对象的运动具有可重复性时,即受控制系统每次进当受控对象的运动具有可重复性时,即受控制系统每次进行同样的工作时,就可把学习控制用于该对象。行同样的工作时,就可
11、把学习控制用于该对象。学习控制已成为智能控制的一个重要领域。学习与掌握学学习控制已成为智能控制的一个重要领域。学习与掌握学习控制的基本原理和技术能够明显增强控制工程师处理实际控习控制的基本原理和技术能够明显增强控制工程师处理实际控制问题的能力,并提供对含有不确定性现实世界的敏锐理解。制问题的能力,并提供对含有不确定性现实世界的敏锐理解。8.1.3 学习控制的发展学习控制的发展 50年代:年代:对学习机的设想与研究始于对学习机的设想与研究始于50年代,学习机是一种模拟人的记忆年代,学习机是一种模拟人的记忆与条件反射的自动装置。学习机的概念是与控制论同时出现的。下棋机是学习与条件反射的自动装置。学
12、习机的概念是与控制论同时出现的。下棋机是学习机器早期研究阶段的成功例子机器早期研究阶段的成功例子。60年代:年代:发展了自适应和自学习等方法。发展了自适应和自学习等方法。60年代开始研究双重控制和人工年代开始研究双重控制和人工神经网络的学习控制理论,其控制原理是建立在模式识别方法的基础上的神经网络的学习控制理论,其控制原理是建立在模式识别方法的基础上的。另一类基于模式识别的学习控制方法把线性再励技术用于学习控制系统。另一类基于模式识别的学习控制方法把线性再励技术用于学习控制系统。研究基于模式识别的学习控制的第三种方法是利用研究基于模式识别的学习控制的第三种方法是利用Bayes学习估计方法。学习
13、估计方法。80年代:年代:由于基于模式识别的学习控制方法存在收敛速度慢、占用内存大、由于基于模式识别的学习控制方法存在收敛速度慢、占用内存大、分类器选择涉及训练样本的构造以及特征选择与提取较难等具体实现问题,反分类器选择涉及训练样本的构造以及特征选择与提取较难等具体实现问题,反复学习控制及重复学习控制,在复学习控制及重复学习控制,在80年代被提出来,并获得发展。年代被提出来,并获得发展。8.2 学习控制方案学习控制方案学习控制主要方案如下:学习控制主要方案如下:基于模式识别的学习控制、反复学习控制、重复学习控制、连基于模式识别的学习控制、反复学习控制、重复学习控制、连接主义学习控制,包括再励(
14、强化)学习控制、基于规则的学习控接主义学习控制,包括再励(强化)学习控制、基于规则的学习控制,包括模糊学习控制、拟人自学习控制、状态学习控制等等。制,包括模糊学习控制、拟人自学习控制、状态学习控制等等。学习控制具有四个主要功能:搜索、识别、记忆和推理。学学习控制具有四个主要功能:搜索、识别、记忆和推理。学习控制系统分两类,即在线学习控制系统和离线学习控制系统,习控制系统分两类,即在线学习控制系统和离线学习控制系统,分别如图分别如图8.1(a)和)和8.1(b)所示。)所示。图图8.1 (a)在线学习控制系统在线学习控制系统(b)离线学习控制系统离线学习控制系统图图8.1 学习控制系统原理框图学
15、习控制系统原理框图 图中,图中,代表参考输入,代表参考输入,输出响应,输出响应,u控制作用,控制作用,s转换开关。当开关接通时,该系统处于离线学习状态。转换开关。当开关接通时,该系统处于离线学习状态。8.2.1 基于模式识别的学习控制基于模式识别的学习控制 从图从图8.2可见,该控制器中含有一个模式(特征)识别单元和可见,该控制器中含有一个模式(特征)识别单元和一个学习(学习与适应)单元。模式识别单元实现对输入信息的一个学习(学习与适应)单元。模式识别单元实现对输入信息的提取与处理,提供控制决策和学习与适应的依据;学习与适应单提取与处理,提供控制决策和学习与适应的依据;学习与适应单元的作用是根
展开阅读全文