强化学习课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《强化学习课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 强化 学习 课件
- 资源描述:
-
1、强化学习12目录l引言l强化学习发展史l强化学习简介l强化学习算法l强化学习应用l未来展望2引言在连接主义学习中,在学习的方式有三种:非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习。监督学习也称为有导师的学习,需要外界存在一个“教师”对给定输入提供应有的输出结果,学习的目的是减少系统产生的实际输出和预期输出之间的误差,所产生的误差反馈给系统来指导学习。非监督学习也称为无导师的学习。它是指系统不存在外部教师指导的情形下构建其内部表征。学习完全是开环的。3什么是强化学习生物进化过程中为适应环境而进行的学习有两个特点:一是人从来不
2、是静止的被动的等待而是主动的对环境作试探;二是环境对试探动作产生的反馈是评价性的,生物根据环境的评价来调整以后的行为,是一种从环境状态到行为映射的学习,具有以上特点的学习就是强化学习。4强化学习强化学习(reinforcement learning)又称为再励学习,是指从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖励值最大的一种机器学习方法,智能控制机器人及分析预测等领域有许多应用。5强化学习发展史强化学习技术是从控制理论、统计学、心理学等相关学科发展而来,最早可以追溯到巴甫洛夫的条件反射实验。1911年Thorndike提出了效果律(Law of Effect):一定情景下让动
3、物感到舒服的行为,就会与此情景增强联系(强化),当此情景再现时,动物的这种行为也更易再现;相反,让动物感觉不舒服的行为,会减弱与情景的联系,此情景再现时,此行为将很难再现。动物的试错学习,包含两个含义:选择(selectional)和联系(associative),对应计算上的搜索和记忆。6强化学习的研究发展史可分为两个阶段。第一阶段是50年代至60年代,为强化学习的形成阶段。1954年,Minsky在他的博士论文中实现了计算上的试错学习,并首次提出“强化学习”术语。最有影响的是他的论文“通往人工智能的阶梯”(Minsky,1961),这篇文章讨论了有关强化学习的几个问题,其中包括他称为信誉分
4、配的问题:怎样在许多的、与产生成功结果有关的各个决策中分配信誉。7后来,Farley和Clark的兴趣从试错学习转向泛化和模式识别,也就是从强化学习转向监督学习,这引起了几种学习方法之间的关系混乱。由于这些混乱原因,使得真正的试错学习在二十世纪六、七十年代研究得很少。8第二阶段是强化学习的发展阶段。直到上世纪八十年代末、九十年代初强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛研究和应用,并被认为是设计智能系统的核心技术之一。9强化学习的发展历程1956 Bellman提出了动态规划方法1977 Werbos提出自适应动态规划方法1988 Sutton提出了TD算法1992 Wat
5、kins提出了Q学习算法1994 Rummery等提出了SARSA学习算法1996 Bertsekas等提出了解决随机过程优化控制的神经动态规划方法1999 Thrun提出了部分可观测马尔科夫决策过程中的蒙特卡罗方法2006 Kocsis等提出了置信上限树算法2009 Lewis等提出了反馈控制自适应动态规划算法2014 Silver等提出确定性策略梯度算法 10国内发展现状强化学习在国内处于发展阶段,并取得一定成绩。杨璐采用强化学习中的TD算法对经济领域的问题进行预测;蒋国飞将Q学习应用在倒立摆控制系统,并通过对连续空间的离散化,证明了在满足一定条件下的Q学习的收敛性;张健沛等对连续动作的强
6、化学习方法进行了研究,并将其应用到机器人避障行为中。11随着强化学习的数学基础研究取得突破性进展后对强化学习的研究和应用成为目前机器学习领域的研究热点之一。主要内容包括:1)连续状态和连续动作问题;2)与遗传算法与神经网络的结合;3)不完全感知问题;4)强化学习算法的规划规则抽取和偏差。12工作原理强化学习是一种在线的、无导师机器学习方法。在强化学习中,我们设计算法来把外界环境转化为最大化奖励量的方式的动作。我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动作得到了最多的奖励来自己发现。主体的动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终的奖励。13强化学习与
7、其他机器学习任务(例如监督学习)的显著区别在于,首先没有预先给出训练数据,而是要通过与环境的交互来产生,其次在环境中执行一个动作后,没有关于这个动作好坏的标记,而只有在交互一段时间后,才能得知累积奖赏从而推断之前动作的好坏。例如,在下棋时,机器没有被告知每一步落棋的决策是好是坏,直到许多次决策分出胜负后,才收到了总体的反馈,并从最终的胜负来学习,以提升自己的胜率。14学习者必须尝试各种动作,并且渐渐趋近于那些表现最好的动作,以达到目标。尝试各种动作即为试错,也称为探索,趋近于好的动作即为强化,也称为利用。探索与利用之间的平衡,是强化学习的一个挑战。探索多了,有可能找到差的动作,探索少了,有可能
8、错过好的动作。总体趋势:探索变少,利用变多。15举例1如果通过几次尝试,走位置1比走位置2赢棋的可能大,得出经验,则为强化学习。16举例2一个机器人在面临:进入一个新房间去寻找更多垃圾、寻找一条回去充电的路两个命令选择时根据以前找到充电器的快慢和难易程度来作决定。这是以前与环境交互得到的经验。17举例3一个进行石油提炼操作的搅拌控制器。该控制器逐步优化产量/成本/质量之间的平衡而不是严格按照工程师的最初设置来搅拌。这些例子中,随时间推移,学习者利用它获得的经验不断提高自己的性能。简言之,强化学习就是试出来的经验。它们都涉及一个积极作决策的Agent和它所处的环境之间的交互,尽管环境是不确定的,
9、但是Agent试着寻找并实现目标。Agent的动作允许影响环境的未来状态(如下一个棋子的位置,机器人的下一位置等),进而影响Agent以后可利用的选项和机会。18强化学习模型 定义 Agent(学习的主体,如小猫、小狗、人、机器人、控制程序等)其中,Agent具有特点如下:1、能感知环境的状态 2、选择动作(可能会影响环境的状态)3、有一个目标(与环境状态有关的)Agent以最终目标为导向,与不确定的环境之间进行交互,在交互过程中强化好的动作,获得经验。19在 强 化 学 习 中,Agent 选择一个动作a作用于环境,环境接收该动作后发生变化,同时产生一个强化信号(奖或罚)反馈给Agent,A
10、gent再根据强化信号和环境的当前状态s 再选择下一个动作,选择的原则是使受到正的奖赏值的概率增大。Agent环境奖赏值 R状态 S动作 Action20Agent环境奖赏值 R状态 S动作 Action选择的动作不仅影响立即奖赏值,而且还影响下一时刻的状态及最终强化值。强化学习的目的就是寻找一个最优策略,使得Agent在运行中所获得的累计报酬值最大。21强化学习基本要素除了Agent和环境之外,强化学习系统的四个主要子要素:策略(policy)、奖赏函数(reward function)、值函数(value function)和一个可选的环境模型(model)。22PolicyRewardV
11、alueModel ofenvironmentIs unknownIs my goalIs I can getIs my method四要素之间的包含关系23策略策略定义了Agent在给定时间内的行为方式。简单地说,一个策略就是从环境感知的状态到在这些状态中可采用动作的一个映射。对应在心理学中被称为刺激-反应的规则或联系的一个集合。在某些情况下策略可能是一个简单函数或查找表,而在其他情况下策略可能还涉及到大量计算。策略在某种意义上说是强化学习Agent的核心。24奖赏函数奖赏函数定义了在强化学习问题中的目标。简单地说,它把环境中感知到的状态(或状态-动作对)映射为单独的一个数值,即奖赏(rew
12、ard),表示该状态内在的可取程度。强化学习Agent的唯一目标就是最大化在长期运行过程中收到的总奖赏。奖赏函数定义了对Agent来说什么是好和坏的事件。在生物系统中,用愉快和痛苦来定义奖赏似乎有些不合适。而奖赏是Agent所面对的问题的直接的和规定性的特征。正因为这样,奖赏函数必须是Agent所不能改变的,但是它可以是调整策略的基础。25值函数对于一个策略,如果我们可以在一个状态上就看到这个策略未来将会取得的累积奖赏,这将为强化学习带来很大的方便,提供这种功能的函数在强化学习中称为值函数(Value function)。奖赏决定了环境状态的直接、内在的可取性,而值表示的是把可能的后续的状态以
13、及在这些状态中可获得的奖赏考虑在内的状态的长期可取性。26例如,一个状态可能会总是得到一个低的直接奖赏但仍有较高的值,因为该状态的后续状态能获得高的奖赏。或者反过来也是可能的。拿人类做类比,奖赏就象当前的快乐(奖赏高)和痛苦(奖赏低),而值就像是我们在一个特定的环境中用更完善、更长远的目光来看我们有多开心或不开心。27从某种意义上说奖赏是主要的,而值是对奖赏的预测,是第二位的。没有奖赏就没有值,而估计值的唯一目的就是获得更多的回报(总奖赏)。然而,我们在做决策和评价决策的时候考虑最多的却是值。动作的选择是根据值来判断的。我们选择带来最高值的动作,而不是带来最高奖赏的动作,因为这些带来最高值的动
14、作在长期运行过程中获得的奖赏总和最多。28环境模型有些强化学习系统中还存在着第四个也是最后一个要素:环境模型。它模拟了环境的行为。例如,给定一个状态和动作,这个模型可以预测必定导致的下一状态和下一奖赏。29强化信号 1.强化信号可以从环境的状态中直接获得。例如:传感器检测到机器人与障碍物的距离信息小于给定值时都可看做一个失败信号。倒立摆的角度大于一定值就可产生一个失败信号。2.强化信号也可从环境的状态信息中间接获得,当环境的状态值达不到预期的要求时,也可以认为产生了一个失败的强化信号。30强化信号r的取值可以是以下形式中的一种:1)二值-1,0,其中-1表示失败,0表示成功。2)介于-1,1区
15、间的多个离散值,分段表示失败或成功的程度。3)介于-1,1区间的实数连续值,能够更加细致地刻画成功和失败的程度。31从获取的时间看,强化信号分为立即回报和延时回报。立即回报指学习Agent执行完动作后立即从环境中获得回报;延时回报指学习系统在以后的某个时机,将从环境中获得的回报传给先前的决策,作为先前决策的回报。一般来说,立即回报越多,系统的学习速度就越快。32Agent 对动作的搜索策略主要有贪婪策略和随机策略。贪婪策略总是选择估计报酬为最大的动作;随机策略是用一个随机分布来根据各动作的评价值确定其被选择的概率,其原则是保证学习开始时动作选择的随机性较大,随着学习次数的增大,评价值最大的动作
16、被选择的相对概率也随之增大。33所有的强化学习算法的机制都是基于值函数和策略之间的相互作用,利用值函数可以改善策略,而利用对策略的评价又可以改进值函数。强化学习在这种交互过程中,逐渐得到最优的值函数和最优策略。34什么是马尔可夫决策(MDP)许多强化学习都基于一种假设,即Agent与环境的交互可用一个马尔可夫决策(MDP)过程来刻画:1)可将Agent和环境刻画为同步的有限状态自动机2)Agent和环境在离散的时间段内交互3)Agent能感知到环境的状态,作出反应性动作4)在Agent执行完动作后,环境的状态会发生变化5)Agent执行完动作后,会得到某种回报35马尔可夫决策过程(MDP)可定
17、义为4元组。其中S为环境状态集合;A为Agent执行的动作集合;P:SAS0,1为状态转换概率函数,记为P(s|s,a);R:SAIR为奖赏函数(IR为实数集),记为r(s,a)36马尔可夫决策本质:设系统在某任意时刻t的状态为s,则其Agent在时刻t执行动作a后使状态转变到下一状态s的概率P(s|s,a),以及获得的顺时奖赏值r(s,a)都仅仅依赖于当前状态s和选择的动作a,而与历史状态和历史动作无关,即“将来”与“现在”有关,而与过去有关。37强化学习分类如果在学习过程中Agent无需学习马尔可夫决策模型知识(即T 函数和R 函数),而直接学习最优策略,将这类方法称为模型无关法;而在学习
18、过程中先学习模型知识,然后根据模型知识推导优化策略的方法,称为基于模型法。由于不需要学习T 函数和R 函数,模型无关方法每次迭代计算量较小但由于没有充分利用每次学习中获取的经验知识,相比基于模型法收敛要慢得多。38强化学习面临搜索和利用两难问题。由于搜索新动作能够带来长期的性能改善,因此搜索可以帮助收敛到最优策略;而利用可以帮助系统短期性能改善,但可能收敛到次优解。我们把强调获得最优策略的强化学习算法称为最优搜索型;而把强调获得策略性能改善的强化学习算法称为经验强化型。强化学习所面临的环境类别,基本上可以分为马尔可夫型环境和非马尔可夫型环境两种。3940强化学习方法1.动态规划法2.蒙特卡罗方
19、法3.时间差分学习方法41动态规划法动态规划方法是由Bellman 方程转化而来,通过修正Bellman 方程的规则,提高所期望值函数的近似值。常用算法有两种:值迭代(Value Iteration)和策略迭代(Policy Iteration)(策略、T 函数和R函数已知)状态值函数更新Bellman最优方程SssVsssTssRsV)(),(,()(,()()(),(),(max)(*sVsasTasRsVSsAa42值迭代是在保证算法收敛的情况下,缩短策略估计的过程,每次迭代只扫描(sweep)了每个状态一次。而策略迭代算法包含了一个策略估计的过程,而策略估计则需要扫描所有的状态若干次,
20、其中巨大的计算量直接影响了策略迭代算法的效率。动态规划方法通过反复扫描整个状态空间,对每个状态产生可能迁移的分布,然后利用每个状态的迁移分布,计算出更新值,并更新该状态的估计值,所以计算量需求会随状态变量数目增加而呈指数级增长,从而造成“维数灾”问题。43蒙特卡罗方法蒙特卡罗方法(Monte Carlo methods:MC)是一种模型无关(model free)的,解决基于平均样本回报的强化学习问题的学习方法。(它用于情节式任务(episode task),不需要知道环境状态转移概率函数T和奖赏函数R,只需要智能体与环境从模拟交互过程中获得的状态、动作、奖赏的样本数据序列,由此找出最优策略)
21、44MC算法的状态值函数更新规则为:其中,Rt为t时刻的奖赏值,为步长参数)()()(1ttttsVRsVsV45时间差分学习方法时间差分(Temporal-Difference,TD)学习方法是一种模型无关的算法,它是蒙特卡罗思想和动态规划思想的结合,一方面可以直接从智能体的经验中学习,建立环境的动态信息模型,不必等到最终输出结果产生之后,再修改历史经验,而是在学习过程中不断逐步修改。正因为这个特点使得TD 方法处理离散序列有很大的优势。(随后的TD算法介绍)46强化学习算法到目前为止,研究者提出了很多强化学习算法,其中较有影响的有瞬时差分法(Temporal Difference Algo
22、rithm)、Q-学习算法(Q-Learning Algorithm)、R-学习算法(R-Learning Algorithm)、Sarsa算法、自适应评价启发算法(AHC)、分层强化学习(HRL)等等。其中,TD-算法和Q-学习算法属于典型的模型无关法,而Sarsa和Dyna-Q算法属于基于模型法。47顺时差分法TDTD算法是Sutton 在1988 年提出的用于解决时间信度分配问题的著名方法。TD 方法能够有效的解决强化学习问题中的暂态信用分配问题,可被用于评价值函数的预测。几乎所有强化学习算法中评价值的预测法均可看作TD 方法的特例,以至于通常所指的强化学习实际上就是TD 类强化学习。4
23、8一步TD 算法,即TD(0)算法,是一种自适应的策略迭代算法,又名自适应启发评价算法(Adaptive Heuristic Critic,AHC)。所谓一步TD 算法,是指Agent 获得的瞬时报酬值仅回退一步,也就是说只是修改了相邻状态的估计值。TD(0)的算法迭代公式为:V(st)=V(st)+(rt+1+V(st+1)-V(st)(1)=(1-)V(st)+(rt+1+V(st+1)式中,为学习率,V(st)为Agent在t时刻访问环境状态st估计的状态值函数,V(st+1)指Agent在t+1时刻访问环境st+1估计的状态值函数,rt+1指Agent从状态st向状态st+1转移时获得
展开阅读全文