人工智能06对抗搜索课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《人工智能06对抗搜索课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 06 对抗 搜索 课件
- 资源描述:
-
1、Game Playing博弈 博弈被被认为是AI研究领域中的一个很好的难题:博弈是不平凡的 玩家需要具备“human-like”般的智能 游戏可能非常复杂(e.g.,Chess,Go)需要在有限时间内作出决策 games usually are:定义明确的且可重复的 完全可观察的环境是有限的 能直接比较humans and computersComputers Playing Chess对战中的AIComputers Playing Go本章大纲 博弈 博弈中的优化决策 极小极大值算法-剪枝 资源限制和近似评估 包含几率因素的游戏 不完整信息的游戏Games vs.search problem
2、s不可预测的对手解决方案是针对每一个可能的对手回复的策略时间是有限的 不太可能找到最优解,需找到近似解游戏对于低效率有严厉的惩罚 进攻计划:Computer considers possible lines of play(Babbage,1846)Algorithm for perfect play(Zermelo,1912;Von Neumann,1944)Finite horizon,approximate evaluation(Zuse,1945;Wiener,1948;Shannon,1950)First chess program(Turing,1951)Machine learn
3、ing to improve evaluation accuracy(Samuel,1952-57)Pruning(剪枝)to allow deeper search(McCarthy,1956)游戏的种类确定性的 随机的、策略的 博弈树(2-player,确定性的,轮流出招)确定性的Two-Player E.g.井字棋,国际象棋,跳棋 博弈搜索 状态-空间 搜索树 玩家轮流出招每一层包含一轮行动选择能获得最佳效用的行动 零和游戏 一个玩家要最大化效用值 而另一个要最小化效用值极小极大值原理 假设两位玩家都按照最佳策略行动 computer 假设在其行动以后,其对手会选择效用值最小的状态来移动
4、 computer在选择其最佳行动方案时要同时考虑自己以及对手的最佳行动从max的角度显示效用值Minimax 确定性的,完全信息的博弈的最优策略Idea:choose move to position with highest minimax value=best achievable payoff against best play在对手也使用最优策略的条件下,能导致至少不比其它策略差的结果假设两个游戏者都按照最优策略进行,那么节点的极小极大值就是对应状态的效用值(对于MAX)MAX优先选择有极大值的状态 MIN优先选择有极小值的状态 Minimax 确定性的,完全信息的博弈的最优策略Id
5、ea:choose move to position with highest minimax value=best achievable payoff against best play在对手也使用最优策略的条件下,能导致至少不比其它策略差的结果E.g.,2-ply game:Minimax algorithmMinimax 的性能完整性?Minimax 的性能完整性?仅当博弈树是有限时(chess has specific rules for this).但在一颗无限的博弈树中也存在有限的策略 最优性?Minimax 的性能完整性?Yes,仅当博弈树是有限时最优性?Yes,遇到一个聪明的对
6、手。Otherwise?时间复杂度?Minimax 的性能完整性?Yes,仅当博弈树是有限时最优性?Yes,遇到一个聪明的对手。Otherwise?时间复杂度?O(bm)空间复杂度?Minimax 的性能完整性?Yes,仅当博弈树是有限时最优性?Yes,遇到一个聪明的对手。Otherwise?时间复杂度?O(bm)空间复杂度?O(bm)(深度优先搜索)For chess,b35,m100 for“reasonable games寻找精确解时完全不可行的But do we need to explore every path?-剪枝 若与一个聪明的对手对弈,则博弈树上的一些分枝绝不会发生“If
7、you have an idea that is surely bad,dont take the time to see how truly awful it is.”-Pat Winston 剪枝能消除搜索树的很大一部分分枝 pruning example pruning example pruning example pruning example pruning example为什么叫 is the best value(to MAX)found so far on the current path到目前为止在路径上的任意选择点发现的MAX的最佳(即最大值)选择 If v is wor
8、se than,MAX will avoid it,so can stop considering vs other children prune that branch Define similarly for MINThe algorithm剪枝技术 对于一个MAX节点来说,它取值称为值 对于一个MIN节点来说,它取值称为值 剪枝:任何MAX节点x的值如果不能降低其父节点的值,则对节点x以下的分枝可停止搜索。剪枝:任何MIN节点x的值如果不能升高其父节点的值,则对节点x以下的分枝可停止搜索。剪枝案例搜索的效率 效率很大程度上取决于检查后继的顺序;所以尝试检查可能较好的后继是值得的 最坏情况
9、:没有分枝需要修剪 相比于穷举搜索没有改进 最好情况:每个玩家的最佳行动都先被检查 在实践中,性能接近于最好情况,而不是最坏情况,但要依实际情况而定的性能剪枝不影响最终结果好的行动顺序能提高剪枝的效率With“perfect ordering,time complexity=O(bd/2)doubles solvable depth不幸的是,3550 也是有可能的本章大纲 博弈 博弈中的优化决策 极小极大值算法-剪枝 资源限制和近似评估 包含几率因素的游戏 不完整信息的游戏Resource limits资源限制标准方法:深度有限搜索Use CUTOFF-TEST(截断测试)instead of
10、 TERMINAL-TEST(终止测试)e.g.,depth limit(perhaps add quiescence search 静态搜索)Use EVAL instead of UTILITY用可以估计棋局效用值的启发式评价函数EVAL取代效用函数i.e.,估计位置期望值的评价函数假设我们有100 seconds计算时间,探索速度为104 nodes/second106 nodes per move 358/2 reaches depth 8 pretty good chess program4-ply lookahead is a hopeless chess player!4-ply
11、 human novice 8-ply typical PC,human master 12-ply Deep Blue,Kasparov评价函数 评价非终止状态的函数 理想函数:返回每个位置的效用值 在实践中:加权线性函数:Eval(s)=w1f1(s)+w2f2(s)+wnfn(s)e.g.,for chess,w1=9 withf1(s)=(number of white queens)-(number of black queens),etc.More on 评价函数 评价函数评估当前局面配置的好坏一个线性的评价函数是关于特征f1,f2,f3的加权和 More important fe
12、atures get more weight 对弈的质量直接依赖于评价函数的质量 为了构建一个好的评价函数,必须:利用行业知识提取好的特征 选择或学习更好的权重题外话:精确的评价函数并不重要Behavior is preserved under any monotonic(单调的)transformation of EVAL对待有限的时间 在实际游戏中,通常对每一步有时间限制T 我们如何考虑这个问题?所以,我们可以设置一个保守的深度有限,以保证在T时间内决定一次行动但是,搜索可能提前结束,更多搜索的机会被浪费了对待有限的时间 在实践中,迭代深入深度优先搜索(IDS)被很好地使用 运行alpha
13、-beta search 以深度限制逐渐增加的方式 当时间T快运行完时,返回最后一次完整的 搜索的结果(i.e.,the deepest search that was completed)现今一些确定性的游戏Chess(国际象棋):Deep Blue defeated human world champion Gary Kasparov in a six-game match in 1997.Deep Blue searches 200 million positions per second,uses very sophisticated evaluation,and undisclose
展开阅读全文