哈工大人工智能课件chpt5(4).ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《哈工大人工智能课件chpt5(4).ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 哈工大 人工智能 课件 chpt5
- 资源描述:
-
1、 5.1 不精确推理的必要性5.2 不确定性的表示5.3 贝叶斯网络5.4 可信度方法5.5 模糊推理参考书目附录 似然比与贝叶斯概率推理第7章 不精确推理5.1 不精确推理的必要性不精确推理的原因 / 方法第7章 不精确推理4 推理所需的信息不完备:竞争双方不知道对方信息 背景知识不足:疑难病症的机理 多种原因导致同一结果:疾病的诊断 信息描述模糊:目击者对嫌疑犯的描述 信息中含有噪声:做假帐,虚假统计报表,采集数据当中的噪声(雷达、声纳/化验)等 规则是模糊的:定性描述,如“如果刑事犯罪猖獗,就应加大打击力度”等 推理能力不足:天气预报的计算 解决方案不唯一:多个方案如何选优的问题第7章
2、不精确推理5 从智能体角度看,他不得不在不确定的环境下行动 现实的不确定性需要不精确推理:将数值计算引入推理过程 继续使用逻辑联结词 真假值概率化,以表示某种可靠程度 在推理的前提和结论之间建立概率公式 应用:专家系统中的推理网络 PROSPECTOR系统 MYCIN系统第7章 不精确推理5.2 不确定性的表示5.2.1 概率及其公理5.2.2 概率推理第7章 不精确推理7 主观Bayes主义: 现实世界的一些因果关系可以形成一种信念,它并非在所有场合下都正确,可称为部分信念 表示这种信念的最好方法是概率方法 对概率的解释有若干种,其中一种称为主观Bayes主义 / 要点:概率是个人的一种合理
3、置信度,每个人的估计(概率)虽然各不相同,但应该满足概率的基本规律和其他某些客观规律,因而是合理的第7章 不精确推理8 随机变量 布尔随机变量定义域= 离散随机变量定义域=可数域 连续随机变量定义域=实数集合 原子事件世界的所有随机变量的特定赋值组合 / 构成无法确定的世界状态的完整详细描述 如X的世界由weather=和今天是否喝酒drink_today=组成 则有4*2种不同原子事件第7章 不精确推理9(1)原子事件是互斥的:sunnydrink_today 和sunnydringk_today不能同时成立(2)由所有原子事件组成的集合是穷尽的至少有一个原子事件一定成立 / 所有原子事件的
4、逻辑析取=T(3)任何特定的原子事件与每个命题(简单或者复合命题)的真或假一一对应任何一个表示所在世界状态的命题都可以用原子事件的逻辑联结表示,任何一个命题逻辑上都等价于所有蕴涵该命题真值的原子事件的析取 sunny等价于sunny drink_today sunny drink_today第7章 不精确推理10 先验概率:没有任何其它信息存在情况下关于某个命题的信度 用向量表示随机变量的先验概率分布 P(weather)= 对于组成世界的离散随机变量全集,使用诸如: P(weather, drink_today)来表示涵盖全集的随机变量集的值的全部组合的概率:全联合概率分布第7章 不精确推理
5、11 全联合概率分布用概率表表示 P用4*2表格表示第7章 不精确推理sunny rainycloudysnowDrink T0.20.150.040.015Drink F0.50.050.040.00512 条件概率定义 由此有乘法定理 P(ab)=P(a|b)P(b)=P(b|a)P(a) 如果a和b相互独立,则P(a|b)=P(a) P(b|a)=P(b)P(ab)=P(a)P(b)第7章 不精确推理()( | )( )P abP a bP b13 Bayes概率服从如下公理(Kolmogorov公理):(1)0P(a)1(2)P(T)=1 / P(F)=0(3)P(ab)=P(a)+P
6、(b)-P(ab)当a/b互斥有P(ab)=P(a)+P(b) 此为加法定理互斥性也就是独立性 这样的概率公理是不能违反的第7章 不精确推理14 原子事件的性质:任何命题a等价于所有a在其中成立的原子事件的析取事件集合记为e(a) 由所有原子事件是互斥的,得到如下全联合概率分布 一个命题的概率等于所有它在其中成立的原子事件的概率和 / 满足独立性和完全性第7章 不精确推理12( )( )(.)( )ikiee aP aP eeeP e15 全联合概率分布是知识库,从中可得到所有概率的计算命题在其中成立的所有原子事件的概率和 P(cavitytoothache)=0.108+0.012+0.07
7、2+0.008+ 0.016+0.064=0.28 P(catch)=0.108+0.016+0.072+0.144=0.34第7章 不精确推理toothachetoothachecatchcatchcatchcatchcavity0.1080.0120.0720.008cavity0.0160.0640.1440.57616 上述全概率公式从另一个角度可以视为通用化边缘规则:P(A)=zP(A,z)=zP(z)P(A|z) 将某个随机变量的分布抽取出来,求和从而得到该变量的无条件概率(或称为边缘概率) / 其过程称为边缘化或求和消元(summing out) 用于从多个变量的全概率分布中求取
8、某个变量的概率,进行推理第7章 不精确推理1122(Z )(|)()(|).PP A ZP ZP A Z17 大多数情况下我们对计算某个变量的条件概率感兴趣: 1/P(toothache)保持不变,可把它看成是保证其所包含的概率相加为1的常数。 引入归一化常数=1/p(a)+p(a) 一般公式:P(X|e)= P(X,e)=yP(X,e,y)(根据全概率公(根据全概率公式)式) 解释为:e固定条件下X/Y遍历所有值,构成此时的所有原子事件()(|)0.6()P cavitytoothacheP cavity toothacheP toothache第7章 不精确推理()(|)0.4()Pcav
9、itytoothachePcavity toothacheP toothache18 Bayes公式(也称逆概率公式) 从条件概率公式可得 在某些场合下引入一个证据e以后,得更通用的Bayes公式( | )( )( | )( )P a bP bP b aP a第7章 不精确推理(|, )(| )(|, )(| )P X Y eP Y eP Y X eP X e19 逆概率公式不仅是条件概率公式的一个简单变形,实际上很有用处如果某个条件概率不便计算,则可以先计算其逆概率,而后算出所要的条件概率 例子:求P(肺炎|咳嗽)可能比较困难,但统计P(咳嗽|肺炎)可能比较容易(因为要上医院)/ 假设P(肺
10、炎)=1/10000,而P(咳嗽)=1/10,90%的肺炎患者都咳嗽,则P(肺炎|咳嗽)= 第7章 不精确推理0009. 01 . 00001. 09 . 0)()()|(咳嗽肺炎肺炎咳嗽PPP20 可以将前面的逆概率公式写成 这说明先验概率P(H)可以通过方括号部分(作为修正因子)修正为后验概率P(H|E) (证据E为真时H的后验概率) 在上面的例子中,医生认为一个人得肺炎的可能性为万分之一,一旦发现患者咳嗽,就将调整为万分之九第7章 不精确推理)()()|()|(HPEPHEPEHP21 将E看作证据,先验概率P(E)越小,且H为真时E的条件概率P(E|H)越大,则修正因子所起作用越大 在
11、上例中,如果 P(咳嗽)=0.0001 / P(咳嗽|肺炎)=0.9999 / P(肺炎)不变 则P(肺炎|咳嗽)=0.9999,远远超过原来的万分之九第7章 不精确推理22 当有n个互相独立的证据,则有公式 上式可以写成递推公式形式: 上式说明:随着新证据的不断获得,从证据少时的后验概率推出证据多时的后验概率,且每一步都是把上一步的后验概率视为新证据到来时的先验概率)()()|()&|(111HPEPHEPEEHPniiniin第7章 不精确推理)&|()()|()&|(11111mmmmEEHPEPHEPEEHP23 使用全联合分布表,可以进行查询(推理) / 但只适用于变量少的情况 N个
12、可能证据变量,则相关条件概率的组合数达到2N 条件独立性一旦某个变量的取值确定下来,则其余变量就相互独立 对于toothache/cavity/catch三者,cavity决定了其余两者,而它们彼此之间无关系 P(toothachecatch|Cavity)=P(toothache|Cavity)*P(catch|Cavity)第7章 不精确推理24 给定第3个随机变量Z后,X/Y的条件独立定义为:P(X,Y|Z)=P(X|Z)P(Y|Z) 或P(X|Y,Z)=P(X|Z)P(Y|X,Z)=P(Y|Z) 则牙科领域3个随机变量有: P(Toothache,Catch|Cavity)=P(Too
13、thache|Cavity) P(Catch|Cavity) 和 P(Toothache,Cavity,Catch)=P(To,Cat|Cav)P(Cav) =P(To|Cav)P(Cat|Cav)P(Cav)第7章 不精确推理25 条件概率表(CPT)的分解 原概率表有7个彼此独立的数值(23-1) 新概率表有5个独立数值(2+2+1) n个变量彼此独立后,表示的规模从O(2n)变为O(n) 条件独立性允许概率系统进行规模的扩展;条件独立性比绝对独立性更容易获得 此结论导致了朴素贝叶斯模型 P(Cause,Effect1,Effectn)=(P(Ei|C)P(C)第7章 不精确推理5.3 贝
14、叶斯网络5.3.1 贝叶斯网络的表示5.3.2 贝叶斯网络中的精确推理5.3.3 贝叶斯网络的近似推理第7章 不精确推理27贝叶斯网络的由来贝叶斯网络的由来 全联合概率计算复杂性十分巨大 朴素贝叶斯太过简单 现实需要一种自然、有效的方式来捕捉和推理不确定性知识 变量之间的独立性和条件独立性可大大减少为了定义全联合概率分布所需的概率数目28 贝叶斯网络(Bayesian network)是一个有向图,其中每个节点都标注了定量概率信息(1)一个随机变量集合组成网络节点,变量可以是离散的或者连续的(2)一个连接节点对的有向边或者箭头的集合,如果存在从节点X指向节点Y的有向边,则称X是Y的一个父节点(
15、3)每个节点都存在一个条件概率分布P(Xi|Parent(Xi),量化父节点对该节点的影响(4)图中不存在有向环(是有向无环图DAG)第7章 不精确推理29 从一个例子(防盗网)开始第7章 不精确推理BurglaryEarthquakeAlarmJohnCallMaryCallP(B).001P(E).002 B E P(A) T T .95 T F .94 F T .29 F F .001 A P(J) T .90 F .05 A P(M) T .70 F .0130 每个节点旁的条件概率表(简称CPT)中的值对应一个条件事件的概率 如P(A)=0.94=P(A|BurglaryEarthq
16、uake) 条件事件是父节点取值的一个可能组合 每行的概率之和应该为1(表中只给出了为真的情况,为假的概率应为1-p) 一个具有k个布尔父节点的布尔变量的条件概率表中有2k个独立的可指定的概率(注意概率值是独立的) 没有父节点的节点的概率只有1行 / 为先验概率第7章 不精确推理31 全联合概率分布的每个条目都可以通过贝叶斯网络的信息计算出来: 联合分布中的某项是对每个变量赋予一个特定值情况下的合取概率 就是条件概率表中适当元素的乘积第7章 不精确推理niiinnXparentxPxnxPxXxXP111)(|(),.1(),.,(32 初始的合取概率化为更小的条件概率和更小的合取式 P(Xi
17、|Xi-1,X1)=P(Xi|Parent(Xi)如果父节点包含于条件Xi-1,X1之中 父子节点的关系使得贝叶斯网络具有局部结构化的特性,即每个节点只和数量有限的其它部分产生直接的相互作用 P(MaryCall|JohnCall,Alarm,Earthquake,Burglary)=P(MaryCall|Alarm)第7章 不精确推理1111111121211111( ,.,)(|,.,) (,.,)(|,.,) (|,.,). (|) ( )(|,.,)nnnnnnnnniiiP xxP xxx P xxP xxx P xxxP xx P xP xxx33贝叶斯网络的语义公式计算示例:贝叶
18、斯网络的语义公式计算示例: 试计算:报警器响了,但既没有盗贼闯入,也没有发生地震,同时John和Mary都给你打电话的概率。 解: P(j,m,a,b,e) = P(j|a)P(m|a)P(a|b,e) P(b) P(e) = 0.90.70.0010.9990.998 = 0.00062 = 0.062%34贝叶斯网络的特性贝叶斯网络的特性: n作为对域的一种完备而无冗余的表示,贝叶斯网络比全联合概率分布紧凑得多nBN的紧凑性是局部结构化局部结构化(Locally structured, 也称稀疏稀疏, Sparse)系统一个非常普遍特性的实例nBN中每个节点只与数量有限的其它节点发生直接直
19、接的的相互作用n假设节点数n=30, 每节点有5个父节点,则BN需30 x25=960个数据,而全联合概率分布需要230= 10亿个!35贝叶斯网络的构造原则贝叶斯网络的构造原则: n首先,添加“根本原因根本原因”节点n然后,加入受它们直接影响的变量直接影响的变量n依次类推,直到叶节点叶节点,即对其它变量没有直接因果影响的节点n两节点间的有向边的取舍原则:更高精度概率的重要性与指定额外信息的代价的折衷n“因果模型”比“诊断模型”需要更少的数据,且这些数据也更容易得到36 贝叶斯网络中节点相互独立(下面两个定义等价):(1)给定父节点,一个节点与它的非后代节点是条件独立的第7章 不精确推理U1U
20、mXZ1jZnjY1Yn37第7章 不精确推理U1UmXZ1jZnjY1Yn(2)给定一个节点的父节点、子节点以及子节点的父节点(Markov blanket),这个节点对于其它节点都是条件独立的38 概率推理系统中的基本任务是计算被查询变量的后验概率 设X为待查询变量 / e为观察到的证据 E=E1Em证据变量集合 / Y=Y1Yn非证据变量集合(也称隐变量) 全部变量集合=XEY 推理的任务是:求后验概率P(X|e) 实际上,根据边缘化规则可得 P(X|e)=P(X,e)=yP(X,e,y)第7章 不精确推理39 上式表明:在贝叶斯网络中计算条件概率的乘积并求和,以便回答查询 以防盗警报为
21、例,求P(B|JohnCalls=T,M=F) 证据JohnCalls=True/MaryCalls=False 查询变量Burglary=True 隐含变量Earthquake/Alarm 用首字母简化式有: P(b|j,m) = P(b,j,m) = EAP(b,E,A,j,m)第7章 不精确推理40 P(b|j,m) = P(b,j,m) = EAP(b,E,A,j,m) P(b|j,m)=EAP(b)P(E)P(A|b,E)P(j|A)P(m|A) 上式最坏复杂度仍然是O(n2n):对所有变量求和 改进将相对常数移到求和符号以外 P(b|j,m)=P(b)EP(E)AP(A|b,E)P
22、(j|A)P(m|A) 计算过程(遍历A=a/a和E=e/e) P(j|a)=0.90P(m|a)=0.30 P(j|a)=0.05P(m|a)=0.99 P(a|b,e)=0.95P(a|b,e)=0.05 P(a|b,e)=0.94P(a|b,e)=0.0641 进一步代入条件概率: P(b|j,m)=EAP(b)P(E)P(A|b,E)P(j|A)P(m|A) 上式最坏复杂度仍然是O(n2n):对所有变量求和 改进将相对常数移到求和符号以外 P(b|j,m)=P(b)EP(E)AP(A|b,E)P(j|A)P(m|A) 计算过程(遍历A=a/a和E=e/e) P(j|a)=0.90P(m
23、|a)=0.30 P(j|a)=0.05P(m|a)=0.99 P(a|b,e)=0.95P(a|b,e)=0.05 P(a|b,e)=0.94P(a|b,e)=0.06第7章 不精确推理BurglaryEarthquakeAlarmJohnCallMaryCallP(B).001P(E).002 B E P(A) T T .95 T F .94 F T .29 F F .001 A P(J) T .90 F .05 A P(M) T .70 F .0142+P(b)0.01P(e)0.002P(e)0.998P(a|b,e)0.95P(a|b,e)0.05P(a|b,e)0.94P(a|b,
24、e)0.06P(m|a)0.70P(j|a)0.90P(j|a)0.05P(j|a)0.90P(j|a)0.05P(m|a)0.70P(m|a)0.01P(m|a)0.01P(b | j, m)的自顶向下的计算过程43 乘积求和过程 EP(E)AP(A|b,E)P(j|A)P(m|A)=P(e)*AP(A|b,e)P(j|A)P(m|A)+P(e)*=P(e)*P(a|b,e)*P(j|a)*P(m|a)+P(a|b,e)* P(j|a)*P(m|a)+P(e)* =0.002*0.95*0.90*0.30+0.05*0.05*0.99+0.998*0.94*0.90*0.30+0.06*0.
展开阅读全文