统计机器学习基础-probability课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《统计机器学习基础-probability课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 机器 学习 基础 probability 课件
- 资源描述:
-
1、Classification Input:x=x1,x2T,Output:C 0,1 Prediction:otherwise 0)|()|(if 1 choose orotherwise 0)|(if 1 chooseCCCC,xxCP,xxCP.,xxCP212121015011Lecture Notes for E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Press(V1.0)Bayes Rule xxxppPPCCC|1100011110 xxxxx|CCCCCCCCPpPpPppPP2posteriorlike
2、lihoodpriorevidenceLecture Notes for E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Press(V1.0)K=2 Classes Dichotomizer(K=2)vs Polychotomizer(K2)g(x)=g1(x)g2(x)Log odds:otherwise if choose210CgCxxx|log21CPCP3Lecture Notes for E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Pre
3、ss(V1.0)Bayes Rule:K2 Classes KkkkiiiiiCPCpCPCppCPCpCP1|xxxxx xx|max|if choose and 1kkiiKiiiCPCPCCPCP104Lecture Notes for E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Press(V1.0)Parametric Classification iiiiiiCPCxpxgCPCxpxg log|log or|221|exp22 iiiiixp xCP C二项分布5Lecture Notes for E Al
4、paydn 2010 Introduction to Machine Learning 2e The MIT Press(V1.0)数学基础的重要性 研究数据分析必须打好概率和统计基础 Using fancy tools like neural nets,boosting and support vector machines without understanding basic statistics like doing brain surgery before knowing how to use a band-aid.预修课程:概率统计 主要内容:概率、随机变量及其分布、常用分布、多元
5、随机向量 随机变量的变换及其分布 独立、条件独立、贝叶斯公式 期望、方差第一章:概率 概率:定量描述不确定性的数学语言 例:P(牙痛是由虫牙引起)=0.8 20%所有其他可能 实际数值可能来源于统计数据、模型、启发规则或猜测 更精确的概率定义:代数、可测量、测度(参考CB Chp1)s概率、样本空间和事件考虑一个事先不知道输入的试验:试验的样本空间 是所有可能输出的集合 事件A是样本空间的子集 对每个事件A,我们定义一个数字P(A),称为A 的概率。概率根据下述公理定义:W概率公理 事件A 的概率是一个非负实数 P(A)0 合法命题的概率为1 P()=1 两两不相交(互斥)事件A1,A2,从上
6、述三个公理,可推导出概率的所有的其他性质。W11()()iiiiAA=PP公理的推论 不可满足命题的概率为0 P()=0 P(A Ac)=0 对任意两个事件A、B P(A B)=P(A)+P(B)P(A B)对事件A的补事件Ac P(Ac)=1 P(A)对任意事件A 0 P(A)1概率的解释 概率的“真正意义”仍是一个非常有争议的论题 没有一种解释被一致接受 概率两种主要的解释:频率解释 概率=一个事件的相对频率(大量试验情况下)对应频率推断(点估计、置信区间)可信度解释 概率=观测者对可能性的判断 “贝叶斯概率”对应贝叶斯推断概率的频率解释 在相似试验条件下,进行多次重复试验,得到某个特定输
7、入的相对频率(如掷骰子或抛硬币)满足概率公理 只有试验才能确定概率 但是 试验次数多少次才足够多?相似条件?(条件完全相同?)P(正面朝上)?P(你本门课程得90分以上)?P(明天会下雨)?概率的可信度解释 亦称“贝叶斯概率”概率表示观测者对可能性的判断 定量表示某人的信念强度 是基于个人的信念和信息“主观概率”而不是“真正的概率”并没有对世界客观的表述 主观判断完全一致没有矛盾?不同人之间没有统一的客观基准 满足概率公理(在保持一致性的情况下)独立事件 当P(AB)=P(A)P(B)时,称两个事件A与B独立,记为 可推广到有限个事件系列 可通过两种方式确定事件之间的独立性 显式假设:如抛硬币
8、试验中,假设每次抛掷都是独立的 数值推导:满足P(AB)=P(A)P(B)如在一个公正的掷骰子的试验中,则不相交 独立AB2,4,6,1,2,3,4AB2,4AB 2 61 22 3ABABPPP独立总结独立总结1.若 ,则A和B独立。2.独立某些时候是假设的,某些时候推导得到的。3.有正概率的不相交事件不一定独立。条件概率 当P(B)0 时,给定B时A的条件概率为 给定任意B,若P(B)0,则 也是一个概率,即满足概率的三个概率公理 当 不相交时,|ABA BB。PPP|BP|0A B P|1BP12,.A A11|iiiiA BA BPP条件概率 下列等式不不一定成立|A BB APP|A
9、 BCA BA CPPP条件概率例1.13:对疾病D的医学测试结果输出为+和-,其概率分别为:假设某个测试的结果为+,则得病的概率为多少?DcD.009|.9.009.001DDDDDDPPPPPP.891|.9.099.891ccccccDDDDDDPPPPPP.009|.08.009.099cDDDDD PPPPPP+.009.099.108-.001.891.892.010.9901.0|ABA BBPPP条件概率例1.13(续):假设某个测试的结果为-,则得病的概率为多少?+.009.099.108-.001.891.892.010.9901.0DcD-.001-|.1 -|+|=1.
10、009.001DDDDDDDDPPPPPPPP+.099+|.1 -|+|=1.099.891ccccccccDDDDDDDDPPPPPPPP-.001|-.001-.001.891-cDDDDDPPPPPP独立与条件概率 若A与B独立事件,则 知道B不会改变A的概率 当A与B不独立时 Vs.A与B独立时:|ABABA BABBPPPPPPP|ABA BBB AAPPPPP ABABPPP例:条件独立 赌徒的谬误:戴伦伯特系统 参与者赌红色或黑色,每赌失败一次就加大赌数,每赌赢一次就减少赌数。如果小小的象牙球让他赢了,那么就会有某种原因“记住”它,不太可能让他在下一次再赢;如果小球使他输了,它
11、将感到抱歉,很可能帮助他在下一次赢。事实上:每一次旋转,轮盘都与以前旋转的结果无关。摘自数学悖论奇景条件概率总结 1.如果 P(B)0,则 2.对给定的B,P(.|B)满足概率公理。通常,对给定的A,P(A|.)不满足概率公理。3.通常,P(A|B)P(B|A)。4.当且仅当P(A|B)=P(A)时,A 与B 独立。|ABA BB。PPP贝叶斯公式 全概率公式:令A1,Ak 为 的一个划分,则对任意事件B,有 。贝叶斯公式:令A1,Ak 为 的一个划分且对每个i,i=1,2,k。若 ,则对每个 有 (|)()|(|)()iiijjjB AAA BB AAPPPPPWW0iAP 0B P(|)(
12、)jjjBB AAPPP后验概率先验概率例:邮件分类 例1.19:email可分为三类:A1=“垃圾,”A2=“低优先级”和A3=“高优先级”。根据先前的经验,我们发现 则:0.7+0.2+0.1=1。令B表示email中包含单词“free”。根据先前的经验,123()=0.7()=0.2()=0.1AAA,PPP123(|)=0.9(|)=0.01(|)=0.01 0.9+0.01+0.011B AB AB A注意:,PPP思考 如果收到一封带有单词“free”的邮件,该邮件为垃圾邮件的概率是多少?如果仅以单词“free”为先验来进行邮件邮件分类,如何判别一封邮件是否为垃圾邮件?第二章:随机
13、变量 上节课内容 概率理论 概率公理及推论 随机变量之间的关系:条件概率、独立/条件独立、贝叶斯公式 本节课内容 随机变量及其分布 随机变量变换 常见分布族 多元随机向量的分布 联合分布、边缘分布、条件分布、独立随机变量 统计推断是与数据相关的。随机变量就是将样本空间/随机事件与数据之间联系起来的纽带 随机变量是一个映射 ,将一个实数值 赋给一个试验的每一个输出 例2.2:抛10次硬币,令X()表示序列中正面向上的次数,如当 =HHTHHTHHTT,则 X()=6。:XW R X随机变量的概率描述 事件的概率 随机变量的概率描述 给定一随机变量X及实数子集A,定义 例2.4:抛2次硬币,令X表
14、示正面向上的次数,则 AXAX,1()()()()()1;XAXAXAww-=WPPP()()()()()1;XxXxXxww-=W=PPP其中X表示随机变量,x表示X可能的取值()()()()01 4,1,1 2,XTTXHT THPPPP=()()21 4XHH=PPP()X()TT1/40TH1/41HT1/41HH1/42xP(X=x)01/411/221/4随机变量的分布函数 随机变量X的累积分布函数累积分布函数 (cumulative distribution function,CDF)定义为 CDF是一个非常有用的函数:包含了随机变量的所有信息。CDF的性质:略(见书):0,1X
15、FR()()XFxXx=P有时记为F()()3.7 CDF CDF,()()XFYGx F xG xAXAYA=公式 假定有,有。如果,那么,有PP()()dXYxFxF xXYXYXY=如果任意 有,那么机量 和 同分布不意味与 相等,而是在概率意下相同对这两个随变记为这着义。例:随机变量的CDF例2.6:公正地抛硬币2次,令X表示正面向上的次数,则 CDF 右连续、非减函数 对所有实数x都有定义 虽然随机变量只取0、1、2()()()()0=21 411 2001 4013 41212XXXXxxFxxx,则数=分布函如下:PPP离散型随机变量的概率函数 离散型随机变量的概率函数概率函数(
16、probability function or probability mass function,pmf)定义为 对所有的 CDF与pmf之间的关系为:()()XfxXx=P()()()iXXixxFxXxfx=P有时记为 f()0Xxfx纬R,()1Xiifx=例:离散型随机变量的pmf 例2.10:公正地抛硬币2次,令X表示正面向上的次数,则 概率函数为:()()()()0=21 411 2001 4013 41212XXXXxxFxxx,则数=分布函如下:PPP()1 401 211 420Xxxfxxotherwise=连续型随机变量的概率(密度)函数 对连续型随机变量X,如果存在一
17、个函数 ,使得对所有的x,且对任意 有 则函数 被称为概率概率密度函数函数(probability density function,pdf)。CDF与pdf之间的关系:在所有 可微的点x,则()()bXaaXbfx dx=-PPXF()()XXfxFx=注意:是可能的()1Xfx()()0,XXxfxx=P例:连续型随机变量的CDF和pmf 例2.12:设X有PDF:显然有 有该密度的随机变量为(0,1)上的均匀分布:Uniform(0,1),即在0和1之间随机选择一个点。其CDF为:()01XXfxfdx=,()1 010Xforxfxotherwise=()000111XxFxxxx 分
18、位函数(quantile function)令随机变量X的CDF为F,CDF的反函数或分位函数(quantile function)定义为 其中 。若F严格递增并且连续,则 为一个唯一确定的实数x,使得 。为增函数 中值(median):一个很有用的统计量,对噪声比较鲁棒()1inf:()XXFqx Fxq-=0,1q()1XFq-()XFxq=()11 2F-1XF-随机变量的变换 X:老的随机变量,Y:新的随机变量,离散:()XXFx:()Yr X=()()()()YfyYyr Xy=PP()()()()1;x r xyXry-=PP离散型随机变量的变换例2.45:假设Y的取值比X少,因为
19、该变换不是一一映射。xfX(x)-11/401/211/4yfY(y)01/211/2()()()-1=11 401 2XXX,PPP=()()()()()20=01 21-111 2,YXYXYXX,则,=+=令即PPPPP连续型随机变量的变换方法方法1:CDF方法方法变换的三个步骤1.对每个y,计算集合2.计算CDF3.PDF为 :()yAx r xy()()YYfyFy()()()(;()()yYAXFyYyr Xyx r xyfx dxPPP连续型随机变量的变换 方法方法2:Jacobian方法方法 当r为单调增函数/减函数,定义r的反函数 ,则 当X、Y存在一一映射时,上述结论仍可用
20、 分区间:在每个 区间内为单调函数,可分区间利用上述结论1sr-=()()()YXds yfyfs ydy例:连续型随机变量的变换 例2.46:令 求Y的概率密度函数(),0 xXfxex-=()logYr XX=例:连续型随机变量的变换 例2.46:则 CDF法:Jacobian方法(),0 xXfxex-=()logYr XX=:yyAx xe=:logyAxxy=()()(log)YFyYyXy=PP()()1yyyeXXeFee-=-P()yyeYfye e-=()()()()1,yyyyyeYXs yryefyfeee e-=()()0()1xxXXFxXxfs dse-=-P例:连
21、续型随机变量的变换 例:概率积分变换 X有连续CDF ,定义随机变量Y为 ,则Y为0,1上的均匀分布,即 对随机数产生特别有用XF()XYFX=(),01YyyyPx()XFx0.51.001x2x二元随机向量的联合分布 离散型随机变量的联合分布:令X、Y为一对离散型随机变量,联合概率函数(pmf)定义为 联合累积分布函数(CDF)为:(X,Y):随机向量()()(),f x yXxYyXx Yy=且PP()(),X YFx yXx Yy=P 例2.18:对如下有两个随机变量的二元分布,变量X和Y取值为0、1,则 。1,11,15 9fXYP12/31/32/35/92/9X=11/32/91
22、/9X=0Y=1 Y=0联合分布边缘分布二元随机向量的联合分布 连续型随机变量的联合分布:令X、Y对一对连续型随机变量,联合概率密度函数(pdf)定义为 对任意集合 联合概率分布函数(CDF)为:(,)0 ,f x yx y,,(,),X YFx yXx YyP,(,)AAX YAf x y dxdyRRP,1fx y dxdy 边缘分布 离散型随机变量:()()()()()()()()()()(),.23,2.4,2.5 X YXyyYxxX YfXfxXxXx Yyf x yYfyYyXx Yyf x y=邋邋定:如果有合分布密度函那么 的密度函定如下:的密度函定:PPPP义联数,边缘数义
展开阅读全文