书签 分享 收藏 举报 版权申诉 / 117
上传文档赚钱

类型统计机器学习基础-probability课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:3525618
  • 上传时间:2022-09-11
  • 格式:PPT
  • 页数:117
  • 大小:1.81MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《统计机器学习基础-probability课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    统计 机器 学习 基础 probability 课件
    资源描述:

    1、Classification Input:x=x1,x2T,Output:C 0,1 Prediction:otherwise 0)|()|(if 1 choose orotherwise 0)|(if 1 chooseCCCC,xxCP,xxCP.,xxCP212121015011Lecture Notes for E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Press(V1.0)Bayes Rule xxxppPPCCC|1100011110 xxxxx|CCCCCCCCPpPpPppPP2posteriorlike

    2、lihoodpriorevidenceLecture Notes for E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Press(V1.0)K=2 Classes Dichotomizer(K=2)vs Polychotomizer(K2)g(x)=g1(x)g2(x)Log odds:otherwise if choose210CgCxxx|log21CPCP3Lecture Notes for E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Pre

    3、ss(V1.0)Bayes Rule:K2 Classes KkkkiiiiiCPCpCPCppCPCpCP1|xxxxx xx|max|if choose and 1kkiiKiiiCPCPCCPCP104Lecture Notes for E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Press(V1.0)Parametric Classification iiiiiiCPCxpxgCPCxpxg log|log or|221|exp22 iiiiixp xCP C二项分布5Lecture Notes for E Al

    4、paydn 2010 Introduction to Machine Learning 2e The MIT Press(V1.0)数学基础的重要性 研究数据分析必须打好概率和统计基础 Using fancy tools like neural nets,boosting and support vector machines without understanding basic statistics like doing brain surgery before knowing how to use a band-aid.预修课程:概率统计 主要内容:概率、随机变量及其分布、常用分布、多元

    5、随机向量 随机变量的变换及其分布 独立、条件独立、贝叶斯公式 期望、方差第一章:概率 概率:定量描述不确定性的数学语言 例:P(牙痛是由虫牙引起)=0.8 20%所有其他可能 实际数值可能来源于统计数据、模型、启发规则或猜测 更精确的概率定义:代数、可测量、测度(参考CB Chp1)s概率、样本空间和事件考虑一个事先不知道输入的试验:试验的样本空间 是所有可能输出的集合 事件A是样本空间的子集 对每个事件A,我们定义一个数字P(A),称为A 的概率。概率根据下述公理定义:W概率公理 事件A 的概率是一个非负实数 P(A)0 合法命题的概率为1 P()=1 两两不相交(互斥)事件A1,A2,从上

    6、述三个公理,可推导出概率的所有的其他性质。W11()()iiiiAA=PP公理的推论 不可满足命题的概率为0 P()=0 P(A Ac)=0 对任意两个事件A、B P(A B)=P(A)+P(B)P(A B)对事件A的补事件Ac P(Ac)=1 P(A)对任意事件A 0 P(A)1概率的解释 概率的“真正意义”仍是一个非常有争议的论题 没有一种解释被一致接受 概率两种主要的解释:频率解释 概率=一个事件的相对频率(大量试验情况下)对应频率推断(点估计、置信区间)可信度解释 概率=观测者对可能性的判断 “贝叶斯概率”对应贝叶斯推断概率的频率解释 在相似试验条件下,进行多次重复试验,得到某个特定输

    7、入的相对频率(如掷骰子或抛硬币)满足概率公理 只有试验才能确定概率 但是 试验次数多少次才足够多?相似条件?(条件完全相同?)P(正面朝上)?P(你本门课程得90分以上)?P(明天会下雨)?概率的可信度解释 亦称“贝叶斯概率”概率表示观测者对可能性的判断 定量表示某人的信念强度 是基于个人的信念和信息“主观概率”而不是“真正的概率”并没有对世界客观的表述 主观判断完全一致没有矛盾?不同人之间没有统一的客观基准 满足概率公理(在保持一致性的情况下)独立事件 当P(AB)=P(A)P(B)时,称两个事件A与B独立,记为 可推广到有限个事件系列 可通过两种方式确定事件之间的独立性 显式假设:如抛硬币

    8、试验中,假设每次抛掷都是独立的 数值推导:满足P(AB)=P(A)P(B)如在一个公正的掷骰子的试验中,则不相交 独立AB2,4,6,1,2,3,4AB2,4AB 2 61 22 3ABABPPP独立总结独立总结1.若 ,则A和B独立。2.独立某些时候是假设的,某些时候推导得到的。3.有正概率的不相交事件不一定独立。条件概率 当P(B)0 时,给定B时A的条件概率为 给定任意B,若P(B)0,则 也是一个概率,即满足概率的三个概率公理 当 不相交时,|ABA BB。PPP|BP|0A B P|1BP12,.A A11|iiiiA BA BPP条件概率 下列等式不不一定成立|A BB APP|A

    9、 BCA BA CPPP条件概率例1.13:对疾病D的医学测试结果输出为+和-,其概率分别为:假设某个测试的结果为+,则得病的概率为多少?DcD.009|.9.009.001DDDDDDPPPPPP.891|.9.099.891ccccccDDDDDDPPPPPP.009|.08.009.099cDDDDD PPPPPP+.009.099.108-.001.891.892.010.9901.0|ABA BBPPP条件概率例1.13(续):假设某个测试的结果为-,则得病的概率为多少?+.009.099.108-.001.891.892.010.9901.0DcD-.001-|.1 -|+|=1.

    10、009.001DDDDDDDDPPPPPPPP+.099+|.1 -|+|=1.099.891ccccccccDDDDDDDDPPPPPPPP-.001|-.001-.001.891-cDDDDDPPPPPP独立与条件概率 若A与B独立事件,则 知道B不会改变A的概率 当A与B不独立时 Vs.A与B独立时:|ABABA BABBPPPPPPP|ABA BBB AAPPPPP ABABPPP例:条件独立 赌徒的谬误:戴伦伯特系统 参与者赌红色或黑色,每赌失败一次就加大赌数,每赌赢一次就减少赌数。如果小小的象牙球让他赢了,那么就会有某种原因“记住”它,不太可能让他在下一次再赢;如果小球使他输了,它

    11、将感到抱歉,很可能帮助他在下一次赢。事实上:每一次旋转,轮盘都与以前旋转的结果无关。摘自数学悖论奇景条件概率总结 1.如果 P(B)0,则 2.对给定的B,P(.|B)满足概率公理。通常,对给定的A,P(A|.)不满足概率公理。3.通常,P(A|B)P(B|A)。4.当且仅当P(A|B)=P(A)时,A 与B 独立。|ABA BB。PPP贝叶斯公式 全概率公式:令A1,Ak 为 的一个划分,则对任意事件B,有 。贝叶斯公式:令A1,Ak 为 的一个划分且对每个i,i=1,2,k。若 ,则对每个 有 (|)()|(|)()iiijjjB AAA BB AAPPPPPWW0iAP 0B P(|)(

    12、)jjjBB AAPPP后验概率先验概率例:邮件分类 例1.19:email可分为三类:A1=“垃圾,”A2=“低优先级”和A3=“高优先级”。根据先前的经验,我们发现 则:0.7+0.2+0.1=1。令B表示email中包含单词“free”。根据先前的经验,123()=0.7()=0.2()=0.1AAA,PPP123(|)=0.9(|)=0.01(|)=0.01 0.9+0.01+0.011B AB AB A注意:,PPP思考 如果收到一封带有单词“free”的邮件,该邮件为垃圾邮件的概率是多少?如果仅以单词“free”为先验来进行邮件邮件分类,如何判别一封邮件是否为垃圾邮件?第二章:随机

    13、变量 上节课内容 概率理论 概率公理及推论 随机变量之间的关系:条件概率、独立/条件独立、贝叶斯公式 本节课内容 随机变量及其分布 随机变量变换 常见分布族 多元随机向量的分布 联合分布、边缘分布、条件分布、独立随机变量 统计推断是与数据相关的。随机变量就是将样本空间/随机事件与数据之间联系起来的纽带 随机变量是一个映射 ,将一个实数值 赋给一个试验的每一个输出 例2.2:抛10次硬币,令X()表示序列中正面向上的次数,如当 =HHTHHTHHTT,则 X()=6。:XW R X随机变量的概率描述 事件的概率 随机变量的概率描述 给定一随机变量X及实数子集A,定义 例2.4:抛2次硬币,令X表

    14、示正面向上的次数,则 AXAX,1()()()()()1;XAXAXAww-=WPPP()()()()()1;XxXxXxww-=W=PPP其中X表示随机变量,x表示X可能的取值()()()()01 4,1,1 2,XTTXHT THPPPP=()()21 4XHH=PPP()X()TT1/40TH1/41HT1/41HH1/42xP(X=x)01/411/221/4随机变量的分布函数 随机变量X的累积分布函数累积分布函数 (cumulative distribution function,CDF)定义为 CDF是一个非常有用的函数:包含了随机变量的所有信息。CDF的性质:略(见书):0,1X

    15、FR()()XFxXx=P有时记为F()()3.7 CDF CDF,()()XFYGx F xG xAXAYA=公式 假定有,有。如果,那么,有PP()()dXYxFxF xXYXYXY=如果任意 有,那么机量 和 同分布不意味与 相等,而是在概率意下相同对这两个随变记为这着义。例:随机变量的CDF例2.6:公正地抛硬币2次,令X表示正面向上的次数,则 CDF 右连续、非减函数 对所有实数x都有定义 虽然随机变量只取0、1、2()()()()0=21 411 2001 4013 41212XXXXxxFxxx,则数=分布函如下:PPP离散型随机变量的概率函数 离散型随机变量的概率函数概率函数(

    16、probability function or probability mass function,pmf)定义为 对所有的 CDF与pmf之间的关系为:()()XfxXx=P()()()iXXixxFxXxfx=P有时记为 f()0Xxfx纬R,()1Xiifx=例:离散型随机变量的pmf 例2.10:公正地抛硬币2次,令X表示正面向上的次数,则 概率函数为:()()()()0=21 411 2001 4013 41212XXXXxxFxxx,则数=分布函如下:PPP()1 401 211 420Xxxfxxotherwise=连续型随机变量的概率(密度)函数 对连续型随机变量X,如果存在一

    17、个函数 ,使得对所有的x,且对任意 有 则函数 被称为概率概率密度函数函数(probability density function,pdf)。CDF与pdf之间的关系:在所有 可微的点x,则()()bXaaXbfx dx=-PPXF()()XXfxFx=注意:是可能的()1Xfx()()0,XXxfxx=P例:连续型随机变量的CDF和pmf 例2.12:设X有PDF:显然有 有该密度的随机变量为(0,1)上的均匀分布:Uniform(0,1),即在0和1之间随机选择一个点。其CDF为:()01XXfxfdx=,()1 010Xforxfxotherwise=()000111XxFxxxx 分

    18、位函数(quantile function)令随机变量X的CDF为F,CDF的反函数或分位函数(quantile function)定义为 其中 。若F严格递增并且连续,则 为一个唯一确定的实数x,使得 。为增函数 中值(median):一个很有用的统计量,对噪声比较鲁棒()1inf:()XXFqx Fxq-=0,1q()1XFq-()XFxq=()11 2F-1XF-随机变量的变换 X:老的随机变量,Y:新的随机变量,离散:()XXFx:()Yr X=()()()()YfyYyr Xy=PP()()()()1;x r xyXry-=PP离散型随机变量的变换例2.45:假设Y的取值比X少,因为

    19、该变换不是一一映射。xfX(x)-11/401/211/4yfY(y)01/211/2()()()-1=11 401 2XXX,PPP=()()()()()20=01 21-111 2,YXYXYXX,则,=+=令即PPPPP连续型随机变量的变换方法方法1:CDF方法方法变换的三个步骤1.对每个y,计算集合2.计算CDF3.PDF为 :()yAx r xy()()YYfyFy()()()(;()()yYAXFyYyr Xyx r xyfx dxPPP连续型随机变量的变换 方法方法2:Jacobian方法方法 当r为单调增函数/减函数,定义r的反函数 ,则 当X、Y存在一一映射时,上述结论仍可用

    20、 分区间:在每个 区间内为单调函数,可分区间利用上述结论1sr-=()()()YXds yfyfs ydy例:连续型随机变量的变换 例2.46:令 求Y的概率密度函数(),0 xXfxex-=()logYr XX=例:连续型随机变量的变换 例2.46:则 CDF法:Jacobian方法(),0 xXfxex-=()logYr XX=:yyAx xe=:logyAxxy=()()(log)YFyYyXy=PP()()1yyyeXXeFee-=-P()yyeYfye e-=()()()()1,yyyyyeYXs yryefyfeee e-=()()0()1xxXXFxXxfs dse-=-P例:连

    21、续型随机变量的变换 例:概率积分变换 X有连续CDF ,定义随机变量Y为 ,则Y为0,1上的均匀分布,即 对随机数产生特别有用XF()XYFX=(),01YyyyPx()XFx0.51.001x2x二元随机向量的联合分布 离散型随机变量的联合分布:令X、Y为一对离散型随机变量,联合概率函数(pmf)定义为 联合累积分布函数(CDF)为:(X,Y):随机向量()()(),f x yXxYyXx Yy=且PP()(),X YFx yXx Yy=P 例2.18:对如下有两个随机变量的二元分布,变量X和Y取值为0、1,则 。1,11,15 9fXYP12/31/32/35/92/9X=11/32/91

    22、/9X=0Y=1 Y=0联合分布边缘分布二元随机向量的联合分布 连续型随机变量的联合分布:令X、Y对一对连续型随机变量,联合概率密度函数(pdf)定义为 对任意集合 联合概率分布函数(CDF)为:(,)0 ,f x yx y,,(,),X YFx yXx YyP,(,)AAX YAf x y dxdyRRP,1fx y dxdy 边缘分布 离散型随机变量:()()()()()()()()()()(),.23,2.4,2.5 X YXyyYxxX YfXfxXxXx Yyf x yYfyYyXx Yyf x y=邋邋定:如果有合分布密度函那么 的密度函定如下:的密度函定:PPPP义联数,边缘数义

    23、边缘数义为边缘分布 连续型随机变量:联合分布包含了随机向量概率分布的信息联合分布唯一确定了边缘分布,但反之通常不成立()()()()(),=2.6XYXYfxf x y dyfyf x y dxFF蝌2.25 定 型机量,密度函是:相的分布函分和义 对连续随变边缘数和应边缘数别标记为独立 PDF可以因式分解()()()()2.29,.2.6ABXYXA YBXAYBXY挝=挝C 定 如果于任意 和足以下件,机量和 是相互立的,PPP义对满条则称两个随变独记为。()()(),2.30PDF,X YX YXYXYfx yfx yfx fyXY=C 定理 与 的合所有且足,设联对当仅当满时。独立()

    24、()()()()()()()()()()()2-22.33,2.34200,00,0,2,xyxyXYghf x yxyXYXYexyf x yotherwiseXYg xeh yef x yxyXY-+=+=C定理 与成的范是矩形(可能限大),如果有函和(不必是概率密度函)足例 与 有合概率密度且与 是的矩形域,有因而,设组围无数数满=gh 则 与 相互独立联,当时=gh,随机变量之间的关系 独立 当且仅当 不独立:随机变量之间的关系用条件分布描述 条件分布:XYC()()(),X YXYfx yfx fy=()()(),|,|X YX YYfx yfx yfy=()()()()(),|,|

    25、X YX YYY XXfx yfx y fyfy x fx=条件分布 离散型随机变量的条件概率函数:对连续型随机变量,条件概率定义相同,但解释不同()()()|ABA BB=PPP第一节课中随机事件的条件概率:,|2.35 0,|=|=YX YX YYfyfx yXx Yyfx yXx YyYyfy定:,件概率函定PPP义当时条数义为。条件分布 给定变量Y时,在 X上的概率分布 对Y的每个可能取值,对X都定义有一个概率分布 是一个概率分布,满足概率分布的所有性质,如()|X Yfx yf()|X Yfx yf()()|,()|1()()XYYX YYYfx y dyfyfx y dxfyfy=

    26、f例:条件分布()()()()|2.390,1|,11010101|10 XY XXUniformXY XxUniform xYxfxxyfy xxf=-:例 服,得 的值后,生成那么 的分布是什么?首先注意到,所以设从当获。边缘其他其他()()()()()()(),|,101,|10,1 X YY XXYX Yxyx yfy x fxxYdxdufyfx y dxxu=-=12(,):(,),(,),(,)Bu vug x yvgx yx yA=xxxyyxuvJyyuvuvux抖抖抖抖=-抖抖抖抖12(,),(,)Ug X Y VgX Y=12(,),(,)xh u vyh u v=()(

    27、)()()12,UVXYfu vfh u vh u vJ=Zf思考题:求两个正态分布的和与乘积的分布第三章:期望 上节课内容 随机变量及其分布 随机变量变换的分布 常见分布族 多元随机向量的分布:联合分布、边缘分布、条件分布 本节课内容 常用统计量:期望、方差、矩、中值、分位数 IID样本、样本均值、样本方差期望 期望/均值:随机变量的平均值 概率加权平均()()()()()().xXXxf xXXxdF xxf x dxXXXXxdF xmm=定:如果下述分(或者和)有定的,定的期望值/均值/一距离散我用下式表示 的期望值:4.1 义积义话义阶为:当时当 连续时们=EEE期望 期望是随机变量

    28、的一个很好单值概述:随机变量典型的值或期望值 大数定律(Chp5):当有大量独立同分布(Independed Identical Distribution,IID)样本 时,期望 可视为样本均值 当 ,我们说 是良好定义的(well defined);否则我们说期望不存在。1,.,nXX11nniiXXn=()XxdFx ()XE()XE期望 最小距离最小距离 假设我们用L2距离度量一个随机变量X与一个常数b的距离,即 。b离X越近,这个量就越小。因此我们可以确定b的值,使得 最小,b可认为是X的一个很好预测。问题:如果采用L1作为距离度量呢?()2Xb-()()2Xb-E()()()()()

    29、()()()()()22222 2XbXbXXXbXXXbXXXXXb-=-=-+-=-+-+-+-EEEEEEEEEEEEE()()0XbXX=-=EEE()()22*argminargminbbbXbXbX=-=-=EEE注意:是常数()Xb-E随机变量变换的期望 1.2.注意:当 时,()Xm=E()()()r XrmE()Yr X=()()YYy fy dy=E()()()()()XYr Xr x dFx=EE随机变量变换的期望 例1:,则 概率是一个特殊的期望:概率 为 的期望 例3.7:,则 也可以先求 ,然后()()()()()()AAXXAIxIx fx dxfx dxxA=蝌

    30、EP()1()0AxAr XIxxA=()()11001xxXYe fx dxe dxe=-蝌E()()0,1,XXUniformYr Xe=()()1011eeYYyfy dyydxey=-蝌E()1Yfyy=()xAP()AIxxA随机向量变换的期望()()()()()()100,1max,1-0()1-;1 21()31-41 21 21 2 YYXXUniformYr XXXxr xxxr xxYr x dF xx dxxdx=+=蝌例3.8 任意折一根位度的枝,是的一段。的均值是多少?如果 是折的位置,,.因而,.断单长树设较长断点则当 时当时E随机向量变换的期望 令 例3.9:设(

    31、X,Y)是单位正方形区域上的联合均匀分布,则(),Zr X Y=()()()()(),Zr X Yr x y dF x y=蝌EE()22,Zr X YXY=+()()()()112200112200,2 3Zr x y dF x yxy dxdyx dxy dy=+=+=蝌蝌蝌E期望的性质 线性运算:加法规则:乘法规则:()()aXbaXb+=+EE()113.11,nniiiiiiXXaaa XaX骣=桫邋定理是机量,是常量,有EE设随变 ()113.13,nniiiiXXXX=骣=桫定理 是相互立的机量,有EE设独随变 期望的性质 不好计算。利用加法规则:令 则()1,0 1-iipXB

    32、ernoulli pXp=概率概率()()()()()111110,innniiiiiiXpppXXXXXnp=+-=骣=桫邋EEEE()()()()()03.12,1 nn xxXXxxXBinomial n pXnXxdFxxfxxppx-=骣=-桫邋:例 的均值是多少?求助于定:E设。义众数(mode)众数:设随机变量X有密度 ,且存在 满足 ,则称 为X的众数。随机变量出现次数最多的位置 期望、中位数和众数都称为位置参数。当随机变量的分布为高斯分布时,三者相等()()0maxf xf x=()f x0 x0 x方差 方差:刻画随机变量围绕均值的散布程度 方差越大,X变化越大;方差越小,

    33、X与 越接近 方差:二阶中心矩XE()()()()()222223.12,XXXXXXXxdF xsdXmsssmmss=-=-=定 是有均值 的 机 量的方差或假 期望存在,准差是 又或VVEV义 设随 变,记为、:设标记为。方差的性质注意:期望的加法规则无需独立条件 不独立随机变量和的方差计算需考虑变量之间的协方差()()()()()222211113.152.,3.,nnnniiiiiiXXa bXaXXXaaa XaXm=-=骣技=桫邋定理 方差有定,有以下性:是常如果立,且常,VEV=VVV设义则质1.当数时,a+b独为数则。方差此时为确定性事件,故没有变化,方差为0()()()()

    34、()()()()()()()()()()()()()()()2222223.16,1,01,01110110111.10 iiiiiiiiiiiiiiiiiXBinomial n pXXiXXXXXpXpXpppXpppXXpppppXXXppnpppp=-=+-=+-=-=-=-=-=-=邋:例 中如果第 次的硬正面朝上否。那么各量是立的。回:因此,果注意如果或PPEEVEVVV设。记其抛币则则,变独,忆,结:()0X=V时,。样本均值和方差 令 为IID,样本均值定义为 计算均值时忽略了概率?样本方差定义为1,.,nXX11nniiXXn=()xxf x()22111nnniiSXXn=-

    35、样本均值和方差 和 分别为 和 的很好估计(无偏估计)nX2nSm2s()()()()()212223.17,IID niinnnXXXXXXSnmssms=定理 是那么EVEVE设,=,=,协方差(covariance)/相关系数 协方差/相关系数:刻画两个随机变量之间关系强弱()()2,XCov X XXs=V()()()()(),3.18 ,XYXYXYX YXYX YXYCov X YXYCov X YX Ymmssmmrrrs s轾=-臌=定分是具有均值准差的机量,定与 的方差相系E义 别、标随变义协为关数为协方差(covariance)/相关系数 X、Y独立,则X、Y 不相关:但反

    36、过来不成立!()()()(),0XYXYCov X Y=EEE()()()()()3.19 ,1,1Cov X YXYXYX Yr=-定理 方差足:相系足:EEE协满关数满()()()()()()()()()()(),XYXYXYXYXYXYXYXYXYXYCovX YXYCovX YXYXYYXXYYXXYXYmmmmmmmmmmmmmmmmmmmm=-轾=-臌=-+=-+=-+=-明:EEEEEEEE证协方差的性质 对任意两个随机变量X和Y,有 当X、Y独立时:推广到多个随机变量:()()()()()()()()+2,+2,XYXYCov X YXYXYCov X Y+=+-=-VVVVV

    37、V()()()()+XYXYXY+=-=VVVV()()()2 2,iiiiijijiii jXXCov X Yaaaa(),1X Yr=0a,1X Y(),0r=X Y()(),X YXYCov X YX Yrrrs s=条件期望 给定变量Y时,在 X上的概率分布 对Y的每个可能取值,对X都定义有一个概率分布 也能求期望,称为条件期望()|X Yfx yf条件期望 :数字 :y的函数。在知道y的值之前,不知道 :随机变量,当Y=y时,的值 :随机变量()|X YE()XE()|X Yy=E()|X Yy=E()|X Yy=E()(),|r X YYE()()()()()()()()()()|

    38、3.22|,|,|,|X YX YX YX YYyXxfx yX Yyxfx y dxr x yxyr x y fx yr X YYyr x y fx y dx=定 定,的件期望是离散情情如果是 和 的函,那么离散情情EE义给时条况连续况数况连续况条件期望 例3.23:假定对 采样,在给定x后,在对 采样 直观地,期望 实事上,对 ,有 得到期望 因而 注意:是随机变量,当 时,其值为 思考题:当X与Y独立时 ,的值?()|X Yy=E()0,1XUniform()|,1Y XUniform x()()|1/2Y Xxx=+E1xy()()|1/1-Y Xfy xx=()()11|11|1-2

    39、Y XxxxY Xxyfy x dyydyx+=蝌E()()|1/2Y XX=+E()()|1/2Y XX=+EXx=()()|1/2Y Xxx=+E条件期望 3.24 定理:对随机变量X和Y,假设其期望存在,则 更一般地,对任意函数 证明:利用条件期望的定义和()()()()|=,|=Y XYX YX轾轾臌臌E EEE EE()()()(),|=,r X YXr X Y轾犏臌E EE(),r x y与Y有关的随机变量()()(),|f x yf x f y x=()()()()()()()()()|=|,XXXY XY Xx fx dxyf y x dyfx dxyf y x fx dxdy

    40、yf x y dxdyY轾=臌=蝌蝌E EEE条件期望 3.25例:考察3.23例:怎样计算?一种方法是计算联合密度 ,然后计算 另一种更简单的方法是分两步计算 计算 计算()YE(),f x y()(),Yyf x y dxdy=E()()()()1=|=22 XXYY XX骣骣+轾=臌桫桫骣 骣琪 桫桫EE EEEE1+11+1+2=3 422()1|=2XY X+E()()0,1|,1 XUniformY XUniform x,条件方差 3.26 定义:条件方差定义为 其中 定理3.27:对随机变量X和Y,()()()()2|Y Xxyxfy x dym=-V()()|xY Xxm=E(

    41、)()()=|YY XY X+VEVV E层次模型 例:在一个分布族中,分布族由一个/一些参数决定,如 ,这些参数 通常又是一个随机变量(贝叶斯学派的观点,参数也是随机变量),则最终的分布为一个层次模型,称为混合分布(mixture distribution)渐增式地定义一个复杂的模型:通过条件分布与边缘分布 希望知道 ,至少是其期望和均值(条件期望和方差)()|f xqfqf()f xf层次模型 例:假设昆虫会产很多数量的蛋,蛋的数量为一个随机变量,用 表示;另外假设每个蛋的是否存活是独立的,存活的概率为p,为Bernoulli分布,用X表示存活的数量,则()|,X YBinomial Y

    42、pf()YPoissionlf()()00()(,)(|)()1!yyyyxxyxxpXxXx YyXx YyYyyeppxyepxf PPPPllll=-=-=轾轾骣 犏犏=-犏犏桫臌臌=()XPoissionplf层次模型期望:亦可通过条件期望计算:方差:亦可通过条件期望计算:()Xpl=E()()()()|XX YpYpl=EE EE()Xpl=V()()()()()()()()()()()()22|1 1 1XX YX YYppYpppYpYpppplll=+=-+=-+=-+=VE VV EEVEV矩 r阶矩:1阶矩 r阶中心矩:2阶中心矩:方差 3阶中心矩:偏度 4阶中心矩:峰度(

    43、)Xm=E()rXm=E()()rXmm=-E矩母函数(Moment Generating Functions)矩母函数:用于计算矩、随机变量和的分布和定理证明 3.29 定义:X的矩母函数(MGF),或Laplace变换定义为 其中t在实数上变化。若MGF是有定义的,可以证明可以交换微分操作和求期望操作,所以有:取k阶导数,可以得到()()()tXtxXXtee dFxy=E()()0000tXtXtXtttddeeXeXdtdty=轾轾轾犏犏=犏臌犏犏臌臌EEEE()()0kkXy轾=犏臌E方便计算分布的矩矩母函数 3.10 例:令 ,对任意 ,有 当 时,上述积分是发散的。所以()()(

    44、)10011txtXtxxXtee edxedxty-=-蝌E(1)XExp1t 1t()()()()201,02XXyy=EE()()()221XXX轾=-=臌VEE矩母函数的性质 3.31 引理:MGF的性质 若 ,则 若 独立,且 ,则 3.32 例:所以YaXb=+()()btYXteatyy=1,nXXiiYX=()()iYXittyy=(),XBinomial n p:()1,niiiXBernoulli pXX=()()()()()()()1,1iiitXttXntXXitepeppeqqpttpeqyyy=+-=+=-=+E矩母函数的性质 3.33 定理:令X、Y为随机变量,如果对在0附件的一个开区间内所有的t,有 ,则 。3.23 例:令 且 独立,则 为分布 的MGF,即()()YXttyy=dXY=()()1122,XBinomial n pXBinomial np:12,XX12YXX=+()()()()()()121212 nnttYXXnnttttpeqpeqpeqyyy+=+=+()12,Binomial nnp+()12,YBinomial nnp+

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:统计机器学习基础-probability课件.ppt
    链接地址:https://www.163wenku.com/p-3525618.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库