数据挖掘技术十课Bayes分类方法课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘技术十课Bayes分类方法课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 技术 Bayes 分类 方法 课件
- 资源描述:
-
1、u朴素朴素Bayes分类分类uBayes网络网络u集成方法集成方法u一个用于解决分类问题的概率框架u条件概率:u Bayes定理:)()()|()|(APCPCAPACP)(),()|()(),()|(CPCAPCAPAPCAPACPu给定:50%的脑膜炎患者脖子僵硬 人得脑膜炎的概率是1/50,000 脖子僵硬的人的概率是 1/20u若某个患者脖子僵硬,则他患脑膜炎的概率是多少?0002.020/150000/15.0)()()|()|(SPMPMSPSMPu将每个属性及类别标记视为随机变量u给定一个具有属性集合(A1,A2,An)的记录 目标是预测类别属性C 具体而言,要寻找使得P(C|A
2、1,A2,An)最大的类别Cu方法:利用Bayes定理计算所有类别C的后验概率P(C|A1,A2,An)选择使如下概率值最大的类别C P(C|A1,A2,An)等价于使如下概率值最大 P(A1,A2,An|C)P(C)()()|()|(212121nnnAAAPCPCAAAPAAACPu假定给定类别的条件下属性Ai之间是独立的:P(A1,A2,An|C)=P(A1|Cj)P(A2|Cj)P(An|Cj)可以从Ai和Cj中估算出P(Ai|Cj)类别为使P(Cj)P(Ai|Cj)最大的类Cju类:P(C)=Nc/N e.g.,P(No)=7/10,P(Yes)=3/10u对离散属性k:P(Ai|C
3、k)=|Aik|/Nc 其中|Aik|是属于类Ck,并具有属性值Ai的记录数量 如:P(Status=Married|No)=4/7P(Refund=Yes|Yes)=0T id R e fu n d M a rita l S ta tu s T a x a b le In c o m e E va d e 1 Y e s S in g le 1 2 5 K N o 2 N o M a rrie d 1 0 0 K N o 3 N o S in g le 7 0 K N o 4 Y e s M a rrie d 1 2 0 K N o 5 N o D ivo rce d 9 5 K Y e s
4、 6 N o M a rrie d 6 0 K N o 7 Y e s D ivo rce d 2 2 0 K N o 8 N o S in g le 8 5 K Y e s 9 N o M a rrie d 7 5 K N o 1 0 N o S in g le 9 0 K Y e s 10 catego rica lcateg o rica lco ntin u ou sclassu对连续属性:将区间离散化至不同的桶 违背了独立性假设 2路分割:(A P(X|Yes)P(Yes)Therefore P(No|X)P(Yes|X)=Class=No给定一条测试记录:NameGive Birt
5、hCan FlyLive in WaterHave LegsClasshumanyesnonoyesmammalspythonnononononon-mammalssalmonnonoyesnonon-mammalswhaleyesnoyesnomammalsfrognonosometimes yesnon-mammalskomodonononoyesnon-mammalsbatyesyesnoyesmammalspigeonnoyesnoyesnon-mammalscatyesnonoyesmammalsleopard sharkyesnoyesnonon-mammalsturtlenono
6、sometimes yesnon-mammalspenguinnonosometimes yesnon-mammalsporcupineyesnonoyesmammalseelnonoyesnonon-mammalssalamandernonosometimes yesnon-mammalsgila monsternononoyesnon-mammalsplatypusnononoyesmammalsowlnoyesnoyesnon-mammalsdolphinyesnoyesnomammalseaglenoyesnoyesnon-mammalsGive BirthCan FlyLive in
7、 Water Have LegsClassyesnoyesno?0027.02013004.0)()|(021.020706.0)()|(0042.01341331310131)|(06.072727676)|(NPNAPMPMAPNAPMAPA:attributesM:mammalsN:non-mammalsP(A|M)P(M)P(A|N)P(N)=Mammalsu抗噪声能力强u在概率估算阶段,通过忽略整条记录来处理缺失值u抗无关属性的能力强u属性独立的假设可能对某些属性不成立 可以使用Bayes信度网络(Bayesian Belief Networks,BBN)u朴素朴素Bayes分类分类
展开阅读全文