数据挖掘概念与技术CHAPTER6分类ClassAdvanced精选课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘概念与技术CHAPTER6分类ClassAdvanced精选课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概念 技术 CHAPTER6 分类 ClassAdvanced 精选 课件
- 资源描述:
-
1、1Chapter 6.分类分类:Advanced Methodsn贝叶斯信念网络n后向传播分类 Classification by Backpropagationn支持向量机 Support Vector MachinesnClassification by Using Frequent PatternsnLazy Learners(or Learning from Your Neighbors)n其他分类方法nAdditional Topics Regarding ClassificationnSummary2贝叶斯信念网络贝叶斯信念网络nBayesian belief networks(又
2、称为 Bayesian networks,probabilistic networks):允许变量子集间定义类条件独立n(有向无环)因果关系的图模型n表示变量间的依赖关系n给出了一个联合概率分布q Nodes:随机变量q Links:依赖关系q X,Y 是Z的双亲,Y is the parent of PqZ 和 P间没有依赖关系q 没有环3贝叶斯信念网络贝叶斯信念网络:An ExampleFamilyHistory(FH)LungCancer(LC)PositiveXRaySmoker(S)EmphysemaDyspneaLCLC(FH,S)(FH,S)(FH,S)(FH,S)0.80.20
3、.50.50.70.30.10.9CPT:Conditional Probability Table for variable LungCancer:niYParentsixiPxxPn1)(|(),.,(1显示父母的每个可能组合的条件概率从从CPT推倒推倒 X的特定值得概率的特定值得概率4训练贝叶斯网路训练贝叶斯网路:几种方案几种方案nScenario 1:给定网络结构和所有变量观察:只计算CPTnScenario 2:网络结构已知,某些变量隐藏:梯度下降法(贪心爬山),i.e.,沿着准则函数的最速下降方向搜索解n权重初始化为随机值n每次迭代中,似乎是对目前的最佳解决方案前进,没有回溯n每次
4、迭代中权重被更新,并且收敛到局部最优解nScenario 3:网络结构未知,所有变量可知:搜索模型空间构造网络拓扑nScenario 4:未知结构,隐藏变量:目前没有好的算法nD.Heckerman.A Tutorial on Learning with Bayesian Networks.In Learning in Graphical Models,M.Jordan,ed.MIT Press,2019.5Chapter 6.分类分类:Advanced MethodsnBayesian Belief NetworksnClassification by BackpropagationnSup
5、port Vector MachinesnClassification by Using Frequent PatternsnLazy Learners(or Learning from Your Neighbors)nOther Classification MethodsnAdditional Topics Regarding ClassificationnSummary6用反向传播分类用反向传播分类n反向传播:一种神经网络学习算法 n最早是由心理学家和神经学家开创的,开发和测试神经元计算模拟n神经网络:一组连接的输入/输出单元,其中每个连接都与一个权重关联n通过调整权重来学习,能够输入元
6、组的正确类别标号n又被称为连接者学习connectionist learning7神经网络作为分类器神经网络作为分类器n弱点弱点n学习时间很长学习时间很长 n需要很多参数(常靠经验确定)需要很多参数(常靠经验确定),如网络的结构如网络的结构 n可解释性差可解释性差:很难解释权重和网络中很难解释权重和网络中“隐藏单元隐藏单元”的含义的含义n优势优势n对噪音数据的高承受能力对噪音数据的高承受能力n分类未经训练的模式的能力分类未经训练的模式的能力n非常适合处理连续值的输入非常适合处理连续值的输入/输出输出n成功地应用于现实数据成功地应用于现实数据,e.g.,手写字符识别手写字符识别n算法是固有并行的
7、算法是固有并行的n已经发展了一些从训练好的神经网路提取规则的技术已经发展了一些从训练好的神经网路提取规则的技术8多层前馈神经网络多层前馈神经网络 输出层输出层输入层输入层隐藏层隐藏层Output vectorInput vector:Xwijijkiikjkjxyyww)()()()1(9多层前馈神经网络多层前馈神经网络n网络的输入输入对应于每个训练元组的测量属性 n输入同时传给称作输入层输入层的单元n加权后同时传递给隐藏层n隐藏层的数目是任意的,通常只有一个n最后一个隐藏层的输出权重后作为输入传递给称为输出层,此处给出网络的预测n前馈feed-forward:权重都不反馈到输入单元或前一层的
8、输出单元n从统计学观点,网络进行一个非线性回归;给定足够的隐藏单元和训练数据,可以逼近任何函数10定义网络拓扑定义网络拓扑n确定网络拓扑确定网络拓扑:给定输入层的单元数,隐藏层数(if 1),每个隐藏层的单元数,输出层的单元数n规格化训练元组的输入值 0.01.0n对于离散值,可重新编码,每个可能的值一个输入单元并初始化0n输出输出,如果涉及超过两个类别则一个输出单元对应一个类别n一旦一个训练好的网络其准确率达不到要求时,用不同的网络拓扑和初始值重新训练网络11反向传播反向传播Backpropagationn迭代地处理训练数据&比较网络的预测值和实际的目标值n对每个训练元组,修改权重最小化目标
9、的预测值和实际值之间的mean squared errorn这种修改后向进行:从输出层开始,通过每个隐藏层直到第一个隐藏层n步骤n初始化权重为一个小的随机数,以及偏倚 biases n向前传播输入(应用激励函数)n向后传播误差(更新权重和偏倚)n停止条件(当误差非常小,etc.)12神经元神经元:一个隐藏一个隐藏/输出层单元输出层单元 n一个n-维输入向量x被映射被映射到变量y,通过非线性函数映射n单元的输入是前一层的输出.被乘上权重后求和且加上此单元的偏倚.然后应用一个非线性激励函数.mk f输入向量输入向量xoutput y激励激励weightvector ww0w1wnx0 x1xn)s
10、ign(yExampleFor n0ikiixwmbias权重和权重和后向传播算法后向传播算法14效率和可解释性效率和可解释性n向后传播的效率向后传播的效率:每次迭代 O(|D|*w),|D|为元组数,w 个权重,最坏的情况下迭代的次数可能是元组数的指数n为了更容易理解:通过网络修剪网络修剪提取规则n简化网络结构,去除对训练的网络有最弱影响的权重连接n对连接,单元,or 活跃值聚类n输入和活跃值集合用来推导描述输入和隐藏层间关系的规则nSensitivity analysis:评估一个给定的输入变量对网络输出的影响。从中获得的知识可以表示为规则。nIF X 减少5%THEN Y增加15Chap
11、ter 6.分类分类:Advanced Methodsn贝叶斯信念网络n后向传播分类 Classification by Backpropagationn支持向量机 Support Vector MachinesnClassification by Using Frequent PatternsnLazy Learners(or Learning from Your Neighbors)n其他分类方法nAdditional Topics Regarding ClassificationnSummary16分类分类:一个数学映射一个数学映射nClassification:预测分类的类标签nE.g
12、.,个人主页分类nxi=(x1,x2,x3,),yi=+1 or 1nx1:#of word“homepage”nx2:#of word“welcome”n x X=n,y Y=+1,1,n推导一个函数 f:X Y n线性分类n二元分类问题n红线上面的点属于 class xn下面的点属于 class onExamples:SVM,Perceptron,Probabilistic Classifiersxxxxxxxxxxooooooooooooo17SVMSupport Vector Machinesn一个相对新的分类方法,适用于linear and nonlinear datan使用一个非线
13、性映射把原始训练数据变换到高维空间中n在新的维上,搜索线性优化分离超平面hyperplane(i.e.,“决策边界”)n用一个合适的足够高维的映射,两类数据总是可以被超平面分开nSVM 使用support vectors(“基本”选练元组)和边缘margins(由支持向量定义)发现超平面18SVM历史和应用历史和应用nVapnik and colleagues(1992)基础工作来自于Vapnik&Chervonenkis statistical learning theory in 1960snFeatures:训练慢但是准确度高,由于能够建模非线性决策边界(margin maximizat
14、ion)nUsed for:分类和数值预测n应用:n手写数字识别,object recognition,speaker identification,基准时间序列预测检验 19支持向量机的一般哲学支持向量机的一般哲学Support VectorsSmall Margin边界Large Margin2022年8月12日星期五Data Mining:Concepts and Techniques20SVMMargins and Support Vectors21SVM当数据线性可分时当数据线性可分时mD 为(X1,y1),(X|D|,y|D|),其中 Xi 带标签yi的训练元组有无数条直线(hyp
15、erplanes)可以分离两个类,但我们需要发现最好的一个(对未知数据有最小化的分类误差)SVM searches for the hyperplane with the largest margin,i.e.,maximum marginal hyperplane(MMH)22SVM线性可分线性可分n一个分离超平面可以写成W X+b=0W=w1,w2,wn 权重向量和标量b(bias)n对于2-D,可以写成w0+w1 x1+w2 x2=0n超平面定义了边缘的边界:H1:w0+w1 x1+w2 x2 1 for yi=+1,andH2:w0+w1 x1+w2 x2 1 for yi=1n任何一
16、个位于超平面H1 or H2(i.e.,the sides defining the margin)的样本为 support vectorsn最大边缘是最大边缘是 2/wmaxn是一个 constrained(convex)quadratic optimization problem:二次目标函数和线性约束 Quadratic Programming(QP)Lagrangian multipliers23Why Is SVM Effective on High Dimensional Data?n训练后的分类器的complexity由支持向量数而不是数据维度刻画n支持向量support vec
17、tors是基本的/临界的训练元组离决策边界最近(MMH)n如果其他的样本删掉后重新训练仍然会发现相同的分离超平面n支持向量的数目可用于计算(svm分类器)期望误差率的上界(upper),其独立于数据维度n一个只有少量支持向量的svm有很好的推广性能,即使数据的维度很高时24SVM线性不可分线性不可分n把原始输入数据变换到一个更高维的空间nSearch for a linear separating hyperplane in the new spaceA1A225SVM:不同的核函数不同的核函数n计算变换后数据的点积,数学上等价于应用一个核函数K(Xi,Xj)于原始数据,i.e.,K(Xi,X
18、j)=(Xi)(Xj)nTypical Kernel FunctionsnSVM 也可用于多类数据(2)和回归分析(需要附加参数)26SVM vs.Neural NetworknSVMnDeterministic algorithmnNice generalization propertiesnHard to learn 使用 quadratic programming techniques批量学习nUsing kernels can learn very complex functionsnNeural NetworknNondeterministic algorithmnGeneraliz
19、es well but doesnt have strong mathematical foundationnCan easily be learned in incremental fashionnTo learn complex functionsuse multilayer perceptron(nontrivial)27SVM Related LinksnSVM Website:kernel-machines.org/nRepresentative implementationsnLIBSVM:an efficient implementation of SVM,multi-class
20、 classifications,nu-SVM,one-class SVM,including also various interfaces with java,python,etc.nSVM-light:simpler but performance is not better than LIBSVM,support only binary classification and only in C nSVM-torch:another recent implementation also written in C28Chapter 6.惰性学习惰性学习nBayesian Belief Ne
21、tworksnClassification by BackpropagationnSupport Vector MachinesnClassification by Using Frequent PatternsnLazy Learners(or Learning from Your Neighbors)nOther Classification MethodsnAdditional Topics Regarding ClassificationnSummary29Lazy vs.Eager LearningnLazy vs.eager learningnLazy learning(e.g.,
22、基于实例的学习):仅存储数据(或稍加处理)直到碰到检验元组才开始处理nEager learning(前面介绍的方法):给定训练数据,在遇到待处理的新数据前构造分类模型nLazy:训练用时很少,预测时用时多n准确性n惰性学习方法可以有效地利用更丰富的假设空间,使用多个局部线性函数来对目标函数形成一个隐式的全局逼近nEager:必须限于一个假设,它覆盖了整个实例空间30Lazy Learner:基于实例的方法基于实例的方法nInstance-based learning:nStore training examples and delay the processing(“lazy evaluati
23、on”)until a new instance must be classifiedn典型的方法nk-nearest neighbor approachn实例表示为欧氏空间中的点.nLocally weighted regressionnConstructs local approximationn基于案例的推理Case-based reasoningn使用符号表示和知识为基础的推理31k-最近邻算法最近邻算法n所有的样本对应于n-D 空间的点n通过Euclidean distance,dist(X1,X2)定义最近邻居n目标函数可以是discrete-or real-值n对于离散值,k-N
24、N 返回与目标元组最近的k个训练样本的多数类nVonoroi diagram:the decision surface induced by 1-NN for a typical set of training examples ._+_xq+_+_+.32k-NN Algorithm的讨论的讨论nk-NN:元组的未知实值的预测时n返回与未知元组k个最近邻居的平均值(对应属性)nDistance-weighted nearest neighbor algorithmn根据与目标元组的距离权重组合k个近邻的贡献nGive greater weight to closer neighborsnRo
25、bust to noisy data by averaging k-nearest neighborsnCurse of dimensionality:邻居间的距离会被无关联的属性影响 n坐标轴伸缩或去除次要的属性2),(1ixqxdw33基于案例的推理基于案例的推理(CBR)nCBR:使用一个问题解的数据库来求解新问题n存储符号描述(tuples or cases)不是Euclidean space的点n应用:顾客-服务台(产品有关的诊断),合法裁决nMethodologyn实例表示为复杂的符号描述(e.g.,function graphs)n搜索相似的案例,组合多个返回的例子nTight
展开阅读全文