人工智能3贝叶斯统计机器学习2.pptx

上传人（卖家）：晟晟文业

文档编号：4522134

上传时间：2022-12-16

格式：PPTX

页数：79

大小：2.34MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

28 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《人工智能3贝叶斯统计机器学习2.pptx》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 人工智能贝叶斯统计机器学习

资源描述：: 1、人工智能-3贝叶斯统计机器学习2主要内容贝叶斯决策理论机器学习的几种方法机器学习问题实例机器学习问题实例机器学习的主要模型线性回归模型逻辑回归模型神经网络模型支持向量机模型参考讲义模式识别与机器学习第1章,1.2 概率论 1.5 决策论第3章 3.1 第4章 4.3（4.3.1,4.3.2）第5章,5.1，5.2，5.3相关的基本概念训练集合x1,，xN目标向量 t 映射函数:y(x)推广性(举一反三)模型评估与模型选择正则化与交叉验证分类回归(regression)reinforcement learning模式识别与机器学习的基本问题监督学习:分类，回归(re
2、gression)输入变量:x,目标变量:t给定训练样本:x,t目标：（学习出x 和t的函数关系）给定x 预测t模式识别与机器学习的基本问题学习数据学习数据算法：解释数据算法：解释数据结果：预测数据结果：预测数据衡量算法：推广能力衡量算法：推广能力理论原则：拟合训练数据理论原则：拟合训练数据+最简模型最简模型用用函数或其它模型表示数据函数或其它模型表示数据Polynomial Curve Fitting 多项式多项式曲线拟合曲线拟合-问题描述输入变量:x目标变量:t生成过程:给定训练样本:x x,t t sin(2)tx 实际问题中是未知的Polynomial Curve FittingPol
3、ynomial Curve Fitting 目标:给定新的，预测的值线性模型:利用训练样本，估计模型的参数方法:误差平方和最小:xtSum-of-Squares Error Function0th Order Polynomial1st Order Polynomial3rd Order Polynomial9th Order Polynomial模型评估与模型选择 Polynomial Curve Fitting 哪一个最好？训练误差测试误差过训练均方误差(root-mean-square)Over-fittingRoot-Mean-Square(RMS)Error:Polynomia
4、l Curve Fitting 过训练的相关因素模型复杂度Polynomial Coefficients Polynomial Curve Fitting 过训练的相关因素模型复杂度训练样本数Data Set Size:9th Order PolynomialData Set Size:9th Order Polynomial模型评估与模型选择过训练的相关因素模型复杂度训练样本数学习方法最大似然贝叶斯方法正则化与交叉验证 Regularization：Penalize large coefficient valuesRegularization:Regularization:Regulari
5、zation:vs.Polynomial Coefficients 正则化与交叉验证交叉验证交叉验证：训练集 training set：用于训练模型验证集 validation set：用于模型选择测试集 test set：用于最终对学习方法的评估简单交叉验证 S折交叉验证留一交叉验证分类问题分类问题二分类评价指标 TP true positive FN false negative FP false positive TN true negative 精确率召回率 F1值回归问题回归模型是表示从输入变量到输出变量之间映射的函数.回归问题的学习等价于函数拟合。学习和预测两个阶段
6、训练集：回归问题例子：标记表示名词短语的“开始”、“结束”或“其他”（分别以B,E,O表示)输入：At Microsoft Research,we have an insatiable curiosity and the desire to create new technology that will help define the computing experience.输出：At/O Microsoft/B Research/E,we/O have/O an/O insatiable/6 curiosity/E and/O the/O desire/BE to/O create/O
7、 new/B technology/E that/O will/O help/O define/O the/O computing/B experience/E.主要内容贝叶斯决策理论机器学习的几种方法机器学习问题实例机器学习的主要模型机器学习的主要模型线性回归模型线性回归模型逻辑回归模型神经网络模型支持向量机模型Linear Basis Function Models(1)Example:Polynomial Curve FittingLinear Basis Function Models(2)Generally where j(x)are known as basis f
8、unctions.Typically,0(x)=1,so that w0 acts as a bias.In the simplest case,we use linear basis functions:d(x)=xd.Linear Basis Function Models(3)Polynomial basis functions:These are global;a small change in x affect all basis functions.Linear Basis Function Models(4)Gaussian basis functions:These are l
9、ocal;a small change in x only affect nearby basis functions.j and s control location and scale(width).Linear Basis Function Models(5)Sigmoidal basis functions:whereAlso these are local;a small change in x only affect nearby basis functions.j and s control location and scale(slope).主要内容贝叶斯决策理论机器学习的
10、几种方法机器学习问题实例机器学习的主要模型机器学习的主要模型线性回归模型逻辑回归模型逻辑回归模型神经网络模型支持向量机模型固定基函数固定基函数 1Two Gaussian basis functions 1(x)and 2(x)固定基函数固定基函数2Two Gaussian basis functions 1(x)and 2(x)逻辑斯谛回归逻辑斯谛回归 logistic regressionadjustable parametersGaussian:M(M+5)/2+1logistic regression:Mlogistic sigmoidlogistic sigmoidnor
11、malized exponential(softmax function)补充补充：交叉熵损失函数相对平方损失过于严格，可使用更适合衡量两个概率分布差异的测量函数。其中，u 交叉交叉熵熵（cross-entropy）是个常用的衡量方法：由于向量中只有第个元素为 1，其余全为 0，于是假设训练数据集的样本数为 n，交叉熵损失函数定义为其中代表模型参数。u同样地，如果每个样本只有个标签，那么交叉熵损失可以简写。u从另个角度来看，我们知道最小化等价于最大化即最小化交叉熵损失函数等价于最化训练数据集所有标签类别的联合预测概率 KL散度（Kullback-Leibler(KL)diver
12、gence）u 如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x)和 Q(x)，可以使用 KL 散度来衡量这两个分布的差异：u 和 KL 散度密切联系的量是交叉熵它和 KL 散度很像但是缺少左边一项：补充：决策树中的信息增益例，信息增益比信息增益比主要内容贝叶斯决策理论机器学习的几种方法机器学习问题实例机器学习的主要模型机器学习的主要模型线性回归模型逻辑回归模型神经网络模型神经网络模型支持向量机模型神经元人工神经元结点这种模型所实现的功能正是前面提到的线性分类器。非线性的映射单元Feed-forward Network Functions 1training
13、 the basis functions人工神经元网络工作原理复杂一些的判别函数将特征空间划分成两个区域两条射线组成的折线来划分在折线的一边为y=1，在折线的另一边y=0 显然用一个神经元是不行人工神经元网络工作原理复杂一些的判别函数整个空间将因这两个函数值的极性不同分成四个区域y=0这个区域所具有的特点是与都小于零需要增加一个逻辑运算才能解决问题三个运算可以通过三个神经元结点人工神经元网络工作原理复杂一些的判别函数Whereas a two-layer network classifier can only implement a linear decisionbound
14、ary,given an adequate number of hidden units,three-,four-and higher-layernetworks can implement arbitrary decision boundaries.The decision regions need notbe convex or simply connected.From:Richard O.Duda,Peter E.Hart,and David G.Stork,Pattern Classification.Copyright c 2001 by John Wiley&Sons,Inc.P
15、arameter optimization参数最优化Local quadratic approximation局部二次近似Use of gradient information使用梯度信息所有独立元素：W(W+3)/2 O(W2)非利用梯度信息：O(W2)function O(W)stepsO(W3)利用梯度信息：O(W)gradient evaluations O(W)stepsO(W2)Gradient descent optimization梯度下降最优化 batch methods批量优化l gradient descent,steepest descentlconjugate gra
16、dients lquasi-Newton methods 在线优化l sequential gradient descent or stochastic gradient descentError Backpropagation误差反向传播 Error BackpropagationlIn the first stage计算权值导数使用于其他网络lIn the second stage计算权值调整量Evaluation of error-function derivatives 1error functionforward propagationeach unit computes a wei
17、ghted sum of its inputsnonlinear activation functionEvaluation of error-function derivatives 2the derivative of Enwith respect to a weight wjifor the output unitsEvaluation of error-function derivatives 3for hidden unitsjjjkazzaEvaluation of error-function derivatives 4 Error Backpropagation主要内容贝叶斯
18、决策理论机器学习的几种方法机器学习问题实例机器学习的主要模型机器学习的主要模型线性回归模型逻辑回归模型神经网络模型支持支持向量机模型向量机模型Maximum Margin Classifiers 1 the two-class classification problemy(x)=wT(x)+b training data set N input vectors x1,.,xN target values t1,.,tN tn 1,1 new data points x are classified according to the sign of y(x)assume line
19、arly separable tn y(xn)0Maximum Margin Classifiers 2 many such solutions exist the perceptron algorithm find a solution in a finite number of steps dependent on the (arbitrary)initial values chosen for w and bthe order which the data points are presentedwe should try to find the smallest generalizat
20、ion error one The support vector machine the concept of the margin:defined to be the smallest distance between the decision boundary and any of the samplesMaximum Margin Classifiers 3Maximum MarginMaximum Margin Classifiers 3Maximum Marginy=0y=1y=-1y=0y=1y=-1Maximum Margin Classifiers 4 the perpendicular distance of a point x from a hyperplane(y(x)=0):|y(x)|/|w|the distance of a point xn to the decision surface 思考与讨论

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：人工智能3贝叶斯统计机器学习2.pptx
链接地址：https://www.163wenku.com/p-4522134.html

晟晟文业

内容提供者

实名认证

联系作者