书签 分享 收藏 举报 版权申诉 / 79
上传文档赚钱

类型人工智能3贝叶斯统计机器学习2.pptx

  • 上传人(卖家):晟晟文业
  • 文档编号:4522134
  • 上传时间:2022-12-16
  • 格式:PPTX
  • 页数:79
  • 大小:2.34MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《人工智能3贝叶斯统计机器学习2.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    人工智能 贝叶斯 统计 机器 学习
    资源描述:

    1、人工智能-3贝叶斯统计机器学习2主要内容 贝叶斯决策理论 机器学习的几种方法 机器学习问题实例机器学习问题实例 机器学习的主要模型 线性回归模型 逻辑回归模型 神经网络模型 支持向量机模型参考讲义 模式识别与机器学习 第1章,1.2 概率论 1.5 决策论 第3章 3.1 第4章 4.3(4.3.1,4.3.2)第5章,5.1,5.2,5.3相关的基本概念训练集合x1,,xN目标向量 t 映射函数:y(x)推广性(举一反三)模型评估与模型选择 正则化与交叉验证 分类 回归(regression)reinforcement learning模式识别与机器学习的基本问题 监督学习:分类,回归(re

    2、gression)输入变量:x,目标变量:t给定训练样本:x,t目标:(学习出x 和t的函数关系)给定x 预测t模式识别与机器学习的基本问题学习数据学习数据算法:解释数据算法:解释数据结果:预测数据结果:预测数据衡量算法:推广能力衡量算法:推广能力理论原则:拟合训练数据理论原则:拟合训练数据+最简模型最简模型用用函数或其它模型表示数据函数或其它模型表示数据Polynomial Curve Fitting 多项式多项式曲线拟合曲线拟合-问题描述输入变量:x目标变量:t生成过程:给定训练样本:x x,t t sin(2)tx 实际问题中是未知的Polynomial Curve FittingPol

    3、ynomial Curve Fitting 目标:给定新的 ,预测的 值 线性模型:利用训练样本,估计模型的参数方法:误差平方和最小:xtSum-of-Squares Error Function0th Order Polynomial1st Order Polynomial3rd Order Polynomial9th Order Polynomial模型评估与模型选择 Polynomial Curve Fitting 哪一个最好?训练误差测试误差过训练均方误差(root-mean-square)Over-fittingRoot-Mean-Square(RMS)Error:Polynomia

    4、l Curve Fitting 过训练的相关因素模型复杂度Polynomial Coefficients Polynomial Curve Fitting 过训练的相关因素模型复杂度训练样本数Data Set Size:9th Order PolynomialData Set Size:9th Order Polynomial模型评估与模型选择 过训练的相关因素模型复杂度训练样本数学习方法最大似然贝叶斯方法正则化与交叉验证 Regularization:Penalize large coefficient valuesRegularization:Regularization:Regulari

    5、zation:vs.Polynomial Coefficients 正则化与交叉验证 交叉验证交叉验证:训练集 training set:用于训练模型 验证集 validation set:用于模型选择 测试集 test set:用于最终对学习方法的评估 简单交叉验证 S折交叉验证 留一交叉验证分类问题分类问题 二分类评价指标 TP true positive FN false negative FP false positive TN true negative 精确率 召回率 F1值回归问题 回归模型是表示从输入变量到输出变量之间映射的函数.回归问题的学习等价于函数拟合。学习和预测两个阶段

    6、 训练集:回归问题 例子:标记表示名词短语的“开始”、“结束”或“其他”(分别以B,E,O表示)输入:At Microsoft Research,we have an insatiable curiosity and the desire to create new technology that will help define the computing experience.输出:At/O Microsoft/B Research/E,we/O have/O an/O insatiable/6 curiosity/E and/O the/O desire/BE to/O create/O

    7、 new/B technology/E that/O will/O help/O define/O the/O computing/B experience/E.主要内容 贝叶斯决策理论 机器学习的几种方法 机器学习问题实例 机器学习的主要模型机器学习的主要模型 线性回归模型线性回归模型 逻辑回归模型 神经网络模型 支持向量机模型Linear Basis Function Models(1)Example:Polynomial Curve FittingLinear Basis Function Models(2)Generally where j(x)are known as basis f

    8、unctions.Typically,0(x)=1,so that w0 acts as a bias.In the simplest case,we use linear basis functions:d(x)=xd.Linear Basis Function Models(3)Polynomial basis functions:These are global;a small change in x affect all basis functions.Linear Basis Function Models(4)Gaussian basis functions:These are l

    9、ocal;a small change in x only affect nearby basis functions.j and s control location and scale(width).Linear Basis Function Models(5)Sigmoidal basis functions:whereAlso these are local;a small change in x only affect nearby basis functions.j and s control location and scale(slope).主要内容 贝叶斯决策理论 机器学习的

    10、几种方法 机器学习问题实例 机器学习的主要模型机器学习的主要模型 线性回归模型 逻辑回归模型逻辑回归模型 神经网络模型 支持向量机模型固定基函数固定基函数 1Two Gaussian basis functions 1(x)and 2(x)固定基函数固定基函数2Two Gaussian basis functions 1(x)and 2(x)逻辑斯谛回归逻辑斯谛回归 logistic regressionadjustable parametersGaussian:M(M+5)/2+1logistic regression:Mlogistic sigmoidlogistic sigmoidnor

    11、malized exponential(softmax function)补充补充:交叉熵损失函数相对平方损失过于严格,可使用更适合衡量两个概率分布差异的测量函数。其中,u 交叉交叉熵熵(cross-entropy)是个常用的衡量方法:由于向量 中只有第 个元素 为 1,其余全为 0,于是假设训练数据集的样本数为 n,交叉熵损失函数定义为 其中 代表模型参数。u同样地,如果每个样本只有个标签,那么交叉熵损失可以简写 。u从另个角度来看,我们知道最小化 等价于最大化 即最小化交叉熵损失函数等价于最化训练数据集所有标签类别的联合预测概率 KL散度(Kullback-Leibler(KL)diver

    12、gence)u 如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x)和 Q(x),可以使用 KL 散度来衡量这两个分布的差异:u 和 KL 散度密切联系的量是 交叉熵 它和 KL 散度很像但是缺少左边一项:补充:决策树中的信息增益 例,信息增益比信息增益比主要内容 贝叶斯决策理论 机器学习的几种方法 机器学习问题实例 机器学习的主要模型机器学习的主要模型 线性回归模型 逻辑回归模型 神经网络模型神经网络模型 支持向量机模型神经元人工神经元 结点这种模型所实现的功能正是前面提到的线性分类器。非线性的映射单元Feed-forward Network Functions 1training

    13、 the basis functions人工神经元网络工作原理 复杂一些的判别函数 将特征空间划分成两个区域 两条射线组成的折线来划分在折线的一边为y=1,在折线的另一边y=0 显然用一个神经元是不行 人工神经元网络工作原理 复杂一些的判别函数整个空间将因这两个函数值的极性不同分成四个区域y=0这个区域所具有的特点是 与 都小于零 需要增加一个逻辑运算才能解决问题三个运算可以通过三个神经元结点 人工神经元网络工作原理 复杂一些的判别函数Whereas a two-layer network classifier can only implement a linear decisionbound

    14、ary,given an adequate number of hidden units,three-,four-and higher-layernetworks can implement arbitrary decision boundaries.The decision regions need notbe convex or simply connected.From:Richard O.Duda,Peter E.Hart,and David G.Stork,Pattern Classification.Copyright c 2001 by John Wiley&Sons,Inc.P

    15、arameter optimization参数最优化Local quadratic approximation局部二次近似Use of gradient information使用梯度信息所有独立元素:W(W+3)/2 O(W2)非利用梯度信息:O(W2)function O(W)stepsO(W3)利用梯度信息:O(W)gradient evaluations O(W)stepsO(W2)Gradient descent optimization梯度下降最优化 batch methods批量优化l gradient descent,steepest descentlconjugate gra

    16、dients lquasi-Newton methods 在线优化l sequential gradient descent or stochastic gradient descentError Backpropagation误差反向传播 Error BackpropagationlIn the first stage计算权值导数使用于其他网络lIn the second stage计算权值调整量Evaluation of error-function derivatives 1error functionforward propagationeach unit computes a wei

    17、ghted sum of its inputsnonlinear activation functionEvaluation of error-function derivatives 2the derivative of Enwith respect to a weight wjifor the output unitsEvaluation of error-function derivatives 3for hidden unitsjjjkazzaEvaluation of error-function derivatives 4 Error Backpropagation主要内容 贝叶斯

    18、决策理论 机器学习的几种方法 机器学习问题实例 机器学习的主要模型机器学习的主要模型 线性回归模型 逻辑回归模型 神经网络模型 支持支持向量机模型向量机模型Maximum Margin Classifiers 1 the two-class classification problemy(x)=wT(x)+b training data set N input vectors x1,.,xN target values t1,.,tN tn 1,1 new data points x are classified according to the sign of y(x)assume line

    19、arly separable tn y(xn)0Maximum Margin Classifiers 2 many such solutions exist the perceptron algorithm find a solution in a finite number of steps dependent on the (arbitrary)initial values chosen for w and bthe order which the data points are presentedwe should try to find the smallest generalizat

    20、ion error one The support vector machine the concept of the margin:defined to be the smallest distance between the decision boundary and any of the samplesMaximum Margin Classifiers 3Maximum MarginMaximum Margin Classifiers 3Maximum Marginy=0y=1y=-1y=0y=1y=-1Maximum Margin Classifiers 4 the perpendicular distance of a point x from a hyperplane(y(x)=0):|y(x)|/|w|the distance of a point xn to the decision surface 思考与讨论

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:人工智能3贝叶斯统计机器学习2.pptx
    链接地址:https://www.163wenku.com/p-4522134.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库