机器学习及应用第1章-导论课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《机器学习及应用第1章-导论课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 应用 导论 课件
- 资源描述:
-
1、人民邮电出版社 机器学习及应用教材配套课件目录第01章 导论第02章 Python初步第03章 决策树第04章 神经网络第05章 支持向量机第06章 贝叶斯分类器第07章 集成学习第08章 聚类第09章 降维第10章 概率图模型第11章 深度学习初步第01章 导论p机器学习的概念p机器学习基本术语p概念学习与假设空间p模型评估与选择1.1 引言n 机器学习机器学习(Machine Learning)是计算机程序随着经验积累自动提高性能或系统自我改进的过程,即通过经验提高性能的某类程序;n 以一个更形式化的定义来说,对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能,随着经验E而
2、自我完善,就称这个计算机程序从经验 E中学习。n 机器学习通常需要一定的算法,依据特定的指令序列,将输入变换得到输出,然而,对于现实中的很多任务,我们并没有确定的算法,我们希望计算机自动地为学习任务提取相应的算法;n 例如为每天收取的邮件进行分类,区分是垃圾邮件还是正常邮件。尽管我们知道输入/输出分别应该是邮件文档以及是否为垃圾邮件,然而并不知道应该按照怎样确定的规则将这种输入变换成输出。1.1 引言n 在计算机系统中,经验通常以数据的形式存在。为了能够自动地从经验中提取出学习算法,需要获得过去大量的邮件实例作为数据。从实例数据中学习出垃圾邮件的模型,以此作为判断的依据。n 机器学习所研究的主
3、要内容,是如何在计算机上从数据中产生模型的算法,即学习算法。n 有了学习算法,我们将经验以数据的形式提供给计算机,计算机就能基于这些数据产生相应的模型。继而在面对新的情况时,学习到的模型能够提供相应的判断,比如计算机能够正确分类一封新邮件是否是垃圾邮件。n 机器学习是研究学习算法的学问,机器学习的过程是从大量数据中自动地寻找有用模型的过程。1.2 基本术语1.2 基本术语1.2 基本术语1.2 基本术语n 机器学习算法可以表示为一个函数y=f(x),假设以手写体图像x作为输入,向量y作为输出,其中向量y的形式与目标向量的形式相同。在训练数据的基础上,函数f(x)的精确形式在训练阶段或学习阶段被
4、确定。一旦模型被训练出来,它就能确定新的手写体数字集合中的图像标签。这些新的手写体数字图像组成的集合称为测试集测试集(Test Set)。使用学习得到的模型进行预测的过程称为测试测试(Testing),被预测的样本称为测试样本测试样本(Testing Sample)。学习得到的模型适用于新样本的能力称为泛化泛化(Generalization)能力。n 如果希望预测的结果是离散值,此类学习任务称为分类分类(Classification);如果希望预测的结果是连续值,此类学习任务称为回归回归(Regression)。1.3 概念学习与假设空间1.4 归纳偏好n 机器学习算法在学习过程中对某种类型假
5、设的偏好,称为归纳偏好归纳偏好(Inductive Bias)。n 归纳学习的一个基本属性:学习器如果不对目标概念的形式做预先的假定,它从根本上就无法对未见实例进行分类。n 归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或价值观。一种算法如果有偏性越强,那它的归纳能力越强,可以分类更多的未见实例。n 引导学习算法确立“正确”偏好的一个一般性原则是“奥卡姆剃刀”(Occams razor)原则,即优先选择拟合数据的最简单的假设。n 学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。1.5 经验误差与过拟合n 把分类错误的样本数占样本总数的比例称为“错误率
6、”,即如果在m 个样本中有a个样本分类错误,则错误率E=a/m;n 1E称为“精度”,精度=1错误率。n 把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”,学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“测试误差”或“泛化误差”。n 过拟合:对于一个假设,当存在其他的假设对训练样例的拟合比它差,但事实上在包含训练集合以外的实例的整个分布上表现得却更好时,说这个假设过度拟合训练样例。欠拟合,是指学习器对训练样本的一般性质尚未学好。n 发生过拟合可能原因:训练样例含有随机错误或噪声、学习器的学习能力过于强大、训练样例太少。过拟合是无法彻底避免的。1.6 模型
展开阅读全文