机器学习专题课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《机器学习专题课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 专题 课件
- 资源描述:
-
1、机器学习专题桑克(sank):“一台计算机若不能进行学习,就不能说它具有智能”Simon(1983):学习就是系统中的变化,这种变化使系统比以前更有效地去做同样的工作。无统一的机器学习定义。机器学习是研究如何使用机器来模拟人类学习活动的一门学科。稍严格的提法是:ML是一门研究机器获得新知识和新技能,并识别现有知识的学问 1、机器学习的定义 人工智能主要是为了研究人的智能,模仿其机理将其应用于工程的科学。在这个过程中必然会问道:“机器怎样做才能像人类一样具有学习能力”。机器学习广泛应用于机器人、图像处理、语音识别、数据挖掘等领域。机器学习的发展有利于推动其他领域的发展。2、为什么要研究机器学习?
2、n预测难:学习后知识库发生了什么变化,系统功能的变化的预测。n归纳推理:是论证的前提支持结论但不确保结论的推理过程(演绎推理保真);而且,归纳的结论是无限多的,其中相当多是假的,给生成的知识带来不可靠性。n判断难:机器目前很难观察什么重要、什么有意义。3、实现的困难54 系统学习性能评价 分类精度分类精度:是否能够对输入的数据进行正确、精确的分类。解答的正确性和质量解答的正确性和质量:无论是用于分类的,还是解决问题的系统都有解答正确性问题。同时,正确性不一定保证有好的质量,好的质量包括:可读性、稳定性等多方面的因素。学习的速度学习的速度:学习速度是一个很重要的系统指标。它不仅仅影响系统的设计,
3、同时,影响系统的实现。一个很费时的学习方法,某种意义上也是很难实现的。因为,通常花费大量时间所进行的操作表现在对学习样本量的要求、系统空间的要求、系统硬件性能的要求上。6环境环境学习环节学习环节知识库知识库 执行环节执行环节学习是建立理论、形成假设和进行归纳推理的过程。n整个过程包括:信息的存储、知识的处理两部分 三、机器学习模型学习系统学习系统环境环境学习环节学习环节知识库知识库执行环节执行环节学习系统所感知学习系统所感知到的外界信息集到的外界信息集合,也是学习系合,也是学习系统的外界来源统的外界来源对环境提供的信对环境提供的信息进行整理、分息进行整理、分析归纳或类比,析归纳或类比,形成知识
4、,并将形成知识,并将其放入知识库其放入知识库存储经过加工后存储经过加工后的信息(即知识的信息(即知识)根据知识库去根据知识库去执行一系列任执行一系列任务,并将执行务,并将执行结果或执行过结果或执行过程中获得的信程中获得的信息反馈给学习息反馈给学习环节环节学习模型学习模型输入输入x输出输出约约束束条条件件机器学习的分类机器学习的分类根据是否需要已知类别的样本进行学习,机器学习可以分为两大类:有教师学习(监督学习)无教师学习(非监督学习和强化学习)监督学习监督学习supervised learningsupervised learning利用已知类别的样本去训练算法从而调整分类器的参数,这样的学习
5、过程叫做监督学习。监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个很好的预测。常见的监督学习算法有:决策树adbost算法朴素贝叶斯算法回归算法支持向量机训练集学习系统测试系统测试集模型测试结果监督学习示意图监督学习示意图体重体重翼展翼展脚蹼脚蹼后背颜色后背颜色种属种属11000.1125.0无无棕色棕色红尾鵟红尾鵟23000.7200.0无无灰色灰色鹭鹰鹭鹰33300.0220.3无无灰色灰色鹭鹰鹭鹰44100.0136.0有有黑色黑色普通潜鸟普通潜鸟53.011.0无无绿色绿色蜂鸟蜂鸟上表是用于区分不同鸟类需要使用的四个不同的属性值,分别选取的是体重、翼展、
6、脚蹼和后背颜色作为评测基准。这些测量的四种值成为特征,也叫属性。数据X=x1,x2,x3,x4 表示一组数据标签label Y=y1,y2,y3,y4训练集 T=(x1,y1),(x2,y2),(x3,y3)测试集 (x4,y4)特征损失函数,训练误差,测试误差经验风险最小化与结构风险最小化交叉验证 选取特定的机器学习算法进行分类,首先需要做的是训练算法,既学习如何分类。通常我们为算法输入大量已分类数据作为算法的训练集。训练集就是用于训练机器学习算法的数据样本集合,表1是包含5个样本集合的训练集,每个训练样本有4中特征和一个目标变量,目标变量是机器学习算法的预测结果既F(x),其中x为一组输入
7、样本。损失函数损失函数在监督学习中,给定x,根据F(x)给出相应的输出,而这个输出是预测输出,和真实值y可能一致,也可能不一致。用一个损失函数或者代价函数来度量预测错误的程度。损失函数是F(x)和y的非负值函数,记做L(y,F(x)。常用的损失函数常用的损失函数(1)0-1损失函数(2)平方损失函数 (3)绝对损失函数 (4)对数损失函数)(,0)(,1)(,(xFyxFyxFyL2)()(,(xFyxFyL)()(,(xFyxFyL)|(log)(,(xyPxFyL经验风险最小化与结构风险最小化经验风险最小化与结构风险最小化经验风险最小化的策略认为,经验风险最小的模型是最优模型结构风险最小化
8、 是为了防止过拟合而提出的策略。结构风险在经验风险的上加上表示模型复杂度的正则化项或者说是惩罚项 min R(f)()(,(1)(1FJxFyLNfRNiii奥卡姆剃刀原理:在所有可能的模型中,能够很好地解释已知数据并且十分简单的次啊是最好的模型,也是应该选择的模型。如果给定的样本数据充足,进行模型选择的一种简单方法就是随机地将数据切分成三部分,分别为训练集,验证集和测试集。训练集用来训练模型,验证机用于模型选择,测试集用于最终对学习方法的评估。在学习到不同的复杂度的模型中,选择对验证集有最小预测误差的模型。但是,许多实际应用中数据并不是充分的,为了选择好的模型,可以采用交叉验证的方法。交叉验
9、证的基本思想是重复的使用数据;把给定的数据进行切分,将切分的数据集组合成训练集与测试集,在此基础上反复地进行训练,测试以及模型的选择。交叉验证交叉验证(1)简单交叉验证简单交叉验证:首先随机地将已给数据分为两部分,一部分作为训练集,另一部分最为测试集;然后用训练集在各种条件下训练模型,从而得到不同的模型,在测试集上评价各个模型的测试误差,选出测试误差最小的模型(2)S折交叉验证折交叉验证:首先随机的把已给的数据切分成s个互不相交的大小相同的子集,然后利用s-1个子集的数据训练模型,利用余下的自己测试模型;重复的随机选择训练子集,最后选出评测中平均测试误差最小的模型(3)留一交叉验证留一交叉验证
10、:当S=N时,成为留一交叉验证,这往往在数据缺乏的时候使用。交叉验证交叉验证朴素贝叶斯算法朴素贝叶斯算法贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类假设一个样本集的数据分类两类。P1(x,y)表示数据点(x y)属于类别1的概率,p2(x,y)表示数据点(x y)属于类别2的概率 如果p1(x,y)p2(x,y)则数据(x y)属于类别1 如果p1(x,y)p2(x,y)则数据(x y)属于类别2贝叶斯分类的基础贝叶斯分类的基础贝叶斯定理贝叶斯定理)()()|()|(xPcPcxPxcPiii)|().|()|()|.,()|.,()|(1121112112
11、1capcapcapcaaapcaaaPcxPmmmi基本流程基本流程1、设 为一个待分类项,而每个a为x的一个特征属性。2 有类别集合 3 计算4 求出最大的 则x划分为类别 .,2,1maaax.,2,1nyyyC)|(),.|(),|(21xyPxyPxyPn)|(xyPkky某个医院早上收了六个门诊病人,如下表。症状职业 疾病打喷嚏护士感冒打喷嚏农夫过敏头痛建筑工人脑震荡头痛建筑工人感冒打喷嚏教师感冒头痛教师脑震荡现在又来了第七个病人,是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大?P(感冒|打喷嚏x建筑工人)=P(打喷嚏x建筑工人|感冒)x P(感冒)/P(打喷嚏x建筑工人)打喷
12、嚏和建筑工人这两个特征是独立的P(P(感冒感冒|打喷嚏打喷嚏x x建筑工人建筑工人)=P(=P(打喷嚏打喷嚏|感冒感冒)x P()x P(建筑工人建筑工人|感冒感冒)x P()x P(感冒感冒)/)/P(P(打喷嚏打喷嚏)x P()x P(建筑工人建筑工人)P(感冒|打喷嚏x建筑工人)=0.66 x 0.33 x 0.5/0.5 x 0.33=0.66因此,这个打喷嚏的建筑工人,有66%的概率是得了感冒。同理,可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率,就可以知道他最可能得什么病。这就是贝叶斯分类器的基本方法:在统计资料的基础上,依据某些特征,计算各个类别的概率,从而实现分类。基于
13、朴素贝叶斯的文本分类基于朴素贝叶斯的文本分类首先需要拆分文本以便从中获取特征(词条),一个词条是任意字符的组合。my dog has flea problems help please 0(正常言论正常言论)maybe not take him to dog park stupid 1(侮辱性侮辱性)my dalmation is so cute i love him 0stop posting stupid worthless garbage 1mr licks ate my steak how to stop him 0quit buying worthless dog food stup
14、id 1 )()()|()|(wpcpcwpwcpiii)|.,()|(4321inicwwwwwpcwp)|().|()|()|(321iniiicwpcwpcwpcwp 将W 作为一个个独立的特征,上述公式可写成假设所有词都相互独立(独立性加色)训练阶段训练阶段创建包含所有文档中出现的不重复的词列表cute love help garbage quit I problems is park stop flea dalmation licks food not him buying posting has worthless ate to maybe please dog how stupi
15、d so take mr steak my然后将每一个文本片段表示为一个词条向量,1表示词条出现在文档中,0表示未出现。0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 1给出一个新的文档 ,计算testC通过训练集,对算法进行训练 得出P1,P2。测试阶段测试阶段给定一个测试词条,转换成词条向量计算 =比较 大小。testw)()()|()|(111testtesttestwpcpcwpwcp)()()|().|()|(111211testtestntesttestwpcpcwpcwpcwp)()()|()|(222t
16、esttesttestwpcpcwpwcp)()()|().|()|(222221testtestntesttestwpcpcwpcwpcwp)|(1testwcp)|(2testwcp优点:在数据较少的情况下仍然有效,可以处理多类别问题缺点:对于输入数据的准备方式比较敏感。决策树学习决策树学习决策树决策树在示例学习中,每一个概念实际上可以看成是例子中所属的一个类在示例学习中,每一个概念实际上可以看成是例子中所属的一个类别别示例学习就可以转化为对例子集进行分类的任务示例学习就可以转化为对例子集进行分类的任务 体体形形(+)大大中中小小颜颜色色颜颜色色(-)(+-)(-)(+-)黑黑黑黑棕棕棕棕
17、可以看做是一个对目可以看做是一个对目标分类的划分和获取标分类的划分和获取策略策略u由一个根结点,若干叶结点和非叶结点构成。u根结点对应于学习任务,分类的开始。u每个叶结点都包含一个分类名(概念),表示一个实例的结束。u每个非叶结点都包含表示相应实例中的某一属性。u边代表某一属性可能的属性值。决策树决策树 体体形形(+)大大中中小小颜颜色色颜颜色色(-)(+-)(-)(+-)黑黑黑黑棕棕棕棕l从根节点到叶节点的每一条路径都代从根节点到叶节点的每一条路径都代表一个具体的实例表一个具体的实例l同一路径上的所有属性之间为合取关同一路径上的所有属性之间为合取关系,不同路径(即一个属性的不同属性系,不同路
18、径(即一个属性的不同属性值)之间为析取关系。值)之间为析取关系。l决策树的分类过程就是从这棵树的根决策树的分类过程就是从这棵树的根接点开始,按照给定的事例的属性值去接点开始,按照给定的事例的属性值去测试对应的树枝,并依次下移,直至到测试对应的树枝,并依次下移,直至到达某个叶节点为止。达某个叶节点为止。l 体体形形(+)大大中中小小颜颜色色颜颜色色(-)(+-)(-)(+-)黑黑黑黑棕棕棕棕关于决策树:关于决策树:鸟类鸟类家养家养可能是和平鸽可能是和平鸽可能是可能是信天翁信天翁游泳游泳可能是可能是企鹅企鹅可能是可能是鸵鸟鸵鸟一个简单的鸟类识别决策树一个简单的鸟类识别决策树会飞会飞不会飞不会飞是是
19、不是不是会会不会不会可表示为如下规则集:可表示为如下规则集:IF 鸟类会飞鸟类会飞 AND 是家养的是家养的 THEN 该鸟类可能是和平鸽该鸟类可能是和平鸽 IF 鸟类会飞鸟类会飞 AND 不是家养的不是家养的 THEN 该鸟类可能是信天翁该鸟类可能是信天翁 IF 鸟类不会飞鸟类不会飞 AND 会游泳会游泳 THEN 该鸟类可能是企鹅该鸟类可能是企鹅 IF 鸟类不会飞鸟类不会飞 AND 不会游泳不会游泳 THEN 该鸟类可能是鸵鸟该鸟类可能是鸵鸟 q 决策树还可以表示成规则的形式决策树还可以表示成规则的形式l昆兰(昆兰(J.R.Quinlan)于)于1979年提出的一种以年提出的一种以信息熵信
20、息熵(entropy)的下降速度作为)的下降速度作为属性选择标准的一种学习算法。属性选择标准的一种学习算法。l输入是一个用来描述各种已知类别的输入是一个用来描述各种已知类别的例子集例子集l学习结果是一棵用于进行分类的学习结果是一棵用于进行分类的决策树决策树 ID3 算法算法:1.令根结点包含例子集中所有实例。2.如果每个叶结点包含的例子都属于同一分类,则停止划分。3.否则需对叶结点进行进一步划分:(1)需要进一步划分的叶结点所包含的例子组成子例子集S。(2)找出对S来说E值最小的属性abest。(3)根据属性abest的值对S进行划分,每个值将生成一个分枝。(4)执行步骤2。通过通过E值可以找
21、出一个最有利于当值可以找出一个最有利于当前划分的属性前划分的属性 体体形形(+)大大中中小小颜颜色色颜颜色色(-)(+-)(-)(+-)黑黑黑黑棕棕棕棕ID3 ID3 算法算法 :EaNNNNNNNNijjVjjjjjjji()(loglog)122n E是一个基于是一个基于熵熵(平均信息量平均信息量)的函数,该函数评的函数,该函数评 价用价用各属性进行分类所能获得的信息量各属性进行分类所能获得的信息量,选择,选择E 值最小即获得信息量最大的属性。值最小即获得信息量最大的属性。ID3 ID3 算法算法S中属性中属性ai的值为的值为vij的正例数目的正例数目Nj-为属性为属性ai的值为的值为vi
展开阅读全文