机器学习简介-ppt课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《机器学习简介-ppt课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 简介 ppt 课件
- 资源描述:
-
1、机器学习简介2018-03-15目录机器学习的定义机器学习的定义机器学习的发展历史和现状机器学习的发展历史和现状机器学习的分类机器学习的分类机器学习的常见算法机器学习的常见算法机器学习的基本过程机器学习的基本过程机器学习的示例机器学习的示例机器学习的常见应用机器学习的常见应用流行的开源机器学习框架流行的开源机器学习框架Spark MLlib介绍介绍 机器学习的定义 1在维基百科上,对机器学习提出以下几种定义:n“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”;n“机器学习是对能通过经验自动改进的计算机算法的研究”;n“机器学习是用数据或
2、以往的经验,以此优化计算机程序的性能标准”。 机器学习的定义 1三个关键词:算法、经验、性能 机器学习是数据通过算法构建出模型并对模型进行评估,评估的性能如果达到要求就拿这个模型来测试其他的数据,如果达不到要求就调整算法来重新建立模型,再次进行评估,如此循环往复,最终获得满意的经验来处理其他的数据。 机器学习的发展历史 2机器学习是人工智能应用研究比较重要的分支,它的发展过程大体上可分为4个阶段:n第一阶段是在50年代中叶到60年代中叶,属于热烈时期;n第二阶段在60年代中叶至70年代中叶,被称为机器学习的冷静时期;n第三阶段从70年代中叶至80年代中叶,称为复兴时期;n机器学习的最新阶段始于
3、1986年。一方面,由于神经网络研究的重新兴起,另一方面,对实验研究和应用研究得到前所未有的重视。我国的机器学习研究开始进入稳步发展和逐渐繁荣的新时期。 机器学习的发展现状 3n 在搜索引擎方面Google的成功,使得Internet搜索引擎成为新兴产业。机器学习技术正在支撑着各类搜索引擎;n DARPA(美国国防先进研究项目局)于2003年开始启动5年期PAL计划,这是一个以机器学习为核心的计划(涉及到AI的其他分支,如知识表示和推理、自然语言处理等);n 汽车自动驾驶。机器学习的主要任务是从立体视觉中学习如何行驶,根据观察人类的驾驶行为记录各种图像和操纵指令,并将它们进行正确分类;n 在对
4、天文物体进行分类、计算机系统性能预测、信用卡盗用检测、邮政服务属性识别、网络文档自动分类等方面,机器学习也在快速发展壮大。 机器学习的分类 4n 监督学习n 无监督学习n 半监督学习n 强化学习 机器学习的分类 - 监督学习 4n 监督学习是从给定的训练数据集中学习一个函数(模型),当新的数据到来时,可以根据这个函数(模型)预测结果;n 在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,如,对防垃圾邮件系统中“垃圾邮件”、“非垃圾邮件”;n 在建立模型时,监督式学习建立一个学习过程,将预测结果与“测试数据”的实际结果进行比较,不断调整预测模型,直到模型的预测结果达
5、到一个预期的准确率。常见的监督学习算法包括回归分析和统计分类。 机器学习的分类 - 无监督学习 4n 在无监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构;n 常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法和k-Means算法。n 监督学习和无监督学习的区别:训练集目标是否被标注。他们都有训练集,且都有输入和输出。 机器学习的分类 - 半监督学习 4n 半监督学习是介于监督学习与无监督学习之间一种机器学习方式,主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题;n 应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延
6、伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测,如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM)等;n 半监督学习从诞生以来,主要用于处理人工合成数据,无噪声干扰的样本数据是当前大部分半监督学习方法使用的数据,而在实际生活中用到的数据却大部分不是无干扰的,通常都比较难以得到纯样本数据。 机器学习的分类 - 强化学习 4n 强化学习通过观察来学习动作的完成,每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断;n 在强化学习下,输入数据直接反馈到模型,模型必须对此立刻做出调整;n 常见的应用场景包
7、括动态系统以及机器人控制等。常见算法包括Q-Learning 以及时间差学习(Temporal difference learning)。 机器学习的分类 - 总结 4n 在企业数据应用的场景下,人们最常用的可能就是监督式学习和无监督式学习的模型。n 在图像识别等领域,由于存在大量的非标识的数据和少量的可标识数据,目前半监督式学习是一个很热的话题。n 强化学习更多地应用在机器人控制及其他需要进行系统控制的领域。 机器学习的常见算法 5n 回归算法(监督学习)n 神经网络(监督学习)n SVM支持向量机(监督学习)n 聚类算法(无监督学习)n 降维算法(无监督学习)n 推荐算法(特殊)n 其他算
8、法 常见算法 - 回归算法 5n 回归算法有两个重要的子类:即线性回归和逻辑回归;n 线性回归就是如何拟合出一条直线最佳匹配所有的数据,逻辑回归是一种与线性回归非常类似的算法;n 线性回归处理的问题类型与逻辑回归不一致:A. 线性回归处理的是数值问题,也就是最后预测出的结果是数字,例如房价。B.逻辑回归属于分类算法,也就是说,逻辑回归预测结果是离散的分类,例如判断这封邮件是否是垃圾邮件,以及用户是否会点击此广告等等。 常见算法 - 回归算法 5n假设有一组肿瘤患者的数据,这些患者的肿瘤中有些是良性的(图中的蓝色点),有些是恶性的(图中的红色点)。这里肿瘤的红蓝色可以被称作数据的“标签”。同时每
9、个数据包括两个“特征”:患者的年龄与肿瘤的大小。我们将这两个特征与标签映射到这个二维空间上,形成了上图的数据。n当有一个绿色的点时,该判断这个肿瘤是恶性的还是良性的呢?根据红蓝点我们训练出了一个逻辑回归模型,也就是图中的分类线。这时,根据绿点出现在分类线的左侧,因此我们判断它的标签应该是红色,也就是说属于恶性肿瘤。n逻辑回归算法划出的分类线基本都是线性的(也有划出非线性分类线的逻辑回归,不过那样的模型在处理数据量较大的时候效率会很低),这意味着当两类之间的界线不是线性时,逻辑回归的表达能力就不足。 常见算法 - 神经网络 5n 神经网络(也称之为人工神经网络,ANN)的诞生起源于对大脑工作机理
10、的研究。早期生物界学者们使用神经网络来模拟大脑,后来,机器学习的学者们使用神经网络进行机器学习的实验,发现在视觉与语音的识别上效果都相当好。n 神经网络算法是80年代机器学习界非常流行的算法。不过,进入90年代,神经网络的发展进入了一个瓶颈期。其主要原因是神经网络的训练过程很困难。n 现在,携着“深度学习”之势,神经网络重装归来,重新成为最强大的机器学习算法之一。 常见算法 - 神经网络 5n 比方说,一个正方形,分解为四个折线进入视觉处理的下一层中。四个神经元分别处理一个折线。每个折线再继续被分解为两条直线,每条直线再被分解为黑白两个面。于是,一个复杂的图像变成了大量的细节进入神经元,神经元
11、处理以后再进行整合,最后得出了看到的是正方形的结论。这就是大脑视觉识别的机理,也是神经网络工作的机理。 常见算法 - SVM支持向量机 5n SVM算法是诞生于统计学习界,同时在机器学习界大放光彩的经典算法。n 从某种意义上来说,支持向量机算法是逻辑回归算法的强化:通过给予逻辑回归算法更严格的优化条件,支持向量机算法可以获得比逻辑回归更好的分类界线。n 支持向量机是一种数学成分很浓的机器学习算法(相对的,神经网络则有生物科学成分)。通过支持向量机算法,既可以保持计算效率,又可以获得非常好的分类效果。因此支持向量机在90年代后期一直占据着机器学习中最核心的地位,基本取代了神经网络算法。直到现在神
展开阅读全文