机器学习算法PPT课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《机器学习算法PPT课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 算法 PPT 课件
- 资源描述:
-
1、Security Level: 机器学习算法机器学习算法机器学习监督学习-回归监督学习-分类非监督学习-聚类非监督学习-降维神经网络与深度学习关于模型评价标准目录CONTENTS0123456机器学习监督学习-回归监督学习-分类非监督学习-聚类非监督学习-降维神经网络与深度学习关于模型评价标准目录CONTENTS0123456机器学习l机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。l计算器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构使之不断改善自身的性能。
2、l机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。l机器学习是计算机科学家想让计算机像人一样思考,所研发出来的计算机理论。l诞生于上个世纪60年代,在最近的十几年发展非常迅速。机器学习最常见应用机器学习的学习方式监督学习非监督学习强化学习遗传算法监督学习非监督学习监督学习 vs 非监督学习9分类标记label监督学习 vs 非监督学习l监督学习能实现,为什么还要研究无监督学习?p缺乏足够的先验知识的领域,难以人工标注类别p进行人工类别标注的成本太高l监督学习解决的问题:p回归,分类l非监督学习解决的问题:p降维,聚类,关联规
3、则2022-5-1710强化学习命中未命中遗传算法 优胜劣汰 适者生存如何选择合适算法解决问题l影响算法选择的因素:p数据的大小、质量和性质p可用计算时间p任务的紧迫性p你想用数据做什么l算法选择的基本思路:1.数据是否足够多、数据维度是否过高、数据是否存在大量冗余,是则考虑步骤2,否则考虑步骤32.数据维度降低、数据采样去重3.明确问题:预测结果?二分类?多分类?聚类?强化训练?回顾:实现人工智能开发的流程l获得已有样本数据(经验)l对已有数据进行分析和预处理l根据需要实现的智能化目标,选择方法或者模型l不断调整方法和模型参数,使其从已有数据中学习规律、获得经验,直到期望值与实际值无限接近,
4、从而使计算机的软硬件来模拟人类某些智能行为关键技术p智能行为:数据分类、数据规律预测、语音识别、自动检索、图像识别等等。2022-5-17机器学习监督学习-回归监督学习-分类非监督学习-聚类非监督学习-降维神经网络与深度学习关于模型评价标准目录CONTENTS0123456明确概念数据样本属性(特征)标签变量标签数组矩阵向量明确概念l挑西瓜的学问序号/属性色泽根蒂敲声西瓜质量1青绿蜷缩浊响微甜2乌黑蜷缩沉闷很甜3浅白硬挺清脆很甜4青绿硬挺沉闷不甜1.1 回归分析回归分析l回归分析(regression analysis)p是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法l为什么使
5、用回归分析:从实际应用上来看p更好地了解:更好地了解该现象并有可能基于对该现象的了解来影响政策的制定以及决定采取何种相应措施。例:了解某些特定濒危鸟类的主要栖息地特征(例如:降水、食物源、植被、天敌),以协助通过立法来保护该物种。2022-5-17181.1 回归分析回归分析l为什么使用回归分析:从实际应用上来看(续)p建模预测:对某种现象建模以预测其他地点或其他时间的数值,例:如果已知人口增长情况和典型的天气状况,预计明年的用电量将会是多少。p探索检验:假设根据以往数据探索即将发生事件,例:公安部门对城市各个住宅区的犯罪活动进行建模,以更好地了解犯罪活动并希望实施可能阻止犯罪活动的策略。 2
6、022-5-17191.1 回归分析回归分析l为什么使用回归分析:从算法功能上来看p确定因变量Y与自变量X间的定量关系表达式,这种表达式称为回归方程;p判断自变量X对因变量Y影响程度;p利用所求得的回归方程进行预测和控制目标值。l回归分析的前提:p回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。2022-5-17201.1 回归分析回归分析l回归分析分类p按照自变量的个数:一元回归和多元回归分析;p按照自变量和因变量之间的关系类型:线性回归分析和非线性回归分析;p按照回归线形状:线性回归和非
7、线性回归等。l常见回归的模型p线性回归p逻辑回归psoftmax回归2022-5-17211.2 线性回归线性回归l回归分析常用于分析自变量X和因变量Y之间的关系。比如X房子大小和Y房价之间的关系、X=(公园人流量,公园门票票价)与 Y=(公园收入) 之间的关系等。1.2 线性回归线性回归l线性回归的特点p因变量是连续的,自变量(单个或多个)可以是连续的也可以是离散的,回归线的性质是线性的。p线性回归使用最佳的拟合直线(回归线/回归模型),建立因变量 (Y) 和一个或多个自变量 (X) 之间的联系。即:Y=a+b*X + e注:a 表示截距,b 表示直线的倾斜率,e 是误差项。2022-5-1
8、7231.2 线性回归线性回归l回归过程p已知N组数据,数据的特征描述为X,用X1,X2, . ,Xj 去描述特征值里面分量,假设这些数据分布特点成线性:估计值:Yi = a+b*X真实值:Yi = a+b*X + e误差项:e = Yi - Yi = Y-(a+b*X)求得最优a、b值,即:使误差项 e 的平方和最小(最小二乘法) 2022-5-17241.2 线性回归线性回归误差误差平方误差平方和1.2 线性回归线性回归l最小二乘法 确定回归系数p误差平方和 = 2022-5-1726明确了:明确了:uYi= a+b*X实现了:实现了:u可以根据可以根据Xi预测预测Yiu可以根据可以根据Y
9、i控制控制Xi1.2 线性回归线性回归l确定相关系数 rp当|r|=1时,表示两变量为完全线性相关p当r=0时,表示两变量间无线性相关关系 p当0|r|1时,|r|越接近1,两变量间线性关系越密切;|r|越接近于0,两变量的线性相关越弱2022-5-17271.2 线性回归线性回归回归分析步骤:判断并构造预测函数/回归模型(Y) 构造损失函数(误差e) 使损失函数最小,最小二乘法获得回归系数(a,b)分析相关参数及结果(r/分类结果)利用模型进行预测2022-5-17281.2 线性回归线性回归Liner_ regression.example 2022-5-17291.2 线性回归线性回归多
10、元线性回归多元线性回归1.2 线性回归线性回归多元线性回归多元线性回归1.2 线性回归线性回归多元线性回归多元线性回归扩展扩展非线性回归非线性回归1.3 逻辑回归逻辑回归l逻辑回归的特点p用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,则使用逻辑回归。l逻辑回归适用的问题p事件发生的概率预测、二分类问题l思考:p多分类问题是否能采用逻辑回归? 2022-5-17341.3 逻辑回归逻辑回归l逻辑回归实现过程:p构造预测函数/回归模型 2022-5-17351.3 逻辑回归逻辑回归l逻辑回归实现过程:p构造预测函数/回
11、归模型 边界函数 输入x分类结果为类别1和类别0的概率 2022-5-17361.3 逻辑回归逻辑回归l逻辑回归实现过程:p构造损失函数 2022-5-17371.3 逻辑回归逻辑回归2022-5-17381.3 逻辑回归逻辑回归l逻辑回归实现过程:p使损失函数最小,获得回归系数(按照最小二乘法直接求导思想)2022-5-17391.3 逻辑回归逻辑回归l逻辑回归实现过程:p使损失函数最小,获得回归系数(梯度下降法)梯度:在微积分里面,对多元函数的参数求偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。2022-5-17401.3 逻辑回归逻辑回归2022-5-17411.3 逻辑
12、回归逻辑回归l逻辑回归实现过程:p使损失函数最小,获得回归系数(梯度下降法)2022-5-17421.3 逻辑回归逻辑回归实现二分类目标实现事件发生概率预测1.3 逻辑回归逻辑回归 关键问题导读关键问题导读 p/y的取值可能在0-1之间,不一定恰好等于0或者1,那怎么划分类?决策边界如何进行设置?解决方案: 如果分类器用的是回归模型,并且已经训练好了一个模型,可以设置一个阈值0.5:p如果h(x)0.5,则预测y=1,既y属于正例;p如果h(x)0.5,则预测y=0,既y属于负例;2022-5-17441.3 逻辑回归逻辑回归 - - 思考思考逻辑回归实现多分类:2022-5-1745关键:阈
13、值的设置1.4 softmax回归回归l softmax回归的特点:p该模型是逻辑回归模型在多分类问题上的推广,在多分类问题中,类标签y可以取两个以上的值,在逻辑回归中,样本数据的y值为0,1,而在softmax回归中,样本的y值为1,k。lsoftmax回归适用的问题p多分类问题、神经网络和深度学习的激活函数 2022-5-17461.4 softmax回归回归lsoftmax回归实现过程:p构造预测函数/回归模型2022-5-17471.4 softmax回归回归lsoftmax回归实现过程:p构造损失函数l注:2022-5-17481.4 softmax回归回归lsoftmax回归实现过
14、程:p使损失函数最小,获得回归系数(梯度下降法)2022-5-1749Softmax回归回归 vs k个个二元分类器二元分类器 当做一个k分类的应用时,选用Softmax分类还是k个独立的二元分类器?解决方案: 取决于类别之间是否互斥 例如:对人声音乐、舞曲、影视原声和流行歌曲分类,这些类别之间并不是互斥的,一首歌曲可以来源于影视原声,同时也包含人声。这种情况下,使用4个二分类的 logistic 回归分类器更为合适。2022-5-1750机器学习监督学习-回归监督学习-分类非监督学习-聚类非监督学习-降维神经网络与深度学习关于模型评价标准目录CONTENTS01234562.1 分类分类分类
15、:监督学习,将一些新的数据项映射到给定类别中的某个类别中 。 2022-5-1752动物种类体型翅膀数量脚的只数是否产蛋是否有毛类别狗中04否是哺乳动物猪大04否是哺乳动物牛大04否是哺乳动物麻雀小22是是鸟类天鹅中22是是鸟类大雁中22是是鸟类动物A大02是无?动物B中22否是?2.1 分类分类l分类问题也是一类很常见的问题。 比如说,怎么判定一个人是高富帅还是吊丝? 2.1 分类分类l实现分类步骤p将样本转化为等维的数据特征(特征转化)p选择与类别相关的特征(特征选择/提取)p建立分类模型或分类器进行分类(分类)2022-5-1754iiniiiyxxxxf),.,(321特征转化2022
16、-5-1755特征转化特征转化转化为机器识别的数据1.Categorical Integer编码(二进制,十进制)概率密度2.数据转化为无纲量数据数据归一化:x0,12022-5-1756特征选择特征选择/提取提取l选择与分类相关的特征,提升分类效果,提高分类效率:p初步观察法p计算相关系数a、b、r值的计算p计算互信息决策树中使用p降维2022-5-1757分类分类训练集训练集测试测试集集测试结果衡量测试结果衡量2.2 KNNlKNN( k近邻分类)建模思想p已知样本集中每一数据与所属分类的对应关系,输入没有标签的新数据后,将新数据的每个特征与样本集中的数据对应的特征进行比较,提取样本集中特
17、征最相似的数据(最近邻)的分类标签。一般来说,只选择样本集中前k个最相似的数据,再选择k个最相似的数据中出现次数最多的分类,作为新数据的分类。l建模关键p训练集、距离或相似性的衡量、k的大小2022-5-17592.2 KNNl计算未知样本点(想要分类的点)到已知的每个样本点的距离(相似度)2.2 KNNl筛选距离最近的k个邻居点(假设k=5)5个最近邻居点:4个属于w11个属于w3 xu属于w1类2.2 KNN分类步骤:给定一个要分类的查询实例 xqp算距离:给定测试对象,计算它与训练集中的每个对象的距离:p找邻居:圈定距离最近的k个训练对象 作为测试对象的近邻p做分类: 根据这k个近邻归属
18、的主要类别,来对测试对象分类2022-5-176221(,)dijikjkkD XXXX2.2 KNN 如何选择K值,对最终的归类结果有很大的影响,根据实践经验,k的取值通常不大于20。2022-5-17642.2 KNNlKNN算法优点:p1.简单,易于理解,易于实现,无需估计参数,无需训练;p2. 适合对稀有事件进行分类;p3.特别适合于多分类问题lKNN算法优点:p当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数p计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离p没有具体规则2.3 Ba
19、yeslBayes(贝叶斯)建模思想:p贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯定理计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。l贝叶斯定理:p由于P(X)对于所有类为常数,只需要P(X|H)P(H)最大即可 2022-5-1766)()()|()()()|(XPHPHXPXPXHPXHP2.3 Bayes2.3 Bayes分类步骤: 2022-5-1769贝叶斯分类实例-检测SNS社区中不真实账号 对于SNS社区来说,不真实账号(使用虚假身份或用户的小号)是一个普遍存在的问题,作为SNS社区的运营商,希望可以检测出这些不真实账号,从
20、而在一些运营分析报告中避免这些账号的干扰,亦可以加强对SNS社区的了解与监管。 2022-5-1770贝叶斯分类实例-检测SNS社区中不真实账号1、确定特征属性及划分p三个特征属性:a1:日志数量/注册天数 a2:好友数量/注册天数 a3:是否使用真实头像p类别标记:H = 0表示真实账号,H = 1表示不真实账号p在SNS社区中这三项都是可以直接从数据库里得到或计算出来的,下面给出划分: a1:a1=0.05, 0.05a1=0.2 a2:a2=0.1, 0.1a2=0.8 a3:a3=0(不是),a3=1(是)2022-5-1771贝叶斯分类实例-检测SNS社区中不真实账号 2、获取训练样
21、本p使用运维人员曾经人工检测过的10000个账号作为训练样本,8900条为真实账号,1100条为不真实账号。 3、计算训练样本中每个类别的频率pP(H = 0) = 8900/10000 = 0.89pP(H = 1) = 1100/10000 = 0.112022-5-1772贝叶斯分类实例-检测SNS社区中不真实账号4、计算每个类别条件下各个特征属性划分的频率(P(x|H))pP(a1=0.05| H = 0) = 0.3 P(a1=0.05| H = 1) = 0.8 p P(0.05a10.2|H = 0) = 0.5 P(0.05a10.2| H = 0) = 0.2 P(a10.2
22、| H = 1) = 0.1pP(a2=0.1| H = 0) = 0.1 P(a2=0.1| H = 1) = 0.7pP(0.1a20.8 | H=0) = 0.7 P(0.1a20.8| H = 0) = 0.2 P(a20.8| H = 0) = 0.1pP(a3 = 0|H = 0) = 0.2 P(a3 = 1|H = 0) = 0.8 pP(a3 = 0|H = 1) = 0.9 P(a3 = 1|H = 1) = 0.1 2022-5-1773贝叶斯分类实例-检测SNS社区中不真实账号 5、使用分类器进行鉴别p待鉴别账号属性如下 a1:日志数量与注册天数的比率为0.1 a2:好
23、友数与注册天数的比率为 0.2 a3:不使用真实头像 (a = 0)p P(H = 0)P( x|H = 0) = P(H = 0) P(0.05a10.2|H = 0)P(0.1a20.8|H = 0)P(a3=0|H = 0) = 0.89*0.5*0.7*0.2 = 0.0623p P(H = 1)P( x|H = 1) = P(H = 1) P(0.05a10.2|H = 1)P(0.1a2P(不真实账号):该属性取值下的账号为真实账号2022-5-17742.4 Decision Treel分类过程:p模型建立(Model Building)p模型评估(Model Evaluatio
24、n)p使用模型(Use Model)性别性别年龄年龄婚姻婚姻否否是是否否是是FemaleFemaleMaleMale35353535未婚未婚已婚已婚分类规则分类规则IF IF 性别性别=Female AND =Female AND 年龄年龄35 THEN 35 THEN 购买购买RVRV房车房车= =否否IF IF 性别性别=Female AND =Female AND 年龄年龄35 THEN 35 THEN 购买购买RVRV房车房车= =是是IF IF 性别性别=Male AND =Male AND 婚姻婚姻= =未婚未婚 THEN THEN 购买购买RVRV房车房车= =否否IF IF 性
25、别性别=Male AND =Male AND 婚姻婚姻= =已婚已婚 THEN THEN 购买购买RVRV房车房车= =是是数据库数据库训练样本训练样本(training samples)(training samples)建立模型建立模型测试样本测试样本(testing samples)(testing samples)评估模型评估模型样本样本实例训练样本训练样本婚姻婚姻年龄年龄家庭家庭 所得所得否否是是否否是是未婚未婚已婚已婚3535低低高高否否小康小康1.建立模型建立模型测试样本测试样本2. 模型评估模型评估X错误率为错误率为 66.67%66.67%修改模型修改模型3.使用模型使用模型
展开阅读全文