机器学习与数据挖掘T课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《机器学习与数据挖掘T课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 数据 挖掘 课件
- 资源描述:
-
1、机器学习的困惑机器学习的困惑与历史的启示与历史的启示王珏王珏第九届机器学习第九届机器学习及其应用研讨会及其应用研讨会2011年年11月,清华大学月,清华大学自自然然模模型型采样采样样本集样本集模型模型算法算法 交叉验证交叉验证 假设假设iid 统计机器学习的麻烦统计机器学习的麻烦?设计实验设计实验 问题:问题:模型是自然模型吗?模型是自然模型吗?统计机器学习统计机器学习如果数据不充分,在大变量集合下,如果数据不充分,在大变量集合下,如何设计实验,获得新数据。如何设计实验,获得新数据。统计机器学习的困难:实验设计存在组合问题。统计机器学习的困难:实验设计存在组合问题。iid成为与自然模成为与自然
2、模型无关的假设!型无关的假设!特殊函数的逼近特殊函数的逼近社会的需求社会的需求生物、网络、金融、经济和安全等众多领域,生物、网络、金融、经济和安全等众多领域,大变大变量集合量集合的海量数据不断涌出,社会迫切需要分析与的海量数据不断涌出,社会迫切需要分析与处理这些数据的有效理论、方法与技术。处理这些数据的有效理论、方法与技术。寻找分析与处理大变量集合海量数据的新理念、理寻找分析与处理大变量集合海量数据的新理念、理论、方法与技术成为当前迫切的任务。论、方法与技术成为当前迫切的任务。历史的故事历史的故事线性感知机线性感知机基于最小二乘的基于最小二乘的Rosenblatt的感的感知机知机(1956),
3、其本质是多变量空,其本质是多变量空间上的间上的平均平均(回归回归)。1902年,年,James的神经元相互连接的神经元相互连接1943年,年,McCulloch和和Pitts的神经元工作方式的神经元工作方式1949年,年,Hebb的学习律。的学习律。贡献是:多变量回归的计算方法贡献是:多变量回归的计算方法(神经网络神经网络)。基函数:基函数:L=1D+2I+3G+4S设计算法,确定设计算法,确定,获得模型,获得模型疑问是:只能解决线性问题,不能满足实际的需要。埋下疑问是:只能解决线性问题,不能满足实际的需要。埋下被批评的口实。被批评的口实。20世纪世纪70年代面临的选择年代面临的选择统计优化统
4、计优化(平均平均):线性感知机线性感知机统计模式识别统计模式识别复杂信息系统复杂信息系统(结构结构):专家系统专家系统句法模式识别句法模式识别选择选择非线性问题非线性问题计算效率计算效率专家系统合理专家系统合理复杂问题求解复杂问题求解实现智能系统的理想实现智能系统的理想Duda and Hart73从从Bayes判别判别(分类分类),引入损失函数,变为正引入损失函数,变为正则化问题则化问题If D=0 G=A thenL=0If I=0 G=A thenL=0If D=1 I=1 G=A then L=1AI1969年,年,M.Minsky发表颠覆性的报告,发表颠覆性的报告,“Perceptr
5、on”。表象是以表象是以XOR问题向以平均为基础的感知机发难,本质是问题向以平均为基础的感知机发难,本质是试图以试图以结构结构方法代替方法代替平均平均。全书使用拓扑作为工具。全书使用拓扑作为工具。1956年,以复杂信息处理为契机,提出年,以复杂信息处理为契机,提出AI。其动机有二:。其动机有二:其一,其一,发展处理符号的方法发展处理符号的方法,其二,处理非线性问题。,其二,处理非线性问题。过分强调独立性,使得描述任何一个问题,需要穷举出过分强调独立性,使得描述任何一个问题,需要穷举出所有可能。所有可能。80年代,耗资巨大的年代,耗资巨大的CYC“失败失败”了。了。需要统计方法成为共识。需要统计
6、方法成为共识。20世纪世纪80年代面临的选择年代面临的选择概率图模型概率图模型(Bayes学派学派):Markov随机场随机场Bayes网网人工神经网络人工神经网络(频率学派频率学派):BP统计机器学习统计机器学习选择选择结构学习的困难结构学习的困难先验的结构先验的结构先验概率分布先验概率分布推断是推断是NPC字符识别,网络数据建模字符识别,网络数据建模误差界指导算法设计误差界指导算法设计算法基于线性感知机算法基于线性感知机无需先验知识,无推断无需先验知识,无推断考虑泛化为核心考虑泛化为核心Gibbs1902,Wright1935Clifford1971Pearl1988,89统计机器学习统计
7、机器学习1991年,年,Vapnik借用在借用在AI中的中的PAC,给出基于,给出基于iid的误差界,的误差界,基于基于PAC的统计开始成为主流的统计开始成为主流1986年,年,Remulhart发表发表PDP报告,包含非线性报告,包含非线性BP算法,解决算法,解决XOR,逼逼近非线性函数。学术价值不大,人们开始重新尝试近非线性函数。学术价值不大,人们开始重新尝试“平均平均”方法。方法。从从ANN到到SML,发展得力于对字符识别的成功,发展得力于对字符识别的成功神经网络神经网络基于基于PAC的机器学习的机器学习基于统计学的机器学习基于统计学的机器学习贡献贡献:(1)基于基于iid的的误差界指导
8、算法设误差界指导算法设计,计,(2)算法设计返回感知机,线性算法设计返回感知机,线性算法,寻找线性空间算法,寻找线性空间(核映射核映射)。基于基于PAC理论,误差界以理论,误差界以1-概率成立。这个参数在泛化意义下的解释:概率成立。这个参数在泛化意义下的解释:理想,理想,应该趋于应该趋于0,但是,误差界将趋于无穷,成为平凡界。,但是,误差界将趋于无穷,成为平凡界。新世纪开始,统计学家加入新世纪开始,统计学家加入SML,完全放弃,完全放弃PAC(Hastie)。维数灾难维数灾难高维空间上的统计理论,多重积分是麻烦,补充高维空间上的统计理论,多重积分是麻烦,补充“合适合适”样本是麻烦。样本是麻烦。
9、“同分布同分布”只能停留在假设上,无法实施。只能停留在假设上,无法实施。在高维空间在高维空间(成百上千成百上千)建模,最大的危险就是空间大建模,最大的危险就是空间大的程度使得再多的样本,在这个空间上也是稀疏的。的程度使得再多的样本,在这个空间上也是稀疏的。由于困难具有本质性,平均遇到大麻烦!由于困难具有本质性,平均遇到大麻烦!概率图模型概率图模型将平均放在局部,避免了维数灾问题,同时保证了泛化和将平均放在局部,避免了维数灾问题,同时保证了泛化和模型的可解释性,关键是结构,将局部的平均构造起来。模型的可解释性,关键是结构,将局部的平均构造起来。基于平均的研究已经过去基于平均的研究已经过去20余年
展开阅读全文