分类自然语言中的重要技术课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《分类自然语言中的重要技术课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 自然语言 中的 重要 技术 课件
- 资源描述:
-
1、 分类IRLAB1感谢你的观看2019年8月25大纲 自然语言中的重要技术 决策树 最大熵模型 K近邻2感谢你的观看2019年8月25自然语言中的分类问题3感谢你的观看2019年8月25分类的一般过程 训练集 数学模型 训练过程 测试集 评价 精确率,宏平均,微平均4感谢你的观看2019年8月25本课介绍的几种方法 决策树 最大熵模型 K近邻5感谢你的观看2019年8月25决策树 简介 决策树表示法 决策树学习的适用问题 基本的决策树学习算法 决策树学习中的假想空间搜索 决策树学习的常见问题6感谢你的观看2019年8月25简介 决策树方法的起源是概念学习系统CLS,然后发展到ID3方法而为高潮
2、,最后又演化为能处理连续属性的C4.5。有名的决策树方法还有CART和Assistant。是应用最广的归纳推理算法之一 一种逼近离散值目标函数的方法 对噪声数据有很好的健壮性且能学习析取表达式7感谢你的观看2019年8月25决策树的表示法 决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。树上的每一个节点说明了对实例的某个属性的测试,并且该节点的每一个后继分支对应于该属性的一个可能值8感谢你的观看2019年8月25图9感谢你的观看2019年8月25表达式10感谢你的观看2019年8月25决策树学习的适用问题 实例是由属性-值对表示的 目标函数具有离散的输出值 可
3、能需要析取的描述 训练数据可以包含错误 训练数据可以包含缺少属性值的实例11感谢你的观看2019年8月25属性选择 构造好的决策树的关键在于如何选择好的逻辑判断或属性。对于同样一组例子,可以有很多决策树能符合这组例子。人们研究出,一般情况下或具有较大概率地说,树越小则树的预测能力越强。要构造尽可能小的决策树,关键在于选择恰当的逻辑判断或属性。由于构造最小的树是NP-难问题,因此只能采取用启发式策略选择好的逻辑判断或属性。12感谢你的观看2019年8月25用熵度量样例的均一性(纯度)熵的定义 举例13感谢你的观看2019年8月2514感谢你的观看2019年8月25用信息增益度量期望熵最低15感谢
4、你的观看2019年8月25举例16感谢你的观看2019年8月2517感谢你的观看2019年8月2518感谢你的观看2019年8月2519感谢你的观看2019年8月2520感谢你的观看2019年8月25ID3算法创建树的Root结点如果Examples都为正,那么返回label=+中的单结点Root如果Examples都为反,那么返回lable=-单结点树Root如果Attributes为空,那么返回单节点树Root,lable=Examples中最普遍的目标属性值否则开始AAttributes中分类能力最好的属性Root的决策属性A对于每个可能值 在Root下加一个新的分支对应测试A=vi令E
5、xample-vi为Examples中满足A属性值为vi的子集如果Examples-vi为空在这个新分支下加一个叶子结点,节点的lable=Examples中最普遍的 目标属性值否则在这个新分支下加一个子树ID3(example-vi,target-attribute,attributes-|A|结束返回 Root21感谢你的观看2019年8月25C4.5 C4.5是对ID3的改进算法 对连续值的处理 对未知特征值的处理 对决策树进行剪枝 规则的派生22感谢你的观看2019年8月25决策树学习中的假设空间搜索 假设空间 ID3算法中的假设空间包含所有的决策树 当遍历决策树空间时,ID3仅维护单
6、一的当前假设。基本的ID3算法在搜索中不进行回溯 ID3算法在搜索的每一步都使用当前的所有训练样例23感谢你的观看2019年8月25决策树学习的常见问题(1)避免过度拟合数据基本的决策树构造算法没有考虑噪声,生成的决策树完全与训练例子拟合。有噪声情况下,完全拟合将导致过分拟合(overfitting),即对训练数据的完全拟合反而不具有很好的预测性能。24感谢你的观看2019年8月25解决方法 剪枝是一种克服噪声的技术,同时它也能使树得到简化而变得更容易理解。向前剪枝(forward pruning)向后剪枝(backward pruning)理论上讲,向后剪枝好于向前剪枝,但计算复杂度大。剪枝
7、过程中一般要涉及一些统计参数或阈值,如停机阈值;有人提出了一种和统计参数无关的基于最小描述长(MDL)的有效剪枝法 25感谢你的观看2019年8月25决策树学习的常见问题(2)合并连续值属性属性选择的其他度量标准 信息增益比(gain ratio)、Gini-index、距离度量(distance measure)等。不同的度量有不同的效果,特别是对于多值属性。26感谢你的观看2019年8月25决策树学习的常见问题(3)处理缺少属性值的训练样例 处理不同代价的属性27感谢你的观看2019年8月25决策树的优点 可以生成可以理解的规则;计算量相对来说不是很大;可以处理连续和离散字段;决策树可以清
8、晰的显示哪些字段比较重要28感谢你的观看2019年8月25不足之处 对连续性的字段比较难预测 当类别太多时,错误可能会增加的比较快 一般的算法分类的时候,只是根据一个属性来分类。不是全局最优。29感谢你的观看2019年8月25举例:利用决策树进行文本分类30感谢你的观看2019年8月25最大熵模型熵定量的描述事物的不确定性熵定量的描述事物的不确定性设随机变量设随机变量 ,它有,它有A1,A2,An共共n n个个可能的结局,每个结局出现的机率分别为可能的结局,每个结局出现的机率分别为p1,p2,.,pn,则,则 的不确定程度,即信息的不确定程度,即信息熵为熵为:熵越大,越不确定熵越大,越不确定熵
展开阅读全文