自然语言处理中的最大熵方法课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《自然语言处理中的最大熵方法课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 处理 中的 最大 方法 课件
- 资源描述:
-
1、自然语言处理中的自然语言处理中的最大熵方法最大熵方法马金山信息检索研究室 http:/什么是熵什么是熵什么是熵?什么是熵? 没有什么问题在科学史的没有什么问题在科学史的进程中曾被更为频繁地讨论过进程中曾被更为频繁地讨论过 普里高津普里高津熵定律是自然界一切定律中的最高定律熵定律是自然界一切定律中的最高定律 里夫金里夫金&霍华德霍华德德国物理学家克劳修斯(德国物理学家克劳修斯(Rudolph J.E clausius)于于1865提出熵的概念提出熵的概念 其经典意义定义为:其经典意义定义为: R表示可逆过程,即体系的熵变等于可逆过程吸收或表示可逆过程,即体系的熵变等于可逆过程吸收或耗散的热量除以
2、它的绝对温度。耗散的热量除以它的绝对温度。 RTdQds)(熵原理的形象比喻一滴墨水滴入一杯清水中一滴墨水滴入一杯清水中,墨水扩散后墨水扩散后均匀地分布在清水中均匀地分布在清水中比喻热力体系的自发过程总是趋于温度比喻热力体系的自发过程总是趋于温度均匀分布,均匀分布, 反之不行反之不行。熵增原理熵增原理一个孤立系统的熵,自发性地趋于极大,随一个孤立系统的熵,自发性地趋于极大,随着熵的增加,有序状着熵的增加,有序状态逐步变为混沌状态,逐步变为混沌状态,不可能自发地产生新的有序结构。不可能自发地产生新的有序结构。熵的普遍性熵概念的泛化熵概念的泛化 熵理论是存在问题的,熵理论是存在问题的, 需要发展和
3、完善需要发展和完善熵与信息熵与信息1948年电气工程师香农年电气工程师香农( Shannon)创立了信创立了信息论,将信息量与熵联系起来息论,将信息量与熵联系起来。他用非常简洁的数学公式定义了信息时代的他用非常简洁的数学公式定义了信息时代的基本概念:熵基本概念:熵 H(p) = -p(x)logp(x)单位:单位:bits通信中的熵通信中的熵表示表示“是是” 和和 “否否”1 = 是是 0 =否否表示表示“是是” 、“否否”和和“可能是可能是”11 =是是 00 = 否否 10(01) = 可能是可能是一条消息的熵就是编码这条消息所需二一条消息的熵就是编码这条消息所需二进制位即比特的个数。进制
4、位即比特的个数。随机事件的熵随机事件的熵熵定量的描述熵定量的描述事件事件的不确定性的不确定性设随机变量设随机变量 ,它有,它有A1,A2,An共共n n个个可能的结局,每个结局出现的机率分别为可能的结局,每个结局出现的机率分别为p1, ,p2 ,.,pn,则则 的不确定程度,即信的不确定程度,即信息熵为息熵为: : 熵越大,越不确定熵越大,越不确定熵等于熵等于0,事件事件是确定的是确定的niippH1log)(例子例子抛硬币抛硬币掷色子(掷色子(32个面)个面)不公平的硬币不公平的硬币熵的图形信息熵的意义信息熵的意义信息熵概念为测试信息的多少找到了一信息熵概念为测试信息的多少找到了一个统一的科
5、学定量计量方法,是信息论个统一的科学定量计量方法,是信息论的基础。的基础。信息熵将数学方法和语言学相结合信息熵将数学方法和语言学相结合最大熵理论最大熵理论熵增原理熵增原理在无外力作用下,事物总是朝着最混乱在无外力作用下,事物总是朝着最混乱的方向发展的方向发展事物是约束和自由的统一体事物是约束和自由的统一体事物总是在约束下争取最大的自由权,事物总是在约束下争取最大的自由权,这其实也是自然界的根本原则这其实也是自然界的根本原则。在已知条件下,熵最大的事物,最可能在已知条件下,熵最大的事物,最可能接近它的真实状态接近它的真实状态最大熵原则下点的分布对一随机过程,如果没有任何观测量,对一随机过程,如果
6、没有任何观测量,既没有任何约束,则解为均匀分布既没有任何约束,则解为均匀分布最大熵原则下点的分布最大熵原则下点的分布最大熵原则下点的分布选择最好的模型选择最好的模型研究某个随机事件,根据已知信息,预研究某个随机事件,根据已知信息,预测其未来行为。测其未来行为。当无法获得随机事件的真实分布时,构当无法获得随机事件的真实分布时,构造统计模型对随机事件进行模拟。造统计模型对随机事件进行模拟。满足已知信息要求的模型可能有多个。满足已知信息要求的模型可能有多个。基于最大熵原理选择模型基于最大熵原理选择模型选择熵最大的模型选择熵最大的模型Jaynes证明:对随机事件的所有相容证明:对随机事件的所有相容的预
7、测中,熵最大的预测出现的概率占的预测中,熵最大的预测出现的概率占绝对优势绝对优势Tribus证明,正态分布、伽玛分布、指证明,正态分布、伽玛分布、指数分布等,都是最大熵原理的特殊情况数分布等,都是最大熵原理的特殊情况基于最大熵的统计建模基于最大熵的统计建模特征空间的确定特征空间的确定特征选择特征选择 建立统计模型建立统计模型 基于最大熵的统计建模即发现满足已知条基于最大熵的统计建模即发现满足已知条件的熵最大的模型件的熵最大的模型基于最大熵的统计建模基于最大熵的统计建模已有特征已有特征 f1(x,y), f2(x,y), fn(x,y)特征的经验概率:特征的经验概率:特征的期望概率特征的期望概率
展开阅读全文