第20章潜在狄利克雷分布.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第20章潜在狄利克雷分布.pptx》由用户(淡淡的紫竹语嫣)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第20章 潜在狄利克雷分布 20 潜在 狄利克雷 分布
- 资源描述:
-
1、第二十章 潜在狄利克雷分配 潜在狄利克雷分配 潜在狄利克雷分配(latent Dirichlet allocation, LDA),作为 基于贝叶斯学习的话题模型,是潜在语义分析、概率潜在语义分 析的扩展, LDA 在文本数据挖掘、图像处理、生物信息处理等领域被广泛使 用 潜在狄利克雷分配 LDA模型是文本集合的生成概率模型 假设每个文本由话题的一个多项分布表示,每个话题由单词的一 个多项分布表示 特别假设文本的话题分布的先验分布是狄利克雷分布,话题的单 词分布的先验分布也是狄利克雷分布 先验分布的导入使LDA 能够更好地应对话题模型学习中的过拟合 现象 潜在狄利克雷分配 LDA的文本集合的生
2、成过程如下: 首先随机生成一个文本的话题分布 之后在该文本的每个位置,依据该文本的话题分布随机生成一个 话题 然后在该位置依据该话题的单词分布随机生成一个单词,直至文 本的最后一个位置,生成整个文本。 重复以 上过程生成所有文本。 潜在狄利克雷分配 LDA模型是含有隐变量的概率图模型 模型中,每个话题的单词分布,每个文本的话题分布,文本的每 个位置的话题是隐变量 文本的每个位置的单词是观测变量 LDA模型的学习与推理无法直接求解,通常使用吉布斯抽样 (Gibbs sampling)和变分EM算法(variational EM algorithm),前者是蒙特卡罗法,而后者是近似算法。 狄利克雷
3、分布 分布定义 1. 多项分布 多项分布(multinomial distribution)是一种多元离散随机变 量的概率分布,是二项分布(binomial distribution)的扩展。 假设重复进行n次独立随机试验,每次试验可能出现的结果有k种, 第i种结果出现的概率为pi,第i种结果出现的次数为ni 如果用随机变量 表示试验所有可能结果的次数, 其中Xi表示第i种结果出现的次数,那么随机变量x服从多项分布 分布定义 当试验的次数n为1时,多项分布变成类别分布(categorical distribution) 类别分布表示试验可能出现的k种结果的概率 分布定义 2. 狄利克雷分布 狄
4、利克雷分布(Dirichlet distribution)是一种多元连续随机 变量的概率分布,是贝塔分布((beta distribution)的扩展 在贝叶斯学习中,狄利克雷分布常作为多项分布的先验分布使用 分布定义 分布定义 式中 是伽马函数,定义为 具有性质 当s是自然数时,有 分布定义 由于满足条件 所以狄利克雷分布 存在于(k1)维单纯形上 右图为二维单纯形上的狄利克雷分布 狄利克雷分布的参数为 分布定义 令 则狄利克雷分布的密度函数可以写成 是规范化因子,称为多元贝塔函数(或扩展的贝塔函 数) 分布定义 由密度函数的性质 得 即多元贝塔函数的积分表示 分布定义 3. 二项分布和贝塔
5、分布 二项分布是多项分布的特殊情况,贝塔分布是狄利克雷分布的特 殊情况 二项分布是指如下概率分布。X为离散随机变量,取值为m,其概 率质量函数为 其中n和p (0p1) 是参数 分布定义 贝塔分布是指如下概率分布,X为连续随机变量,取值范围为 0,1,其概率密度函数为 其中s0和t0是参数, 是贝塔函数,定义为 当然s, t是自然数时, 分布定义 当n为1时,二项分布变成伯努利分布(Bernoulli distribution )或0-1分布 伯努利分布表示试验可能出现的2种结果的概率 下图给出几种概率分布的关系。 共扼先验 狄利克雷分布有一些重要性质: (1)狄利克雷分布属于指数分布族 (2
6、)狄利克雷 分布是多项分布的共扼先验(conjugate prior) 共扼先验 贝叶斯学习中常使用共扼分布 如果后验分布与先验分布属于同类,则先验分布与后验分布称为共扼 分布(conjugate distributions),先验分布称为共扼先验 (conjugate prior) 如果多项分布的先验分布是狄利克雷分布,则其后验分布也为狄利克 雷分布,两者构成共扼分布 作为先验分布的狄利克雷分布的参数又称为超参数 使用共扼分布的好处是便于从先验分布计算后验分布 共扼先验 设 是由k个元素组成的集合。随机变量X服从W 上的多项分布, ,其中 和 是参数 参数n为从W中重复独立抽取样本的次数,n
7、i为样本中wi出现的次 数(i = 1,2,k) 参数 为 wi 出现的概率(i = 1,2,k) 共扼先验 将样本数据表示为D,目标是计算在样本数据D给定条件下参数 的后验概率 。 对于给定的样本数据D,似然函数是 假设随机变量 服从狄利克雷分布 ,其中 为参数。则 的先验分布为 共扼先验 根据贝叶斯规则,在给定样本数据D和参数条件下, 的后验 概率分布是 共扼先验 可以看出先验分布和后验分布都是狄利克雷分布 两者有不同的参数,所以狄利克雷分布是多项分布的共扼先验 狄利克雷后验分布的参数等于狄利克雷先验分布参数 加上多项分布的观测 ,好像试验之前就已经观 察到计数 ,因此也把叫做先验伪计数(
8、prior pseudo-counts)。 潜在狄利克雷分配模型 基本想法 潜在狄利克雷分配(LDA)是文本集合的生成概率模型 模型假设话题由单词的多项分布表示,文本由话题的多项分布表 示,单词分布和话题分布的先验分布都是狄利克雷分布 文本内容的不同是由于它们的话题分布不同 基本想法 LDA模型表示文本集合的自动生成过程: 首先,基于单词分布的先验分布(狄利克雷分布)生成多个单词 分布,即决定多个话题内容 之后,基于话题分布的先验分布(狄利克雷分布)生成多个话题 分布,即决定多个文本内容 然后,基于每一个话题分布生成话题序列,针对每一个话题,基 于话题的单词分布生成单词,整体构成一个单词序列,
9、即生成文 本 重复这个过程生成所有文本 基本想法 文本的单词序列是观测变量,文本的话题序列是隐变量,文本的 话题分布和话题的单词分布也是隐变量。 基本想法 LDA模型是概率图模型,其特点是以狄利克雷分布为多项分布的 先验分布 学习就是给定文本集合,通过后验概率分布的估计,推断模型的 所有参数 利用LDA进行 话题分析,就是对给定文本集合,学习到每个文本 的话题分布,以及每个话题的单词分布。 基本想法 可以认为LDA是PLSA(概率潜在语义分析)的扩展 相同点是两者都假设话题是单词的多项分布,文本是话题的多项分布 不同点是LDA使用狄利克雷分布作为先验分布,而PLSA不使用先验分布 (或者说假设
10、先验分布是均匀分布) 学习过程LDA基于贝叶斯学习,而PLSA基于极大似然估计 LDA的优点是,使用先验概率分布,可以防止学习过程中产生的过拟合 (over-fitting) 模型定义 1. 模型要素 潜在狄利克雷分配(LDA)使用三个集合: 单词集合 文本集合 ,其中 wm 是一个单词序列 话题集合 基本想法 每一个话题 zk 由一个单词的条件概率分布 p(w|zk) 决定 分布 p(w|zk) 服从多项分布(严格意义上类别分布),其参数为 参数 服从狄利克雷分布(先验分布),其超参数为 。 参数 是一个V维向量 ,其中 表示话题 zk 生成单词 wv 的概率 所有话题的参数向量构成一个 K
11、 x V 矩阵 。 超参数 也是一个V维向量 基本想法 每一个文本 wm 由一个话题的条件概率分布 p(z|wm) 决定 分布 p(z|wm) 服从多项分布(严格意义上类别分布),其参数为 参数 服从狄利克雷分布(先验分布),其超参数为 参数 是一个K维向量 ,其中 表示文本 wm 生成话题 zk 的概率 所有文本的参数向量构成一个 M x K 矩阵 超参数 也是一个K维向量 每一个文本 wm 中的每一个单词 wmn 由该文本的话题分布 p(z|wm) 以及所有话题的单词分布 p(w|zk) 决定 基本想法 2. 生成过程 LDA文本集合的生成过程如下: 给定单词集合W,文本集合D,话题集合Z
12、,狄利克雷分布的超参 数 和 基本想法 (1)生成话题的单词分布 随机生成K个话题的单词分布 按照狄利克雷分布Dir() 随机生成一个参数向量 ,作 为话题 zk 的单词分布 p(wlzk) (2)生成文本的话题分布 随机生成M个文本的话题分布 按照狄利克雷分布Dir() 随机生成一个参数向量 , 作为文本 wm 的话题分布 p(z|wm) 基本想法 (3)生成文本的单词序列 随机生成M个文本的Nm个单词 首先按照多项分布 随机生成一个话题 zmn, zmn 然后按照多项分布 随机生成一个单词 wmn, wmn 文本 wm 本身是单词序列 ,对应着隐式的话 题序列 LDA的文本生成算法 LDA
13、的文本生成算法 LDA的文本生成过程中,假定话题个数K给定,实际通常通过实验 选定 狄利 克雷分布的超参数 和 通常也是事先给定的 在没有其他先验知识的情况下,可以假设向量 和 的所有 分量均为1,这时的文本的话题分布 是对称的,话题的单词 分布 也是对称的。 概率图模型 LDA模型本质是一种概率图模型(probabilistic graphical model) 下图为 LDA作为概率图模型的板块表示(plate notation) 图中结点表示随机变量 实心结点是观测变量 空心结点是隐变量 有向边表示概率依存关系 矩形(板块)表示重复,板块 内数字表示重复的次数。 概率图模型 图中LDA板
14、块表示,结点 和 是模型的超参数 结点 表示话题的单词分布的参数 结点 表示文本的话题分布的参数 结点 zmn 表示话题,结点 vmn 表示单词 结点 指向结点 ,重复K次,表示根据超参数 生成K个话题的单词分布的 参数 结点 指向结点 ,重复M次,表示根据超参数 生成M个文本的话题分布的 参数 结点 指向结点 zmn ,重复Nm次,表示根据文本的话题分布 生成 Nm 个话题 zmn 结点 zmn 指向结点wmn,同时K个结点 也指 向结点 wmn,表示根据话题 zmn 以 及K个话题的单词分布 生成单词 wmn 。 概率图模型 板块表示的优点是简洁,板块表示展开之后,成为普通的有向图 表示
15、有向图中结点表示随机变量,有向边表示概率依存关系。可以看 出LDA是相同随机 变量被重复多次使用的概率图模型。 随机变量序列的可交换性 一个有限的随机变量序列是可交换的(exchangeable),是指随 机变量的联合概率 分布对随机变量的排列不变 这里 代表自然数1,2,. ,N的任意一个排列。一 个无限的随机变量序列是无限可交换((infinitely exchangeable)的,是指它的任意一个有限子序列都是可交换的 如果一个随机变量序列 是独立同分布的,那么它 们是无限 可交换的。反之不然。 随机变量序列的可交换性 随机变量序列可交换的假设在贝叶斯学习中经常使用 根据De Finet
展开阅读全文