自然语言理解讲义统计语言模型课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《自然语言理解讲义统计语言模型课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 理解 讲义 统计 语言 模型 课件
- 资源描述:
-
1、自然语言理解讲义自然语言理解讲义第四章第四章 统计语言模型统计语言模型内容提要内容提要o 概述o 统计语言模型o 数据平滑o 模型评价o 主要统计语言模型概述:信源信道模型概述:信源信道模型o 噪声信道模型o(概率)模型:出错的概率n 举例:p(0|1)=0.3,p(1|1)=0.7,p(1|0)=0.4,p(0|0)=0.6o 任务:n 已知带有噪声的输出n 想知道输入是什么(也称为:Decoding)概述:信源信道模型概述:信源信道模型o 信源模型n 以概率 生成输入信号。o 信道模型n 信道以概率分布 将输入信号转换成输出信号。o 信源信道模型n 已知输出,求解最可能的输入。n 该任务的
2、数学描述是:)()|(maxarg)()()|(maxarg)|(maxargIPIOPOPIPIOPOIPIIII)/(IOP)(IP概述:信源信道模型的应用概述:信源信道模型的应用o 信源信道模型n是一种常用模型,具有广泛应用。n可根据实际问题,定义信源信道模型的I/O。n例如:o语音识别:输入:文本 输出:语音。o文字识别:输入:文本 输出:图像。o机器翻译:输入:目标语言句子 输出:源语言句子。o音字转换:输入:文本 输出:拼音。n例子:微软拼音输入法:o任务:将用户输入的拼音流转换成文本句子。o信源信道模型的I/O定义:输入:文本 输出:拼音。o微软拼音输入法的音字转换程序:o语言模
3、型:计算文本句子的概率 P(文本)。)()|(maxarg)()()|(maxarg)|(maxarg文本文本拼音拼音文本文本拼音拼音文本文本文本文本文本PPPPPP统计语言模型统计语言模型o 什么是语言模型(Language Model)n 一个概率模型,用来估计语言句子出现的概率。是一个可能的句子,其先验概率如下n 说明:(1)wi可以是字、词、短语或词类等等,称为统计基元。通常以“词”代之。(2)wi 的概率由w1,wi-1 决定,由特定的一组w1,wi-1 构成的一个序列,称为wi的历史(history)。)|()|()()()(12112121mmmwwwwPwwPwPwwwSPSP
4、mwwwS21完美的语言模型完美的语言模型o 即使对于很小的m,上面的理想公式也很难计算,因为参数太多。n 随着历史基元数量的增加,不同的“历史”(路径)按指数级增长。对于第i(i 1)个统计基元,历史基元的个数为i-1,如果共有L个不同的基元,如词汇表,理论上每一个单词都有可能出现在1到i-1的每一个位置上,那么,i 基元就有Li-1 种不同的历史情况。我们必须考虑在所有的Li-1 种不同历史情况下产生第i 个基元的概率。那么,模型中有Lm 个自由参数P(wm|w1wm-1)。o 如果L=5000,m=3,自由参数的数目达到1250亿!一个例子一个例子),|(),|(),|()|()(),(
5、)(个一是我学生一是我个是我一我是我学生个一是我我是一个学生ppppppp统计语言模型:统计语言模型:Markov链o 有限的记忆能力n 不考虑太“旧”的历史n 只记住前n-1个词n 称为n-1阶Markov链近似miiniimwwPwwwSPSP11121)|()()(例子例子(二元语法二元语法Bigram,三元语法Trigram)|()|()|()|()(),()(个学生一个是一我是我学生个一是我我是一个学生ppppppp),|(),|(),|()|()(),()(个一学生一是个是我一我是我学生个一是我我是一个学生pppppppN元语法(N-gram)模型o N-gram模型:相当于n-1
6、阶Markov链。n“n-gram”=n个词构成的序列oUnigramn=1;obigramn=2;otrigram n=3;o 模型结构n模型:由一组模型参数组成。n每个N-gram模型参数:n-gram及其频度信息,形式为:或 这里:c()为 在训练语料库中出现的次数。o 模型作用:计算概率。o 模型训练:在训练语料库中统计获得n-gram的频度信息).(),.(2121nnwwwcwww).().().|(12121121nnnnwwwcwwwcwwwwPnwww.21)(,gramnfgramn参数训练参数训练 语料 库 分词 语料 参数 估计 语言 模型 分词 系统 词表 N的选择:
7、可靠性的选择:可靠性 vs.辨别力辨别力“我正在 _”讲课?图书馆?听课?学习?借书?“我正在 图书馆 _”学习?借书?N的选择:可靠性的选择:可靠性 vs.辨别力辨别力o 更大的 N:对下一个词出现的约束性信息更多,更大的辨别力o 更小的N:在训练语料库中出现的次数更多,更可靠的统计结果,更高的可靠性 o 可靠性和可区别性成反比,需要折中。N的选择的选择假设词表中词的个数假设词表中词的个数|V|=20,000 词词n所有可能的所有可能的n-gram的个数的个数2(bigrams)400,000,0003(trigrams)8,000,000,000,0004(4-grams)1.6 x 10
8、17统计语言模型小结统计语言模型小结o 符号串:o 词 在句子中的上下文(context)或历史(history)o 语言模型:描述语言句子的概率分布P(S)o 句子概率的计算o 上下文历史太长将导致无法计算miimiiimhwpwwpwSPSP11111)|()|()()(12111iiwwwwhmnndefmnwwww1iw统计语言模型小结统计语言模型小结o N-gram模型:有限历史假设:n词 的出现,仅与其前n-1个词相关:o 句子概率计算:o 模型:n模型参数的集合n模型参数:n举例nn=1 Unigramnn=2 Bigramnn=3 Trigram 11iniwh)(,iiwcw
9、iwmiiniimiimwwphwpwSP11111)|()|()()(,gramncgramn),(),(kjikjiwwwcwww),(),(jijiwwcww统计语言模型小结统计语言模型小结o 采用N-gram模型计算句子概率o n=1 Unigramo n=2 Bigramo n=3 TrigrammiiniimwwpwSP1111)|()(miimwpwSP11)()(miiimwwpwSP111)|()(miiiimwwwpwSP1121),|()(N元语法元语法(N-gram)应用应用:音字转换音字转换o 给定拼音串:ta shi yan jiu sheng wu deo 可能的
10、汉字串n 踏实研究生物的n 他实验救生物的n 他使烟酒生物的n 他是研究生物的n N元语法元语法(N-gram)应用应用:音字转换音字转换o 音字转换计算公式)(maxarg)()|(maxarg)()()|(maxarg)|(maxarg文本文本文本拼音拼音文本文本拼音拼音文本文本文本文本文本文本PPPPPPPN元语法元语法(N-gram)应用应用:音字转换音字转换o 可能的转换结果,分词结果n踏实研究生物的:踏实/研究/生物/的n他实验救生物的:他/实验/救生/物/的n他使烟酒生物的:他/使/烟酒/生物/的n他是研究生物的:他/是/研究/生物/的n o 如果使用Bigram计算:nP(踏实
11、研究生物的)=P(踏实)P(研究|踏实)P(生物|研究)P(的|生物)nP(他实验救生物的)=P(他)P(实验|他)P(救生|实验)P(物|救生)P(的|物)nP(他是研究生物的)=P(他)P(是|他)P(研究|是)P(生物|研究)P(的|生物)o 选择概率最大的句子,作为转换结果N元语法元语法(N-gram)应用应用:中文分词中文分词o 给定汉字串:他是研究生物的。o 可能的分词结果:n 1)他|是|研究生|物|的n 2)他|是|研究|生物|的N元语法元语法(N-gram)应用应用:中文分词中文分词o 统计分词计算公式N元语法元语法(N-gram)应用应用:中文分词中文分词o 采用二元模型(
12、Bigram)计算oP(他/是/研究生/物/的)=P(他)P(是|他)P(研究生|是)P(物|研究生)P(的|物)P(的)oP(他/是/研究/生物/的)=P(他)P(是|他)P(研究|是)P(生物|研究)P(的|生物)P(的)关键问题:如何获得二元关键问题:如何获得二元(N元元)模型?模型?miiimmwwPwwwPwwwPSegP112121)|(),()/(模型训练:模型训练:模型参数估计模型参数估计o 两个基本概念基本概念n 训练语料训练语料:用于建立模型的给定语料。n 最大似然估计最大似然估计:用相对频率计算概率的方法。模型训练:模型训练:模型参数估计模型参数估计模型训练:模型训练:模
13、型参数估计模型参数估计例如,给定训练语料:“John read Moby Dick”,“Mary read a different book”,“She read a book by Cher”根据二元语法求句子的概率?模型训练:模型训练:模型参数估计模型参数估计o模型训练:模型训练:模型参数估计模型参数估计John read Moby DickMary read a different bookShe read a book by Cher模型训练:模型训练:模型参数估计模型参数估计John read Moby DickMary read a different bookShe read a
14、 book by Cher零概率问题零概率问题o 大量的低频词,无论训练数据的规模如何扩大,其出现频度仍旧很低甚至根本不出现。如果采用最大似然估计(MLE)估算它们的概率分布,将出现大量的 ,从而导致 的情况,这种情况大大削弱了该模型的描述能力。0)|(1iiwwp0)(sp零概率问题零概率问题o 假设我们使用Trigram模型o 如果某个 那么P(S)=0,这就是数据稀疏问题(零概率问题)o 必须保证 ,从而使)|().|()|()()(12213121nnnwwwpwwwpwwpwpSP0)()()|(121212iiiiiiiiwwcwwwcwwwp0c0P数据平滑数据平滑数据平滑数据平
展开阅读全文