统计语言模型课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《统计语言模型课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 语言 模型 课件
- 资源描述:
-
1、目录概述语言模型数据平滑模型评价主要统计语言模型信源信道模型噪声信道模型模型:出错的概率举例:p(0|1)=0.3,p(1|1)=0.7,p(1|0)=0.4,p(0|0)=0.6任务是:已知带有噪声的输出想知道输入是什么(也称为:Decoding)信源信道模型信源模型以概率 生成输入信号。信道模型信道以概率分布 将输入信号转换成输出信号。信源信道模型已知输出,求解最可能的输入。该任务的数学描述是:)()|(maxarg)()()|(maxarg)|(maxargIPIOPOPIPIOPOIPIIII)/(IOP)(IP信源信道模型的应用信源信道模型是一种常用模型,具有广泛应用。可根据实际问题
2、,定义信源信道模型的I/O。例如:语音识别:输入:文本 输出:语音。文字识别:输入:文本 输出:图像。机器翻译:输入:目标语言句子 输出:源语言句子。音字转换:输入:文本 输出:拼音。例子:微软拼音输入法:任务:将用户输入的拼音流转换成文本句子。信源信道模型的I/O定义:输入:文本 输出:拼音。微软拼音输入法的音字转换程序:语言模型:计算文本句子的概率 。)()|(maxarg)()()|(maxarg)|(maxarg文本文本拼音拼音文本文本拼音拼音文本文本文本文本文本PPPPPP)(文本P语言模型什么是语言模型(Language Model)一个概率模型,用来估计语言句子出现的概率。)|(
3、)|()()()(12112121mmmwwwwPwwPwPwwwSPSP完美的语言模型对于词序列如何计算?根据链式规则:即使对于很小的m,上面的理想公式也很难计算,因为参数太多。)|()|()()()(12112121mmmwwwwPwwPwPwwwSPSPmwwwS21)(SP例子),|(),|(),|()|()(),()(个一是我学生一是我个是我一我是我学生个一是我我是一个学生pppppppMarkov链有限的记忆能力不考虑太“旧”的历史只记住前n-1个词,称为n-1阶Markov链近似miiniimwwPwwwSPSP11121)|()()(例子(Bigram,Trigram))|()
4、|()|()|()(),()(个学生一个是一我是我学生个一是我我是一个学生ppppppp),|(),|(),|()|()(),()(个一学生一是个是我一我是我学生个一是我我是一个学生pppppppN-gram模型N-gram模型:相当于n-1阶Markov链。“n-gram”=n个词构成的序列,Unigramn=1;bigramn=2;trigram n=3;模型结构模型:由一组模型参数组成。每个N-gram模型参数:n-gram及其频度信息,形式为:或 这里:模型作用:计算概率。模型训练:在训练语料库中统计获得n-gram的频度信息).(),.(2121nnwwwcwww).().().|(
5、12121121nnnnwwwcwwwcwwwwPnwww.21)(,gramnfgramn数。在训练语料库中出现次为)(C参数训练系统 语料 库 分词 语料 参数 估计 语言 模型 分词 系统 词表 N的选择:可靠性的选择:可靠性 vs.辨别力辨别力“我正在 _”讲课?图书馆?听课?学习?借书?“我正在 图书馆 _”学习?借书?可靠性可靠性 vs.辨别力辨别力更大的 n:对下一个词出现的约束性信息更多,更大的辨别力更小的n:在训练语料库中出现的次数更多,更可靠的统计结果,更高的可靠性 可靠性和可区别性成反比,需要折中。N的选择的选择词表中词的个数词表中词的个数|V|=20,000 词词n所有
6、可能的所有可能的n-gram的个数的个数2(bigrams)400,000,0003(trigrams)8,000,000,000,0004(4-grams)1.6 x 1017小结符号串:词 在句子中的上下文(context)或历史(history)语言模型:描述语言句子的概率分布P(S)句子概率的计算上下文历史太长,无法计算miimiiimhwpwwpwSPSP11111)|()|()()(12111iiwwwwhmnndefmnwwww1iwN-gram模型:有限历史假设:词 的出现,仅与其前n-1个词相关。句子概率计算:模型:模型参数的集合模型参数:举例n=1 Unigramn=2 B
7、igramn=3 Trigram 11iniwh)(,iiwcwiwmiiniimiimwwphwpwSP11111)|()|()()(,gramncgramn),(),(kjikjiwwwcwww),(),(jijiwwcww采用N-gram模型计算句子概率n=1 Unigramn=2 Bigramn=3 TrigrammiiniimwwpwSP1111)|()(miimwpwSP11)()(miiimwwpwSP111)|()(miiiimwwwpwSP1121),|()(N-gram模型应用-音字转换给定拼音串:ta shi yan jiu sheng wu de可能的汉字串踏实研究生物
8、的他实验救生物的他使烟酒生物的他是研究生物的 音字转换计算公式)(maxarg)()|(maxarg)()()|(maxarg)|(maxarg文本文本文本拼音拼音文本文本拼音拼音文本文本文本文本文本文本PPPPPPP可能的转换结果,分词结果踏实研究生物的:踏实/研究/生物/的他实验救生物的:他/实验/救生/物/的他使烟酒生物的:他/使/烟酒/生物/的他是研究生物的:他/是/研究/生物/的 如果使用Bigram计算:P(踏实研究生物的)=P(踏实)P(研究|踏实)P(生物|研究)P(的|生物)P(他实验救生物的)=P(他)P(实验|他)P(救生|实验)P(物|救生)P(的|物)P(他是研究生物
9、的)=P(他)P(是|他)P(研究|是)P(生物|研究)P(的|生物)选择概率最大的句子,作为转换结果N-gram模型应用-中文分词给定汉字串:他是研究生物的。可能的分词结果:1)他|是|研究生|物|的2)他|是|研究|生物|的统计分词计算公式 采用Bigram计算P(他/是/研究生/物/的)=P(他)P(是|他)P(研究生|是)P(物|研究生)P(的|物)P(的)P(他/是/研究/生物/的)=P(他)P(是|他)P(研究|是)P(生物|研究)P(的|生物)P(的)miiimmwwPwwwPwwwPSegP112121)|(),()/(模型参数估计模型训练两个概念训练语料:用于建立模型的给定语
10、料。最大似然估计:用相对频率计算概率的方法。模型参数估计模型训练零概率问题大量的低频词,无论训练数据的规模如何扩大,其出现频度仍旧很低甚至根本不出现。如果采用MLE估算它们的概率分布,将出现大量的 ,从而导致 的情况,这种情况大大削弱了该模型的描述能力。0)|(1iiwwp0)(sp例子假设我们使用Trigram模型如果某个那么P(S)=0这就是数据稀疏问题(零概率问题)必须保证 从而使)|().|()|()()(12213121nnnwwwpwwwpwwpwpSP0)()()|(121212iiiiiiiiwwcwwwcwwwp0c0P加1平滑UnigramBigramiiwiiwiiiad
展开阅读全文