HMM模型和词性标注课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《HMM模型和词性标注课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- HMM 模型 词性 标注 课件
- 资源描述:
-
1、徐志明哈工大语言技术中心目录Markov模型HMM词性标注Markov模型描述:一个随机过程上的随机变量序列,X=X1,X2Xt随机变量取值于有限集 S=s1,s2 sN。S称为状态空间。XXXX状态序列Markov模型模型描述一个随机过程,存在着一个随机变量序列 X=X1,X2Xt随机变量的取值于有限集 S=s1,s2 sN,S称为状态空间。两个假设:有限视野:P(Xt+1|X1,X2Xt)=P(Xt+1|Xt)时间不变性:这种条件依赖,不随时间的改变而改变。若随机过程满足上述假设,则是一个Markov 过程(链)。Markov模型模型表示:三元组(S,p,A)S:状态的集合,S=s1,s2
2、 sN。p:初始状态的概率。p=p1,p2pN;pi=P(X1=si)A:状态转移概率矩阵。A=aij;aij=P(Xt+1=sj|Xt=si)状态图相当于一个有限状态自动机转移弧上有概率11niip11njijaMarkov模型状态空间 S=t,i,p,a,h,e初始概率 p=1.0,0,0,0,0状态转移概率矩阵 aij t i p a h e t 0.3 0.3 0.4 i 0.4 0.6 p 1.0 a 0.4 0.6 h 1.0 e 1.0 Markov模型计算状态序列的概率例子:1111211211212111)|()|()()|()|()(),(TtXXXtttttTTaXXPX
3、XPXPXXXXPXXPXPXXXPp18,06.0*3.0*0.1)|()|()(),(23121iXpXPtXiXPtXPpitPThe Markov Chain Ex 2例:Markov模型描述道琼斯工业指数。0.3 0.5,0.2,ip5 个连续上涨交易日的概率个连续上涨交易日的概率0.06480.60.5aaaas,s,s,s,sP up up up up upP411111111111111pMarkov模型Bigram:一阶Markov模型.)|()|()()(oeptoptptoepHMMHMM,从状态产生输出HMMHMM,不同状态可能产生相同输出HMMHMM,从弧中产生输出H
4、MMHMM,输出带有概率Hidden Markov Model(HMM)模型原理表层事件:可观察序列;底层事件:隐藏的、不可见的;状态序列。表层事件是由底层事件引起的。根据表层事件的可观察序列,推测生成它的底层事件的序列。例子:观察一个人每天带雨伞情况,推测天气情况。隐藏的状态序列表层的可观察序列HMM应用例子例子:序列标注序列标注 观察序列观察序列 隐藏的状态序列隐藏的状态序列 分词 字序列 词序列 词性标注 词序列 词性序列 句法分析 词序列 句子结构 HMM假设一个随机过程,有一个观察序列 O=O1,O2.OT,该过程隐含着一个状态序列 X=X1,X2.XT假设Markov假设假设1:有
5、限历史假设:P(Xi|X1,X2Xi-1)=P(Xi|Xi-1)假设2:时间不动性假设输出条件独立性假设输出仅与当前状态有关P(O1,O2.OT|X1,X2.XT)=t P(Ot|Xt)HMM模型图示两个随机过程Markov链(p,A)符号输出过程(B)状态序列状态序列观察值序列观察值序列X1,X2.XTO1,O2.OTHMM的组成示意图的组成示意图HMM模型图示状态空间观察序列时间状态序列 X1 X2 XT-1 XT-1 HMM模型图示oTo1otot-1ot+1x1xt+1xTxtxt-1HMM模型表示模型表示五元组(S,V,p,A,B)符号表S:状态集合,s1,sN。V:输出字母表,v1
6、,vM模型参数p:初始状态概率。p =pi;A:状态转移概率。A=aij;B:符号输出概率。B=bjk;序列状态序列:X=X1,X2XT输出序列:O=O1,O2 OTSiSji,VkSj,SXtVOtHMM过程HMM过程描述t=1;初始状态概率分布为p。从状态si开始的概率为pi;Forever do 从状态si 向状态sj转移,并输出观察符号Ot=k。其中,状态转移概率为aij。符号输出概率为 bjk t=t+1End HMM的三个基本问题给定一个观察序列O=O1,O2OT和模型=(A,B,p)问题1:如何有效计算观察序列 O=O1,O2OT 的概率P(O|)?评价问题问题2:如何寻找最佳的
7、状态序列 X=X1,X2 XT?解码问题问题3:如何训练模型参数=(A,B,p),使得P(O|)概率最大?模型参数学习、训练问题HMM相关的算法评价问题:向前算法定义向前变量采用动态规划算法解码问题:Viterbi算法采用动态规划算法模型参数训练、学习问题:向前-向后算法EM算法问题1:评价(Evaluation)给定一个模型=(A,B,p),计算某一观察序列 O=O1,O2OT 的概率P(O|)HMM例子假设:某一时刻只有一种疾病,且只依赖于上一时刻疾病(有限历史假设)一种疾病只有一种症状,且只依赖于当时的疾病(输出条件独立性假设)症状(观察值):O=O1,O2 OT发烧,咳嗽,咽喉肿痛,流
8、涕疾病(状态值):X=X1,X2XT 感冒,肺炎,扁桃体炎转移概率:A从一种疾病转变到另一种疾病的概率输出概率:B某一疾病呈现出某一症状的概率初始分布p:初始疾病的概率问题:给定:某人症状为:咳嗽咽喉痛流涕发烧。O=O1,O2 OT计算:这个观察序列的概率P(O)HMM例子TTxxxxxxxN2i1iiT2aaaxxPxPxxxPXP132211.)|()()|.()|(11p方案1TToxoxoxN1iiiTT2bbbxoPxxxOOOPXOP.)|(),.|.,(),|(2211211XXXPXOPXOPOP)|(),|()|,()|(oTo1otot-1ot+1x1xt+1xTxtxt-
9、1输出条件独立假设有限历史假设XXB,PBP)()(P(A,B|C)=P(A|B,C)P(B|C)方案1oTo1otot-1ot+1x1xt+1xTxtxt-1算法时间复杂度太高,需要 O(T*NT)111111111.)|(ttttToxxxTtxxoxxbabOPp方案2-向前算法使用动态规划方法实现更加高效的算法定义定义:向前变量向前变量t时刻,输出序列O1,O2 Ot且状态xt=si的概率。oTo1otot-1ot+1x1xt+1xTxtxt-1)|,.()(1itttsxOOPi方案2-向前算法XXB,PBP)()(P(A,B|C)=P(A|B,C)P(B|C)输出条件独立假设&有限
10、历史假设1,111112121112111212111121111211112111211)()|()|()|,(),|(),|()|,(),|,()|,()|,()|,()|,()(tojNiijtitjtjttNiittittjtjtitttNiittittjttNiittNijttittNijtittjtttbaisxsxPsxoPsxoooPsxooosxPsxsxooooPsxoooPsxooosxoPsxoooPsxosxoooPsxsxoooPsxoooPj向前算法:图示1,11)()(tojNiijttbaijNiTNiiTT21T21i|sxOO,OP|OO,OP|OP11)
11、(),()()(方案2-向前算法1、初始化2、递归3、总合njTtbaijtojijNitt1,11)()(1,11向前变量的定义XXB,PBP)()(1,1)|,()(oiii11bsxOPipStateT123123N2(1)2(2)2(3)2(N)3(1)3(2)3(3)3(N)1(1)1(2)1(N)1(3)T(N)T(3)T(2)T(1)向前算法图示Trellis or Lattice(栅格)1,11)()(tOjNiijttbaijNiTiOP1)()(1,1)(Oiibip算法描述从初始状态开始扩展在t时刻扩展得到的状态必须能够产生观察序列在t时刻的输出在t+1时刻,只能对在t时
12、刻保留下来的状态节点进行扩展每条路径上的概率做累乘,不同路径的概率做累加直到观察序列全部考察完毕,算法结束向前算法例RRGB1.6.60.2.00.0.0.6.2.2.2.5.3.0.3.7RGB.5.6.4.4.1p=1 0 0T.5.6.18.6.2.048.0.4.2.1.0.4.0.5.2.018.6.5.0504.01116.4.5.1.3.4.3.5.2.0018.6.3.01123.01537.4.3.1.7.4.7向前算法的计算复杂性一般的计算方法的计算复杂性为O(T*NT)向前算法的计算复杂性为 O(N2T)方案3-向后算法与向前算法类似,计算顺序相反。定义向后变量定义向后变
13、量t时刻,状态xt=si情况下,模型输出序列Ot+1,.,OT 的概率。11),|,()(21TtsxOOOPiitTttt)(),|(),|(),|(),|(),|(),|(),|(),|(),|,(),|()(11,1121111112111111111111jbasxsxPsxOOPsxOPsxsxPsxsxOOOPsxsxOPsxsxPsxsxOOPsxsxOOPsxOOPitNiOjijitjtjtTtNjjttitjtitjttTtNjitjttitjtNjitjtTtNjitjtTtitTtttXXB,PBP)()(P(A,B|C)=P(A|B,C)P(B|C)输出条件独立假设向
展开阅读全文