条件随机场课件.pptx

上传人（卖家）：晟晟文业

文档编号：5222575

上传时间：2023-02-17

格式：PPTX

页数：85

大小：1.62MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

28 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《条件随机场课件.pptx》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 条件随机课件

资源描述：: 1、条件随机场1条件随机场模型是Lafferty于2001年，在最大熵模型和隐马尔科夫模型的基础上，提出的一种判别式概率无向图学习模型，是一种用于标注和切分有序数据的条件概率模型。CRF最早是针对序列数据分析提出的，现已成功应用于自然语言处理(Natural Language Processing，NLP）、生物信息学、机器视觉及网络智能等领域。序列标注标注：人名地名组织名观察序列：毛泽东标注：名词动词助词形容词副词观察序列：今天天气非常好！实体命名识别汉语词性标注产生式模型：构建o和s的联合分布p(s,o)，因可以根据联合概率来生成样本，如HMM，BNs，MRF。产生式模型：无穷
2、样本=概率密度模型=产生模型 =预测判别式模型：有限样本=判别函数=预测模型 =预测判别式模型：构建o和s的条件分布p(s|o)，因为没有s的知识，无法生成样本，只能判断分类，如SVM，CRF，MEMM。o和s分别代表观察序列和标记序列(1,0),(1,0),(2,0),(2,1)产生式模型：P(x,y)：P(1,0)=1/2,P(1,1)=0,P(2,0)=1/4,P(2,1)=1/4.判别式模型：P(y|x)：P(0|1)=1,P(1|1)=0,P(0|2)=1/2,P(1|2)=1/2Generative model：从统计的角度表示数据的分布情况，能够反映同类数据本身的相似度，不关心
3、判别边界。优点:实际上带的信息要比判别模型丰富，研究单类问题比判别模型灵活性强能更充分的利用先验知识模型可以通过增量学习得到缺点：学习过程比较复杂在目标分类问题中易产生较大的错误率 Discriminative model：寻找不同类别之间的最优分类面，反映的是异类数据之间的差异。分类边界更灵活，比使用纯概率方法或生产模型得到的更高级。能清晰的分辨出多类或某一类与其他类之间的差异特征在聚类、viewpoint changes,partial occlusion and scale variations中的效果较好适用于较多类别的识别不能反映训练数据本身的特性。能力有限，可以告诉你的是1还是2，
4、但没有办法把整个场景描述出来。由生成模型可以得到判别模型，但由判别模型得不到生成模型。(,)GV E:V顶点/节点，表示随机变量:E边/弧两个节点邻接：两个节点之间存在边，记为，不存在边，表示条件独立ijXX路径：若对每个i，都有，则称序列为一条路径1iiXX 1,.,NXX是一类用图的形式表示随机变量之间条件依赖关系的概率模型，是概率论与图论的结合。图中的节点表示随机变量，缺少边表示条件独立假设。有向图：最基本的是贝叶斯网络(Bayesian Networks,BNs)举例(,)P A O C D S M ()()()(,)(,)P A M P O M P C M P D A O C
5、M P S D M有向图模型的联合概率分解121(,)()NNiiiP XXXp XX ，1251213242534(,)()()()()()P XXXp Xp XXp XXp XXp XX X，每个节点的条件概率分布表示为：P(当前节点|它的父节点)联合分布：无向图：马尔可夫随机场(Markov Random Fields,MRF)马尔可夫随机场模型中包含了一组具有马尔可夫性质的随机变量，这些变量之间的关系用无向图来表示 (,),ijijijp x xjip x xxx 马尔科夫性：举例团(clique)：任何一个全连通（任意两个顶点间都有边相连）的子图最大团(maximal clique)
6、：不能被其它团所包含的团X1X2X3X4例如右图的团有C1=X1,X2,X3和C2=X2,X3,X4无向图模型的联合概率分解势函数（potential function）():iiC 是关于上随机变量的函数iC1211(,)()NNiiiP XXXCZ，12,1()NNiiXXXiZC，123411232234123411232234,(,)(,)(,)(,)(,)XXXXXXXXXXp XXXXXXXXXX 设x是一个类别未知的数据样本，Y为类别集合，若数据样本x属于一个特定的类别yj，那么分类问题就是决定P(yj|x)，即在获得数据样本x时，确定x的最佳分类。所谓最佳分类，一种办法是把它定
7、义为在给定数据集中不同类别yj先验概率的条件下最可能的分类。贝叶斯理论提供了计算这种可能性的一种直接方法。如果没有这一先验知识，那么可以简单地将每一候选类别赋予相同的先验概率。不过通常我们可以用样例中属于yj的样例数|yj|比上总样例数|D|来近似，即P(yj)代表还没有训练数据前，yj拥有的初始概率。P(yj)常被称为yj的先验概率(prior probability)，它反映了我们所拥有的关于yj是正确分类机会的背景知识，它应该是独立于样本的。jj|y|P(y)=|D|()()()()jjjp x yp yp y xp x()()()()jjjp x yp yp y xp x 是联合概率，
8、指当已知类别为yj的条件下，看到样本x出现的概率。()()jjp x yp y若设12(,)mxa aa 则12()(,)jmjp x yp a aay(,)()()p a b cp a c p b c 在给定随机变量C时，a，b条件独立。假定：在给定目标值yj时，x的属性值之间相互条件独立。12()(,)jmjp x yp a aay 1p(|)mijia y P(yj|x)被称为Y的后验概率（posteriorprobability），因为它反映了在看到数据样本x后yj成立的置信度。()()()()jjjp x yp yp y xp x 是后验概率，即给定数据样本x时yj成立的概率，而这正
9、是我们所感兴趣的。()jp y x123argmax()argmax(,)jjjjp y xp y xxx()()()()jjjp yp x yp y xp x 1,jY 后验概率123123(,)()argmax(,)jjjp xxxyp yp xxx 123argmax(,)jjp xxxy 31argmax()()ijjjip x yp y 123123(,)()()()()jjjjjP xxxyp yp x yp xyp xy 11(,)()()niiiiip y xp y yp x y 马尔可夫模型：是一个三元组=(S,A)其中 S是状态的集合，是初始状态的概率,A是状态间的转移概率
10、。一阶马尔可夫链0.500.3750.1250.250.1250.6250.250.3750.375todaysuncloudrainyesterday suncloudrain （1，1，0，0，0）0）123,Ss ss 晴云雨一阶马尔可夫模型的例子：假设今天是晴天，请问未来三天的天气呈现云雨晴的概率是多少？隐马尔可夫模型(HMM)0.050.150.200.600.250.250.250.250.50.350.100.05soggydampdryishdrysuncloudrainHMM是一个五元组=(Y,X,A,B)，其中 Y是隐状态（输出变量）的集合，）X是观察值（输入）集合，是
11、初始状态的概率，A是状态转移概率矩阵，B是输出观察值概率矩阵。0.500.3750.1250.250.1250.6250.250.3750.375todaysuncloudrainyesterday suncloudrain实验进行方式如下：根据初始概率分布，随机选择N个缸中的一个开始实验根据缸中球颜色的概率分布，随机选择一个球，记球的颜色为x1，并把球放回缸中根据缸的转移概率分布，随机选择下一口缸，重复以上步骤。Urn NUrn NUrn 1Urn 1Urn 2Urn 2Observed Ball SequenceObserved Ball Sequence最后得到一个描述球的颜色的序列x1
12、,x2,称为观察值序列X。：给定观察序列以及模型，如何选择一个对应的状态序列，使得Y能够最为合理的解释观察序列X？12,TXxxx 12(,)NYyyy：给定观察序列以及模型,计算(,)A B()P X 12,TXxxx：给定观察序列，调整模型参数 ,使最大？12,TXxxx(,)A B()P X 评价问题解码问题参数学习问题(/)P X (/,)P X Y(/)P Y Y 所所有有0.60.40.90.1RG120.30.20.70.8=0.5 0.5TRRG0.5 0.3 0.30.6 0.6 0.4 基本算法：给定观察序列以及模型,计算(,)A B()P X 12,TXxxx 1
13、2()(,)1tttiP xxxyitT 11()()1iiib xtT111()()()11,1Nttijjtiji a b xtTjN 1(/)()NTiP Xi 终结：递归：定义前向变量：初始化：.6.2.2.2.5.3.0.3.7RGB123.5.6.4.4.1=1 0 0TRRGB1231.6.60.2.00.0.0.5.6.18.6.2.048.0.4.2.1.0.4.0.5.2.018.6.5.0504.01116.4.5.1.3.4.3.5.2.0018.6.3.01123.01537.4.3.1.7.4.7 1 .t t+1 .a1jt1yN.yi.yj.y1tNtiaNja
14、ij1jt定义后向变量12()(,/)11tttTtiP xxxyitT终结：递归：初始化：()11TiiN 111()()()1,2,.,1,1Ntijjttjia b xjtTTiN 11(/)()NiP Xi ：给定观察序列以及模型，如何选择一个对应的状态序列，使得Y能够最为合理的解释观察序列X？12,TXxxx 12(,)NYyyy 1211,2,().,ttttiP y yyyi x xx定义：要找的就是T时刻所代表的那个状态序列()Tiargmax(|)YP Y X11()()iiib x111()max()()ttijjti Nji a b x)(max1iPTNi111(
15、)argmax()()ttijjti Nji a b x 1argmax()TTi Nyi 11(),1,1tttyytT 0)(1i初始化递归结束得到最优路径.6.2.2.2.5.3.0.3.7RGB123.5.6.4.4.1=1 0 0TRRGB.61.60.2.00.0.0.5.2.018.6.5.036.00576.4.5.1.3.4.3.5.6.18.6.2.048.0.4.2.1.0.4.0.5.2.0018.4.3.00648.1.7.01008.6.3.4.7思想：给定一个模型和输出字符序列，任意设定初始参数值，通过不断循环更新参数的方法，设法达到最优。Baum 1970算法步
16、骤：2.基于0 以及观察值序列X，训练新模型；1.初始模型（待训练模型）0,3.如果 logP(X|)-log(P(X|0)Delta，说明训练已经达到预期效果，算法结束。4.否则，令0，继续第2步工作：给定观察序列，调整模型参数 ,使最大？12,TXxxx(,)A B()P X 定义：1111111ij(,)(,)(,|,)()()()()()()tttttijjttNNtijjttiji ji jP yi yj Xi a bxji a bxj给定模型和观察序列条件下，从到的转移概率定义为i11i11ij1()(,)y()y(,)yyNttjTttTttii jtii j时刻处于状
17、态的概率整个过程中从状态转出的次数(number of time)的预期从跳转到次数的预期,x()()()tttkjttjb kj(,)(,)ttijttji jai j1t1()iiSi当时处于的概率该算法又称为向前向后算法（Forward-backward algorithm）经常得到局部最优解T11()()()iiiiiP Xp y yp x y 所所有有的的Y YHMMs等生产式模型存在的问题：1.由于生成模型定义的是联合概率，必须列举所有观察序列的可能值，这对多数领域来说是比较困难的。2.基于观察序列中的每个元素都相互条件独立。即在任何时刻观察值仅仅与状态（即要标注的标签
18、）有关。对于简单的数据集，这个假设倒是合理。但大多数现实世界中的真实观察序列是由多个相互作用的特征和观察序列中较长范围内的元素之间的依赖而形成的。最大熵的原理认为，从不完整的信息（例如有限数量的训练数据）推导出的唯一合理的概率分布应该在满足这些信息提供的约束条件下拥有最大熵值。求解这样的分布是一个典型的约束优化问题。最大熵模型主要是在已有的一些限制条件下估计未知的概率分布。熵的计算公式：熵的性质：()()log()x XH Xp xp x 0logH XX 其中X在离散分布时是随机变量的个数；当X为确定值，即没有变化的可能时，左边等式成立；可以证明，当X服从均匀分布时，右边等式成立，即均匀分布
19、时熵最大。定义条件熵(,)()(,)log()x yzH y xp y xp y x *()()arg max()p y xPpy xH y x 模型目的定义特征函数(,)0,1if x y ()()iiE fE f 约束条件1,2,im 1,2,im(,)()(,)(,)iix yzE fp x y f x y (,)()(,)(,)iix yzE fp x y f x y (,)()()(,)ix yzp x p y x f x y (,)1(,)ix yTf x yN 1()(,)ix T y Yp y x f x yN NT（1）()1y Yp y x （2）11(,)()()()()
20、1miiimiy YpH y xE fE fp y x 该条件约束优化问题的Lagrange函数1211(,)()NNiiiP XXXCZ，11()exp(,)()miiipy xf x yZx 2 不同之处无向图模型因子是势函数，需要全局归一有向图模型因子是概率分布、无需全局归一1 共同之处将复杂的联合分布分解为多个因子的乘积3 优缺点无向图模型中势函数设计不受概率分布约束，设计灵活，但全局归一代价高有向图模型无需全局归一、训练相对高效序列序列HMMsMEMsNBsMEMM：用一个P(yi|yi-1,xi)分布来替代HMM中的两个条件概率分布，它表示从先前状态，在观察值下得到当前状态的概率，
21、即根据前一状态和当前观察预测当前状态。每个这样的分布函数都是一个服从最大熵的指数模型。HMM：状态集合Y，观察值集合X，两个状态转移概率：从yi-1到yi的条件概率分布P(yi|yi-1)，状态yi的输出观察值概率P(xi|yi)，初始概率P0(y).111()exp(,)(,)iyiaaiiiaiipy xfxyZ xy HMMMEMM1,2,iT 参数学习目的：通过学习a使得MEMM中的每个转换函数达到最大熵。GIS（Generalized Iterative Scaling）算法编码问题Viterbi算法的思想MEMM存在的问题：标记偏见（Label Bias Problem）问题序列序
22、列HMMsMEMslinear-chain CRFNBs简单地讲，随机场可以看成是一组随机变量的集合（这组随机变量对应同一个样本空间）。当给每一个位置按照某种分布随机赋予一个值之后，其全体就叫做随机场。当然，这些随机变量之间可能有依赖关系，一般来说，也只有当这些变量之间有依赖关系的时候，我们将其单独拿出来看成一个随机场才有实际意义。马尔科夫随机场（MRF）对应一个无向图。这个无向图上的每一个节点对应一个随机变量，节点之间的边表示节点对应的随机变量之间有概率依赖关系。因此，MRF的结构本质上反应了我们的先验知识哪些变量之间有依赖关系需要考虑，而哪些可以忽略。具有马尔科夫性质：离当前因素比较遥远(
23、这个遥远要根据具体情况自己定义）的因素对当前因素的性质影响不大。现在，如果给定的MRF中每个随机变量下面还有观察值，我们要确定的是给定观察集合下，这个MRF的分布，也就是条件分布，那么这个MRF就称为CRF。它的条件分布形式完全类似于MRF的分布形式，只不过多了一个观察集合x。最通用角度来看，CRF本质上是给定了观察值(observations)集合的MRF。设G=（V，E）是一个无向图，vYY vV是以G中节点v为索引的随机变量vY构成的集合。在给定的条件下，如果每个随机变量服从马尔可XvY夫属性，即(,)(,),vuvup Y X Yuvp Y X Yuv 则就构成 ,X Y一个条件
24、随机场。最简单且最常用的是一阶链式结构，即线性链结构（Linear-chain CRFs）令表示观察序列，12,nxxxx 12,nyyyy 是有限状态的集合，根据随机场的基本理论：1,exp(,)(,)jjiikkijkp y xtyy x isy x i 1(,):jiityy x i 对于观察序列的标记位置i-1与i之间的转移特征函数(,):kisy x i观察序列的i位置的状态特征函数将两个特征函数统一为：1(,)jiifyy x i 111,exp(,)()njjiiijp y xfyy x iZ x 11()exp(,)njjiijijZ xfyy x i 1.特征函数的选择2.
25、参数估计3.模型推断特征函数的选取直接关系模型的性能。从已经标注好的训练数据集学习条件随机场模型的参数，即各特征函数的权重向量。在给定条件随机场模型参数下，预测出最可能的状态序列。1.特征函数的选择CRFs模型中特征函数的形式定义：在定义特征函数的时候，首先构建观察值上的真实特征b(x,i)的集合，即所有i时刻的观察值x的真实特征，结合其对应的标注结果，就可以获得模型的特征函数集。1(,)jjifyy x i 它是状态特征函数和转移特征函数的统一形式表示。特征函数通常是二值函数，取值要么为1要么为0。1(,)0b x i 如果时刻 i 观察值x是大写开头否则11(,),(,)0iiiib x
26、iifytitleyauthorf yy x iotherwise 2.参数估计极大似然估计（Maximum Likelihood Estimation，MLE)假定对于训练数据有一组样本集合 ()(),1,jjDxyjN 样本是相互独立的，为训练样本中(x,y)的经验概率，(,)p x y(,),()(,)p x yx yLp y x 取对数形式：,()(,)log(,)x yLp x yp y x 对于某个条件模型，训练数据D的似然函数公式为：,p y x CRFs模型中极大似然函数：1,1()(,)(,)()log()njjiix yijxLp x yfyy x ip xZ x ,1(
27、)(,)()log()nx yixLp x yfp xZ x 对求导：j 11,1,1()(,)(,)()(,)(,)nnjiijiix yix yijLp x yfyy xp x p y xfyy x ()()(,)(,)(,)(,)kkp x yjjp y xkEfx yEfxy 模型分布中特征的期望等于经验分布中的期望值最大熵原理令上式等于0，求Lafferty提出两个迭代缩放的算法用于估计条件随机场的极大似然参数 GIS算法（Generalised Iterative Scaling）IIS算法（Improved Iterative Scaling）迭代缩放是一种通过更新规则以更新模
28、型中的参数，通过迭代改善联合或条件模型分布的方法。更新规则如下：jjj其中更新值使得新的值比原来的值更接近极大似然值。jj j 1、迭代缩放迭代缩放的基本原理假定我们有一个以为参数的模型 12,p y x 并且要找到一组新的参数：1122,使得在该参数条件下的模型具有更高的对数似然值。通过迭代，使之最终达到收敛。对于条件随机场对数似然值的变化可以表示为：,()()(,)log(,)(,)log(,)x yx yLLp x yp y xp x yp y x 1,1()(,)(,)()log()njjiix yijxZxp x yfyy xp xZx 1,111(,)(,)(,)1(,)(
29、)(,)()exp(,)(,)njjiix yijnjiijxijAp x yfyy xfyy xp x p y xT x yT x y 引入辅助函数：11(,)(,)njiiijT x yfyy x 定义为在观察序列和标记序列为(x,y)的条件下，特征值为1的特征的个数。()()(),LLA ，根据寻找使最大化的，()A ，使用迭代算法计算最大似然参数集。（A）将每个设初始值；j（B）对于每个，计算，即j(,)0jA 迭代过程：1,111(,)(,)(,)()(,)(,)exp(,)0njiix yijnjiijxyiAp x yfyy xp xp y xfyy xT x y 应用更
30、新规则，更新每个参数，直到收敛。jjjGIS算法：GIS是迭代缩放的一种，为了确保参数收敛的结果达到全局最优，GIS需要对特征集进行约束，即令每个训练数据中的事件。(,)T x yC 定义了一个全局修正特征S(x,y)：11(,)(,)njiiijS x yCfyy x 其中C是训练语料中所有的x和y情况下T(x,y)的最大值，即等于最大可能的特征个数，特征S(x,y)的加入确保了T(x,y)=C。假定对于所有的事件，条件随机场选定的特征的总和是常量C。(,)(,)1logp x ykjkp y xEfCEf 更新值按下式计算(,)(,)1logp x ykjkp y xEfCEf (,)
31、1,1(,)(,)np x ykjiix yiEfp x yfyy x 1(,)1()(,)(,)exp(,)nkjiijp y xxyiEfp xp y xfyy xT x y 1.GIS算法的收敛速度由计算更新值的步长确定。C值越大，步长越小，收敛速度就越慢；反之C值越小，步长越大，收敛的速度也就越快。2.GIS算法是依赖于一个额外的全局修正特征S(x,y)，以确保对于每个(x,y)对的有效特征的总和是一个常量。但是一旦加入这个新的特征，就认为这个特征和特征集中所有其他的特征之间是相互独立的，并且它的参数也需要使用上式来更新。计算期望需要对所有可能的标记序列求和，这将是一个指数级的计算过程
32、。IIS算法：重新定义：(,)()max(,)yT x yT xT x y 将每个对观察序列和标记序列对(x,y)起作用的特征值的和近似等于对于观察序列x的最大可能的观察特征的和max,(,)0exp()Tmkk mjp y xmEfa ,11()(,)(,)(,()nk mkiixyiap xp y xfyy xm T x 使用牛顿一拉夫森方法求解L-BFGS算法：()()(,)(,)()(,)(,)kkp x yjjp y xkjLEfx yEfxy 2k Jorge Nocedal用Fortran语言实现了L-BFGS工具包来进行条件随机场的参数估计与训练，该数学工具包可从http:/w
33、ww.ece.northwestern.edu/nocedal/下载。另外，Taku Kudo实现了L-BFGS算法的c语言版本，该工具集成在了其开发的CRF+工具包中，网址为http:/www.chasen.org/taku/software/CRF+/。Dong C.Liu and Jorge Nocedal:【On The Limited Memory BFGS Method For Large Scale Optimization】2、梯度算法3.模型推断第二个问题通过Viterbi算法解决。Viterbi算法是一种动态规划算法，其思想精髓在于将全局最佳解的计算过程分解为阶段最佳解的计
34、算。二、对于未标记的序列，求其最可能的标记。常见的两个问题：一、在模型训练中，需要边际分布和；1(,)ttp yyx()Z x第一个问题采用前向后向法解决；任务：完成地址，电话，传真，E-mail 等信息的识别和抽取流程图页面预处理页面文本中加入#用于保留结构信息和页面内容的自然划分，便于对文本页面的进一步处理。模型建立确定状态集合Y，观察值（特征）集合 X状态集合包含：邮编、电话、电邮、地址、联系人、账号、手机、网址、传真，对于其他可能出现的状态定义了“other”来代表。特征集合包含：“具有符号”“最大数字串长度为6”“最大数字串长度为11”“最大数字长度大于15”“最大数字长度小于6
35、，字符串总长度介于8到30”“最大数字长度小于6，字符串总长度小于6”，“最大数字串长度介于6到11”“最大数字长度小于6，字符串总长度大于30”111()exp(,)(,)iyiaaiiiaiipy xfxyZ xy 特征函数表示数据集的特性：(,)afx y1(,)0afx y 如果x只含有6位数字&y=邮编其他进一步引入一系列的特征函数 12,nfff参数学习111()exp(,)(,)iyiaaiiiaiipy xfxyZ xy 用上述的状态和特征集对初步抽取样本进行统计，得到每个状态所对应的样本集，通过对于每个这样的样本集合采用 GIS算法进行参数学习，最终得到 MEMM。GIS算
36、法要求对于每一个,特征之和达到一个常数C，即有1(,)niif x yC 如果不满足，则令,1max(,)nix yiCf x y 并加入一个修正函数，使得11(,)(,)nniifx yCf x y 1.初始 (0)1,1,2,1aan 2.1,2,1,an (a)计算每个特征的,(,);aattx yEfxy (b)1()11()exp(,)(,)ijyitaatiatipy xfxyZ xy (c)用当前的值计算a 1(),()(,)itijjayitatixyEpy xfxy (d)更新(1)()()1logjjaaajaECE (e)满足收敛条件，结束；否则转到(b)GIS算法的步
37、骤：通过GIS算法得到状态转移函数，这些状态转移函数的集合组成了MEMM模型识别和抽取（1）输入观察值序列12,Txxx（2）递归11()max()()rtitryitrNV yVypy o 11()argmax()()rtitryitrNQ yVypy x （3）结束*1max()Tii NVVy *1argmax()Tii NQQy 改进的Viterbi算法评测指标召回率（Recall）=正确识别出的实体个数标准结果中实体的总数精确率（Precision）=正确识别出的实体个数识别出的实体总数：特征的选择100%100%在中文信息处理领域，命名实体识别是各种自然语言处理技术的重要基础。命名
38、实体：人名、地名、组织名三类模型形式 111,exp(,)()njjiiijp y xfyy x iZ x 11()exp(,)njjiijijZ xfyy x i ：特征函数的确定适用于人名的特征模板“上下文”，指的是包括当前词w0及其前后若干个词的一个“观察窗口”(w-n，w-n+1，w0，wn)。理论上来说，窗口越大，可利用的上下文信息越多，但窗口开得过大除了会严重降低运行效率，还会产生过拟合现象；而窗口过小，特征利用的就不够充分，会由于过于简单而丢失重要信息。通过一些模板来筛选特征。模板是对上下文的特定位置和特定信息的考虑。还建立了若干个资源列表，包括：中国人名姓氏用表、中国人名名字用
39、表、欧美俄人名常用字表、日本人名常用字表。“人名的指界词”：主要包括称谓词、动词和副词等，句首位置和标点符号也可。根据指界词与人名同现的概率的大小，将人名的左右指界词各分为两级，生成4个人名指界词列表：定义了用于人名识别特征的原子模板，每个模板都只考虑了一种因素：当特征函数取特定值时，特征模板被实例化就可以得到具体的特征。“当前词的前一个词w-1在人名1级左指界词列表中出现”1(,)0if x y If PBW1(w-1)=ture and y=personelse类似的，做地名、组织名的特征提取和选择，并将其实例化，得到所有的特征函数。模型训练流程图评测指标正确识别的命名实体首部（尾部）的个
40、数标准结果中命名实体首部（尾部）的的总数召回率（Recall）=100%精确率（Precision）=正确识别的命名实体首部（尾部）的个数识别出的命名实体首部（尾部）的总数100%F-值=2 精确率召回率精确率+召回率整体评价：条件随机场模型既具有判别式模型的优点，又具有产生式模型考虑到上下文标记间的，以序列化形式进行和解码的特点，解决了其他判别式模型(如最大熵马尔科夫模型)难以避免的问题。：模型训练时收敛速度比较慢2007年，Charles Sutton，Andrew McCallum【Dynamic Conditional Random Fields:Factorized Probabil
41、istic Models for Labeling and Segmenting Sequence Data】Asela Gunawardana等人【Hidden Conditional Random Fields for Phone Classification】2001 年，卡耐基梅隆大学的 Lafferty 教授针对序列数据处理提出了 CRF 模型。【Conditional random fields-Probabilistic models for segmenting and labeling sequence data】2003 年，Kumar 博士将 CRF 模型扩展到 2-维格
42、型结构，开始将其引入到图像分析领域，吸引了学术界的高度关注。CRF的研究进展：【Conditional Random Fields for Object Recognition】Ariadna Quattoni Michael Collins Trevor Darrell【An Introduction to Variational Methods for Graphical models】【Classical Probabilistic Models and Conditional Random Fields】【An Introduction to Conditional Random Fi
43、elds for Relational Learning】【Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data】【Operations for learning with Graphical models】概率图经典概率模型与CRF【Efficient Training of Conditional Random Fields】【Efficiently Inducing features of random fields】【A maximum entropy approach to natural language processing】【Multiscale Conditional Random Fields for Image Labeling】【Training Conditional Random Fields via Gradient Tree Boosting】Arbitrarily structured CRFs Linear ChainSkip Chain1.复杂拓扑结构的CRF2.模型训练和推断的快速算法3.CRF模型特征的选择和归纳1.复杂拓扑结构的CRF

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：条件随机场课件.pptx
链接地址：https://www.163wenku.com/p-5222575.html

晟晟文业

内容提供者

实名认证

联系作者