统计机器翻译简介ppt课件-.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《统计机器翻译简介ppt课件-.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 机器翻译 简介 ppt 课件
- 资源描述:
-
1、NLP课题组例会报告2002-12-6 统计机器翻译简介刘群NLP课题组例会报告2002-12-6统计机器翻译方法的特点利用语料库作为知识来源l区别于规则方法:无需人工编写规则建立完整完整的统计模型l区别于实例方法或模板方法:必须为整个翻译过程建立统计模型NLP课题组例会报告2002-12-6统计机器翻译的分类基于平行概率语法的统计机器翻译模型基于信源信道思想的统计机器翻译模型lIBM的Peter Brown等人首先提出l目前影响最大l几乎成为统计机器翻译的同义词基于最大熵的统计机器翻译模型l源于基于特征的自然语言理解lOch提出,获ACL2019最佳论文NLP课题组例会报告2002-12-6
2、统计机器翻译的优缺点优点l无需人工编写规则,利用语料库直接训练得到机器翻译系统;(但可以使用语言资源)l系统开发周期短;l鲁棒性好;l译文质量好;缺点l时空开销大;l数据稀疏问题严重;l对语料库依赖性强;l算法研究不成熟。NLP课题组例会报告2002-12-6基于平行概率语法的统计机器翻译模型基本思想l两种语言建立一套平行的语法规则,l规则一一对应l两套规则服从同样的概率分布l句法分析的过程决定了生成的过程主要模型lAlshawi的基于Head Transducer的MT模型l吴德恺的Inverse Transduction Grammar(ITG)lTakeda的Pattern-based
3、CFG for MT NLP课题组例会报告2002-12-6Head Transducer MT(1)Head Transducer(中心词转录机)是一种Definite State Automata(有限状态自动机)与一般的有限状态识别器的区别:l每一条边上不仅有输入,而且有输出;l不是从左至右输入,而是从中心词往两边输入NLP课题组例会报告2002-12-6Head Transducer MT(2)a:a 0:0 0:0 b:b a:a-1:+1 b:b-1:+1 例子:一个可以将任何a,b组成的串倒置的Head TransducerNLP课题组例会报告2002-12-6Head Tran
4、sducer MT(3)所有的语言知识(词典、规则)都表现为Head Transducer;Head Transducer可以嵌套:一个Head Transducer的边是另一个的识别结果;纯统计的训练方法;对齐的结果是依存树:不使用词性和短语类标记;Chart句法分析器。NLP课题组例会报告2002-12-6Inversion Transduction Grammar(1)比赛星期三开始。The game will start on Wednesday。NLP课题组例会报告2002-12-6Inversion Transduction Grammar(2)规则形式:l A B C l A l
5、 A x/y产生源语言和目标语言串分别为:lBC BC:词序相同lBC CB:词序交换lx y:词典NLP课题组例会报告2002-12-6Pattern-based CFG for Pattern-based CFG for MT(1)MT(1)每个翻译模板由一个源语言上下文无关规则和一个目标语言上下文无关规则(这两个规则称为翻译模板的骨架),以及对这两个规则的中心词约束和链接约束构成;举例:S:2 NP:1 岁:MP:2 了S:be NP:1 be year:NP:2 oldNLP课题组例会报告2002-12-6Pattern-based CFG for Pattern-based CFG
6、for MT(2)MT(2)中心词约束:对于上下文无关语法规则中右部(子结点)的每个非终结符,可以指定其中心词;对于规则左部(父结点)的非终结符,可以直接指定其中心词,也可以通过使用相同的序号规定其中心词等于其右部的某个非终结符的中心词;链接约束:源语言骨架和目标语言骨架的非终结符子结点通过使用相同的序号建立对应关系,具有对应关系的非终结符互为翻译。NLP课题组例会报告2002-12-6信源信道模型假设目标语言文本T是由一段源语言文本S经过某种奇怪的编码得到的,那么翻译的目标就是要将T 还原成S,这也就是就是一个解码的过程。注意,源语言S是噪声信道的输入语言,目标语言T是噪声信道的输出语言,与
7、整个机器翻译系统的源语言和目标语言刚好相反。P(S)P(TS)NLP课题组例会报告2002-12-6统计机器翻译基本方程式P.Brown称上式为统计机器翻译基本方程式l语言模型:P(S)l翻译模型:P(T|S)语言模型反映“S 像一个句子”的程度:流利度翻译模型反映“T像S”的程度:忠实度联合使用两个模型效果好于单独使用翻译模型,因为后者容易导致一些不好的译文。)|()(maxargSTPSPSSNLP课题组例会报告2002-12-6语言模型与翻译模型考虑汉语动词“打”的翻译:有几十种对应的英语词译文:打人,打饭,打鱼,打毛衣,打猎,打草稿,如果直接采用翻译模型,就需要根据上下文建立复杂的上下
8、文条件概率模型如果采用信源信道思想,只要建立简单的翻译模型,可以同样达到目标词语选择的效果:l翻译模型:不考虑上下文,只考虑单词之间的翻译概率l语言模型:根据单词之间的同现选择最好的译文词NLP课题组例会报告2002-12-6统计机器翻译的三个问题三个问题:l语言模型P(S)的参数估计l翻译模型P(T|S)的参数估计l解码(搜索)算法NLP课题组例会报告2002-12-6语言模型把一种语言理解成是产生一个句子的随机事件语言模型反映的是一个句子在一种语言中出现的概率语言模型lN元语法P(S)=p(s0)*p(s1|s0)*p(Sn|Sn-1Sn-N)l链语法:可以处理长距离依赖lPCFG(要使用
9、句法标记)NLP课题组例会报告2002-12-6引入隐含变量:对齐A翻译模型与对齐ASATPSTP)|,()|(P(T|S)的计算转化为P(T,A|S)的估计对齐:建立源语言句子和目标语言句子的词与词之间的对应关系NLP课题组例会报告2002-12-6IBM Model对P(T,A|S)的估计IBM Model 1仅考虑词对词的互译概率IBM Model 2加入了词的位置变化的概率IBM Model 3加入了一个词翻译成多个词的概率IBM Model 4IBM Model 5NLP课题组例会报告2002-12-6IBM Model 3对于句子中每一个英语单词e,选择一个产出率,其概率为n(|e
10、);对于所有单词的产出率求和得到m-prime;按照下面的方式构造一个新的英语单词串:删除产出率为0的单词,复制产出率为1的单词,复制两遍产出率为2的单词,依此类推;在这m-prime个单词的每一个后面,决定是否插入一个空单词NULL,插入和不插入的概率分别为p1和p0;0为插入的空单词NULL的个数。设m为目前的总单词数:m-prime+0;根据概率表t(f|e),将每一个单词e替换为外文单词f;对于不是由空单词NULL产生的每一个外语单词,根据概率表d(j|i,l,m),赋予一个位置。这里j是法语单词在法语串中的位置,i是产生当前这个法语单词的对应英语单词在英语句子中的位置,l是英语串的长
11、度,m是法语串的长度;如果任何一个目标语言位置被多重登录(含有一个以上单词),则返回失败;给空单词NULL产生的单词赋予一个目标语言位置。这些位置必须是空位置(没有被占用)。任何一个赋值都被认为是等概率的,概率值为1/0。最后,读出法语串,其概率为上述每一步概率的乘积。NLP课题组例会报告2002-12-6翻译模型的参数训练Viterbi Training(对比:EM Training)给定初始参数;用已有的参数求最好(Viterbi)的对齐;用得到的对齐重新计算参数;回到第二步,直到收敛为止。IBM Model 1:存在全局最优1.IBM Model 25:不存在全局最优,初始值取上一个模型
12、训练的结果NLP课题组例会报告2002-12-6统计机器翻译的解码借鉴语音识别的搜索算法:堆栈搜索参数空间极大,搜索不能总是保证最优从错误类型看,只有两种:l模型错误:概率最大的句子不是正确的句子l搜索错误:没有找到概率最大的句子后一类错误只占总错误数的5%(IBM)搜索问题不是瓶颈NLP课题组例会报告2002-12-6IBM公司的Candide系统 1基于统计的机器翻译方法分析转换生成l中间表示是线性的l分析和生成都是可逆的分析(预处理):1.短语切分 2.专名与数词检测3.大小写与拼写校正4.形态分析 5.语言的归一化NLP课题组例会报告2002-12-6IBM公司的Candide系统 2
13、转换(解码):基于统计的机器翻译解码分为两个阶段:l第一阶段:使用粗糙模型的堆栈搜索l输出140个评分最高的译文l语言模型:三元语法l翻译模型:EM算法l第二阶段:使用精细模型的扰动搜索l对第一阶段的输出结果先扩充,再重新评分l语言模型:链语法l翻译模型:最大熵方法NLP课题组例会报告2002-12-6IBM公司的Candide系统 3ARPA的测试结果:FluencyFluencyAdequacyAdequacyTime RatioTime Ratio199219921993199319921992199319931992199219931993SystranSystran.466.466.
14、540.540.686.686.743.743CandideCandide.511.511.580.580.575.575.670.670TransmanTransman.819.819.838.838.837.837.850.850.688.688.625.625ManualManual.833.833.840.840NLP课题组例会报告2002-12-6JHU的2019年夏季研讨班由来lIBM的实验引起了广泛的兴趣lIBM的实验很难重复:工作量太大目的l构造一个统计机器翻译工具(EGYPT)并使它对于研究者来说是可用的(免费传播);l在研讨班上用这个工具集构造一个捷克语英语的机器翻译系统;
15、l进行基准评价:主观和客观;l通过使用形态和句法转录机改进基准测试的结果;l在研讨班最后,在一天之内构造一个新语对的翻译器。JHU夏季研讨班大大促进了统计机器翻译的研究 NLP课题组例会报告2002-12-6EGYPT工具包EGYPT的模块lGIZA:这个模块用于从双语语料库中抽取统计知识(参数训练)lDecoder:解码器,用于执行具体的翻译过程(在信源信道模型中,“翻译”就是“解码”)lCairo:整个翻译系统的可视化界面,用于管理所有的参数、查看双语语料库对齐的过程和翻译模型的解码过程lWhittle:语料库预处理工具1.EGYPT可在网上免费下载,成为SMT的基准NLP课题组例会报告2
16、002-12-6EGYPT工具包的性能 “当解码器的原形系统在研讨班上完成时,我们很高兴并惊异于其速度和性能。1990年代早期在IBM公司举行的DARPA机器翻译评价时,我们曾经预计只有很短(10个词左右)的句子才可以用统计方法进行解码,即使那样,每个句子的解码时间也可能是几个小时。在早期IBM的工作过去将近10年后,摩尔定律、更好的编译器以及更加充足的内存和硬盘空间帮助我们构造了一个能够在几秒钟之内对25个单词的句子进行解码的系统。为了确保成功,我们在搜索中使用了相当严格的阈值和约束,如下所述。但是,解码器相当有效这个事实为这个方向未来的工作预示了很好的前景,并肯定了IBM的工作的初衷,即强
17、调概率模型比效率更重要。”引自JHU统计机器翻译研讨班的技术报告NLP课题组例会报告2002-12-6对IBM方法的改进IBM方法的问题l不考虑结构:能否适用于句法结构差别较大的语言?l数据稀疏问题严重后续的改进工作l王野翊的改进lYamada和Knight的改进lOch等人的改进NLP课题组例会报告2002-12-6王野翊的改进(1)背景:德英口语翻译系统l语法结构差异较大l数据稀疏(训练数据有限)改进:两个层次的对齐模型l粗对齐:短语之间的对齐l细对齐:短语内词的对齐NLP课题组例会报告2002-12-6王野翊的改进(2)文法推导l词语聚类:基于互信息的方法l短语归并l规则学习优点l机器翻
18、译的正确率提高:错误率降低了11%l提高了整个系统的效率:搜索空间更小l缓解了因口语数据缺乏导致的数据稀疏问题NLP课题组例会报告2002-12-6Yamada和Knight的改进(1)基于语法的翻译模型(Syntax-based TM):l输入是源语言句法树l输出是目标语言句子翻译的过程:l每个内部结点的子结点随机地重新排列:排列概率l在每一个结点的左边或右边随机插入一个单词l左、右插入和不插入的概率取决于父结点和当前结点标记l插入哪个词的概率只与被插入词有关,与位置无关 l对于每一个叶结点进行翻译:词对词的翻译概率l输出译文句子NLP课题组例会报告2002-12-6Yamada和Knigh
19、t的改进(2)NLP课题组例会报告2002-12-6Yamada和Knight的改进(3)NLP课题组例会报告2002-12-6Yamada和Knight的改进(4)NLP课题组例会报告2002-12-6Yamada和Knight的改进(5)训练l英日词典例句2121对,平均句长日9.7和英6.9l词汇量:英语3463,日语3983,大部分词只出现一次lBrills POS Tagger和Collins Parserl用中心词词性标记取得短语标记l压扁句法树:中心词相同的句法子树合并lEM训练20遍迭代:IBM Model 5用20遍迭代NLP课题组例会报告2002-12-6Yamada和Kn
展开阅读全文