ISCAS机器翻译和系统融合评测系统课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《ISCAS机器翻译和系统融合评测系统课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ISCAS 机器翻译 系统 融合 评测 课件
- 资源描述:
-
1、ISCAS机器翻译和系统融合评测系统机器翻译和系统融合评测系统张大鲲张大鲲 孙乐孙乐中国科学院软件研究所中国科学院软件研究所2大纲大纲l汉英新闻领域翻译评测汉英新闻领域翻译评测概述概述系统流程系统流程预处理和后处理预处理和后处理测试结果测试结果l系统融合评测系统融合评测3概述概述l训练语料受限的汉英机器翻译训练语料受限的汉英机器翻译l基于短语的统计机器翻译系统基于短语的统计机器翻译系统4元语言模型元语言模型3元大小写敏感语言模型进行大小写还原元大小写敏感语言模型进行大小写还原利用规则对数字进行处理利用规则对数字进行处理4系统流程系统流程全部小写化全部小写化GIZA+双向词对齐双向词对齐短语抽取
2、短语抽取5个概率个概率4元元语言模型语言模型3元大小写敏感元大小写敏感语言模型语言模型数词翻译数词翻译替换替换翻译输出翻译输出数词识别数词识别与替换与替换Beam搜索搜索解码解码预处理预处理后处理后处理训练训练平行语料平行语料5特征特征l短语翻译概率短语翻译概率l词汇化概率词汇化概率l反向短语翻译概率反向短语翻译概率l反向词汇化概率反向词汇化概率 l短语惩罚概率(短语惩罚概率(2.718)l词语惩罚(目标语言句子长度)词语惩罚(目标语言句子长度)l目标语言模型,目标语言模型,4元元)|(fep)|(felex)|(efp)|(eflex6预处理和后处理预处理和后处理l中文语料中的英文和英文语料
3、全部小写中文语料中的英文和英文语料全部小写l中文全角字符转换为半角中文全角字符转换为半角 ABC123lStanford Chinese Word Segmenter分词分词l数字单独处理数字单独处理7训练语料训练语料来源来源数据提供数据提供单位单位数据文件数据文件类型类型句对数目句对数目(约)(约)厦门大学英汉电影字幕平行语料库厦门大学英汉电影字幕平行语料库厦门大学厦门大学电影电影17万万哈工大信息检索组英汉句子级对齐语料库哈工大信息检索组英汉句子级对齐语料库哈工大检索哈工大检索综合综合10万万ChineseLDC(资源编号:(资源编号:CLDC-LAC-2003-006)汉英汉英/汉日双语
展开阅读全文