构造汉语的统计计算语言模型-课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《构造汉语的统计计算语言模型-课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 构造 汉语 统计 计算 语言 模型 课件
- 资源描述:
-
1、汉语语言模型研究汉语语言模型研究及其在音字转换中的应用及其在音字转换中的应用 计算机科学与技术学院语言技术研究中心刘秉权2003年5月28日 1 绪论n本文研究的目的和意义n计算语言学概述n相关领域研究与发展综述n统计语言建模技术基于统计的计算语言模型n给定所有可能的句子,统计语言模型就是一个概率分布:n条件概率形式:nN-gram模型:)(spniiindefhwpwwpsp11)|(),()(niiNiiwwwpsp111),|()(统计语言模型的作用 n信源信道模型:nI:语言文本;O:声音信号、字符图像信号、拼音输入等。n语言模型:)|()(maxarg)()|()(maxarg)|(
2、maxargIOpIpOpIOpIpOIpIIII)(Ip统计语言模型建模方法 n极大似然方法语言建模n贝叶斯方法)|(maxargMXPMM)|(maxargXMPMM)()()|(maxargXPMPMXPMM)()|(maxargMPMXPMM统计语言模型的评价标准 n熵(Entropy)n交叉熵(Cross Entropy)n复杂度(Perplexity)(log1)(1limnnxpnLHxMTMTxPxPPPH)(log)();();(2)(MTPPHMTPP参数学习和数据平滑n参数学习 n有指导学习-基于完全数据的最大可能性估计 n无指导学习(针对不完全数据的)具有隐含变量的参数
3、训练过程EM算法n数据平滑-Good-Turing估计、回退平滑和线性插值技术;变长N-gram模型、网格方法、压缩模型 当前主要语言模型nN-gram模型n决策树模型n指数模型(最大熵模型)n整句模型n文法模型n概率上下文无关文法n链文法n概率依存文法n自适应模型统计语言模型存在的不足之处 n最成功的统计语言建模技术很少使用真实的语言知识 n跨领域的适应能力差 n不能有效处理长距离语言约束:为保证可行性,所有现有的语言模型都在文本的不同部分之间作了独立假设。n汉语语言模型的独特问题 本文的目标 针 对 汉 语统 计 模 型的 参 数 训练 问 题 进行 研 究 应 用 于 手 机类 信 息
4、设 备 的 智 能 拼 音 汉 字 输 入 改 进 音 字 转 换 引 入 语 言知 识,提 高统 计 模 型的 描 述 能力 研 究 汉 语模 型 的 自适 应 和 机器 学 习 方法 本文主要工作n汉语统计语言模型参数训练的优化 n基于语言元素的汉语统计模型 n汉语语言模型的自适应方法 n面向手机类设备的智能拼音汉字输入方法 2 汉语统计语言模型参数训练的优化 iwiNiiNiiNiiwwcwwcwwwp)()()|(1111 语料 库 分词 语料 参数 估计 语言 模型 分词 系统 词表 问题的分析n汉语统计模型的准确构建和优化涉及到以下几个问题:n词表的确定(生词识别)n分词 n参数估
5、计 n三者存在因果关系n词表分词 n分词参数估计(模型)n参数估计(模型)词表优化分词-生词识别-参数估计迭代算法的提出n非迭代过程的缺点:几个过程不能相互作用,相互促进n迭代过程的优点:n对分词的影响:更好地解决分词歧义问题,提高分词精度n对生词识别的影响:n减少不合理的候选生词 n排除伪生词,生词自动消歧,减少后处理过程n对模型的影响:逐步优化词表、提高参数估计精度、提高音字转换正确率基于N-gram信息的生词获取 n基本思想:N元对词频过滤互信息过滤校正生词获取n词频n互信息(Mutual Information)n词频与互信息的关系n候选生词的校正)()(),(log);(212121
6、wpwpwwpwwI基于N-gram信息的生词获取n结果分析nMI因素:准确率随着互信息值的升高而升高,但抽取出的元组的数量也随之减少;nWF因素:准确率随着词频值的升高而降低,抽取出的元组数量也随之减少。n影响结果的其他因素n分词错误:“不容易”、“和服务”n量词:“个百分点”、“集电视连续剧”、“届世乒赛”n姓氏:“新华社记者刘”、“新华社记者王”基于统计和规则方法的中文人名识别 n问题的提出n主要方法n规则方法:准确;规则库冲突、复杂、庞大n统计方法:资源少、效率高;准确率低 n混合方法:取长补短n本文方法:先规则,后统计;充分利用各种资源;采用分词预处理基于统计和规则方法的中文人名识别
7、n中文姓名用字特点(82年人口普查结果)n729个姓氏用字n姓氏分布很不均匀,但相对集中 n有些姓氏可用作单字词 n名字用字分布较姓氏要平缓、分散 n名字用字涉及范围广 n某些汉字既可用作姓氏,又可用作名字用字人名识别系统知识库n姓氏用字频率库和名字用字频率库:653个单姓氏,15个复姓,1894个名字用字 的总出现次数用作姓氏的次数作为姓氏cccp)(的总出现次数用作名字用字的次数作为名字用字cccp)(人名识别系统知识库n名字常用词表 朝阳 劲松 爱国 建国 立新 黎明 宏伟 朝晖 向阳 海燕 爱民 凤山 雪松 新民 剑峰 建军 红旗 光明人名识别系统知识库n称谓库n三种类型 n只能用于姓
8、名之前,如:战士、歌星、演员等;n只能用于姓名之后,如:阁下、之流等;n姓名前后皆可,如:先生、主席、市长等。n称谓前缀表:“副”、“总”、“代”、“代理”、“助理”、“常务”、“名誉”、“荣誉”等 人名识别系统知识库n简单上下文n指界词表:约110个词n动词:说、是、指出、认为、表示、参加等;n介词:在、之、的、被、以等;n正在、今天、本人、先后等。n标点符号集n人名出现在句首或句尾(包括分句)的机会比较大,标点符号可用来帮助判断人名的边界。n顿号一边是人名时,另一边的候选人名的可靠性高。人名识别系统知识库n非名字用词表:有些双字词,如:时间、奖励、纬度等不作名字用词,但因为组成它们的单字可
9、作为名字用字,如果跟在姓氏后面,往往会将其与可作姓氏的字一起误判为姓名。例:“做这件事花了我们一段时间。”中文人名识别过程 待处理文本 潜在姓名表 切分预处理 校正 识别结果 系统资源表知识库 中文人名识别 人名识别的具体实现 n姓氏判别n名字识别n概率判断候选字符串为人名的概率为:P=姓氏部分为姓氏的概率P1*余下部分的汉字作名字用字的概率P2*P3(单名时,为P2)校正(对潜在人名的后处理)n自动校正:如果两个潜在人名相似,考察它们的权值。一高一低时,将低权的潜在人名清除;都为高权时,两者都认为是人名;都是低权时,则各自通过第三个字作名字用字的概率大小来判断。概率够高,识别为人名。否则将第
10、三个字去掉。n人工校正人名识别结果与分析 n实验结果:8个测试样本,共22000多字,共有中文人名270个。系统共识别出中文人名330个,其中267个为真正人名。召回率=267/270*100%=98.89%准确率=267/330*100%=80.91%准确率和召回率是互相制约的,可通过概率阈值的调整来调节二者的关系。人名识别结果与分析n产生错误的主要原因n被未识别的地名干扰。“湖北英山县詹家河乡陶家河村,”n受非中式人名的干扰。“司马义艾买提”n分词结果不理想。“为迎接香港回归送贺礼”n规则不准确。“南宋大诗人杨万里“惊如汉殿三千女,”n其他。“全世界每年影片产量高达两三千部,”汉语N-gr
11、am模型参数训练的迭代算法 语料 库 分词 语料 参数 估计 语言 模型 新词 识别 词典 优化 分词 初始 词典 新词 表 优化 词典 汉语N-gram模型构建的迭代算法 n算法描述1.利用初始词典0V对未分词语料库进行首次分词处理,构造初始语言模型0P。2.利用词典iV和语言模型iP对语料库重新分词。3.在分词语料基础上进行新词识别。4.对词典进行优化,生成优化词典1iV。5.针对优化词典进行参数估计,获得优化语言模型1iP。6.反复执行 2-5 的过程,直到分词结果无明显变化或执行完某一限定的迭代次数。实验结果和分析 本文针对 Bi-gram 模型进行了实验,初始词典规模为 24686,
12、实验文本为 2000 万字的人民日报语料。实验表明,大部分的新词在第一次迭代过程中即已识别出来,后面的迭代过程只进行较小的调整并很快趋于收敛。经过三次迭代过程,共接受新词 911 个,其中中文人名 359 个。分别采用 FMM 方法、不带新词识别的优化语言模型和带新词识别的优化语言模型进行分词实验,通过对测试语料的抽样检查,分词准确率分别达到 96.4%、97.3%和 97.9%。针对拼音汉字转换问题对优化模型进行了测试,音字转换错误率降低了 3.4 个百分点。3基于语言元素的汉语统计模型 n已有实验结论:基于词的语言模型性能要明显优于同阶的基于字的模型,高阶模型优于低阶模型n提高语言模型描述
13、能力的途径:n提高模型阶数n扩展语言单位n目标:在保持模型阶数不变的条件下,有效提高模型的描述能力当前主要处理方法n此方向的探索:基于短语和基于分词模式的语言模型 n目前短语选取和概率计算方法存在缺陷:n短语的选取标准只考虑了降低模型复杂度的因素,并没有考虑短语构成的内在语言规律 n短语集的规模通常十分巨大,导致模型空间增长,同时相对减少了训练数据量n训练数据的重新分割使得短语成为不可分割的语言单位,将导致构成短语的单个词的概率估计不准确当前主要处理方法n规则统计相结合的模型 将模型的单位延伸至语言分析的结果,统称为语言元素,元素间概率计算利用已有词模型的参数近似估计(本课题组前人工作)特点:
14、避免概率模型的大幅度增加,提高语言单位获取的灵活性;能够处理长距离语言关系和递归问题本文方法:基于语言元素的汉语N-gram语言模型n引入元素数量约束n根据语言规则层次特点对概率值进行加权n利用规则可信度、词可信度加权n特点:保持原有特点;进一步提高模型精度;多种语言约束为机器学习提供灵活机制基于语言元素的汉语N-gram语言模型niiNiineeepeeepsp11121)|()()(niiieepepsp211)|()()()|()|()()|(1,11,21,1,1iitiitjjijiiiiwwpwwpwpeep当N=2时 权值向量定 义ji,为 权 值 向 量:0,0为 度 量 元
15、素 数 量 因 素 的 权 值,当n0,0时 表 示 语 言 元 素越 少,汉 字 串 的 可 信 度 越 高,当n0,0时 表 示 元 素 数 量 因 素 不 起作 用;)1(0,ii为 第i个 元 素 的 可 信 度 权 值;)1,1(,jiji为 第i个 元 素 的 第j个 构 成 词 的 可 信 度 权 值,当 概 率 模 型 初 步 建 立 时,1,ji。基于语言元素的汉语N-gram语言模型n基于元素的Bi-gram模型 niiiiiieeperepernsp210,1110,10,0)|()(/()()(/()/()()|()|()()|(1,11,1,21,1,1,1iitii
16、itjjijijiiiiiwwpwwpwpeep考虑到概率归一化 niiiiiieeperepernsp210,1110,10,0)|()(/()()(/()/(1)(ssp)(词类及其组织方法n词类n按语法体系划分n按语义分类n混合方式n词类的组织:类似语义网知识表达结构-用很小的时间代价节省大量的存储空间规则的表示产生式系统n词法规则|n短语规则|n句法规则|S S规则的组织n统一表达形式n按索引分类 n索引选择标准:含词数最少的词类(概率最小的词类)例:S S 以、作为分类索引更合理BAAAt21BAAAAtm21:低层推理优先原则 如果存在规则:“X+Y+Z Y”和 “W ISA Y”
17、,则首先匹配规则“X+W+Z W”(“X”和“Z”可以为空)元素的语言学分析n基于最少元素的状态空间化简方法 对 状 态 空 间 的 生 成 过 程 进 行 分 解:1.词 元 素 筛 选 此 步 骤 实 际 上 是 对 音 节 流 进 行 分 词 的 过 程,词 的 产 生 分 两 个 过 程:首 先 根 据 输 入 音 节串 匹 配 词 典 中 所 有 可 能 的 词,再 按 构 词 规 则 生 成 新 词。以 上 所 有 词 作 为 分 词 算 法 的 候 选。针 对 所 有 可 能 的 分 词 结 果 按 最 少 词 元 素 启 发 式 策 略 选 出 若 干 最 优 或 同 时 包
18、含 次 优 的 结果,构 成 最 有 可 能 通 向 最 优 解 的 状 态 空 间 予 以 保 留,作 为 本 处 理 步 骤 的 输 出。2.短 语 级 元 素 筛 选 对 单 词 处 理 的 输 出 状 态 按 知 识 库 中 短 语 规 则 进 行 条 件 匹 配 生 成 短 语。对 所 有 的 匹 配 结果 再 按 最 少 元 素 启 发 式 策 略 筛 选 一 次。选 择 最 有 可 能 通 向 最 佳 解 的 状 态 作 为 本 处 理 部 分的 输 出。3.语 句 级 元 素 筛 选 对 短 语 处 理 部 分 的 输 出 状 态 根 据 句 法 规 则 进 行 语 句 级 的
展开阅读全文