构造汉语的统计计算语言模型-课件.ppt

上传人（卖家）：晟晟文业

文档编号：4292965

上传时间：2022-11-26

格式：PPT

页数：85

大小：481.26KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

28 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《构造汉语的统计计算语言模型-课件.ppt》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 构造汉语统计计算语言模型课件

资源描述：: 1、汉语语言模型研究汉语语言模型研究及其在音字转换中的应用及其在音字转换中的应用计算机科学与技术学院语言技术研究中心刘秉权2003年5月28日 1 绪论n本文研究的目的和意义n计算语言学概述n相关领域研究与发展综述n统计语言建模技术基于统计的计算语言模型n给定所有可能的句子，统计语言模型就是一个概率分布：n条件概率形式：nN-gram模型：)(spniiindefhwpwwpsp11)|(),()(niiNiiwwwpsp111),|()(统计语言模型的作用 n信源信道模型:nI:语言文本；O:声音信号、字符图像信号、拼音输入等。n语言模型：)|()(maxarg)()|()(maxarg)|(
2、maxargIOpIpOpIOpIpOIpIIII)(Ip统计语言模型建模方法 n极大似然方法语言建模n贝叶斯方法)|(maxargMXPMM)|(maxargXMPMM)()()|(maxargXPMPMXPMM)()|(maxargMPMXPMM统计语言模型的评价标准 n熵(Entropy)n交叉熵(Cross Entropy)n复杂度(Perplexity)(log1)(1limnnxpnLHxMTMTxPxPPPH)(log)();();(2)(MTPPHMTPP参数学习和数据平滑n参数学习 n有指导学习-基于完全数据的最大可能性估计 n无指导学习(针对不完全数据的)具有隐含变量的参数
3、训练过程EM算法n数据平滑-Good-Turing估计、回退平滑和线性插值技术；变长N-gram模型、网格方法、压缩模型当前主要语言模型nN-gram模型n决策树模型n指数模型（最大熵模型）n整句模型n文法模型n概率上下文无关文法n链文法n概率依存文法n自适应模型统计语言模型存在的不足之处 n最成功的统计语言建模技术很少使用真实的语言知识 n跨领域的适应能力差 n不能有效处理长距离语言约束：为保证可行性，所有现有的语言模型都在文本的不同部分之间作了独立假设。n汉语语言模型的独特问题本文的目标针对汉语统计模型的参数训练问题进行研究应用于手机类信息
4、设备的智能拼音汉字输入改进音字转换引入语言知识，提高统计模型的描述能力研究汉语模型的自适应和机器学习方法本文主要工作n汉语统计语言模型参数训练的优化 n基于语言元素的汉语统计模型 n汉语语言模型的自适应方法 n面向手机类设备的智能拼音汉字输入方法 2 汉语统计语言模型参数训练的优化 iwiNiiNiiNiiwwcwwcwwwp)()()|(1111 语料库分词语料参数估计语言模型分词系统词表问题的分析n汉语统计模型的准确构建和优化涉及到以下几个问题：n词表的确定（生词识别）n分词 n参数估
5、计 n三者存在因果关系n词表分词 n分词参数估计（模型）n参数估计（模型）词表优化分词-生词识别-参数估计迭代算法的提出n非迭代过程的缺点：几个过程不能相互作用，相互促进n迭代过程的优点：n对分词的影响：更好地解决分词歧义问题，提高分词精度n对生词识别的影响：n减少不合理的候选生词 n排除伪生词，生词自动消歧，减少后处理过程n对模型的影响：逐步优化词表、提高参数估计精度、提高音字转换正确率基于N-gram信息的生词获取 n基本思想：N元对词频过滤互信息过滤校正生词获取n词频n互信息（Mutual Information）n词频与互信息的关系n候选生词的校正)()(),(log);(212121
6、wpwpwwpwwI基于N-gram信息的生词获取n结果分析nMI因素：准确率随着互信息值的升高而升高，但抽取出的元组的数量也随之减少；nWF因素：准确率随着词频值的升高而降低，抽取出的元组数量也随之减少。n影响结果的其他因素n分词错误：“不容易”、“和服务”n量词：“个百分点”、“集电视连续剧”、“届世乒赛”n姓氏：“新华社记者刘”、“新华社记者王”基于统计和规则方法的中文人名识别 n问题的提出n主要方法n规则方法：准确；规则库冲突、复杂、庞大n统计方法：资源少、效率高；准确率低 n混合方法：取长补短n本文方法：先规则，后统计；充分利用各种资源；采用分词预处理基于统计和规则方法的中文人名识别
7、n中文姓名用字特点（82年人口普查结果）n729个姓氏用字n姓氏分布很不均匀，但相对集中 n有些姓氏可用作单字词 n名字用字分布较姓氏要平缓、分散 n名字用字涉及范围广 n某些汉字既可用作姓氏，又可用作名字用字人名识别系统知识库n姓氏用字频率库和名字用字频率库：653个单姓氏，15个复姓，1894个名字用字的总出现次数用作姓氏的次数作为姓氏cccp)(的总出现次数用作名字用字的次数作为名字用字cccp)(人名识别系统知识库n名字常用词表朝阳劲松爱国建国立新黎明宏伟朝晖向阳海燕爱民凤山雪松新民剑峰建军红旗光明人名识别系统知识库n称谓库n三种类型 n只能用于姓
8、名之前，如：战士、歌星、演员等；n只能用于姓名之后，如：阁下、之流等；n姓名前后皆可，如：先生、主席、市长等。n称谓前缀表：“副”、“总”、“代”、“代理”、“助理”、“常务”、“名誉”、“荣誉”等人名识别系统知识库n简单上下文n指界词表：约110个词n动词：说、是、指出、认为、表示、参加等；n介词：在、之、的、被、以等；n正在、今天、本人、先后等。n标点符号集n人名出现在句首或句尾（包括分句）的机会比较大，标点符号可用来帮助判断人名的边界。n顿号一边是人名时，另一边的候选人名的可靠性高。人名识别系统知识库n非名字用词表：有些双字词，如：时间、奖励、纬度等不作名字用词，但因为组成它们的单字可
9、作为名字用字，如果跟在姓氏后面，往往会将其与可作姓氏的字一起误判为姓名。例：“做这件事花了我们一段时间。”中文人名识别过程待处理文本潜在姓名表切分预处理校正识别结果系统资源表知识库中文人名识别人名识别的具体实现 n姓氏判别n名字识别n概率判断候选字符串为人名的概率为：P=姓氏部分为姓氏的概率P1*余下部分的汉字作名字用字的概率P2*P3(单名时，为P2)校正(对潜在人名的后处理)n自动校正：如果两个潜在人名相似，考察它们的权值。一高一低时，将低权的潜在人名清除；都为高权时，两者都认为是人名；都是低权时，则各自通过第三个字作名字用字的概率大小来判断。概率够高，识别为人名。否则将第
10、三个字去掉。n人工校正人名识别结果与分析 n实验结果：8个测试样本，共22000多字，共有中文人名270个。系统共识别出中文人名330个，其中267个为真正人名。召回率=267/270*100%=98.89%准确率=267/330*100%=80.91%准确率和召回率是互相制约的，可通过概率阈值的调整来调节二者的关系。人名识别结果与分析n产生错误的主要原因n被未识别的地名干扰。“湖北英山县詹家河乡陶家河村，”n受非中式人名的干扰。“司马义艾买提”n分词结果不理想。“为迎接香港回归送贺礼”n规则不准确。“南宋大诗人杨万里“惊如汉殿三千女，”n其他。“全世界每年影片产量高达两三千部，”汉语N-gr
11、am模型参数训练的迭代算法语料库分词语料参数估计语言模型新词识别词典优化分词初始词典新词表优化词典汉语N-gram模型构建的迭代算法 n算法描述1.利用初始词典0V对未分词语料库进行首次分词处理，构造初始语言模型0P。2.利用词典iV和语言模型iP对语料库重新分词。3.在分词语料基础上进行新词识别。4.对词典进行优化，生成优化词典1iV。5.针对优化词典进行参数估计，获得优化语言模型1iP。6.反复执行 2-5 的过程，直到分词结果无明显变化或执行完某一限定的迭代次数。实验结果和分析本文针对 Bi-gram 模型进行了实验，初始词典规模为 24686，
12、实验文本为 2000 万字的人民日报语料。实验表明，大部分的新词在第一次迭代过程中即已识别出来，后面的迭代过程只进行较小的调整并很快趋于收敛。经过三次迭代过程，共接受新词 911 个，其中中文人名 359 个。分别采用 FMM 方法、不带新词识别的优化语言模型和带新词识别的优化语言模型进行分词实验，通过对测试语料的抽样检查，分词准确率分别达到 96.4%、97.3%和 97.9%。针对拼音汉字转换问题对优化模型进行了测试，音字转换错误率降低了 3.4 个百分点。3基于语言元素的汉语统计模型 n已有实验结论：基于词的语言模型性能要明显优于同阶的基于字的模型，高阶模型优于低阶模型n提高语言模型描述
13、能力的途径：n提高模型阶数n扩展语言单位n目标：在保持模型阶数不变的条件下，有效提高模型的描述能力当前主要处理方法n此方向的探索：基于短语和基于分词模式的语言模型 n目前短语选取和概率计算方法存在缺陷：n短语的选取标准只考虑了降低模型复杂度的因素，并没有考虑短语构成的内在语言规律 n短语集的规模通常十分巨大，导致模型空间增长，同时相对减少了训练数据量n训练数据的重新分割使得短语成为不可分割的语言单位，将导致构成短语的单个词的概率估计不准确当前主要处理方法n规则统计相结合的模型将模型的单位延伸至语言分析的结果，统称为语言元素，元素间概率计算利用已有词模型的参数近似估计（本课题组前人工作）特点：
14、避免概率模型的大幅度增加，提高语言单位获取的灵活性；能够处理长距离语言关系和递归问题本文方法：基于语言元素的汉语N-gram语言模型n引入元素数量约束n根据语言规则层次特点对概率值进行加权n利用规则可信度、词可信度加权n特点：保持原有特点；进一步提高模型精度；多种语言约束为机器学习提供灵活机制基于语言元素的汉语N-gram语言模型niiNiineeepeeepsp11121)|()()(niiieepepsp211)|()()()|()|()()|(1,11,21,1,1iitiitjjijiiiiwwpwwpwpeep当N=2时权值向量定义ji,为权值向量：0,0为度量元
15、素数量因素的权值，当n0,0时表示语言元素越少，汉字串的可信度越高，当n0,0时表示元素数量因素不起作用；)1(0,ii为第i个元素的可信度权值；)1,1(,jiji为第i个元素的第j个构成词的可信度权值，当概率模型初步建立时，1,ji。基于语言元素的汉语N-gram语言模型n基于元素的Bi-gram模型 niiiiiieeperepernsp210,1110,10,0)|()(/()()(/()/()()|()|()()|(1,11,1,21,1,1,1iitii
16、itjjijijiiiiiwwpwwpwpeep考虑到概率归一化 niiiiiieeperepernsp210,1110,10,0)|()(/()()(/()/(1)(ssp)(词类及其组织方法n词类n按语法体系划分n按语义分类n混合方式n词类的组织：类似语义网知识表达结构-用很小的时间代价节省大量的存储空间规则的表示产生式系统n词法规则|n短语规则|n句法规则|S S规则的组织n统一表达形式n按索引分类 n索引选择标准：含词数最少的词类（概率最小的词类）例：S S 以、作为分类索引更合理BAAAt21BAAAAtm21:低层推理优先原则如果存在规则：“X+Y+Z Y”和 “W ISA Y”
17、,则首先匹配规则“X+W+Z W”(“X”和“Z”可以为空)元素的语言学分析n基于最少元素的状态空间化简方法对状态空间的生成过程进行分解：1.词元素筛选此步骤实际上是对音节流进行分词的过程，词的产生分两个过程：首先根据输入音节串匹配词典中所有可能的词，再按构词规则生成新词。以上所有词作为分词算法的候选。针对所有可能的分词结果按最少词元素启发式策略选出若干最优或同时包
18、含次优的结果，构成最有可能通向最优解的状态空间予以保留，作为本处理步骤的输出。2.短语级元素筛选对单词处理的输出状态按知识库中短语规则进行条件匹配生成短语。对所有的匹配结果再按最少元素启发式策略筛选一次。选择最有可能通向最佳解的状态作为本处理部分的输出。3.语句级元素筛选对短语处理部分的输出状态根据句法规则进行语句级的
19、规则匹配。匹配结果仍然可能存在不完整的分析树，此时仍可按最少元素启发式策略对元素进行筛选。若仍存在多义性，则将结果送下一步概率处理模块。元素的语言学分析n基于最少元素的状态空间化简算法1.BEGIN;2.根据拼音输入构建词网格；3.按最少分词法启发式策略化简词网格空间；4.IF 最佳路径已求出 THEN GOTO 11；5.按短语规则生成新元素；6.按最少元素启发式策略化简元素网格空间；7.IF 最佳路径已求出 THEN GOTO 11；8.按句法规则生成新元素；9.按最少元素启发
20、式策略化简元素网格空间；10.IF 最佳路径未求出 THEN GOTO 最佳路径搜索模块；11.END.(找到最佳路径)音字转换系统结构图拼音流文字流词网格生成元素网格生成系统词典语言规则库统计库量化规则库最优路径搜索实验结果n词典收录26000个词，采用二千万汉字语料（选自95、96年人民日报电子版）作为实验文本，其中80%作为训练语料，其它20%作为测试语料。系统搜集了1000条语法、语义规则n单纯统计语言模型正确率为90.5%,n加入语言规则后正确率提高到91.8%，n加入最少元素约束后提高到92.3%n能有效处理长距离语言约束和递归语言现象4 汉语语言模型的
21、自适应方法 n当前主要自适应语言模型有两种：n基于缓存(Cache)的自适应模型n主题自适应模型n缺点：仍然较粗糙)|()1()|()|(hwPhwPhwPcachestaticadaptiveTiiikmkkTMIXhwPwwwP1021)|()(TiiNiikmkkTMIXwwwPwwwP111021)|()(面向用户语言模型的提出n语言模型的应用如汉字键盘输入是面向特定用户的，不同用户使用的文本类型和风格无法准确预测，因而也无法建立准确的模型 n特定用户使用的文本具有时段特性，即在某一特定时段内，文本类型或风格不变，但超过这一时段则可能变化面向用户的语言模型框架拼音语句语言解码转
22、换结果用户修正正确结果机器学习用户模型通用模型人机交互理论依据音字转换的目标即为给定拼音输入T的条件下，找到对应的概率最大的汉字串)|(maxargTSpSS，根据贝叶斯定理，)()|()(maxargTpSTpSpSS 等价于：)|()(maxargSTpSpSS)(Sp为先验概率，通过大规模语料训练而得，)|(STp为后验概率，与实际应用中文本的出现有关，反映了通过机器学习获得的新知识。面向用户语言模型结构n面向用户语言模型=通用模型+用户模型n模型结合方式：n插值方式：n优先选择方式n其他方式（适应非概率模型）)|()1()|()|(hwPhwPhwPuseru
23、niversal面向用户模型的优点n逻辑上，整个模型仍然是一个整体；n通用和用户模型采用不同数据结构适应不同的需要；n保证通用模型的稳定性，增加用户模型参数修改的自由度，便于达到良好的学习效果；n用户模型按照LRU规则淘汰陈旧的数据，符合记忆规律：记忆的事物增多，会冲淡原有事物的记忆，在一系列事物中，最后出现的若干个事物具有较好的记忆效果n有效限制了其规模的无限扩张，同时保证其参数的修改不致对整个模型产生更大偏差基于元素N-gram模型的机器学习n汉语复杂性更高，语言模型中可变因素更多，因而机器学习方式更多n增加了机器学习的难度n为机器学习提供了更大的灵活性n本文综合运用了各种学习方式-适合于
24、面向大规模训练语料的学习和在线自适应学习单词的学习n词本身的特征n基于构词规则的特征n基于统计规律的特征 n词频和互信息 n统计构词能力)()()(cCountcCountcWFP的多字词含wciWFPiwcWFPwcWFPwP)1(|C|),()1(|C|),(1)(是多字词是单字词单词的学习n汉字构词模式 n字对的亲合力)()()|)(位于多字词cCountcpttnCountccpttnPrliiirpttnccpttrPwP1)|)()()|)(11iiBiircctcctP)|)(11iiNiircctcctP单词的学习n对系统的影响n估价函数 1.按词典分词使得自然语言的理解过程越
25、容易越好，即符合最少元素规则，即按词典分词得到的词条n数越少越好。2.词典的冗余度越小越好，冗余度大小的判断可用词典的总体积v来表示,即v值越小越好，这样可以减小系统开销。n模型复杂度ncvcwf21单词的学习n对应用的影响n基于错误修正的学习同一语言模型应用于不同领域，效果不同，其学习标准也不同。对某一特定应用而言，生词的正确识别通常能改善性能，如对音字转换能提高转换正确率，但生词的识别并不总是必需的。单词的学习可以是面向错误修正的。语言规则的学习 n文法推导：按照一个文法的评价函数从搜索空间中找出所需的文法。n评价函数：反映出一个文法对训练集数据的刻画程度。n极大似然性标准n贝叶斯公式)
26、|(GOPmaxargGG)|(OGPmaxargGG)()|()()()|(GPGOPargmaxOPGPGOPargmaxGGG语言规则的学习 n基于归纳推理的规则学习 “我吃鱼。”（鱼，ISA，食物）（我，ISA，人称代词）我|你|他鱼|蔬菜 S S 规则学习参数修正学习 n语言元素的数量。目标汉字串所含的语言元素越少，其可信度越高。n语言元素的层次因素。语言元素所在的层次越低，其可信度越好。n记忆因素。记忆牢靠的元素可信度好，记忆不准的元素可信度差。参数修正学习n学习方法在基于语言元素的模型公式中，将权值ji,看成是变量，则调节ji,的值就可以达到参数修正的目的。如果ji,的值改变
27、，目标汉字串的可信度就随之改变，找到正确的ji,的值，就可以增加目标汉字串的可信度，从而提高音字转换的正确率。N元概率参数修正学习 n学习算法1.初始化：1,1ji；2.IF nj THEN GOTO 9;3.向前移动i，使得jiSubSub1，12jiSubSub；4.IF jiww且11jiww THEN GOTO 8;5.IF jiSubSub且22jiSubSubTHEN WHILE ),(),(),(),(),(),(1111iiiijjjjwwCwCwCVwwCwCwCV;),(,)(,)(11jjjjwwCwCwCGOTO 8;N元概率参数修正学习6.IF 21jiSubSub
28、且 )(),(1ijjwCwwC THEN 1),()(1jjiwwCwCvalue,valuewwCwwCjjjj),(),(11,valuewCwCjj)()(,valuewCwCjj)()(11;GOTO 8;7.IF),(),(11iijjwwCwwC THEN 1),(),(11jjiiwwCwwCvalue,valuewwCwwCjjjj),(),(11,valuewCwCjj)()(,valuewCwCjj)()(11;8.1 jj,GOTO 1;9.结束。实验结果n实验一：选取了20篇不同领域的完整的文章（不包含在训练语料中）分别进行测试。实验结果为：未采用机器学习时，音字转
29、换准确率平均为90.5%，采用本文的机器学习时，准确率平均为94.9%。n实验二：通过在线拼音键盘输入实验，对机器学习前后的音字转换结果进行测试，经过短时记忆后，重新输入的准确率达到98%以上。实验结果n实验三：针对上百万规模的混合类型文本进行测试。整体进行机器学习后，对学习前后的音字转换准确率进行对比。实验结果表明，准确率从91.3%提高到91.9%。这说明经过长期的机器学习过程，学习结果对最初输入的文本所起作用将减小或消失。5 面向手机类设备的智能拼音汉字输入方法 n面向信息设备的汉字输入面临的问题：n面向小键盘的汉字编码方案研究更困难n信息设备的各方面性能较低，对应用程序限制苛刻n智能拼
30、音汉字输入解决方案n面向数字键盘的三拼输入法n适于小内存应用的拼音汉字智能转换系统面向数字键盘的三拼输入法n逐级分类思想 C0 C11 C12 PY1 PY2 PY3 PY4 C1m PYn 面向数字键盘的三拼输入法n逐级分类思想 n假设数字键盘中的12个字符键都可用来输入拼音，最后确定407个常用拼音，考虑通过3级分类来实现n分类规则应该尽量简单、直观、容易被用户接受 n每级的分类数必须小于12 面向数字键盘的三拼输入法数字键拼音首字母单字符韵母多字符韵母i起始韵母u起始韵母拼音数 2 A 5 5B475 16C48 416 3D486422E 4 4F36 9 4G39 719H39 71
31、9i(ch)48 618 5 J2 9314K38 718L688426 6M586 19N697325O 2 2 7P485 17Q2 9314R37 414S48 416 8T484420u(sh)48 719v(zh)49 720 9W36 9x2 9314y552315z49 417合计拼音数407面向数字键盘的三拼输入法n分类方法n第一级分类：按照手机键盘定义对拼音的第一个字母（声母）进行分类，双声母ch、sh、zh分别用i、u、v表示，零声母用首字符表示，使用了8个数字键(2-9)。n第二级分类：按首字母分类后的每一大类中，对每个首字母相同的拼音，再按照单字符韵母、多字符韵母以及带
32、介母（i、u）的韵母分类，分别用？、*、和介母加*（i*、u*）表示，最多对应12个子类。n第三级分类：每一类对应一个特定的拼音，对应每一个二级子类，最多有9个小类即9个拼音。面向数字键盘的三拼输入法面向数字键盘的三拼输入法n输入方法n第一键：根据手机键盘布局输入一级分类号，即按对应的数字键，此时二级分类被提示出来；n第二键：根据提示从键盘输入对应二级分类的键，此时，最终的拼音被提示出来；n输入对应某拼音的键，则完整的拼音被确认，完成一个拼音的输入过程。面向数字键盘的三拼输入法n例1：输入汉字“龙”，其拼音为“long”jkll*龙abcdefj?ji*ju*laiLanlangghijklm
33、nok?k*ku*laoLeilengpqrstuvwxyzl?l*li*longLoulu*面向数字键盘的三拼输入法n例2：输入汉字“江”，对应拼音“jiang”。jklji*将abcdefj?ji*ju*jiajianjiangghijklmnok?k*ku*jiaojiejinpqrstuvwxyzl?l*li*jingjiongjiulu*面向数字键盘的三拼输入法n三拼输入法的评价 n平均码长：三个键输入一个拼音，与标准拼音的平均码长基本相当（由于码长相等，可进一步减少输入信息）n重码字词键选率：通过智能音字转换弥补n易学性：好n完整性：完整n与富士通公司“选音输入法”比较：易学性好、
34、但利用了更多字符键适应小内存应用的音字转换系统 n关键问题n汉字编码压缩n语言模型n机器学习n记忆机制面向大字符集的汉字音声码方案 n汉字用二字节共16位二进制位表示。前9位（1-9）为音节编码，称为音节序列码，最多表示512个音节序列码；后7位为形码位（10-16），对应一个音节序列码，最多可表示128个同音汉字。如果对应某一个拼音的汉字超过128个，则用多个音节序列码表示一个音。n其它数据结构支持 n拼音表PinyinTable n拼音与音节序列号(YJC)索引表PyToYjcode n汉字表HanziTable n音节码-音调-汉字序列号索引表YjcZiInd 音字转换(基于最少分词的
35、Uni-gram模型)音码标准化音词自动切分键盘输入概率推理拼音语句转换为音声码汉字串查找系统词典获取字、词候选集拼音(全拼、简拼)语句汉字语句适应最少分词Uni-gram模型的机器学习方法 n算法描述1 开始；2 记忆用户修正的汉语语句S；3 对S分词；4 对分词结果中的每个词的频率增值1f；5 重新进行音字转换，得到结果语句，更新S；6 对比S和S；7 如果转换结果正确，则转1 0；8 识别新词，如成功则转3;9 a)对S分词；b)对分词结果中的每
36、个词的频率增值2f；c)重新进行音字转换；d)如果转换结果中仍然存在错误则转9；1 0 结束.niipiLwncT1)()(/动态记忆机制n记忆因子函数n符合记忆的规律：n一事物（如单词）每出现一次，该事物的记忆因子应增加某一常量值 n当若干记忆因子达到最大值时，对整个知识库的所有记忆因子按比例作减值操作 n作用：控制记忆总量，限制对系统资源的要求，记忆因子的总值达到动态平衡)(imf动态记忆机制n 的处理算法)(imf1.BEGIN;2.IF(mf(i)=255)THEN GOTO 9;3.mf(i)=min(mf(i)+mf,255)
37、;4.IF!(mf(i)=255)THEN GOTO 9;5.t=t-1;6.IF!(t=0)THEN GOTO 9;7.对知识库中所有事物 j:mf(j)=mf(j)/2;8.t=16;9.END.实验结果n针对以上介绍的音字转换技术，本文分别构建了一个基于Windows平台的手机汉字输入仿真系统和一个基于控制台的测试系统。系统运行时所占内存压缩到120K。从光明日报和参考消息中选取了300个句子进行测试。实验显示首次音字转换精度音节转换和音调节转换分别达到85%和90%左右，经过机器学习和短期记忆后重新输入的最高精度可达到98%.结论n提出并实现了一个分词、词表优化和参数估计一体化的迭代的语言模型参数训练算法n将语言单位从字和词延伸到通过语言分析而获得的短语或其他任意语言单位，提出了基于语言元素的汉语N-gram模型 n对模型自适应和机器学习进行了研究，在限制模型规模的条件下获得了高精度n提出一套面向数字信息设备的汉字输入方案，首次在仿真环境下实现了手机的语句输入系统展望n进一步提高语言模型的描述能力，寻求更好的语言知识量化的方法。n进一步提高语言模型的自适应能力，深入研究汉语的各种机器学习方式。n寻求新的应用目标。语言模型研究在技术上相对成熟，如何更好地适应不断涌现的新需求，充分利用已有成果，研究可定制的应用系统将是一个重要努力方向。谢谢!

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：构造汉语的统计计算语言模型-课件.ppt
链接地址：https://www.163wenku.com/p-4292965.html

晟晟文业

内容提供者

实名认证

联系作者