基于上下文和语义信息的跨领域中文分词中文信息技术专业委员会课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《基于上下文和语义信息的跨领域中文分词中文信息技术专业委员会课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 上下文 语义 信息 领域 中文 分词 信息技术 专业委员会 课件
- 资源描述:
-
1、基于上下文和语义信息的跨领域基于上下文和语义信息的跨领域中文分词中文分词 报告人:张婧导师:黄德根教授学校:大连理工大学研究领域:自然语言处理主要内容主要内容l中文分词概况l中文分词的一大挑战l本文主要方法l参考文献中文分词概况中文分词概况中文分词的主要技术中文分词的主要技术:基于规则的方法 基于统计的方法 规则与统计相结合的方法基于序列标注的机器学习方法基于序列标注的机器学习方法1-2 基于字标注的方法基于字标注的方法3-5 基于子词标注的方法基于子词标注的方法6-8中文分词的技术难点:中文分词的技术难点:未登录词、歧义、规范等本文所用的方法本文所用的方法主要内容主要内容l中文分词概况l中文
2、分词的新挑战l本文主要方法l参考文献中文分词的一大挑战中文分词的一大挑战 跨领域分词的一个显著特点是:跨领域分词的一个显著特点是:一个特定领域文章中的通用词和术语较多,这些领域性OOV是基于某个特定领域的,并且可能会在其所属领域的某一上下文内多次出现。因此,领域适应性领域适应性已经成为中文分词面临的一大挑战9。l在现实应用中,需要分词的绝大部分文本并不带有来源、并不带有来源、主题等标记数据主题等标记数据9。l分词系统不能预先把所有可能的文本种类都训练好都训练好9。l分词系统能贡献最高价值,发挥最高效益时,是针对新主新主题,新来源题,新来源,带有许多未登录词的文本9。主要内容主要内容l中文分词概
3、况l中文分词的新挑战l本文主要方法l参考文献模型及特征模型及特征上下文及语义信息上下文及语义信息分词算法流程分词算法流程实验结果及总结实验结果及总结本文主要方法本文主要方法l模型及特征l上下文及语义信息l分词算法流程l实验结果及总结本文主要方法本文主要方法 模型及特征模型及特征 本文采用字词联合的CRFs模型。先将使用基于字的CRFs获得的候选词放入词图,然后再使用基于词的CRFs模型对词图中的词进行标注。训练时,使用最大似然估计,为了避免训练过载,使用高斯先验对参数进行规格化。解码时,用Viterbi算法。模型:模型:特征模板:特征模板:基于字的CRFs特征模板 基于词的CRFs特征模板本文
4、主要方法本文主要方法 模型及特征模型及特征基于字的基于字的CRFs:使用的特征模板:C-1,C0,C1,C-1C0,C0C1,C-1C1,T-1T0T1,并且加入AV16特征。表表1 基于字的基于字的CRFs特征模板特征模板本文主要方法本文主要方法 模型及特征模型及特征基于词的基于词的CRFs:采用的具体特征模板有:W0,T0,W0T0,T0T1,W0W1,其中,W表示词形,T表示词性,下标0和1分别表示相邻两个词的前词和后词。表表2 基于词的基于词的CRFs特征模板特征模板本文主要方法本文主要方法l模型及特征l上下文及语义信息l分词算法流程l实验结果及总结本文主要方法本文主要方法 上下文及语
5、义信息上下文及语义信息l“日本金融特任大臣龟井龟井静香静香(Shizuka Kamei)周五(3月19日)发表讲话龟井静香龟井静香此前就一直呼吁推出新一轮的大规模经济刺激计划龟井静香龟井静香表示,昨日发布的土地价格调查报告显示龟井静香龟井静香还呼吁日本央行直接买入国债来为政府赤字提供融资金融市场对龟井静香龟井静香的评论应该不会有太大反应”.l提出假设:如果某个词在篇章中出现了一次,那么将会增加它下一次出现的可能性。l也就是说,若某个字串在上下文中多次被当作候选词,则它很可能就是一个词。对此,本文用上下文变量来量化这个假设。l上下文变量记录候选词的词形(w),词性(t),词出现的难易程度(Cos
6、t),该词作为候选词的频数(Frequency),该词作为最终切分路径中词节点的频数(rNum)。上下文信息:上下文信息:本文主要方法本文主要方法 上下文及语义信息上下文及语义信息Al05A01=模范 标兵 表率 榜样 师表 轨范 楷范 英模 典型 丰碑Al05A02=劳模 劳动模范在查找某个候选词在词林中的同义词时,遵循着就近原则,因为两个同义词集合距离越近,其词义信息越接近。表表3 同义词词林编码规范同义词词林编码规范语义信息:语义信息:本文主要方法本文主要方法l模型及特征l上下文及语义信息l分词算法流程l实验结果及总结跨领域分词的分词算法流程分词算法流程如下:本文主要方法本文主要方法 分
7、词算法流程分词算法流程Step1.使用基于字的CRFs得到3-Best路径,并且将路径中所有的节点加入到词图中。图图1 词图示例词图示例本文主要方法本文主要方法 分词算法流程分词算法流程Step2.为词图中的每个候选词赋予属性和代价。具体步骤为:若候选词为系统词典系统词典中的词,则直接将该词在系统词典中的属性及词代价赋给该候选词;若候选词不在系统词典中,但在上下文信息词典上下文信息词典中,则采用公式(1)对该候选词的出现代价进行加权;001.0()1()0.20.8()log(2)costwrNumrNumcost wcostwrNumfrequency 0=0(1)其中,frequency是
8、该候选词出现的频率;rNum是候选词作为正确结果的频率;cost(w)是分词路径中候选词的出现难易程度;cost0(w)为上下文变量表中词条的原始代价。本文主要方法本文主要方法 分词算法流程分词算法流程若候选词不在上述两个词典中,则到同义词词林同义词词林中查找该候选词的同义词,若能在系统词典中找到其同义词,则用系统词典中该同义词的相关信息代替该候选词相对应的信息;若无法通过上述方法找到或代替该候选词,则用未登录词分类未登录词分类处理该候选词。具体分为四类:汉字,字母,数字,标点符号。它们的词性,分别赋为名词,字符串,数字,标点,而词出现的代价为词典中该类词性词语代价的平均值。Step3.构建词
9、图后,用Viterbi算法根据公式(4)计算每条路径的分词代价,找到一条最佳路径,即代价最小的分词路径。公式(4)中的Cost(wi)和TransCost(ti,ti+1)分别通过公式(2)和公式(3)计算得到。()()kkffU wCost wfactor(2)本文主要方法本文主要方法 分词算法流程分词算法流程12(,)1 2(,)kffB t tkTransCost t tfactor(3)其中,U(w)为关于当前词w的一元特征集合,B(t1,t2)是关于相邻的两个词的属性(这里仅为词性)的二元特征集合,fk为特征fk在模型文件中的相应权重,变量factor为将特征权重转换为代价的放大系数
展开阅读全文