自然语言-处理课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《自然语言-处理课件.pptx》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 处理 课件
- 资源描述:
-
1、7.1 7.1 自然语言自然语言处处理应用场景理应用场景7.2 7.2 自然语言自然语言处处理基本功能模块理基本功能模块7.3 7.3 文文本本处处理理7.4 7.4 机器翻译机器翻译7.5 7.5 应用案例应用案例 先通过一个案例说明自然语言处理中常用的术语及其代表的知识平面。由下图可以看出,自然语言处理系统首先把指令“删除文件B”在音位学平面转化成序列“shan chu#wenjian#bi”;然后在形态学平面把这个音位序列转化为语素序列“删除”,“文件”,“B”;接着在词汇平面把这个语素序列转化为字词序列并标注出相应的词性:(删除,VERB),(“文件”,NOUN)(“B”,ID);在句
2、法学平面进行句法分析,得到这个单词序列的句法结构,用树形图表示;在语义学平面得到这个句法结构的语义解释:删除文件(“B”);在语用学平面得到这个指令的语用解释“rm-i B”,此处用的是UNIX系统的指令符号和书写规范,最后计算机执行这个命令。自然语言处理过程长期趋势的分析方法移动平均法u 移动的项数越多,对原数列波动的曲线修匀得越光滑,也就越能显示出现象的长期发展趋势。u 移动的项数越多,首尾丢失的项数也就越多,进行趋势外推测时的误差也就越大u 移动项数的多少要依据现象发展的特点和统计分析的要求确定u 实际应用中,移动平均法主要用来有效的消除不规则变动和季节变动对原数列的影响u 移动平均采用
3、奇数项移动能一次对准被移动数据的中间位置,若采用偶数项移动平均,一次移动平均后的数值将置于居中的两项数值之间长期趋势的分析方法指数平滑u 指数平滑法是对过去的观测值加权平均进行预测,使第期的预测值等于期的实际观测值与第期指数平滑值的加权平均值u 一次指数平滑法预测模型1(1)tttyyy长期趋势的分析方法指数平滑u 平滑系数的取值对平滑效果影响很大,越小平滑效果越显著u 取值的大小决定了在平滑值中起作用的的观察值的项数的多少u 一般来说取值的大小应当视所预测对象的特点及预测期的长短而定长期趋势的分析方法数学模型法u 数学模型法就是根据时间数列发展形态的特点,选择一种合适的数学方程式,进而以自变
4、量x代表时间,y代表实际观测值,然后依据此方程式来分析长期趋势的方法u 数学模型有直线型和曲线型两种类型,而每一种类型又有很多种具体形式。因此,在建立模型之前首先要判断趋势的形态散点图法指标法季节周期性数据的分析方法u 季节模型指一时间序列在各年中所呈现出的典型状态,这种状态年复一年以基本相同的形态出现u 季节模型是由一套指数组成的,各指数刻画了现象在一个年度内各月或各季的典型特征u 12个月(或4个季度)指数的平均数应等于100%,而各月(或季)的指数之和应等于1200%(或400%)季节周期性数据的分析方法u 季节模型正是以各个指数的平均数等于100%为条件而构成的,它反映了某一月份或季度
5、的数值占全年平均数的大小u 如果现象的发展没有季节变动,则各期的季节指数应等于100%u 如果某一月份或季度有明显的季节变化,则各期的季节指数应大于或小于100%季节周期性数据的分析方法采用季节指数法消除季节变动以外的三个因素u 同期平均法:现象不存在长期趋势或长期趋势不明显的情况下,一般是直接用平均的方法通过消除循环变动和不规则变动来测定季节变动u 移动平均趋势剔除法:现象具有明显的长期趋势时,一般是先消除长期趋势,然后再用平均的方法再消除循环变动和不规则变动季节周期性数据的分析同期平均法u “同期平均”就是在同季(月)内“平均”,而在不同季(月)之间“移动”的一种“移动平均”法u“平均”是
6、为了消除非季节因素的影响,而“移动”则是为了测定季节因素的影响程度u 步骤如下:第一,计算各年同季(月)的平均数第二,计算各年同季(或同月)平均数的平均数第三,计算季节比率()()100%()S 同月或季 平均数季节指数总月或季 平均数季节周期性数据的分析同期平均法u 同期平均法计算简单,易于理解u 但实际上,许多时间序列所包含的长期趋势和循环波动,很少能够通过平均予以消除u 只有当序列的长期趋势和循环波动不明显或影响不重要,可忽略不计时,应用该方法比较合适7.2.1 词汇自动处理词汇自动处理词汇是语言的建筑材料,是语言描述的中心。汉语词汇的自动处理主要分为文本的自动分词和自动标注。先看两个文
7、档:文档1:学校有关于人工智能的书籍,学校开设人工智能课程。文档2:学校推动教学改革,推动人工智能课程改革。然后对文档1、文档2进行如下分词:文档1:学校|有|关于|人工智能|的|书籍,|学校|开设|人工智能|课程。文档2:学校|推动|教学|改革|,推动|人工智能|课程|改革。上述分词其实是我们根据自己民族语言习惯人工进行的分词,人工智能要解决的是机器怎样进行中文分词。工程上,已经解决了机器怎样进行中文分词。怎样解决的呢?以文档2为例,增加文档2的另一种分词结果,和上述文档2的分词罗列如下:文档2:学校|推动|教学|改革|,推动|人工智能|课程|改革。A1 A2 A3 A4 A5 A6 A7
8、A8学校|推动|教学改革|,推动|人工|智能|课程改革。B1 B2 B3 B4 B5 B6 B7 下面会构建语料库,机器能根据语料库自动计算上面两种不同分词方式各自出现的概率,哪个概率大就使用哪个分词方式。人工智能应用中,通常将现代汉语分为15类:名词、时间词、方位词、数词、量词、代词、区别词、动词、趋向动词、能愿动词、形容词、副词、介词、连词、助词。自动词类标注的关键是排除兼类词歧义,所谓兼类词也就是词类的歧义,这是汉语自动处理的难点之一。试比较:我在北京上学(“在”为介词,“上”为动词)我在床上(“在”为动词,“上”为方位词)上面的例子中,“在”为“动-介”兼类,“上”为“方位-动”兼类。
9、汉语中往往越是常用的词,不同的用法就越多,兼类现象也就越多。7.2.2 句法自动处理句法自动处理 就汉语文本来说,经过词汇自动处理,每个词都从连续的汉字流中被切分出来,词与词之间出现了空白,并且都被标注了供机器处理的各种信息。然而,经过词汇自动处理之后,句子中词与词之间的词法关系,句子中词组与词组之间的结构关系,仍然是不清楚的,需要进一步处理,这就是句法自动处理。下面通过一个简单的乔姆斯基形式语法类型G演示计算机自动识别句子的各个句法单位以及他们之间的相互关系的过程,这个过程英文为parsing,可译为自动句法分析,设语法类型G为:先予以说明:S是初识符号,它属于集合VN,集合VN中的符号是用
10、来描述语法的,可将NP、VP、V依次解释为名词短语、动词短语、动词。VT是该语言中的词汇,是终极符号。P叫做重写规则,共有(i)(v)五条,箭头左边的符号简称为规则左边,右边的符号简称为规则右边,VN,VT,S,P四元组定义了语法G=(VN,VT,S,P)。我们用该语法G分析句子“熊猫吃竹叶”。首先,从初始状态S开始,写出句子“熊猫吃竹叶”的推导过程:推导过程 所用规则S 开始NPVP(i)NPVNP(ii)熊猫VNP(iv)熊猫吃NP(v)熊猫吃竹叶(iv)上述推导过程,也就是句子的生成过程,可用下图的句法树形图表示:句法树形图 其次,我们采用自低向上剖析(buttom-up parsing
11、)方法剖析句子“熊猫吃竹叶”,将句子切分为如下形式:熊猫|吃|竹叶 根据重写规则(iv),可得如下剖析图 熊猫|吃|竹叶 NP_ 然后,剖析符号串“NP|吃|竹叶”,先检查语法G中有没有右部为NP的重写规则,检查结果是没有。再检查符号串“NP|吃|竹叶”中的第二个词“吃”,根据规则(V)可得如下剖析图 熊猫|吃|竹叶 NP_ V_ 剖析过程中,要在语法G容许的范围内,尽量把符号串的语法符号NP,V等组合起来。先检查语法G中有没有右部为NP的重写规则,检查结果是没有,再检查语法G中有没有把NP和V组合起来的重写规则,检查结果也是没有。随后检查符号串“NP|V|竹叶”中的第二项V,根据规则(iii
12、),可得如下剖析图 熊猫|吃|竹叶 NP_ V_ VP_ 继续剖析,此时语法G中重写规则(i)的右边为符号串NP VP,重写规则(iv)的右边为“竹叶”,此处该应用重写规则(i)呢还是(iv)呢?经过试验,该应用重写规则(iv),可得如下剖析图:熊猫|吃|竹叶 NP_ V_ NP_ VP_ 继续剖析,可以发现支配V的这个VP语法符号不能引导我们找到成功的途径,需要去掉VP,这叫做采用“回溯”(backtracking)的方法,可得如下剖析图:熊猫|吃|竹叶 NP_ V_ NP_ 应用重写规则(ii),可得如下剖析图:熊猫|吃|竹叶 NP_ V_ NP_ _VP_ 再应用重写规则(i),可得如下
13、剖析图:熊猫|吃|竹叶 NP_ V_ NP_ _VP_ S S的跨度从句首开始,到句末结束,覆盖了整个句子,因此句子剖析成功。7.2.3 语义自动处理语义自动处理 语义分析是自然语言处理的最基础的功能模块,本小节只简要介绍义素分析法、语义网络的形式模型 1.义素分析法 义素是意义的基本要素,也是词的意义的区别特征,或者说,词的意义是一些语义特征(即义素)的总和,例如,“哥哥”的意思是+人+亲属+同胞+年长+男性等义素的总和,“妹妹”的意思是+人+亲属+同胞-年长-男性等义素的总和。“+”表示肯定,“-”表示否定,这样-男性就是+女性。一组词的义素可以用义素矩阵来表示,汉语中表同胞的亲属词的义素
展开阅读全文