第三章-自然语言的处理课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第三章-自然语言的处理课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 自然语言 处理 课件
- 资源描述:
-
1、1 第第3章章 自然语言的处理自然语言的处理23.1 基本概念基本概念3信息的主要载体语言信息的主要载体语言语言的两种形式文字和声音语言的两种形式文字和声音 文字和声音作为语言的两个不同形式的载体,所文字和声音作为语言的两个不同形式的载体,所承载的信息占整个信息组成的承载的信息占整个信息组成的90以上。以上。如何让计算机实现人们希望实现的语言处理功能?如何让计算机实现人们希望实现的语言处理功能?如何让计算机真正实现海量的语言信息的自动处如何让计算机真正实现海量的语言信息的自动处理和有效利用?理和有效利用?4 自然语言处理自然语言处理(Natural Language Processing,简,
2、简称称NLP)是利用计算机为工具,对人类特有的书)是利用计算机为工具,对人类特有的书面形式和口头形式的自然语言的信息进行各种类面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。型处理和加工的技术。冯志伟冯志伟自然语言的计算机处理自然语言的计算机处理 NLP是用计算机通过可计算的方法对自然语言的是用计算机通过可计算的方法对自然语言的各级语言单位(字、词、语句、篇章等)进行转各级语言单位(字、词、语句、篇章等)进行转换、传输、存储、分析等加工处理的理论和方法。换、传输、存储、分析等加工处理的理论和方法。5其它名称其它名称 自然语言理解自然语言理解(Natural Language Un
3、derstanding)计算语言学计算语言学(Computational Linguistics)现代语言学的一大分支,它是用计算机理现代语言学的一大分支,它是用计算机理解、生成和处理自然语言,即它的研究范解、生成和处理自然语言,即它的研究范围不仅涵盖语言信息的处理,还包括语言围不仅涵盖语言信息的处理,还包括语言的理解和生成。的理解和生成。6研究语言的目的研究语言的目的研究语言的目的研究语言的目的为语言构造出足够精细的计算模型,以便能够写出为语言构造出足够精细的计算模型,以便能够写出由计算机程序来完成的涉及自然语言的各种任务。由计算机程序来完成的涉及自然语言的各种任务。计算模型的用途计算模型的
4、用途作为科学研究的目的可以探索语言交流的本质;作为科学研究的目的可以探索语言交流的本质;作为实用的目的能够实现有效的人机通信。作为实用的目的能够实现有效的人机通信。终极目标终极目标能够给出一些模型,这些模型在完成阅读、写作、能够给出一些模型,这些模型在完成阅读、写作、听、说等任务时能够接近人的行为。听、说等任务时能够接近人的行为。7 不关注不关注与所使用的特定媒介相关的与所使用的特定媒介相关的问题,例如手写输入、键盘输入或语音问题,例如手写输入、键盘输入或语音输入的问题。输入的问题。关注关注在词语识别完成后理解和使用在词语识别完成后理解和使用语言的过程。语言的过程。8NLP的历史的历史u20世
5、纪世纪50年代起步年代起步u提出机器翻译等重要问题提出机器翻译等重要问题u50年代年代-60年代采用模式匹配法和文法分析方法年代采用模式匹配法和文法分析方法u对基于理解和基于统计方法的讨论对基于理解和基于统计方法的讨论u60年代后期衰落年代后期衰落u70-80年代采用了面向受限域的深入理解方法年代采用了面向受限域的深入理解方法u80年代后期至今统计方法占据主流年代后期至今统计方法占据主流u大规模语料可用,计算机性能大幅提高大规模语料可用,计算机性能大幅提高u互联网的迅速发展为互联网的迅速发展为NLP提供了实验数据来源和新的应提供了实验数据来源和新的应用场景用场景93.2 自然语言处理技术可以为
6、我们自然语言处理技术可以为我们做什么?做什么?1、信息检索、信息检索http:/.hk 微软:微软:106,000,000条(条(8年前年前2,060,000 条)条)微软,亚洲研究院:微软,亚洲研究院:1,060,000条条微软,亚洲研究院,研究方向:微软,亚洲研究院,研究方向:116,000条条微软,亚洲研究院,自然语言处理:微软,亚洲研究院,自然语言处理:38,900 条条 08年年7月一万亿个网页,每天数十亿增加月一万亿个网页,每天数十亿增加 获得的信息只有获得的信息只有1被有效利用被有效利用10“框框”计算计算“框计算框计算”是是20092009年年8 8月月1818日,百度董事长兼
7、首席日,百度董事长兼首席执行官李彦宏在执行官李彦宏在20092009百度百度技术创新大会上所提出的技术创新大会上所提出的全新技术概念。用户只要全新技术概念。用户只要在在“百度框百度框”中输入服务中输入服务需求,系统就能明确识别需求,系统就能明确识别这种需求,并将该需求分这种需求,并将该需求分配给最优的内容资源或应配给最优的内容资源或应用提供商处理,最终精准用提供商处理,最终精准高效地返回给用户相匹配高效地返回给用户相匹配的结果。这种高度智能的的结果。这种高度智能的互联网需求交互模式,以互联网需求交互模式,以及及“最简单可依赖最简单可依赖”的信的信息交互实现机制与过程,息交互实现机制与过程,称之
8、为称之为“框计算框计算”。112、借助于语言信息处理的、借助于语言信息处理的web智能智能http:/ spirit is willing,but the flesh is weak.(心有余,而力不足。)(心有余,而力不足。)译:精神是愿意的译:精神是愿意的,但骨肉是微弱的。但骨肉是微弱的。(Systran,现在已经能够,现在已经能够正确翻译正确翻译)Ex-2:3、机器翻译、机器翻译16在网络上输入在网络上输入“问句问句”,自动给出精确地答案。,自动给出精确地答案。自动问答系统的结构自动问答系统的结构三个模块:三个模块:提问处理模块(提问处理模块(Question-Processing);)
9、;文献处理模块(文献处理模块(Document-Processing););答案的提取和构造模块(答案的提取和构造模块(Answer Extraction and Formulation)。)。冯志伟冯志伟4、自动问答系统、自动问答系统17 如如“给我找出所有有关在给我找出所有有关在1986年到年到1990年之间曾经年之间曾经尝试而最终失败且金额超过尝试而最终失败且金额超过1亿美元的融资收买的亿美元的融资收买的文章。文章。”处理方法:处理方法:1 1、对数据库的每篇文章建立一种表示形式、对数据库的每篇文章建立一种表示形式 2 2、这种表示形式能用于后续的推理、这种表示形式能用于后续的推理 5、
10、复杂的检索任务、复杂的检索任务18输入:美欧贸易摩擦升级输入:美欧贸易摩擦升级识别结果:美欧贸易摩擦识别结果:美欧贸易摩擦生机生机输入:新技术的发展日新月异输入:新技术的发展日新月异识别结果:新识别结果:新纪录纪录的发展日新月异的发展日新月异6、语音识别、语音识别19信息过滤,信息安全信息过滤,信息安全文摘生成文摘生成问答系统,人机交互问答系统,人机交互语言教学语言教学文字输入,文字编辑与排版文字输入,文字编辑与排版语音翻译语音翻译网络内容管理与知识发现网络内容管理与知识发现 201.3 关于关于“理解理解”的理解的理解 他说:他说:“她这个人真有意思她这个人真有意思(funny)”。她说:。
11、她说:“他这个人怪有意思的他这个人怪有意思的(funny)”。于是人们以为他。于是人们以为他们有了意思们有了意思(wish),并让他向她意思意思,并让他向她意思意思(express)。他火了:他火了:“我根本没有那个意思我根本没有那个意思(thought)”!她也生!她也生气了:气了:“你们这么说是什么意思你们这么说是什么意思(intention)”?事后?事后有人说:有人说:“真有意思真有意思(funny)”。也有人说:。也有人说:“真没真没意思意思(nonsense)”。生活报生活报1994.11.13.第六版第六版21人脑对语言的理解是一个复杂的思维过程。人脑对语言的理解是一个复杂的思维
12、过程。自然语言理解技术同多个学科有着千丝万缕的关系。自然语言理解技术同多个学科有着千丝万缕的关系。语言学:研究语言本身的结构语言学:研究语言本身的结构语言心理学:语言心理学:研究人类生成和理解语言的过程研究人类生成和理解语言的过程逻辑学:逻辑学:计算机科学计算机科学人工智能人工智能数学与统计学数学与统计学 22一种测试一种测试机器机器是不是具备是不是具备人类智能人类智能的方法。的方法。图灵测试图灵测试231.4 自然语言理解研究的基本问题自然语言理解研究的基本问题研究的层次研究的层次语法学:研究语句的组成结构,包括词和短语语法学:研究语句的组成结构,包括词和短语 在语句中的作用等。在语句中的作
13、用等。为什么一句话可以这么说也可以那么说?为什么一句话可以这么说也可以那么说?24研究的层次研究的层次语义学:研究如何从一个语句中推导词的意义,语义学:研究如何从一个语句中推导词的意义,以及这些词在该语句中句法结构中的作用来推导出以及这些词在该语句中句法结构中的作用来推导出该语句的意义。该语句的意义。这句话说了什么?这句话说了什么?(1)今天中午我吃食堂。今天中午我吃食堂。(2)这个人真牛。这个人真牛。(3)这个人眼下没些什么,那个人嘴不太好。这个人眼下没些什么,那个人嘴不太好。25研究的层次研究的层次语用学:研究在不同上下文中的语句的应用,语用学:研究在不同上下文中的语句的应用,以及上下文对
14、语句理解所产生的影响。以及上下文对语句理解所产生的影响。为什么要说这句话?为什么要说这句话?(1)火,火!)火,火!(2)A:看看鱼怎么样了?看看鱼怎么样了?B:我刚才翻了一下。我刚才翻了一下。26自然语言理解的基本模型自然语言理解的基本模型27汉语的特点:汉语的特点:p汉语是大字符集(汉语是大字符集(GBK字符集字符集)的意音文字(图形)的意音文字(图形符号既代表语素,又代表音节的文字系统);符号既代表语素,又代表音节的文字系统);p汉语词与词之间没有空格,没有形态变化;汉语词与词之间没有空格,没有形态变化;p汉语的同音词较多;汉语的同音词较多;p字形复杂;字形复杂;p汉语的语法研究尚未规范
15、化;汉语的语法研究尚未规范化;p汉语的语言学知识的量化与形式化工作滞后。汉语的语言学知识的量化与形式化工作滞后。1.5 汉语的自然语言理解汉语的自然语言理解英语只有英语只有26 个字母个字母,中文却有中文却有44 908 个汉字个汉字(中华大辞典中华大辞典)。英语有。英语有1500 年历史年历史牛津英语辞典牛津英语辞典收词收词40 多万条。汉语长达六千多年历史多万条。汉语长达六千多年历史中华大辞典中华大辞典收词六十多万条收词六十多万条,比英比英语多语多50%。这一特性为汉字的输入。这一特性为汉字的输入和计算机编码造成了极大的困难。和计算机编码造成了极大的困难。西方语言的形态对于计算机来说就是西
16、方语言的形态对于计算机来说就是标记;汉语以字为基本单位,词之间标记;汉语以字为基本单位,词之间没有明显的标记,需要词的切分,而没有明显的标记,需要词的切分,而分词本身有一定的错误率,降低了后分词本身有一定的错误率,降低了后续处理的实际效果。汉语词本身没有续处理的实际效果。汉语词本身没有性、数、格、时态变化等形态标志,性、数、格、时态变化等形态标志,给语义分析增加了困难。给语义分析增加了困难。方块汉字由象形文字演化而方块汉字由象形文字演化而来,汉字字形的信息量较大,来,汉字字形的信息量较大,给计算机的内部信息压缩和给计算机的内部信息压缩和文字显示制造了困难。文字显示制造了困难。汉语句子中词序虽同
17、可能意义迥异;虚词汉语句子中词序虽同可能意义迥异;虚词并非非用不可,特别是在口语里,虚词更并非非用不可,特别是在口语里,虚词更少,因此虚词只能是解决词与词、句与句少,因此虚词只能是解决词与词、句与句关系问题的辅助手段;关系问题的辅助手段;“意合意合”包含着许包含着许多语言环境、语言背景和语言风格知识以多语言环境、语言背景和语言风格知识以及缺省问题,如何全面把握有关意义的诸及缺省问题,如何全面把握有关意义的诸项要素,并把它形式化,是最大的难题。项要素,并把它形式化,是最大的难题。281、交集型切分歧义问题交集型切分歧义问题 乒乓球乒乓球/拍拍卖卖/完完/了了 乒乓球乒乓球拍拍/卖卖/完完/了了
18、美美国国/会通过对台售武法案会通过对台售武法案 美美/国国会会/通过对台售武法案通过对台售武法案汉语自然语言理解的难点汉语自然语言理解的难点292、未登录词(新词)问题未登录词(新词)问题汉语词典中未列入的词汉语词典中未列入的词包括:包括:专有名词:中文人名、地名、机构名称、专有名词:中文人名、地名、机构名称、外国译外国译名、时间词名、时间词重叠词:高高兴兴重叠词:高高兴兴派生词:一次性用品派生词:一次性用品专业术语:互联网专业术语:互联网303、词性岐义问题、词性岐义问题 多词性和多词义是语言的一种普遍现象,汉语这多词性和多词义是语言的一种普遍现象,汉语这种现象比西方语言严重得多。种现象比西
19、方语言严重得多。和和 根据根据现代汉语词典现代汉语词典,可以有五种读音:,可以有五种读音:he2;he4;hu2;huo2;huo4 六种词性:名词、形容词、连词、动词、介词、六种词性:名词、形容词、连词、动词、介词、量词量词 十六种不同的词义十六种不同的词义314、否定词和语义上的混乱、否定词和语义上的混乱 汉语上的否定词汉语上的否定词“不不”有时并不表示否定。相反,有时并不表示否定。相反,反而会更肯定。反而会更肯定。如:如:“可不是可不是”比比“可是可是”更可是。更可是。325、汉语的岐义结构(短语歧义)、汉语的岐义结构(短语歧义)岐义结构是句子自生固有的,必须在整个语境环岐义结构是句子自
20、生固有的,必须在整个语境环境下才可能消歧,自动消歧是很难的。境下才可能消歧,自动消歧是很难的。u彩色铅笔盒子彩色铅笔盒子 彩色彩色铅笔盒子铅笔盒子 彩色铅笔彩色铅笔盒子盒子 u他在看病他在看病 他在给别人看病他在给别人看病 大夫给他看病大夫给他看病336、汉语的词义岐义、汉语的词义岐义l打打乒乓球乒乓球l打打电话电话l打打毛衣毛衣7、语用岐义、语用岐义 你真讨厌!你真讨厌!341.6 自然语言处理技术自然语言处理技术35如何描述一种语言?如何描述一种语言?u穷举:穷举:u给出语言中所有的句子;给出语言中所有的句子;u只适合含有有限多个句子的语言。只适合含有有限多个句子的语言。u文法:文法:u给
21、出可以生成语言中所有句子的方法;给出可以生成语言中所有句子的方法;u当且仅当能够用该方法产生的句子属于该语言。当且仅当能够用该方法产生的句子属于该语言。u自动机:自动机:u给出识别该语言中句子的机械方法;给出识别该语言中句子的机械方法;u可以检验输入句子是否属于该语言。可以检验输入句子是否属于该语言。36按技术路线分为:按技术路线分为:371、基于语言学规则的语言处理技术、基于语言学规则的语言处理技术通过对语言学知识的形式化、形式化规则的算法通过对语言学知识的形式化、形式化规则的算法化,以及算法实现等步骤将语言学知识转化为计化,以及算法实现等步骤将语言学知识转化为计算机可以处理的形式。算机可以
22、处理的形式。强调语言学家对语言现象的认识。强调语言学家对语言现象的认识。采用非歧义的规则形式描述或解释歧义行为或歧采用非歧义的规则形式描述或解释歧义行为或歧义特性。义特性。理性主义方法理性主义方法38语言学家语言学家:撰写:撰写“规则库规则库”(包括(包括“词典词典”)计算机学家计算机学家:编写算法程序,对:编写算法程序,对“规则库规则库”进行进行解释和执行。解释和执行。392、基于统计的语言处理技术、基于统计的语言处理技术从大规模真实语料库中获得各级语言单位上的统计从大规模真实语料库中获得各级语言单位上的统计信息,并依据较低级语言单位上的统计信息,用相信息,并依据较低级语言单位上的统计信息,
23、用相关的统计推理技术计算较高级语言单位上的统计信关的统计推理技术计算较高级语言单位上的统计信息。息。注重用数学方法注重用数学方法概率论与数理统计。概率论与数理统计。能从代表自然语言规律的大规模真实文本中发现知能从代表自然语言规律的大规模真实文本中发现知识,抽取语言现象或统计规律(从大量的语言数据识,抽取语言现象或统计规律(从大量的语言数据中获得语言的知识结构)。中获得语言的知识结构)。经验主义方法经验主义方法40语言学家语言学家:建立:建立“语料库语料库”经科学取样和加工的经科学取样和加工的大规模电子文本库。大规模电子文本库。存放的是在语言的实际使用中真实出现过的语言材料;存放的是在语言的实际
24、使用中真实出现过的语言材料;以电子计算机为载体承载语言知识的基础资源;以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的真实语料需要经过加工(分析和处理),才能成为有用的资源。资源。计算机学家计算机学家:建立统计模型:建立统计模型 利用语料库训练模型参数利用语料库训练模型参数 编写算法解决问题编写算法解决问题41二者区别二者区别研究对象不同研究对象不同u基于规则的方法主要研究人的语言知识结构,实际基于规则的方法主要研究人的语言知识结构,实际的语言数据只提供了这种内在知识的间接证据。的语言数据只提供了这种内在知识的间接证据。u基于统计的方法研究对象就是实
25、际的语言数据。基于统计的方法研究对象就是实际的语言数据。42二者区别二者区别理论基础不同理论基础不同u基于规则的方法是基于乔姆斯基的语言理论基于规则的方法是基于乔姆斯基的语言理论的。通过语言所必须遵守的一系列原则来描的。通过语言所必须遵守的一系列原则来描述语言,以此判断一个句子是正确的还是错述语言,以此判断一个句子是正确的还是错误的。误的。u基于统计的方法基于香农的信息论。将语言基于统计的方法基于香农的信息论。将语言事件赋予概率,作为其可信度,由此来判断事件赋予概率,作为其可信度,由此来判断一个句子是常见的还是罕见的。一个句子是常见的还是罕见的。43二者区别二者区别范围不同范围不同u基于规则的
展开阅读全文