《人工智能及其应用》课件第12章自然语言处理.pptx

上传人（卖家）：momomo

文档编号：7674408

上传时间：2024-07-01

格式：PPTX

页数：35

大小：1.96MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《《人工智能及其应用》课件第12章自然语言处理.pptx》由用户（momomo）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 人工智能及其应用人工智能及其应用课件第12章自然语言处理人工智能及其应用课件 12 自然语言处理

资源描述：: 1、第第1212章章自然语言处理自然语言处理 LISPLISP语言是语言是AIAI的数学，不仅对的数学，不仅对AIAI的机器实现更有意义，而且的机器实现更有意义，而且是是AIAI理论研究的重要工具。理论研究的重要工具。温斯顿温斯顿12.112.1语言模型语言模型12.112.1语言模型语言模型12.112.1语言模型语言模型12.1.2 12.1.2 模型评估模型评估12.1.2 12.1.2 模型评估模型评估12.1.3 n12.1.3 n元单词模型元单词模型从从字符模型转向元单词模型。单词模型和字符模型有着相同的机制，主字符模型转向元单词模型。单词模型和字符模型有着相同的机制，主要的区别在
2、于词汇，构成语料和模型的符号集合，比字符模型更大要的区别在于词汇，构成语料和模型的符号集合，比字符模型更大。大多数大多数语言只有大约语言只有大约100100个字符，有时我们还可以构建更受限的模型，例个字符，有时我们还可以构建更受限的模型，例如，把如，把“A A”和和“a a”视为同一符号，也可以把所有的标点视为同一符号。而视为同一符号，也可以把所有的标点视为同一符号。而对于单词模型来说，至少有数以万计的符号，有时甚至上百万对于单词模型来说，至少有数以万计的符号，有时甚至上百万。符号符号之所以这样多，是因为很难说清楚单词到底是由什么构成的。在英之所以这样多，是因为很难说清楚单词到底是由什么构成的
3、。在英语中，由前后空格分隔的字母序列构成了单词。语中，由前后空格分隔的字母序列构成了单词。12.1.3 n12.1.3 n元单词模型元单词模型 n n元单词模型需要处理词汇表以外的单词。在字符模型中，我们不必担心元单词模型需要处理词汇表以外的单词。在字符模型中，我们不必担心有人会发明字母表中的新字母。有人会发明字母表中的新字母。单词模型中，总是有可能出现训练语料中没有的单词，所以我们需要在单词模型中，总是有可能出现训练语料中没有的单词，所以我们需要在语言模型中明确地对其建模。语言模型中明确地对其建模。通过向词汇表中添加一个新的单词通过向词汇表中添加一个新的单词来解决，来解决，表示未知的单词。表
4、示未知的单词。我们可以按照下面的方法对我们可以按照下面的方法对进行进行n n元模型评估：遍历训练语料，每个单元模型评估：遍历训练语料，每个单词的第一次出现都作为未知的单词，就用词的第一次出现都作为未知的单词，就用替换它。替换它。这个单词后来所有的出现仍保持不变。然后把这个单词后来所有的出现仍保持不变。然后把和其他单词一样对待，和其他单词一样对待，按原来的方法计算语料的按原来的方法计算语料的n n元数值。元数值。当一个未知的单词在出现在测试集中时，我们将其视为当一个未知的单词在出现在测试集中时，我们将其视为的来查找概的来查找概率。有时我们会按照单词的不同类别，分别使用多个不同的未知单词符号。率。
5、有时我们会按照单词的不同类别，分别使用多个不同的未知单词符号。例如，所有数字串可以替换为例如，所有数字串可以替换为，所有电子邮件地址替换成，所有电子邮件地址替换成。12.212.2文本分类文本分类12.212.2文本分类文本分类另另一种方法是机器学习方法，我们把邮件信息看成是一组特征一种方法是机器学习方法，我们把邮件信息看成是一组特征/值对，分值对，分类算法类算法h h根据特征向量根据特征向量X X进行判断。我们可以将进行判断。我们可以将n n元组作为特征，这样语言模型元组作为特征，这样语言模型和机器学习两种方法和机器学习两种方法就可以就可以融合了融合了。这这一思想用一元模型最容易理解。在词
6、汇表中的单词就是特征：一思想用一元模型最容易理解。在词汇表中的单词就是特征：“a a”、“aardvarkaardvark”、，特征的值就是每个单词在邮件信息中出现的次数。，特征的值就是每个单词在邮件信息中出现的次数。12.212.2文本分类文本分类一旦一旦我们选定了特征集，我们便能运用我们所知道的任何监督学习技术，我们选定了特征集，我们便能运用我们所知道的任何监督学习技术，比较流行的文本分类方法包括：比较流行的文本分类方法包括：k-k-最近邻最近邻(k-nearest-neighbors.)(k-nearest-neighbors.)、支持向、支持向量机量机(support vector
7、machines)(support vector machines)、决策树、决策树(decision trees)(decision trees)、朴素贝叶斯、朴素贝叶斯(naive Bayes)(naive Bayes)以及逻辑回归以及逻辑回归(logistic regression)(logistic regression)。所有所有这些方法都已被应用到垃圾邮件检测中，通常准确率在这些方法都已被应用到垃圾邮件检测中，通常准确率在98%99%98%99%之间。之间。如果精心设计特征集，准确率可以超过如果精心设计特征集，准确率可以超过99.9%99.9%。12.312.3信息检索信息检索信
8、息检索信息检索(Information retrieval)(Information retrieval)的任务是寻找与用户的信息需求相关的文档。万维的任务是寻找与用户的信息需求相关的文档。万维网上的搜索引擎就是一个众所周知的信息检索系统的例子网上的搜索引擎就是一个众所周知的信息检索系统的例子。一一个信息检索（即个信息检索（即IR)IR)系统具有如下特征：系统具有如下特征：1 1.文档集合，每个系统都必须确定其需要处理的文档，一个段落文本、一页文本还是多文档集合，每个系统都必须确定其需要处理的文档，一个段落文本、一页文本还是多页文本。页文本。2 2.使用查询语言描述的查询，查询描述了用户想知道
9、的内容使用查询语言描述的查询，查询描述了用户想知道的内容。查询语言查询语言可以是一个单词列表，如可以是一个单词列表，如AI bookAI book；可以是必须连续出现的单词短语，如；可以是必须连续出现的单词短语，如“AI bookAI book”；也可以包含布尔运算符，如；也可以包含布尔运算符，如AI and BookAI and Book。12.312.3信息检索信息检索3 3.结果结果集合集合该该集合是文档集合的子集，包含了集合是文档集合的子集，包含了IRIR系统判断的与查询相关的那部分文系统判断的与查询相关的那部分文档。所谓档。所谓“相关相关”，是指对提出查询的人有用，符合查询中表达的
10、特定信息，是指对提出查询的人有用，符合查询中表达的特定信息需求。需求。4.4.结果集合的结果集合的展示展示结果结果集合可以简单地用有序的文档标题列表来展示，也可以采取复杂的集合可以简单地用有序的文档标题列表来展示，也可以采取复杂的展示方法，如将结果集合的旋转彩色图像映射到一个三维空间中，以作为一展示方法，如将结果集合的旋转彩色图像映射到一个三维空间中，以作为一种二维表示的补充。种二维表示的补充。12.3.1 IR12.3.1 IR评分函数评分函数评分评分函数根据文档和查询计算并返回一个数值得分，最相关的文档的得函数根据文档和查询计算并返回一个数值得分，最相关的文档的得分最高。在分最高。在B
11、M25BM25函数中，得分是由构成查询的每个单词的得分进行线性加权函数中，得分是由构成查询的每个单词的得分进行线性加权组合而成。有三个因素会影响查询项的权重组合而成。有三个因素会影响查询项的权重：第一第一，查询项在文档中出现的频率（也记为，查询项在文档中出现的频率（也记为TFTF，表示词项频率，表示词项频率(term(term frequency)frequency)。对于查询。对于查询farming in Kansas,farming in Kansas,频繁提到频繁提到“farmingfarming”的文档的文档会得到较高分数会得到较高分数。第二第二，词项的文档频率的倒数，也记为，词项的文
12、档频率的倒数，也记为IDFIDF。单词。单词“inin”几乎出现在每一几乎出现在每一个文档中，所以它的文档频率较高，因而文档领率的倒数较低，所以个文档中，所以它的文档频率较高，因而文档领率的倒数较低，所以“inin”没有查询中的没有查询中的“farmingfarming”和和“KansasKansas”重要重要。第三第三，文档的长度。包含上百万单词的文档很可能提到所有查询中的单，文档的长度。包含上百万单词的文档很可能提到所有查询中的单词，但实际上这类文档不一定真正与询问相关，而提到所有查询单词的短文词，但实际上这类文档不一定真正与询问相关，而提到所有查询单词的短文档应当是更好的相关文档候选。档
13、应当是更好的相关文档候选。12.3.2 IR12.3.2 IR系统评价系统评价传统上传统上，在评分时有两个度量指标，召回率，在评分时有两个度量指标，召回率(recall)(recall)和准确率和准确率(precision)(precision)。某个某个IRIR系统对某个查询返回一个结果集合，语料库由系统对某个查询返回一个结果集合，语料库由100100篇文档组成，对篇文档组成，对于该查询，我们已经知道语料库中哪些文档是相关的、哪些是不相关的。每于该查询，我们已经知道语料库中哪些文档是相关的、哪些是不相关的。每个类别的文档统计结果如下表所示。个类别的文档统计结果如下表所示。12.3.2 IR
14、12.3.2 IR系统评价系统评价12.3.3 PageRank12.3.3 PageRank算法算法网页网页排名旨在解决排名旨在解决TFTF评分问题：如果查询为评分问题：如果查询为IBM,IBM,我们如何保证我们如何保证BMBM的主的主页页是第一条搜索结果，即使存在其他的网页更频繁地出现词语是第一条搜索结果，即使存在其他的网页更频繁地出现词语“IBMIBM”?其其思想是思想是有很多导入链接有很多导入链接(in-links(in-links，指向该页面的链接，指向该页面的链接)，所以，所以它的排名应该更高，每一个导入链接都可以看成是为所链接到的页面投了一它的排名应该更高，每一个导入链接都可以
15、看成是为所链接到的页面投了一票票。如果如果我们只计算导入链接，就可能会有垃圾网页制造者创建一个页面网我们只计算导入链接，就可能会有垃圾网页制造者创建一个页面网络，并把所有网页都链接到他想要的网页上，从而提高该网页的得分。络，并把所有网页都链接到他想要的网页上，从而提高该网页的得分。12.4.112.4.1基于有限状态自动机的信息抽取基于有限状态自动机的信息抽取最最简单的信息抽取系统被称为基于属性的抽取简单的信息抽取系统被称为基于属性的抽取(attribute-(attribute-based extraction)based extraction)系统，因为它假设整个文本都是关于单一对象系统
16、，因为它假设整个文本都是关于单一对象的，而系统的任务就是抽取该对象的属性的，而系统的任务就是抽取该对象的属性。针对针对每个需要抽取的属性定义一个模板。模板可以用有限状每个需要抽取的属性定义一个模板。模板可以用有限状态自动机定义，最简单的例子就是正则表达式态自动机定义，最简单的例子就是正则表达式(regular(regular expression expression 或或 regex regex)。12.4.112.4.1基于有限状态自动机的信息抽取基于有限状态自动机的信息抽取关系关系抽取系统可以由一组级联有限状态转换器抽取系统可以由一组级联有限状态转换器(cascaded finite-
17、state transducers)(cascaded finite-state transducers)构成构成。系统系统由一系列小而有效的有限状态自动机由一系列小而有效的有限状态自动机(FSAs)(FSAs)组成，其中每个自动机接受文本作为输组成，其中每个自动机接受文本作为输入，将文本转换成一种不同的格式，并传送给下一个自动机。入，将文本转换成一种不同的格式，并传送给下一个自动机。FASTUSFASTUS由以下由以下5 5个阶段组成：个阶段组成：1.1.符号分析符号分析(Tokenization)(Tokenization)2.2.复合词处理复合词处理3.3.基本词组处理基本词组处理4.4
18、.复合短语处理复合短语处理5.5.结构合并结构合并12.4.212.4.2信息抽取的概率模型信息抽取的概率模型12.4.212.4.2信息抽取的概率模型信息抽取的概率模型在在抽取中抽取中HMMHMM相比相比FSAFSA有两大优势有两大优势。第一第一，HMMHMM是概率模型，因而可以抗噪声。在正则表达式中，哪怕一个预是概率模型，因而可以抗噪声。在正则表达式中，哪怕一个预期的字符丢失，正则表达式的匹配也会失败期的字符丢失，正则表达式的匹配也会失败；使用使用HMMHMM可以很好地对丢失的字符或单词进行退化处理可以很好地对丢失的字符或单词进行退化处理(degradation),(degradatio
19、n),我我们还可以用概率值表示匹配的程度，而不仅仅是用布尔值来表示匹配成功或们还可以用概率值表示匹配的程度，而不仅仅是用布尔值来表示匹配成功或失败失败。第二第二，HMMHMM可以用数据训练得到，而无需构造模板的繁重工程，因此，模可以用数据训练得到，而无需构造模板的繁重工程，因此，模型就能够方便地适应随着时间不断变化的文本。型就能够方便地适应随着时间不断变化的文本。12.4.312.4.3基于条件随机场的信息抽取基于条件随机场的信息抽取12.4.312.4.3基于条件随机场的信息抽取基于条件随机场的信息抽取12.4.312.4.3基于条件随机场的信息抽取基于条件随机场的信息抽取12.512.5短
20、语结构语法短语结构语法12.512.5短语结构语法短语结构语法12.512.5短语结构语法短语结构语法12.512.5短语结构语法短语结构语法12.612.6机器翻译机器翻译12.612.6机器翻译机器翻译12.612.6机器翻译机器翻译学习学习短语概率和扭曲度概率这两个短语概率和扭曲度概率这两个问题问题，过程如下：，过程如下：(1)(1)找到平行文本找到平行文本首先首先，搜集双语平行语料库。例如，搜集双语平行语料库。例如，HansardHansard记录了议会的辩论。记录了议会的辩论。加拿大、香港以及其他国家和地区建立了双语的加拿大、香港以及其他国家和地区建立了双语的HansardHan
21、sard，欧盟以，欧盟以1111种种语言发布其官方文件，而联合国也发布多种语言版本的文件语言发布其官方文件，而联合国也发布多种语言版本的文件。双语双语语料也可从网上获得，一些网站也通过平行的语料也可从网上获得，一些网站也通过平行的URLURL发布平行的发布平行的内容内容。(2)2)分割句子分割句子翻译翻译的单位是句子，因此我们必须把语料分割为句子。句号是很强的单位是句子，因此我们必须把语料分割为句子。句号是很强的句子结尾的标志的句子结尾的标志。一一种确定句号是否表示句子结束的方法，是根据句号附近单词及其种确定句号是否表示句子结束的方法，是根据句号附近单词及其词性特征训练一个模型，该方法的准确
22、率可达到词性特征训练一个模型，该方法的准确率可达到98%98%。12.612.6机器翻译机器翻译学习学习短语概率和扭曲度概率这两个短语概率和扭曲度概率这两个问题问题，过程如下：，过程如下：(3)(3)句子对齐句子对齐对于对于英语语料中的每个句子，找出汉语料中与之对应的句子。通常，英英语语料中的每个句子，找出汉语料中与之对应的句子。通常，英语句子和汉语句子是语句子和汉语句子是1 1：1 1对应的，但在有些时候也有变化：某种语言的一个对应的，但在有些时候也有变化：某种语言的一个句子可以被分割，从而形成句子可以被分割，从而形成2 2：1 1对应，或者两个句子的顺序相互交换，从而对应，或者两个句子
23、的顺序相互交换，从而导致导致2 2：2 2对应对应。当当仅考虑句子的长度时（即短句应该和短句对齐），对齐这些句子是可仅考虑句子的长度时（即短句应该和短句对齐），对齐这些句子是可能的能的(1(1：1 1，1 1：2 2，2 2：2 2等等)，利一种维特比算法，利一种维特比算法(Viterbi algorithm)(Viterbi algorithm)的变种的变种可以达到可以达到99%99%的准确度的准确度。如果如果使用两种语言的公共标志，比如数字、日期、专有名词以及我们从使用两种语言的公共标志，比如数字、日期、专有名词以及我们从双语词典中获得的无歧义的单词，可以实现更好的对齐效果。双语词典中获得
24、的无歧义的单词，可以实现更好的对齐效果。12.612.6机器翻译机器翻译12.7 12.7 小结小结基于基于n n元概率语言模型能够获得数量惊人的有关语言的信息。该模型在语元概率语言模型能够获得数量惊人的有关语言的信息。该模型在语言识别拼写纠错、体裁分类和命名实体识别等很多任务中有良好的表现。这言识别拼写纠错、体裁分类和命名实体识别等很多任务中有良好的表现。这些语言模型拥有几百万种特征，所以特征的选择和对数据进行预处理减少噪些语言模型拥有几百万种特征，所以特征的选择和对数据进行预处理减少噪音显得尤为重要。音显得尤为重要。文本文本分类可采用朴素贝叶斯分类可采用朴素贝叶斯”元模型或者我们之前讨论
25、过的分类算法。元模型或者我们之前讨论过的分类算法。分类也可以看成是数据压缩问题。信息检索系统使用一种简单的基于词袋的分类也可以看成是数据压缩问题。信息检索系统使用一种简单的基于词袋的语言模型，它在处理大规模文本语料时，在召回率和准确率上也有好的表现。语言模型，它在处理大规模文本语料时，在召回率和准确率上也有好的表现。在万维网语料上，链接分析算法能够提升性能在万维网语料上，链接分析算法能够提升性能。12.7 12.7 小结小结信息信息抽取系统使用更复杂的模型，模板中包含了有限的语法和语义信息。系统抽取系统使用更复杂的模型，模板中包含了有限的语法和语义信息。系统可以采取有限状态自动机、可以采取有
26、限状态自动机、HMMHMM或条件随机领域进行构建，并且从示例中进行学习或条件随机领域进行构建，并且从示例中进行学习。构建构建统计语言系统时，最好是设计一种能够充分利用可用数据的模型，即使该统计语言系统时，最好是设计一种能够充分利用可用数据的模型，即使该模型看起来过于简单。模型看起来过于简单。自然语言理解自然语言理解是是AIAI最重要的子领域之一。不同于最重要的子领域之一。不同于AIAI的其他领域，自然语言理解的其他领域，自然语言理解需要针对真实人类行为的经验性研究。形式语言理论以及短语结构文法需要针对真实人类行为的经验性研究。形式语言理论以及短语结构文法,特别是上下特别是上下文无关文法在处理自然语言的某些方面是有用的工具文无关文法在处理自然语言的某些方面是有用的工具。概率概率上下文无关文法上下文无关文法(PCFG)(PCFG)的形式体系已被广泛应用。机器翻译系统已经采用的形式体系已被广泛应用。机器翻译系统已经采用了一系列的技术进行实现，从完全的句法和语义分析到基于短语频率的统计技术，了一系列的技术进行实现，从完全的句法和语义分析到基于短语频率的统计技术，当前统计模型最受欢迎也做得最成功。当前统计模型最受欢迎也做得最成功。

展开阅读全文