《人工智能及其应用》课件第12章 自然语言处理.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《人工智能及其应用》课件第12章 自然语言处理.pptx》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能及其应用 人工智能及其应用课件第12章 自然语言处理 人工智能 及其 应用 课件 12 自然语言 处理
- 资源描述:
-
1、第第1212章章 自然语言处理自然语言处理 LISPLISP语言是语言是AIAI的数学,不仅对的数学,不仅对AIAI的机器实现更有意义,而且的机器实现更有意义,而且是是AIAI理论研究的重要工具。理论研究的重要工具。温斯顿温斯顿12.112.1语言模型语言模型12.112.1语言模型语言模型12.112.1语言模型语言模型12.1.2 12.1.2 模型评估模型评估12.1.2 12.1.2 模型评估模型评估12.1.3 n12.1.3 n元单词模型元单词模型 从从字符模型转向元单词模型。单词模型和字符模型有着相同的机制,主字符模型转向元单词模型。单词模型和字符模型有着相同的机制,主要的区别在
2、于词汇,构成语料和模型的符号集合,比字符模型更大要的区别在于词汇,构成语料和模型的符号集合,比字符模型更大。大多数大多数语言只有大约语言只有大约100100个字符,有时我们还可以构建更受限的模型,例个字符,有时我们还可以构建更受限的模型,例如,把如,把“A A”和和“a a”视为同一符号,也可以把所有的标点视为同一符号。而视为同一符号,也可以把所有的标点视为同一符号。而对于单词模型来说,至少有数以万计的符号,有时甚至上百万对于单词模型来说,至少有数以万计的符号,有时甚至上百万。符号符号之所以这样多,是因为很难说清楚单词到底是由什么构成的。在英之所以这样多,是因为很难说清楚单词到底是由什么构成的
3、。在英语中,由前后空格分隔的字母序列构成了单词。语中,由前后空格分隔的字母序列构成了单词。12.1.3 n12.1.3 n元单词模型元单词模型 n n元单词模型需要处理词汇表以外的单词。在字符模型中,我们不必担心元单词模型需要处理词汇表以外的单词。在字符模型中,我们不必担心有人会发明字母表中的新字母。有人会发明字母表中的新字母。单词模型中,总是有可能出现训练语料中没有的单词,所以我们需要在单词模型中,总是有可能出现训练语料中没有的单词,所以我们需要在语言模型中明确地对其建模。语言模型中明确地对其建模。通过向词汇表中添加一个新的单词通过向词汇表中添加一个新的单词来解决,来解决,表示未知的单词。表
4、示未知的单词。我们可以按照下面的方法对我们可以按照下面的方法对进行进行n n元模型评估:遍历训练语料,每个单元模型评估:遍历训练语料,每个单词的第一次出现都作为未知的单词,就用词的第一次出现都作为未知的单词,就用替换它。替换它。这个单词后来所有的出现仍保持不变。然后把这个单词后来所有的出现仍保持不变。然后把和其他单词一样对待,和其他单词一样对待,按原来的方法计算语料的按原来的方法计算语料的n n元数值。元数值。当一个未知的单词在出现在测试集中时,我们将其视为当一个未知的单词在出现在测试集中时,我们将其视为的来查找概的来查找概率。有时我们会按照单词的不同类别,分别使用多个不同的未知单词符号。率。
5、有时我们会按照单词的不同类别,分别使用多个不同的未知单词符号。例如,所有数字串可以替换为例如,所有数字串可以替换为,所有电子邮件地址替换成,所有电子邮件地址替换成。12.212.2文本分类文本分类12.212.2文本分类文本分类 另另一种方法是机器学习方法,我们把邮件信息看成是一组特征一种方法是机器学习方法,我们把邮件信息看成是一组特征/值对,分值对,分类算法类算法h h根据特征向量根据特征向量X X进行判断。我们可以将进行判断。我们可以将n n元组作为特征,这样语言模型元组作为特征,这样语言模型和机器学习两种方法和机器学习两种方法就可以就可以融合了融合了。这这一思想用一元模型最容易理解。在词
6、汇表中的单词就是特征:一思想用一元模型最容易理解。在词汇表中的单词就是特征:“a a”、“aardvarkaardvark”、,特征的值就是每个单词在邮件信息中出现的次数。,特征的值就是每个单词在邮件信息中出现的次数。12.212.2文本分类文本分类 一旦一旦我们选定了特征集,我们便能运用我们所知道的任何监督学习技术,我们选定了特征集,我们便能运用我们所知道的任何监督学习技术,比较流行的文本分类方法包括:比较流行的文本分类方法包括:k-k-最近邻最近邻(k-nearest-neighbors.)(k-nearest-neighbors.)、支持向、支持向量机量机(support vector
7、machines)(support vector machines)、决策树、决策树(decision trees)(decision trees)、朴素贝叶斯、朴素贝叶斯(naive Bayes)(naive Bayes)以及逻辑回归以及逻辑回归(logistic regression)(logistic regression)。所有所有这些方法都已被应用到垃圾邮件检测中,通常准确率在这些方法都已被应用到垃圾邮件检测中,通常准确率在98%99%98%99%之间。之间。如果精心设计特征集,准确率可以超过如果精心设计特征集,准确率可以超过99.9%99.9%。12.312.3信息检索信息检索 信
8、息检索信息检索(Information retrieval)(Information retrieval)的任务是寻找与用户的信息需求相关的文档。万维的任务是寻找与用户的信息需求相关的文档。万维网上的搜索引擎就是一个众所周知的信息检索系统的例子网上的搜索引擎就是一个众所周知的信息检索系统的例子。一一个信息检索(即个信息检索(即IR)IR)系统具有如下特征:系统具有如下特征:1 1.文档集合,每个系统都必须确定其需要处理的文档,一个段落文本、一页文本还是多文档集合,每个系统都必须确定其需要处理的文档,一个段落文本、一页文本还是多页文本。页文本。2 2.使用查询语言描述的查询,查询描述了用户想知道
9、的内容使用查询语言描述的查询,查询描述了用户想知道的内容。查询语言查询语言可以是一个单词列表,如可以是一个单词列表,如AI bookAI book;可以是必须连续出现的单词短语,如;可以是必须连续出现的单词短语,如“AI bookAI book”;也可以包含布尔运算符,如;也可以包含布尔运算符,如AI and BookAI and Book。12.312.3信息检索信息检索3 3.结果结果集合集合 该该集合是文档集合的子集,包含了集合是文档集合的子集,包含了IRIR系统判断的与查询相关的那部分文系统判断的与查询相关的那部分文档。所谓档。所谓“相关相关”,是指对提出查询的人有用,符合查询中表达的
10、特定信息,是指对提出查询的人有用,符合查询中表达的特定信息需求。需求。4.4.结果集合的结果集合的展示展示 结果结果集合可以简单地用有序的文档标题列表来展示,也可以采取复杂的集合可以简单地用有序的文档标题列表来展示,也可以采取复杂的展示方法,如将结果集合的旋转彩色图像映射到一个三维空间中,以作为一展示方法,如将结果集合的旋转彩色图像映射到一个三维空间中,以作为一种二维表示的补充。种二维表示的补充。12.3.1 IR12.3.1 IR评分函数评分函数 评分评分函数根据文档和查询计算并返回一个数值得分,最相关的文档的得函数根据文档和查询计算并返回一个数值得分,最相关的文档的得分最高。在分最高。在B
11、M25BM25函数中,得分是由构成查询的每个单词的得分进行线性加权函数中,得分是由构成查询的每个单词的得分进行线性加权组合而成。有三个因素会影响查询项的权重组合而成。有三个因素会影响查询项的权重:第一第一,查询项在文档中出现的频率(也记为,查询项在文档中出现的频率(也记为TFTF,表示词项频率,表示词项频率(term(term frequency)frequency)。对于查询。对于查询farming in Kansas,farming in Kansas,频繁提到频繁提到“farmingfarming”的文档的文档会得到较高分数会得到较高分数。第二第二,词项的文档频率的倒数,也记为,词项的文
12、档频率的倒数,也记为IDFIDF。单词。单词“inin”几乎出现在每一几乎出现在每一个文档中,所以它的文档频率较高,因而文档领率的倒数较低,所以个文档中,所以它的文档频率较高,因而文档领率的倒数较低,所以“inin”没有查询中的没有查询中的“farmingfarming”和和“KansasKansas”重要重要。第三第三,文档的长度。包含上百万单词的文档很可能提到所有查询中的单,文档的长度。包含上百万单词的文档很可能提到所有查询中的单词,但实际上这类文档不一定真正与询问相关,而提到所有查询单词的短文词,但实际上这类文档不一定真正与询问相关,而提到所有查询单词的短文档应当是更好的相关文档候选。档
13、应当是更好的相关文档候选。12.3.2 IR12.3.2 IR系统评价系统评价 传统上传统上,在评分时有两个度量指标,召回率,在评分时有两个度量指标,召回率(recall)(recall)和准确率和准确率(precision)(precision)。某个某个IRIR系统对某个查询返回一个结果集合,语料库由系统对某个查询返回一个结果集合,语料库由100100篇文档组成,对篇文档组成,对于该查询,我们已经知道语料库中哪些文档是相关的、哪些是不相关的。每于该查询,我们已经知道语料库中哪些文档是相关的、哪些是不相关的。每个类别的文档统计结果如下表所示。个类别的文档统计结果如下表所示。12.3.2 IR
展开阅读全文