人工智能基础版课件-识文断字:理解文本.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《人工智能基础版课件-识文断字:理解文本.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 基础 课件 识文断字 理解 文本
- 资源描述:
-
1、识文断字:理解文本识文断字:理解文本CONTENTS1文本分析任务的特点文本分析任务的特点2文本模型文本模型3文本分析任务的应用文本分析任务的应用文本分析任务的特点401隐性主题隐性主题文本分析任务的特点文本分析任务的特点文本数据通常不会包含额外的标注信息,例如,我们在社交网络-上发布了一-条消息:“我在学校学习了人工智能课程”这句话是围绕“学习”或“人工智能”等主题展开的,但我们在发布这条消息时并不会特意将这些主题标记上去。如果我们希望对该社交网络上的所有消息进行分析,那么能获取到的信息通常就只有消息本体,而没有任何额外的标记。多主题特点502规模庞大规模庞大文本分析任务的特点文本分析任务的
2、特点能否通过人工标注的方式获得关于文本主题的信息呢?这通常不太可能。文本数据的规模通常远大于视频、图像等多媒体信息。新浪微博 2017 年第二季度的公开数据显示,网站每天都会发送 1.65 亿条微博。对于如此规模的数据,人工标注的代价过于高昂。603主题不唯一主题不唯一文本分析任务的特点文本分析任务的特点既然是无监督学习的任务,那么能否用 K 均值算法对文本数据进行聚类,从而提取出潜在的主题呢?这听起来是可行的,但却忽略了文本数据具有“多主题”的特点。K 均值算法会将一个样本划归为一个个特定的类别,而一段文本通常可能围绕多个主题展开。例如,一篇关于“推动中小学人工智能教育”的新闻至少会围绕“人
3、工智能”和“中小学教育”两个主题展开,我们将其划归为任一单一主题都是不对的。文本模型8文本模型概述l 词袋模型(BOW)是用于描述文本的一个简单数学模型,是一种使用机器学习算法,从文本中提取特征的方法。l 词袋(Bag-of-words)是描述文档中单词出现的文本的一种表示形式。它涉及两件方面:1.已知词汇的集合。2.测试已知单词的存在。词频图9文本模型概述 创建词袋的步骤:创建词袋的步骤:l 收集数据:以下是双城记一书中的前几行文字:“It was the best of times,it was the worst of times,it was the age of wisdom,it
4、was the age of foolishness,”我们将每一行文字视为一个单独的“文档”,将这 4 行文字视为整个文档。l 设计词汇:现在可以列出我们的模型词汇表中的所有单词“it”“was”the”“best”“of”“times”“worst”“age”“wisdom”“foolishness”,这是一个由包括 24 个词组成的语料库中的 10 个词汇。10文本模型概述创建文档:接下来要在每个文档中记录单词。其目的是将自由文本的每个文档转换为一个文本向量,这样我们就可以将其用作机器学习模型的输入或输出。因为我们知道词汇有 10 个,所以可以使用固定长度为 10 的文档来表示向量中的每
5、一个单词的位置。最简单的设计方法是将单词的存在标记为布尔值,0 表示缺席,1 表示存在。使用我们设计的词汇表中列出的任意顺序排列,以第一个文档(“It was the best of times”)为例,并将其转换为二进制向量。该文件的评分如下所示:“it”=1,“was”=1,“the”=1,“best”=1,“of”=1,“times”=1,“worst”=0,“age”=0,“wisdom”=0,“foolishness”=0,作为二进制向量11词汇词汇管理管理随着词汇量的增加,文档的向量表示也将随之增加。在前面的示例中,文档向量的长度等于已知单词的数量。可以想象一下,对于一个非常大的语
展开阅读全文