书签 分享 收藏 举报 版权申诉 / 19
上传文档赚钱

类型人工智能基础版课件-识文断字:理解文本.pptx

  • 上传人(卖家):晟晟文业
  • 文档编号:4167929
  • 上传时间:2022-11-16
  • 格式:PPTX
  • 页数:19
  • 大小:1.79MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《人工智能基础版课件-识文断字:理解文本.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    人工智能 基础 课件 识文断字 理解 文本
    资源描述:

    1、识文断字:理解文本识文断字:理解文本CONTENTS1文本分析任务的特点文本分析任务的特点2文本模型文本模型3文本分析任务的应用文本分析任务的应用文本分析任务的特点401隐性主题隐性主题文本分析任务的特点文本分析任务的特点文本数据通常不会包含额外的标注信息,例如,我们在社交网络-上发布了一-条消息:“我在学校学习了人工智能课程”这句话是围绕“学习”或“人工智能”等主题展开的,但我们在发布这条消息时并不会特意将这些主题标记上去。如果我们希望对该社交网络上的所有消息进行分析,那么能获取到的信息通常就只有消息本体,而没有任何额外的标记。多主题特点502规模庞大规模庞大文本分析任务的特点文本分析任务的

    2、特点能否通过人工标注的方式获得关于文本主题的信息呢?这通常不太可能。文本数据的规模通常远大于视频、图像等多媒体信息。新浪微博 2017 年第二季度的公开数据显示,网站每天都会发送 1.65 亿条微博。对于如此规模的数据,人工标注的代价过于高昂。603主题不唯一主题不唯一文本分析任务的特点文本分析任务的特点既然是无监督学习的任务,那么能否用 K 均值算法对文本数据进行聚类,从而提取出潜在的主题呢?这听起来是可行的,但却忽略了文本数据具有“多主题”的特点。K 均值算法会将一个样本划归为一个个特定的类别,而一段文本通常可能围绕多个主题展开。例如,一篇关于“推动中小学人工智能教育”的新闻至少会围绕“人

    3、工智能”和“中小学教育”两个主题展开,我们将其划归为任一单一主题都是不对的。文本模型8文本模型概述l 词袋模型(BOW)是用于描述文本的一个简单数学模型,是一种使用机器学习算法,从文本中提取特征的方法。l 词袋(Bag-of-words)是描述文档中单词出现的文本的一种表示形式。它涉及两件方面:1.已知词汇的集合。2.测试已知单词的存在。词频图9文本模型概述 创建词袋的步骤:创建词袋的步骤:l 收集数据:以下是双城记一书中的前几行文字:“It was the best of times,it was the worst of times,it was the age of wisdom,it

    4、was the age of foolishness,”我们将每一行文字视为一个单独的“文档”,将这 4 行文字视为整个文档。l 设计词汇:现在可以列出我们的模型词汇表中的所有单词“it”“was”the”“best”“of”“times”“worst”“age”“wisdom”“foolishness”,这是一个由包括 24 个词组成的语料库中的 10 个词汇。10文本模型概述创建文档:接下来要在每个文档中记录单词。其目的是将自由文本的每个文档转换为一个文本向量,这样我们就可以将其用作机器学习模型的输入或输出。因为我们知道词汇有 10 个,所以可以使用固定长度为 10 的文档来表示向量中的每

    5、一个单词的位置。最简单的设计方法是将单词的存在标记为布尔值,0 表示缺席,1 表示存在。使用我们设计的词汇表中列出的任意顺序排列,以第一个文档(“It was the best of times”)为例,并将其转换为二进制向量。该文件的评分如下所示:“it”=1,“was”=1,“the”=1,“best”=1,“of”=1,“times”=1,“worst”=0,“age”=0,“wisdom”=0,“foolishness”=0,作为二进制向量11词汇词汇管理管理随着词汇量的增加,文档的向量表示也将随之增加。在前面的示例中,文档向量的长度等于已知单词的数量。可以想象一下,对于一个非常大的语

    6、料库,比如成千上万的词汇量,向量的长度可能达到成千上万。此外,每个单一的文档可能包含词汇中已知的词汇量很少。这就产生了很多零向量,称为稀疏向量(sparse vector)或稀疏表示(sparse representation)。文本模型概述稀疏向量在建模时需要更多的内存和计算资源,大量的位置或维度使建模过程使用传统算法非常具有挑战性。还有一种更复杂的方法是创建分组单词的词汇表。在这种方法中,每个单词或标记被称为“gram”。创建两个词对的词汇又被称为二元模型(bigarm)。值得注意的是,只有出现在语料库中的“bigarm”才能被称为二元模型。一个N-gram 是一个 N 符号的单词序列:一

    7、个 2-gram(常称为二进制)是一个两个字的序列,如“please turn”“turn your”或“your homework”;一个 3-gram(常称为三元组)是一个三个字的序列,如“please turn your”或“turn your homework”。12词的统计l 散列词(WordHashing):可以在词汇表中使用已知单词的散列表示,这解决了对大型文本语料库来说非常大的问题,因为我们可以选择散列空间的大小,也可以完成文档的向量表示l TF-IDF:一种方法是通过在所有文档中单词出现的频率来重新调整单词出现的频率,以避免给所有文档中频繁出现的单词(如 the)的分数带来坏

    8、的影响。这种统计方法称为术语频率逆文档频率方法,简称为 TF-IDF,其中术语频率是本文档中单词频率的得分,而逆文档频率是在文档中罕见单词的得分。13主题模型(topic model)是描述语料库及其潜在主题的一类数学模型。在主题模型中,我们首先考虑的一个问题就是如何使用数学语言来描述一个主题。在介绍词袋模型时,我们知道文本中出现的词语可以反映文本的主题。那如果我们可以搜集到只包含某个单一主题的若干文档,并对其中词语的出现频率进行统计,那么统计结果就可以作为这个主题的一种表示。主题模型主题模型14主题模型(topic model)是描述语料库及其潜在主题的一类数学模型。具体来说,如果词典的大小

    9、为 V,对其中每一个词语,我们统计其在所有文档中出现的总数 ni,再除以文档中的总词语数 n,就可以得到对应的词频 fi。再将所有的词频组合在一起,就可以得到一个维数为 V 的词频向量 1 2(,)v t xx x=,这个词频向量就是这个主题的一种数学表示。主题模型主题模型15主题模型(topic model)是描述语料库及其潜在主题的一类数学模型。词频统计的方法为我们提供了对主题进行建模的思路,但这种方法在实际操作中有其缺点。一方面,每一篇文档通常包含不止一个主题,单一主题的文档十分稀少。另一方面,语料库中并没有关于文档主题的标注信息,即便存在单一主题的文档,也很难将其从海量的语料库中挖掘出

    10、来。因此在实际操作中,必须借助额外的技术来获取每个主题对应的词频向量。主题模型主题模型文本分析任务的应用17在商业实践中,基于大数据的文本分析被广泛应用于各行各业,利用认知技术获得全新的商业洞察,解决关键的知识性问题,这被 IBM称为“认知商业”。例如企业可以从客户关系数据、社交网络、新闻网站和购物网站评论等渠道获取文本数据,进而通过计算机进行自然语言处理,从而揭示出在任何非结构化文本信息中的“4W”要素,即人物(Who)、事件(What)、时间(When)、地点(Where)等,结合其中隐藏的“Why”进行关联分析,最终得到贯穿所有业务的全新层面的商业洞见。文本分析任务的应用文本分析任务的应

    11、用18举例来说,某个 APP 的用户满意度一段时间内上升不少,可以从评论量中好评数量的增加以及服务评价几颗星来看出,但这只是描述性的分析,并不能知道为什么用户会给好评或差评,产品或服务的哪些方面会得到好评。然而,借助大数据文本分析,我们通过提取出的“4W”要素获得对用户“Why”的理解:1)什么时候用户的评论较正面,什么时候较负面(When)?2)用户所给的好评和差评分别集中在该 APP 的哪些方面(What)?3)哪些人给差评,哪些人给好评,他们在用户中的言论影响力怎么样(Who)?4)哪些地区的用户给好评/差评,这些地区的用户分别注重该 APP 的哪些方面(Where、What)?简而言之,基于大数据的文本分析能够揭示出潜藏在文本信息中的趋势和关联,为商业决策、行业趋势研究和热点内容追踪提供有力支持。文本分析任务的应用文本分析任务的应用第五讲结束

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:人工智能基础版课件-识文断字:理解文本.pptx
    链接地址:https://www.163wenku.com/p-4167929.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库