数据可视化文本数据可视化教学课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据可视化文本数据可视化教学课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 可视化 文本 教学 课件
- 资源描述:
-
1、2022-8-121数据可视化数据可视化-文本数据可视化2022-8-1222022-8-122文本可视化背景 文本信息爆炸式增长需要高效的阅读方式“一图胜千言”,图形表达信息的优势 标签云技术、信息文本图等文本可视化技术的不断发展2022-8-123目 录文本数据在大数据中的应用及提取文本信息分析文本信息可视化本章小结010203042022-8-1242022-8-124文本数据在大数据中的应用及提取 文本数据在大数据中的应用 文本信息层级 词汇级一连串文本中提取的语义单元 语义单元由一个或多个字符组成的词元,是文本信息的最小单元 文本关键字属词汇级别 语法级基于文本的语言机构对词汇级语义
2、单元进行提取分析语义单元的语法属语法级信息,如词性、单复数语法级信息的提取过程被称作命名实体识别方法 语义级研究文本整体所表达的语义内容信息和语义关系文本的最高层信息2022-8-1252022-8-125文本数据在大数据中的应用及提取 文本数据在大数据中的应用 从数据大、类型多、处理速度快、价值密度低的大数据提取有用信息的重要性 图像和图形在信息表达上的优势和效率 需要从不同层级提取与呈现文本信息 不同级的信息挖掘方法也不同,词汇级当然是用各类分词算法,语法级用一些句法分析算法,语义级用主题抽取算法2022-8-1262022-8-126文本数据在大数据中的应用及提取 文本数据在大数据中的应
3、用 文本可视化流程 文本信息挖掘文本数据的预处理、文本特征的抽取、文本特征的度量 视图绘制图元设计、图元布局 人机交互2022-8-1272022-8-127文本数据在大数据中的应用及提取 使用网络爬虫提取文本数据 网络爬虫 网络爬虫又称网络蜘蛛,将互联网比喻成一个蜘蛛网,Spider就是在网上爬的蜘蛛 网络爬虫就是根据网页的地址来寻找网页的,也就是URL 解析网页使用的语言为Python2022-8-1282022-8-128文本数据在大数据中的应用及提取 使用网络爬虫提取文本数据 URL一般格式“protocol:/hostname:port/path/;parameters?query#
4、fragment”第一部分:协议protocol,例如百度使用的就是https协议 第二部分:hostname:port,主机名(还有端口号为可选参数,端口号一般默认为80)第三部分:path是主机资源的具体地址,如目录和文件名等 网络爬虫就是根据URL对web信息进行获取的2022-8-1292022-8-129文本数据在大数据中的应用及提取 使用网络爬虫提取文本数据 Python爬虫架构 调度器 URL管理器 网页下载器 网页解析器 应用程序2022-8-12102022-8-1210文本数据在大数据中的应用及提取 使用网络爬虫提取文本数据 爬虫示例代码:爬虫结果:2022-8-12112
5、022-8-1211文本信息分析 分词技术和词干提取 分词技术和词干提取方法通常用于文本数据的预处理 分词:将一段文字划分为多个词项,剔除停词,从文中提取有意义的词项 词干提取:去除词缀得到词根,得到单词最一般写法的技术 词干提取避免了同一个词的不同表现形式对文本分析的干扰2022-8-12122022-8-1212文本信息分析 分词技术和词干提取 以马汀路德金的“I have a dream”演讲的一段为例:I have a dream that one day this nation will rise up and live out the true meaning of its cre
6、ed:”We hold these truths to be self-evident,that all men are created equal.“剔除a,the,that等停词,经过分词后,这段话可提取出20个词项:I,have,dream,one,day,nation,rise,up,live,out,true,meaning,creed,hold,truths,self-evident,all,men,created,equal 词干提取过程又会将“men”和“truths”分别还原为“man”和“truth”2022-8-12132022-8-1213文本信息分析 向量空间模型 词
7、袋模型将某一文本看作是一个词集合,忽略语法、词序 文本中每个词相互独立,对其它词不依赖 将一个文档的内容总结为在由关键词组成的集合上的加权分布向量 在基于词袋模型计算的一维词频向量中,每个维度代表一个单词;每个维度的 值等于单词在文本中出现的统计信息,单词间没有顺序关系2022-8-12142022-8-1214文本信息分析向量空间模型 词袋模型以Charles Dickens的双城记书中的一段文字为例:“It was the best of times,it was the worst of times,it was the age of wisdom,it was the age of f
8、oolishness.”这段文字共包含24个单词,在分词以后变为10个单词;经词干提取后,这段文字可表达为一个词频向量2022-8-12152022-8-1215文本信息分析 向量空间模型 TF-IDF 一种用于资讯检索与资讯探勘的常用加权技术;用以评估一个单词或字对于某文档集或语料库中的其中一份文档的重要程度;核心思想:字词的重要性随着其在文档出现的次数成正相关增加,同时会随着出现的频率而负相关下降 定义 :表示词w对于某个文档的相对重要性;是词w在文档中出现的次数;文档集中包含w的文档数目,N代表文档总数2022-8-12162022-8-1216文本信息分析 主题抽取 主题模型,即文本的
9、主题描述 文本主题的抽取算法大致分两类:基于矩阵分解的非概率模型词项-文档矩阵投影到K维空间中 每个维度代表一个主题 在主题空间中,每个文档由K个主题的线性组合来表示 隐含语义检索是代表性的非概率模型,它基于主题间的正交性假设,采用SVD分解 词项-文档矩阵基于贝叶斯的概率模型主题被当成多个词项的概率分布 文档可以理解成由多个主题的组合而产生的 概率隐含语义检索是广泛使用的方法 2022-8-12172022-8-1217文本信息可视化 文本数据大体上可分为:单文本文档集合时序文本数据 以上对应的文本可视化分别为:文本内容的可视化文本关系的可视化文本多层面信息的可视化2022-8-121820
10、22-8-1218文本信息可视化文本内容可视化 基于关键词的文本内容可视化 标签云(Tag Cloud)最简单、最常用的关键词可视化技术将抽取的关键词按照一定规律整齐美观地排列在屏幕上利用颜色和大小反映关键词在文本中分布的差异将经过颜色映射后的字词按照其在文本中原有的位置或某种布局算法放置2022-8-12192022-8-1219文本信息可视化文本内容可视化 基于关键词的文本内容可视化 标签云文本可视化示例2022-8-12202022-8-1220文本信息可视化文本内容可视化 基于关键词的文本内容可视化 文档散(DocuBurst)采用径向布局来从词汇间语义层次角度可视总结文档的内容;外圈
11、的词汇是里圈词的下义词;圆心处的关键词是文章所涉及内容的最上层概述;每个词的辐射范围覆盖其所有的下义词2022-8-12212022-8-1221文本信息可视化文本内容可视化 基于关键词的文本内容可视化 文档散(DocuBurst)如右图文档散可视化文本示例:外层的词是内层词的下义词颜色饱和度的深浅用来体现词频的高低2022-8-12222022-8-1222文本信息可视化文本内容可视化 基于关键词的文本内容可视化 文档卡片(Document Cards)采用文章的关键图片和关键词信息表达文本内容,并将其布局在一张卡片中;便于用户在不同尺寸设备中查看和对比每个文档信息2022-8-122320
展开阅读全文