《Python金融数据挖掘》课件第7章.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《Python金融数据挖掘》课件第7章.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python金融数据挖掘 Python 金融 数据 挖掘 课件
- 资源描述:
-
1、Python金融数据挖掘 高等教育出版第七章第七章PythonPython文本文本挖掘挖掘【知识框架图】【知识框架图】文本挖掘基本概念分词特征提取文本分析jieba处理包NLTK处理包词云图制作语句情绪分析目 录目 录Contents第一节第一节基本概念基本概念第二节第二节文本分析处理文本分析处理第三节第三节案例案例本章本章学习目标学习目标1.分词的概念与基本方法。2.中文jieba处理包的应用。3.NLTK自然语言处理包的应用。4.文件词频统计及制作词云图。5.文本特征分析、客户言论评估及舆情反应监督应用案例。需求背景需求背景l文本挖掘是数据挖掘的重要应用领域。目前的研究成果已能够使用文本挖
2、掘算法对自然语言进行统计分析,从而实现对字、词、句子、篇章等语言单位进行分析、统计、翻译、语句情感色彩评估、语言风格分辨等功能,甚至能够模仿人创作文学作品。l在金融数据挖掘领域中,可以使用Python的自然语言处理包,对语言素材进行统计分析,从而实施如分词、数据提取、词频统计、词云图绘制及语句情绪色彩分析等文本挖掘工作。基本概念基本概念3.1 基本基本概念概念l文本挖掘(Text Mining)和自然语言处理(NLP,Natural Language Processing)是现代人工智能系统不可分割的一部分。l众所周知,计算机擅长处理结构化数据,处理非结构化的文本时,就会变得很困难。l自然语言
3、属于典型的非结构化数据,并且语言交流方式也有许多变化和差异,例如方言、语境、俚语等,因此,研发NLP应用程序是一种挑战,同时也激发了众多研究者的兴趣。l随着NLP技术和机器学习的日趋成熟,计算机理解自然语言的目标已逐渐成为现实。l文本挖掘的一般过程如图 7-2所示。图 7-2 文本挖掘的一般过程l文本挖掘过程包含的技术主要有:数据预处理(重点是分词技术、文本特征提取)、词性标记、信息检索、文本挖掘、文本分类、文本聚类、关联分析、语义解释、语言翻译等。l目前的分词预处理技术主要有基于字符串匹配(词典)的分词方法、基于统计的分词方法和基于理解的分词方法。1.基于字符串匹配(词典)的分词算法l所谓基
4、于词典的意思是,按照一定的策略将待分析的汉字字符串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。l查找匹配的算法来源于经典的字符串匹配算法,包括正向最大匹配、正向最小匹配、逆向匹配及逐词遍历匹配法等。这类算法的特点是易于实现,设计简单。l但分词的正确性很大程度上取决于所建的词库。2.基于统计的分词技术l这种技术用一个条件概率(出现频率)的表格取代前述算法的词库。l首先对大量的文本素材进行扫描统计,将素材中任意前后紧邻的两个字作为一个词进行出现频率的统计。在素材中某个组合出现的次数越高,那么这个组合是一个词语单位的可能性就越大,在频率超过某个预
5、先设定的阈值时,就将其作为一个词进行索引,并记录下这种组合出现的概率。l当新的文本被提交进行分词时,相邻的字可能有若干种不同的方式组合成词。按照统计生成的概率表格,选择组合概率最大的那一种作为分词的方案。3.基于理解的分词方法l这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。l其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。l它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。
6、l由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。l以文本分词后的词语素材为基础,进一步可以进行的工作主要包括:文本词性标注文本摘要文本分类文本聚类文本可视化文本分析处理文本分析处理2.1 英文英文处理处理lNLTK(Natural Language Toolkit,自然语言工具包)是采用Python语言开发的,目前最为广泛的用于英文文本分析、挖掘的开发工具包。lNLTK由宾夕法尼亚大学计算机和信息科学系的Steven Bird和Edward Loper开发,是一个开源的自然语言分析处理项目,其官方主页为:http:/ww
7、w.nltk.org/。l我们可以在Anoconda Prompt命令行窗口安装NLTK:conda install ntlk首次运行NLTK相关代码时需要安装模块,如图 7-3所示。我们直接在代码里指定代码所需要模块,针对性地下载特定内容,可以节省下载的时间。图 7-3 NLTK模块下载1.分割句子与单词l使用NLTK 我们可以将段落分割成句子,将句子分割成单个词。l【例 2-1】演示了利用NLTK提供的句子和单词分割器(tokenizer)来分词的方法。l继续:第17-19行使用了标点符号分割器PunktSentenceTokenizer将段落分割成句子。第22-23行使用句子分割器sen
8、t_tokenize完成类似的工作。第26-28行使用了单词分割器word_tokenize将句子分割成单词。这些分割器对于非英语的语言文字同样有效。l输出结果:2.词干提取l以英语为例,单词有单、复数形式的变化、时态的变化、语态的变化;还可以通过前缀、后缀生成新词、转换词性。例如working、works、worked的词干同为work。l词干提取是去除词缀得到词根的过程,NLTK有一个名为PorterStemmer的类来完成这项工作。l下面看看这个算法的应用例子。l【例 7-2】词干提取案例3.同义词和反义词处理lWordNet是NLTK中一个为自然语言处理而建立的数据库,它包括同义、反义
9、词组和单词的定义。类似于一个英语语言词典。l【例 7-3】可以获取某个给定单词的定义、示例,查询同义、反义词。l继续:l输出结果:2.2 中文中文处理处理l中文分词是中文文本处理的一个基础步骤。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词。l分好的词再组合成词组,作为后续句子分析和处理的基础。l分词效果将直接影响词性、句法树等模块的效果。看一个简单的中文句子:北京大学毕业生于昨日来Python公司应聘l这样的句子正常地理解应该是这样:北京大学/毕业生/于/昨日/来/Python公司/应聘l但是对于计算机来说,划分成:北京/大学毕业生/于昨日(人名)/
展开阅读全文