Python金融大数据分析第六章金融时间序列课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《Python金融大数据分析第六章金融时间序列课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python 金融 数据 分析 第六 时间 序列 课件
- 资源描述:
-
1、 第六章 金融时间序列Python金融大数据分析本章按照如下主题组织:第一和第二步 我们使用非常简单和小型的数据集开始探索 pandas 的功能;然后使用 NumPy ndarray 对象并将其转换为 DataFrame 对象。在此过程中,介绍基本的分析和可视化功能 使用来自 CSV 文件的数据 逗号分隔值(CSV)文件是交换金融时间序列数据的全球标准之一;pandas 可以高效地从这些文件中读取数据。使用两种指数的数据,我们利用 pandas 实施一次回归分析。高频数据 近年来,可用的金融时间序列数据越来越多地从每日报价转向分时数据 每日分时股价数据盘通常超过30年间收集的每日报价数据量pa
2、ndas 基础 在金融学中遇到的最重要数据类型之一是金融时间序列。这是以日期和/或时间作为索引的数据。例如,股价就表现为金融时间序列数据。类似地,美元-欧元汇率也是金融时间序列;汇率在短暂的时间间隔内报价,一组此类报价就是汇率的时间序列。没有一种金融学科不将时间作为重要因素考虑,这和物理学及其他科学相同。Python 中处理时间序列的主要工具是 pandas 库pandas 的主要作者 Wes McKinney 在大型对冲基 金 AQR 资本管理公司任分析师时开始开发这个库。正如本章所阐述的,DataFrame 和 Series 等基本类的灵感来自于统计分析语言 R,该语言无疑长于这类建模和分
3、析工作。pandas 基础 从最根本的层面上看DataFrame 类设计用来管理具有索引和标签的数据,这些数据与来自 SQL 数据表或者电子表格应用中的工作表内的数据没有太多的不同。考虑如下代码创建的 DataFrame 对象:pandas 基础 这个简单的例子已经说明了 DataFrame 在存储数据上的主要特性:数据 数据本身可以用不同组成及类型提供(列表、元组、ndarray 和字典对象都是候选者)。标签 数据组织为列,可以自定义列名。索引 索引可以采用不同的格式(例如数值、字符串、时间信息)pandas 基础 下面是简单的例子,说明 DataFrame 对象上典型操作的工作方式:pan
4、das 基础 一般来说,可以在 DataFrame 对象上进行和 NumPy ndarray 对象相同的向量化操作:在两个维度上同时扩增 DataFrame 对象是可能的:pandas 基础 也可以取整个 DataFrame 对象来定义一个新列。在这种情况下,索引自动分配:附加数据的方法也类似。但是,在下面的例子中,我们会看到通常必须避免的一个副作用一一索引被简单的编号索引代替:pandas 基础 附加一个 DataFrame 对象以提供正确的索引信息往往是更好的做法。下面的例子保留这种索引:pandas 基础 pandas 的优势之一是处理缺漏的信息。为此,考虑如下代码,这段代码添加一个新列
5、,但是使用稍微不同的索引。我们在此使用相当灵活的 join 方法;pandas 基础 例中可以看到.pandas 默认只接受索引已经存在的值。我们丢失了索引为 y 的值,在 索引位置 z 可以看到 NaN(也就是不是一个数字)值。为了保留这两个索引,我们可以提供一个附加参数.告诉 pandas 如何连接。例子中的 bow=outer表示使用两个索引中所有值的并集:现在,索引确实是两个原始索引的并集。在扩增的新索引中,丢失的数据点都由 NaN 值代替。连接操作的其他选项包括 inner(索寻|的交集)、left(默认值,使用调用方法的对象中的索引值)以及 right(使用被连接对象的索引值)。p
6、andas 基础 尽管有丢失的值,但是大部分方法调用仍然有效。例如:使用 DataFrame 类的第二步 从现在开始,我们将处理数值数据。我们将随着进程增加 DatetimeIndex 等功能,以管理时间序列数据。为了生成一个模拟数据集,按照下面的例子,生成一个包含 9 行 4 列标准正态分布伪随机数的 numpy.ndarray:使用 DataFrame 类的第二步 你可以更直接地构造 DataFrame 对象(正如前面所见),但是使用 ndarray 对象通常是 一个好选择,因为 pandas 将保留基本结构,只添加元信息(例如索引值)。这也代 表着金融应用和科学研究的一种典型用例。例如:
7、使用 DataFrame 类的第二步 表 6-1 列出 了DataFrame 函数使用的参数。表中,类似数组意味着和 ndarray 对象类似的数据结构一一例如列表对象。索引是 pandas Index 类的一个实例,使用 DataFrame 类的第二步 和结构数组一样.我们已经看到.DataFrame 对象可以通过指定一个具有合适数量元素的列表,直接定义列名。下面的例子说明,可以随时定义/更改 DataFrame 对象的属性:使用 DataFrame 类的第二步 列名提供访问 DataFrame 对象中数据的高效机制,同样和结构数组类似:为了高效处理金融时间序列数据,还必须很好地处理时间索引
8、。这也可以视为 pandas 的一个重要优势。例如,假定我们分为 4 列的 9 个数据项对应于 2015 年 1 月开始的月底数据然后,用 date_range 生成一个 Datetimelndex 对象:使用 DataFrame 类的第二步 在 6-2 列出 date_range 函数的参数使用 DataFrame 类的第二步 和列一样.我们将新生成的 Datetimelndex 作为新的 Index 对象,赋给 DataFrame 对象:使用 DataFrame 类的第二步 在 date_range 函数帮助下生成 DatetimeIndex 对象,频率参数 freq 有多种选择。表6-3
展开阅读全文