数据科学技术与应用8时序数据和语音处理课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据科学技术与应用8时序数据和语音处理课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 科学技术 应用 时序 语音 处理 课件
- 资源描述:
-
1、时序数据与语音处理时序数据 时间序列数据 连续观察同一对象在不同时间点上获得的数据样本集 处理目标:对给定的时间序列样本,找出统计特性和发展规律性,推测未来值 语音是一类特殊的时序数据 识别语音对应的文本信息是当前人工智能的热点时序数据特性 1)趋势性 时间序列在长时间内所呈现出来的行为,指受某种根本性因素影响而产生的变动或缓慢的运动 2)循环性 指时间序列的变动有规律地徘徊于趋势线上下并反复出现 3)季节性 一年内随季节变换而发生的有规律的周期性变化,比如流感季,但更小单位的周期变动也被看成季节成分,如日交通流量反映了一天内“季节”变化情况 4)波动性 围绕前3个要素的随机性波动,是一种无规
2、律可循的变动从趋势性角度,时间序列可划分为平稳序列和非平稳序列。观察时序数据 最简单、有效的方法是以时间为横轴,以序列观察值为纵轴绘制时间序列图(a)人口增长趋势 (b)语音数据时序数据特征的提取(1)(1)基于统计方法的特征提取 提取数据波形的均值、方差、极值、波段、功率谱、过零率等统计特征,代替原时序数据作为特征向量(2)基于模型的特征提取 用模型去刻画时间序列数据,然后提取模型的系数作为特征向量时序数据特征的提取(2)(3)基于变换的特征提取 通过变换使数据的特性突显出来,以便提取 主要有时频变换和线性变换 如快速傅里叶变换、小波变换和主成分分析(4)基于分形理论的特征提取 分形是指具有
3、无限精细、非常不规则、无穷自相似的结构 在大自然中,海岸线、雪花、云雾这些不规则形体都属于分形,即部分与整体有自相似性,可提取分维数作为特征参数 从文件中读取日期及当日股票收盘价两列数据构成时序数列例例8-18-1:某公司2017年股票价格保存在数据集stockPrice.csv,绘制股票收盘价的时序图,并提取该时序数据的常用特征值import pandas as pdimport matplotlib.pyplot as plt plt.rcParamsfont.sans-serif=SimHei#设置中文字体#设置usecols,从文件中只读取指定列df=pd.read_csv(data/
4、stockPrice.csv,index_col=0,usecols=0,1)print(df.describe()#绘制时序图,并添加图元df.plot(title=2017年某公司股票价格变化图,grid=True)plt.xlabel(时间(天))plt.ylabel(股价(美元)plt.show()用DataFrame的describe()方法统计该序列的一些常用特征序号序号特征量特征值特征值1count249.002mean150.833std14.354min116.61525%142.27650%152.76775%159.868max176.42表8-1 某公司2017年股票收
5、盘价数据的特征值 用plot()方法绘制折线图思考与练习1.利用我国人口统计时序数据集(population.csv)绘制30年来我国人口增长的趋势图,如图8-1(a)所示。时序数据分析方法 时序分析模型的类别 线性模型 非线性模型线性模型 用时间序列中前若干时刻的观察值的线性组合来描述以后某时刻的值 线性时序模型,首先考虑序列平稳性 平稳时间序列 指均值和方差为常数的时间序列,其自协方差函数与起点无关 可采用自回归滑动平均模型(ARMA,Auto-Regression Moving Average)处理 非平稳时间序列 可以考虑将其经差分后转化为平稳时间序列,然后用自回归积分滑动平均模型处理
6、 有些序列成因及其复杂,则需要采用非线性模型(如岭核回归模型和神经网络模型)时序数据分析过程时序数据分析过程(1)1.纯随机性检验 纯随机序列也被称为白噪声序列 序列中各项之间没有任何相关关系,数据波动完全随机,自相关系数为0 数据中没有可提取的信息,无需进一步分析,使用Q(Pierce-Box)或LB(LJung-Box)统计量来进行白噪声检验2.平稳性检验 在时间序列图上,序列值将在一个常数附近随机波动,没有明显的趋势性或周期性 平稳序列具有短期相关性 采用单位根(ADF,Augment Dickey-Fuller)检验进行定量分析时序数据分析过程(2)3.ARIMA建模 通过n次差分运算
7、将非平稳的时序转换为平稳序列,然后获取ARIMA(n,p,q)模型的参数p 和q4.ARMA建模 计算平稳时间序列的自相关函数和偏自相关函数通过对自相关图和偏自相关图的分析获得参数p 和q的大概范围 根据AIC信息准则,计算候选参数空间内每个模型的AIC值,最小的AIC值对应的p 和q为最佳的阶数。此过程也称为定阶5.预测 使用ARMA或ARIMA模型对时间序列进行预测,计算预测值的误差与置信区间,观察有效预测周期股票预测实例例8-2:从例8-1股票数据中选取78月份股票收盘价,保存到stockClose.csv文件。采用线性方法建模分析数据,预测股价,并与实际股价进行比较。1)绘制时间序列图
8、import matplotlib.pyplot as pltdata=pd.read_csv(data/stockClose.csv,index_col=日期,encoding=ANSI)plt.rcParamsfont.sans-serif=SimHei#用来正常显示中文标签data.plot()plt.show()图中股价有明显的持续上升趋势,意味着序列是非平稳的。股票预测实例(1)股票预测实例(2)2)纯随机性和平稳性检验 绘制股票数据的自相关图,并输出纯随机性LB检验和ADF检验的结果。from statsmodels.graphics.tsaplots import plot_ac
9、fplot_acf(data)#自相关图from statsmodels.stats.diagnostic import acorr_ljungboxprint(白噪声-检验结果:,acorr_ljungbox(data股价,lags=1)from statsmodels.tsa.stattools import adfuller as ADFprint(ADF-检验结果:,ADF(data股价)从图可以看出,自相关系数长期大于零,前4期的相关系数在深色的临近区之外,而且拖尾,说明序列间具有很强的长期相关性股票预测实例(3)白噪声-检验结果:(array(36.25689108),array(
10、1.72947396e-09)ADF-检验结果:(-1.1405685913236308,0.69862557992011121,6,36,1%:-3.626651907578875,5%:-2.9459512825788754,10%:-2.6116707716049383,139.60845303017535)ADFcValuep值-1.14065%5%10%0.6986-3.6267-2.9460-2.6117 p值:1.72947396e-09,远小于0.05的显著水平,说明此间序列远不是随机的白噪声 ADF输出结果,p值远大于0.05显著水平,该序列为非平稳序列股票预测实例(4)3)
展开阅读全文