大学精品课件:CHAPTER2-数据.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大学精品课件:CHAPTER2-数据.ppt》由用户(罗嗣辉)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大学 精品 课件 CHAPTER2 数据
- 资源描述:
-
1、钱钱 峰峰通信与信息工程学院通信与信息工程学院2018年年第第2 2章章 了解数据了解数据2Chapter 2:了解数据了解数据n数据对象和属性类型数据对象和属性类型n数据的基本统计描述数据的基本统计描述n数据可视化数据可视化n测量数据相似性和相异性测量数据相似性和相异性n总结总结3数据集合的类型数据集合的类型n记录记录n关系记录关系记录n数据矩阵数据矩阵,e.g.,数值矩阵数值矩阵,交叉表交叉表n文档数据文档数据:文本文档文本文档:词频向量词频向量term-frequency vectorn交易数据交易数据n图图 和和 网络网络n万维网万维网n社会或信息网络社会或信息网络n分子结构分子结构n
2、有序的有序的 Orderedn视频数据视频数据:n时间数据时间数据:时间序列时间序列 n序列数据序列数据:交易序列交易序列n遗传序列数据遗传序列数据n空间空间,图像图像 多媒体多媒体:nSpatial data:mapsnImage data:nVideo data:TID Items 1 Bread,Coke,Milk 2 Beer,Bread 3 Beer,Coke,Diaper,Milk 4 Beer,Bread,Diaper,Milk 5 Coke,Diaper,Milk 4结构数据的重要特征结构数据的重要特征n维度维度n维数灾难维数灾难n稀疏稀疏n只有计数只有计数 Only pres
3、ence countsn分辩率分辩率n模式依赖于尺度模式依赖于尺度n分布分布n中心性和分散中心性和分散5数据对象数据对象n数据集由数据对象构成数据集由数据对象构成n一个数据对象代表一个实体一个数据对象代表一个实体n例子例子:n销售数据库销售数据库sales database:客户客户/顾客顾客,商店物品商店物品,salesn医学数据库医学数据库:patients,treatmentsn大学数据库大学数据库:students,professors,coursesn又称为又称为 样本样本,事例事例,实例实例,数据点数据点,对象对象,元组元组tuples.n数据对象由属性来描述数据对象由属性来描述n
4、Database rows-data objects;columns-attributes.6属性属性n属性属性Attribute(or维度维度,特征特征,变量变量):一个数据字段一个数据字段,表表示一个数据对象的某个特征示一个数据对象的某个特征.nE.g.,customer _ID,name,addressn类型类型:n标称的标称的n二元的二元的n序数的序数的:n数值的数值的n区间标度属性区间标度属性n比率标度属性比率标度属性7属性类型属性类型 n标称标称:类别类别,状态状态,or“名目名目”nHair_color=auburn,black,blond,brown,grey,red,whit
5、en婚姻状态婚姻状态,职业职业occupation,ID numbers,zip codesn二元二元n只有只有2个状态的标称属性个状态的标称属性(0 and 1)n对称二元对称二元:同样重要的两相同样重要的两相ne.g.,性别性别n非对称非对称:非同等重要非同等重要 ne.g.,医疗检查医疗检查(positive vs.negative)n惯例惯例Convention:assign 1 to most important outcome(e.g.,HIV positive)n顺序的顺序的 Ordinaln值有一个有意义的顺序值有一个有意义的顺序(排序排序)但连续值之间的大小未知但连续值之间的
6、大小未知.nSize=small,medium,large,等级等级,军阶军阶8数值属性的类型数值属性的类型 n数量数量Quantity:可度量的量:可度量的量(integer or real-valued)n区间标度属性区间标度属性n相等的单位尺度度量相等的单位尺度度量n值有序值有序nE.g.,temperature in Cor F,calendar datesn没有真正的零点没有真正的零点n比率标度属性比率标度属性n具有固有零点的数值属性具有固有零点的数值属性n可以讲一个值是另一个值倍数可以讲一个值是另一个值倍数(10 K is twice as high as 5 K).ne.g.长度
7、长度,计数计数,货币的数量货币的数量9离散离散 vs.连续属性连续属性 n离散属性离散属性n一个有限的或可数无限集值一个有限的或可数无限集值nE.g.,zip codes,the set of words in a collection of documents n可以用或不用整数表示可以用或不用整数表示n注注:二元属性是离散属性的一个特殊情况二元属性是离散属性的一个特殊情况 n连续属性连续属性n属性值为实数属性值为实数nE.g.,temperature,height,or weightn实际上,实值只能使用有限位数进行测量和代表实际上,实值只能使用有限位数进行测量和代表n连续属性通常表示为浮
8、点变量连续属性通常表示为浮点变量10Chapter 2:了解数据了解数据n数据对象和属性类型数据对象和属性类型n数据的基本统计描述数据的基本统计描述n数据可视化数据可视化n测量数据相似性和相异性测量数据相似性和相异性n总结总结11度量数据的中心趋势度量数据的中心趋势n均值均值(代数度量代数度量)(样本样本 vs.总体总体):Note:n 样本大小,样本大小,N 总体大小总体大小.n加权算术均值加权算术均值:n截断均值截断均值:去掉高低极端值去掉高低极端值n中位数中位数:n奇数则为有序集的中间值奇数则为有序集的中间值,否则为中间两个数的平均否则为中间两个数的平均n(基于分组数据基于分组数据)可以
9、插值估计可以插值估计n众数众数n出现频率最高的值出现频率最高的值(不惟一不惟一/每个值出现一次则没有每个值出现一次则没有)n1/2/3个众数个众数-单峰的单峰的,双峰的双峰的,三峰的三峰的nEmpirical formula:niixnx11niiniiiwxwx11widthfreqfreqnLmedianmediansmall)(2/(1)(3medianmeanmodemeanNxMedian interval122023年3月1日星期三Data Mining:Concepts and Techniques12对称对称/偏斜数据偏斜数据n中位数中位数,均值均值,众数:对称众数:对称,正倾
10、斜和负倾斜数据正倾斜和负倾斜数据positively skewednegatively skewedsymmetric13度量数据散布度量数据散布n四分位数四分位数Quartiles,离群点离群点 outliers,盒图,盒图 boxplotsn四分位数:四分位数:Q1(25th 百分位数percentile),Q3(75th percentile)n中间四分位数极差:中间四分位数极差:Inter-quartile range:IQR=Q3 Q1 n五数概括:五数概括:min,Q1,median,Q3,maxn盒图:盒图:盒两端为四分位数;中位数标记;添加胡须;离群点独立标出n离群点:离群点:
11、通常是值高/低于四分位数1.5 x IQRn方差/标准差(样本:s,总体:)nVariance:(代数度量,可伸缩计算)nStandard deviation s(or)方差的平方根s2(or 2)niniiiniixnxnxxns1122122)(111)(11niiniixNxN1221221)(114 盒图分析盒图分析n五数概括五数概括n最小值最小值,Q1,中位数中位数Median,Q3,最大值最大值nBoxplotn使用盒子表示数据使用盒子表示数据n盒子两端是第盒子两端是第1/3四分位数四分位数,即盒子高度即盒子高度为四分位数极差为四分位数极差IQRn盒内的线表示中位数盒内的线表示中位
12、数n胡须胡须:不超过四分位数不超过四分位数1.5 x IQR 的最大的最大/小数据点小数据点n离群点离群点Outliers:单独绘出满足某个离群单独绘出满足某个离群点阈条件的离群点点阈条件的离群点15可视化数据的离散度可视化数据的离散度:3-D Boxplots16正态分布曲线的性质正态分布曲线的性质n正态分布曲线正态分布曲线n,+:含有约含有约68的测量的测量(:均值均值,:标准差标准差)n2,+2:contains about 95%of itn3,+3:contains about 99.7%of it17基本统计说明的图形显示基本统计说明的图形显示nBoxplot:五数概括的图形nHi
13、stogram直方图:直方图:值x-axis,y-axis表示频率 nQuantile plot分位数图:分位数图:值xi 与fi (表明近似百分之 fi 的数据 xi)成对nQuantile-quantile(q-q)plot:对着另一个分位数,绘制一个单变量分布的分位数nScatter plot散布图:散布图:每个值对 为一个坐标点绘于平面上18直方图分析直方图分析nHistogram:图形显示每个列值的频率,条形图所示:图形显示每个列值的频率,条形图所示n显示有多大比例的点下落入每个类别显示有多大比例的点下落入每个类别n类别并不是均匀的宽度类别并不是均匀的宽度n有别于条形图:条形图的面积
14、表示值,而不是条形图的高度有别于条形图:条形图的面积表示值,而不是条形图的高度na bar chart柱状图柱状图/柱形图柱形图n类别通常指定为变量的一些非重叠区间,类别(带)必须相邻类别通常指定为变量的一些非重叠区间,类别(带)必须相邻19Histograms Often Tell More than Boxplotsn直方图中包含了直方图中包含了boxplot能表示的信息能表示的信息nmin,Q1,median,Q3,maxn直方图还能表现数据的分布情况直方图还能表现数据的分布情况20Data Mining:Concepts and Techniques分位数图分位数图Quantile P
15、lotn显示所有数据(允许用户评估全部行为和不寻常的事件)nPlots quantile informationn对于升序中的值点(xi ,fi )表明近似百分之fi 的数据 xi;成对绘制(xi ,fi)21分位数分位数-分位数图分位数图(Q-Q图图)n对着另一个分位数,绘制一个单变量分布的分位数n观察:正从一种分布到另一个种是否有偏移?n例子表示分店1出售的物品单价 vs.分店 2 的每个分位数.分店1出售的物品单价 倾向于低于分店2.22散布图散布图Scatter plotn提供双变量数据的第一印象:点聚集,离群点,等n每个值对作为一个坐标点绘于平面上23正正/负负 相关数据相关数据正相
16、关正相关负相关负相关24不相关的数据不相关的数据25Chapter 2:了解数据了解数据n数据对象和属性类型数据对象和属性类型n数据的基本统计描述数据的基本统计描述n数据可视化数据可视化n测量数据相似性和相异性测量数据相似性和相异性n总结总结26数据可视化数据可视化nWhy data visualization?(用图形清晰有效的表示数据)(用图形清晰有效的表示数据)n把数据映射到图形信息空间中获取视角把数据映射到图形信息空间中获取视角n提供提供定性的概述定性的概述(大数据集的大数据集的)n在数据中搜寻在数据中搜寻 模式模式,趋势趋势,结构结构,不规则不规则,关联关联n为进一步的量化分析发现为
17、进一步的量化分析发现有意义的区域及合时的参数有意义的区域及合时的参数n为衍生的计算机表示提供为衍生的计算机表示提供一个视觉证据一个视觉证据n可视化方法的分类可视化方法的分类:n基于像素的可视化技术基于像素的可视化技术n几何投影可视化技术几何投影可视化技术 n基于图符的可视化技术基于图符的可视化技术n层次可视化技术层次可视化技术 n可视化复杂对象数据和关系可视化复杂对象数据和关系27基于像素的可视化技术基于像素的可视化技术n对一个维度对一个维度m的数据,在屏幕上产生的数据,在屏幕上产生m个窗口个窗口,每个维度一个每个维度一个n一个记录的一个记录的m维度值被匹配到窗口中对应位置的维度值被匹配到窗口
18、中对应位置的m个像素上个像素上n像素的颜色值反映了相应的值像素的颜色值反映了相应的值(a)Income(b)信用限额信用限额(c)交易额交易额(d)age28安排象素于圆弧片断安排象素于圆弧片断n为节省空间并显示多个维度间的联系为节省空间并显示多个维度间的联系,往往是以一个往往是以一个弧形片段填充空间弧形片段填充空间(b)Laying out pixels in circle segmentRepresenting about 265,000 50-dimensional Data Items with the Circle Segments Technique29像素图的例子像素图的例子30
19、几何投影可视化技术几何投影可视化技术n可视化数据的几何变换和投影可视化数据的几何变换和投影n方法方法n直接可视化直接可视化n散点图和散点图矩阵散点图和散点图矩阵n投影捕获技术投影捕获技术:帮助用户发现有意义的投影(多维数据上)帮助用户发现有意义的投影(多维数据上)n解剖视角解剖视角nsections,i.e.,intersections of subspaces with a highdimensional object,can easily display structure of only low codimension n平行坐标平行坐标31散布图矩阵散布图矩阵Used by ermis
20、sion of M.Ward,Worcester Polytechnic Institute32Used by permission of B.Wright,Visible Decisions Inc.地形地形/景观景观33平行坐标平行坐标n对应于属性的n个等距轴平行于一个屏幕轴n这些轴缩放到最小值,最大值:相应的属性范围n每个数据项对应于一折线,属性轴的对应取值点处相交34一个数据集的平行坐标一个数据集的平行坐标35基于图符的可视化技术基于图符的可视化技术n以图标特征可视化数据值以图标特征可视化数据值n典型的可视化方法典型的可视化方法n切尔诺夫脸谱切尔诺夫脸谱n人物线条画人物线条画n常用技术
21、常用技术n形状编码形状编码 Shape coding:使用形状来表示特定信息的编码使用形状来表示特定信息的编码n颜色图标颜色图标Color icons:使用颜色图标编码更多的信息使用颜色图标编码更多的信息n瓦片条形图瓦片条形图Tile bars:在文档检索中使用小图标代表相关在文档检索中使用小图标代表相关特征向量特征向量36切尔诺夫脸谱图切尔诺夫脸谱图n一种方法在二维空间显示变量一种方法在二维空间显示变量,如设如设X眉倾斜眉倾斜,Y是眼睛大小是眼睛大小,Z是鼻子长度等是鼻子长度等n图中的面孔使用图中的面孔使用10个特点产生个特点产生-头离心率,眼睛大小,眼间头离心率,眼睛大小,眼间距,眼离心率
展开阅读全文