书签 分享 收藏 举报 版权申诉 / 62
上传文档赚钱

类型大学精品课件:CHAPTER2-数据.ppt

  • 上传人(卖家):罗嗣辉
  • 文档编号:5259616
  • 上传时间:2023-03-01
  • 格式:PPT
  • 页数:62
  • 大小:5.31MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《大学精品课件:CHAPTER2-数据.ppt》由用户(罗嗣辉)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    大学 精品 课件 CHAPTER2 数据
    资源描述:

    1、钱钱 峰峰通信与信息工程学院通信与信息工程学院2018年年第第2 2章章 了解数据了解数据2Chapter 2:了解数据了解数据n数据对象和属性类型数据对象和属性类型n数据的基本统计描述数据的基本统计描述n数据可视化数据可视化n测量数据相似性和相异性测量数据相似性和相异性n总结总结3数据集合的类型数据集合的类型n记录记录n关系记录关系记录n数据矩阵数据矩阵,e.g.,数值矩阵数值矩阵,交叉表交叉表n文档数据文档数据:文本文档文本文档:词频向量词频向量term-frequency vectorn交易数据交易数据n图图 和和 网络网络n万维网万维网n社会或信息网络社会或信息网络n分子结构分子结构n

    2、有序的有序的 Orderedn视频数据视频数据:n时间数据时间数据:时间序列时间序列 n序列数据序列数据:交易序列交易序列n遗传序列数据遗传序列数据n空间空间,图像图像 多媒体多媒体:nSpatial data:mapsnImage data:nVideo data:TID Items 1 Bread,Coke,Milk 2 Beer,Bread 3 Beer,Coke,Diaper,Milk 4 Beer,Bread,Diaper,Milk 5 Coke,Diaper,Milk 4结构数据的重要特征结构数据的重要特征n维度维度n维数灾难维数灾难n稀疏稀疏n只有计数只有计数 Only pres

    3、ence countsn分辩率分辩率n模式依赖于尺度模式依赖于尺度n分布分布n中心性和分散中心性和分散5数据对象数据对象n数据集由数据对象构成数据集由数据对象构成n一个数据对象代表一个实体一个数据对象代表一个实体n例子例子:n销售数据库销售数据库sales database:客户客户/顾客顾客,商店物品商店物品,salesn医学数据库医学数据库:patients,treatmentsn大学数据库大学数据库:students,professors,coursesn又称为又称为 样本样本,事例事例,实例实例,数据点数据点,对象对象,元组元组tuples.n数据对象由属性来描述数据对象由属性来描述n

    4、Database rows-data objects;columns-attributes.6属性属性n属性属性Attribute(or维度维度,特征特征,变量变量):一个数据字段一个数据字段,表表示一个数据对象的某个特征示一个数据对象的某个特征.nE.g.,customer _ID,name,addressn类型类型:n标称的标称的n二元的二元的n序数的序数的:n数值的数值的n区间标度属性区间标度属性n比率标度属性比率标度属性7属性类型属性类型 n标称标称:类别类别,状态状态,or“名目名目”nHair_color=auburn,black,blond,brown,grey,red,whit

    5、en婚姻状态婚姻状态,职业职业occupation,ID numbers,zip codesn二元二元n只有只有2个状态的标称属性个状态的标称属性(0 and 1)n对称二元对称二元:同样重要的两相同样重要的两相ne.g.,性别性别n非对称非对称:非同等重要非同等重要 ne.g.,医疗检查医疗检查(positive vs.negative)n惯例惯例Convention:assign 1 to most important outcome(e.g.,HIV positive)n顺序的顺序的 Ordinaln值有一个有意义的顺序值有一个有意义的顺序(排序排序)但连续值之间的大小未知但连续值之间的

    6、大小未知.nSize=small,medium,large,等级等级,军阶军阶8数值属性的类型数值属性的类型 n数量数量Quantity:可度量的量:可度量的量(integer or real-valued)n区间标度属性区间标度属性n相等的单位尺度度量相等的单位尺度度量n值有序值有序nE.g.,temperature in Cor F,calendar datesn没有真正的零点没有真正的零点n比率标度属性比率标度属性n具有固有零点的数值属性具有固有零点的数值属性n可以讲一个值是另一个值倍数可以讲一个值是另一个值倍数(10 K is twice as high as 5 K).ne.g.长度

    7、长度,计数计数,货币的数量货币的数量9离散离散 vs.连续属性连续属性 n离散属性离散属性n一个有限的或可数无限集值一个有限的或可数无限集值nE.g.,zip codes,the set of words in a collection of documents n可以用或不用整数表示可以用或不用整数表示n注注:二元属性是离散属性的一个特殊情况二元属性是离散属性的一个特殊情况 n连续属性连续属性n属性值为实数属性值为实数nE.g.,temperature,height,or weightn实际上,实值只能使用有限位数进行测量和代表实际上,实值只能使用有限位数进行测量和代表n连续属性通常表示为浮

    8、点变量连续属性通常表示为浮点变量10Chapter 2:了解数据了解数据n数据对象和属性类型数据对象和属性类型n数据的基本统计描述数据的基本统计描述n数据可视化数据可视化n测量数据相似性和相异性测量数据相似性和相异性n总结总结11度量数据的中心趋势度量数据的中心趋势n均值均值(代数度量代数度量)(样本样本 vs.总体总体):Note:n 样本大小,样本大小,N 总体大小总体大小.n加权算术均值加权算术均值:n截断均值截断均值:去掉高低极端值去掉高低极端值n中位数中位数:n奇数则为有序集的中间值奇数则为有序集的中间值,否则为中间两个数的平均否则为中间两个数的平均n(基于分组数据基于分组数据)可以

    9、插值估计可以插值估计n众数众数n出现频率最高的值出现频率最高的值(不惟一不惟一/每个值出现一次则没有每个值出现一次则没有)n1/2/3个众数个众数-单峰的单峰的,双峰的双峰的,三峰的三峰的nEmpirical formula:niixnx11niiniiiwxwx11widthfreqfreqnLmedianmediansmall)(2/(1)(3medianmeanmodemeanNxMedian interval122023年3月1日星期三Data Mining:Concepts and Techniques12对称对称/偏斜数据偏斜数据n中位数中位数,均值均值,众数:对称众数:对称,正倾

    10、斜和负倾斜数据正倾斜和负倾斜数据positively skewednegatively skewedsymmetric13度量数据散布度量数据散布n四分位数四分位数Quartiles,离群点离群点 outliers,盒图,盒图 boxplotsn四分位数:四分位数:Q1(25th 百分位数percentile),Q3(75th percentile)n中间四分位数极差:中间四分位数极差:Inter-quartile range:IQR=Q3 Q1 n五数概括:五数概括:min,Q1,median,Q3,maxn盒图:盒图:盒两端为四分位数;中位数标记;添加胡须;离群点独立标出n离群点:离群点:

    11、通常是值高/低于四分位数1.5 x IQRn方差/标准差(样本:s,总体:)nVariance:(代数度量,可伸缩计算)nStandard deviation s(or)方差的平方根s2(or 2)niniiiniixnxnxxns1122122)(111)(11niiniixNxN1221221)(114 盒图分析盒图分析n五数概括五数概括n最小值最小值,Q1,中位数中位数Median,Q3,最大值最大值nBoxplotn使用盒子表示数据使用盒子表示数据n盒子两端是第盒子两端是第1/3四分位数四分位数,即盒子高度即盒子高度为四分位数极差为四分位数极差IQRn盒内的线表示中位数盒内的线表示中位

    12、数n胡须胡须:不超过四分位数不超过四分位数1.5 x IQR 的最大的最大/小数据点小数据点n离群点离群点Outliers:单独绘出满足某个离群单独绘出满足某个离群点阈条件的离群点点阈条件的离群点15可视化数据的离散度可视化数据的离散度:3-D Boxplots16正态分布曲线的性质正态分布曲线的性质n正态分布曲线正态分布曲线n,+:含有约含有约68的测量的测量(:均值均值,:标准差标准差)n2,+2:contains about 95%of itn3,+3:contains about 99.7%of it17基本统计说明的图形显示基本统计说明的图形显示nBoxplot:五数概括的图形nHi

    13、stogram直方图:直方图:值x-axis,y-axis表示频率 nQuantile plot分位数图:分位数图:值xi 与fi (表明近似百分之 fi 的数据 xi)成对nQuantile-quantile(q-q)plot:对着另一个分位数,绘制一个单变量分布的分位数nScatter plot散布图:散布图:每个值对 为一个坐标点绘于平面上18直方图分析直方图分析nHistogram:图形显示每个列值的频率,条形图所示:图形显示每个列值的频率,条形图所示n显示有多大比例的点下落入每个类别显示有多大比例的点下落入每个类别n类别并不是均匀的宽度类别并不是均匀的宽度n有别于条形图:条形图的面积

    14、表示值,而不是条形图的高度有别于条形图:条形图的面积表示值,而不是条形图的高度na bar chart柱状图柱状图/柱形图柱形图n类别通常指定为变量的一些非重叠区间,类别(带)必须相邻类别通常指定为变量的一些非重叠区间,类别(带)必须相邻19Histograms Often Tell More than Boxplotsn直方图中包含了直方图中包含了boxplot能表示的信息能表示的信息nmin,Q1,median,Q3,maxn直方图还能表现数据的分布情况直方图还能表现数据的分布情况20Data Mining:Concepts and Techniques分位数图分位数图Quantile P

    15、lotn显示所有数据(允许用户评估全部行为和不寻常的事件)nPlots quantile informationn对于升序中的值点(xi ,fi )表明近似百分之fi 的数据 xi;成对绘制(xi ,fi)21分位数分位数-分位数图分位数图(Q-Q图图)n对着另一个分位数,绘制一个单变量分布的分位数n观察:正从一种分布到另一个种是否有偏移?n例子表示分店1出售的物品单价 vs.分店 2 的每个分位数.分店1出售的物品单价 倾向于低于分店2.22散布图散布图Scatter plotn提供双变量数据的第一印象:点聚集,离群点,等n每个值对作为一个坐标点绘于平面上23正正/负负 相关数据相关数据正相

    16、关正相关负相关负相关24不相关的数据不相关的数据25Chapter 2:了解数据了解数据n数据对象和属性类型数据对象和属性类型n数据的基本统计描述数据的基本统计描述n数据可视化数据可视化n测量数据相似性和相异性测量数据相似性和相异性n总结总结26数据可视化数据可视化nWhy data visualization?(用图形清晰有效的表示数据)(用图形清晰有效的表示数据)n把数据映射到图形信息空间中获取视角把数据映射到图形信息空间中获取视角n提供提供定性的概述定性的概述(大数据集的大数据集的)n在数据中搜寻在数据中搜寻 模式模式,趋势趋势,结构结构,不规则不规则,关联关联n为进一步的量化分析发现为

    17、进一步的量化分析发现有意义的区域及合时的参数有意义的区域及合时的参数n为衍生的计算机表示提供为衍生的计算机表示提供一个视觉证据一个视觉证据n可视化方法的分类可视化方法的分类:n基于像素的可视化技术基于像素的可视化技术n几何投影可视化技术几何投影可视化技术 n基于图符的可视化技术基于图符的可视化技术n层次可视化技术层次可视化技术 n可视化复杂对象数据和关系可视化复杂对象数据和关系27基于像素的可视化技术基于像素的可视化技术n对一个维度对一个维度m的数据,在屏幕上产生的数据,在屏幕上产生m个窗口个窗口,每个维度一个每个维度一个n一个记录的一个记录的m维度值被匹配到窗口中对应位置的维度值被匹配到窗口

    18、中对应位置的m个像素上个像素上n像素的颜色值反映了相应的值像素的颜色值反映了相应的值(a)Income(b)信用限额信用限额(c)交易额交易额(d)age28安排象素于圆弧片断安排象素于圆弧片断n为节省空间并显示多个维度间的联系为节省空间并显示多个维度间的联系,往往是以一个往往是以一个弧形片段填充空间弧形片段填充空间(b)Laying out pixels in circle segmentRepresenting about 265,000 50-dimensional Data Items with the Circle Segments Technique29像素图的例子像素图的例子30

    19、几何投影可视化技术几何投影可视化技术n可视化数据的几何变换和投影可视化数据的几何变换和投影n方法方法n直接可视化直接可视化n散点图和散点图矩阵散点图和散点图矩阵n投影捕获技术投影捕获技术:帮助用户发现有意义的投影(多维数据上)帮助用户发现有意义的投影(多维数据上)n解剖视角解剖视角nsections,i.e.,intersections of subspaces with a highdimensional object,can easily display structure of only low codimension n平行坐标平行坐标31散布图矩阵散布图矩阵Used by ermis

    20、sion of M.Ward,Worcester Polytechnic Institute32Used by permission of B.Wright,Visible Decisions Inc.地形地形/景观景观33平行坐标平行坐标n对应于属性的n个等距轴平行于一个屏幕轴n这些轴缩放到最小值,最大值:相应的属性范围n每个数据项对应于一折线,属性轴的对应取值点处相交34一个数据集的平行坐标一个数据集的平行坐标35基于图符的可视化技术基于图符的可视化技术n以图标特征可视化数据值以图标特征可视化数据值n典型的可视化方法典型的可视化方法n切尔诺夫脸谱切尔诺夫脸谱n人物线条画人物线条画n常用技术

    21、常用技术n形状编码形状编码 Shape coding:使用形状来表示特定信息的编码使用形状来表示特定信息的编码n颜色图标颜色图标Color icons:使用颜色图标编码更多的信息使用颜色图标编码更多的信息n瓦片条形图瓦片条形图Tile bars:在文档检索中使用小图标代表相关在文档检索中使用小图标代表相关特征向量特征向量36切尔诺夫脸谱图切尔诺夫脸谱图n一种方法在二维空间显示变量一种方法在二维空间显示变量,如设如设X眉倾斜眉倾斜,Y是眼睛大小是眼睛大小,Z是鼻子长度等是鼻子长度等n图中的面孔使用图中的面孔使用10个特点产生个特点产生-头离心率,眼睛大小,眼间头离心率,眼睛大小,眼间距,眼离心率

    22、,瞳孔大小,斜眉,鼻大小,嘴形,嘴的大距,眼离心率,瞳孔大小,斜眉,鼻大小,嘴形,嘴的大小,张口程度小,张口程度:Each assigned one of 10 possible values,generated using Mathematica(S.Dickson)nREFERENCE:Gonick,L.and Smith,W.The Cartoon Guide to Statistics.New York:Harper Perennial,p.212,1993nWeisstein,Eric W.Chernoff Face.From MathWorld-A Wolfram Web R 37

    23、人口普查数据人口普查数据图显示年龄、图显示年龄、收入、性别、收入、性别、教育、等教育、等人物线条画人物线条画一个一个5-piece棍棍棒图棒图(身体和四身体和四肢肢),两个属性,两个属性映射到轴,其余映射到轴,其余的属性映射到角的属性映射到角度或肢体长度度或肢体长度 38层次层次可视化技术可视化技术n使用子空间层次划分可视化数据使用子空间层次划分可视化数据n方法方法n维数堆叠维数堆叠Dimensional StackingnWorlds-within-WorldsnTree-Map 树状图树状图 nCone Trees锥形树锥形树 nInfoCube39维数堆叠维数堆叠 Dimensional

    24、 Stackingattribute 1attribute 2attribute 3attribute 4n把把n维属性空间剖分为维属性空间剖分为2-D子空间,互相堆叠与一起子空间,互相堆叠与一起n属性值的范围划分为等级,重要的属性分布在外层属性值的范围划分为等级,重要的属性分布在外层.n适合次序属性较少的数据适合次序属性较少的数据n超过超过9个维度时显示困难个维度时显示困难n重要的是匹配维度适当重要的是匹配维度适当40Used by permission of M.Ward,Worcester Polytechnic Institute可视化石油勘探数据,经度和纬度映射到外可视化石油勘探数据

    25、,经度和纬度映射到外x-,y轴,轴,油质和油质和深度映射到内部深度映射到内部x-,y-轴轴维数堆叠维数堆叠 Dimensional Stacking41Worlds-within-Worldsn分配功能分配功能f和两个重要参数给内部世界和两个重要参数给内部世界n固定其他参数固定其他参数-draw other(1 or 2 or 3 世界选择他们世界选择他们为坐标轴为坐标轴)n使用这种模式的软件使用这种模式的软件nNvision:通过数通过数据手套和立体显据手套和立体显示以动态互动,示以动态互动,包括旋转,缩放包括旋转,缩放(内部)和转换(内部)和转换(内(内/外)外)n自动视觉:经查自动视觉:

    26、经查询手段静态互动询手段静态互动42树状图Tree-Mapn屏幕填充方法:依赖于属性值把屏幕填充方法:依赖于属性值把 屏幕层次划分为区屏幕层次划分为区域域 n根据属性值(类)屏幕的根据属性值(类)屏幕的x-y-维交替剖分维交替剖分MSR Netscan Image43Tree-Map of a File System(Schneiderman)?44InfoCuben3-D可视化技术:层次信息被显示成嵌套的半透明立可视化技术:层次信息被显示成嵌套的半透明立方体方体 n最外层的立方体对应顶层数据最外层的立方体对应顶层数据,子节点子节点or低层数据作低层数据作为稍小的立方体显示于外层立方体中为稍小

    27、的立方体显示于外层立方体中,以此类推以此类推453d锥树锥树 Three-D Cone Treesn3D cone tree 可用于数千个节点可用于数千个节点n先构造先构造 2D环形树,环形树,安排节点于根节安排节点于根节点为中心的同心圆环点为中心的同心圆环n投影到投影到2维时将不可避免重叠维时将不可避免重叠nG.Robertson,J.Mackinlay,S.Card.“Cone Trees:Animated 3D Visualizations of Hierarchical Information”,ACM SIGCHI91nGraph from Nadeau Software Consu

    28、lting website:可视化社会可视化社会网络数据:模型感染从一个人到下网络数据:模型感染从一个人到下一个扩散的方式一个扩散的方式46可视化复杂数据和关系可视化复杂数据和关系nVisualizing non-numerical data:text and social networksnTag cloud:visualizing user-generated tagsnThe importance of tag is represented by font size/colornBesides text data,there are also methods to visualize r

    29、elationships,such as visualizing social networksNewsmap:Google News Stories in 200547Chapter 2:了解数据了解数据n数据对象和属性类型数据对象和属性类型n数据的基本统计描述数据的基本统计描述n数据可视化数据可视化n测量数据相似性和相异性测量数据相似性和相异性n总结总结48相似性和相异性相似性和相异性n相似性相似性n数值测量两个数据对象类似程度数值测量两个数据对象类似程度n目标越相似时值越大目标越相似时值越大n通常介于通常介于 0,1n相异性相异性(e.g.,距离距离distance)n数值测量两个数据对

    30、象差异程度数值测量两个数据对象差异程度n对象越相近值越小对象越相近值越小n最小相异性值通常为最小相异性值通常为 0n上界可变上界可变n相似性和相异性都称为邻近性相似性和相异性都称为邻近性49数据矩阵和相异度矩阵数据矩阵和相异度矩阵n数据矩阵数据矩阵nn个对向p个属性n行代表对象,列代表属性n二模n相异性矩阵相异性矩阵nn个对象之间的距离n三角矩阵n单模 npx.nfx.n1x.ipx.ifx.i1x.1px.1fx.11x 0.)2,()1,(:)2,3().ndnd0dd(3,10d(2,1)050标称属性的邻近度量标称属性的邻近度量n2个或多个状态个或多个状态,e.g.,red,yello

    31、w,blue,green(二元二元属性的推广属性的推广)nMethod 1:简单匹配简单匹配nm:p个变量中匹配的个数个变量中匹配的个数,p:全部变量的个数全部变量的个数nMethod 2:使用一系列的二进制属性使用一系列的二进制属性n为为M个名义状态的每一个产生一个新的二进制个名义状态的每一个产生一个新的二进制/二元属性二元属性pmpjid),(51二进制属性的邻近度量二进制属性的邻近度量n二进制数据的二进制数据的列联表:列联表:n对称二元变量的距离测度:对称二元变量的距离测度:n不对称二元变量的距离测度:不对称二元变量的距离测度:nJaccard系数(不对称二元变量系数(不对称二元变量的相

    32、似性测度)的相似性测度):n注注:Jaccard 系数与想干系数一致系数与想干系数一致Object iObject j52二进制属性的相异度量二进制属性的相异度量nExamplen性别是对称属性性别是对称属性n其余的属性是非对称属性其余的属性是非对称属性n令令Y 和和P 值为值为1,且且N值为值为0Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4JackMYNPNNNMaryFYNPNPNJimMYPNNNN75.021121),(67.011111),(33.010210),(maryjimdjimjackdmaryjackd53数值数据

    33、的距离数值数据的距离:闵可夫斯基距离闵可夫斯基距离n闵科夫斯基(闵科夫斯基(Minkowski)距离距离:一种流行的距离测度:一种流行的距离测度其中其中i=(xi1,xi2,xip)、j=(xj1,xj2,xjp)为两个为两个p-维数据点;维数据点;h是阶数是阶数(定义的距离又称为(定义的距离又称为Lh范数)范数)n特性特性n非负性:非负性:d(i,j)0 if ij,n同一性:同一性:d(i,i)=0(正定正定Positive definiteness)n对称性:对称性:d(i,j)=d(j,i)(Symmetry)n三角不等式:三角不等式:d(i,j)d(i,k)+d(k,j)n满足上述属

    34、性的称为度量(满足上述属性的称为度量(metric)54闵可夫斯基距离闵可夫斯基距离特殊形式特殊形式nh=1:曼哈顿(:曼哈顿(Manhattan)距离()距离(L1范数)范数)nE.g.,汉明距离:两个向量中不同的汉明距离:两个向量中不同的bit数数nh=2:欧式(:欧式(Euclidean)距离(距离(L2 范数)范数)nh :上确界(上确界(Supremum)距离()距离(Lmax 范数或范数或L 范数)范数)n两个向量属性差绝对值的最大值两个向量属性差绝对值的最大值)|.|(|),(2222211ppjxixjxixjxixjid|.|),(2211ppjxixjxixjxixjid5

    35、5Example:Minkowski DistanceDissimilarity MatricesManhattan(L1)Euclidean(L2)Supremum 56有序变量有序变量Ordinal Variablesn一个序数属性可以离散的或连续的一个序数属性可以离散的或连续的n序数属性的顺序是有用信息序数属性的顺序是有用信息,e.g.,排序排序n类似于连续数值的离散化结果类似于连续数值的离散化结果n用它们的序代替用它们的序代替xifn映射每一个变量的范围于映射每一个变量的范围于0,1,用如下支代替第,用如下支代替第f-th变量变量的的i-th对象对象n距离计算方法与数值属性一致距离计算

    36、方法与数值属性一致11fififMrz,.,1fifMr57混合型属性混合型属性 n实际处理的数据集可能会包含所有类型的属性实际处理的数据集可能会包含所有类型的属性n标称属性标称属性,对称二元属性对称二元属性,非对称二元属性非对称二元属性,数值属性数值属性,序序数属性数属性n可以用加权法计算合并的影响可以用加权法计算合并的影响nf 是二进制或标称是二进制或标称:dij(f)=0 if xif=xjf,or dij(f)=1 otherwisenf 是数值是数值:使用归一化的距离使用归一化的距离nf 序数属性序数属性 n计算序号计算序号rifn把把zif 作为数值属性对待作为数值属性对待)(1)

    37、()(1),(fijpffijfijpfdjid11fifMrzif58余弦相似性余弦相似性 Cosine Similarityn文档可以用很多属性进行描述文档可以用很多属性进行描述,每个属性代表某一词在文档中每个属性代表某一词在文档中出现的次数。出现的次数。n余弦相似性余弦相似性:若若d1 和和d2 是两个向量是两个向量(e.g.,词频向量词频向量),那么余弦属那么余弦属性定义为:性定义为:cos(d1,d2)=(d1 d2)/(|d1|d2|)其中其中“”表示向量点乘,表示向量点乘,|d|:向量的长度向量的长度dpiipiipiiiyxyxyx12121),cos(59 Example:C

    38、osine Similarityncos(d1,d2)=(d1 d2)/(|d1|d2|)nEx:计算下述两个向量的相似性:计算下述两个向量的相似性:d1=(5,0,3,0,2,0,0,2,0,0)d2=(3,0,2,0,1,1,0,1,0,1)d1 d2=5*3+0*0+3*2+0*0+2*1+0*1+0*1+2*1+0*0+0*1=25|d1|=(5*5+0*0+3*3+0*0+2*2+0*0+0*0+2*2+0*0+0*0)0.5=(42)0.5=6.481|d2|=(3*3+0*0+2*2+0*0+1*1+1*1+0*0+1*1+0*0+1*1)0.5=(17)0.5=4.12cos(

    39、d1,d2)=0.9460Chapter 2:了解数据了解数据n数据对象和属性类型数据对象和属性类型n数据的基本统计描述数据的基本统计描述n数据可视化数据可视化n测量数据相似性和相异性测量数据相似性和相异性n总结总结61SummarynData attribute types:nominal,binary,ordinal,interval-scaled,ratio-scalednMany types of data sets,e.g.,numerical,text,graph,Web,image.nGain insight into the data by:nBasic statistical

    40、 data description:central tendency,dispersion,graphical displaysnData visualization:map data onto graphical primitivesnMeasure data similaritynAbove steps are the beginning of data preprocessing.nMany methods have been developed but still an active area of research.62ReferencesnW.Cleveland,Visualizi

    41、ng Data,Hobart Press,1993nT.Dasu and T.Johnson.Exploratory Data Mining and Data Cleaning.John Wiley,2003nU.Fayyad,G.Grinstein,and A.Wierse.Information Visualization in Data Mining and Knowledge Discovery,Morgan Kaufmann,2001nL.Kaufman and P.J.Rousseeuw.Finding Groups in Data:an Introduction to Clust

    42、er Analysis.John Wiley&Sons,1990.nH.V.Jagadish,et al.,Special Issue on Data Reduction Techniques.Bulletin of the Tech.Committee on Data Eng.,20(4),Dec.1997nD.A.Keim.Information visualization and visual data mining,IEEE trans.on Visualization and Computer Graphics,8(1),2002nD.Pyle.Data Preparation fo

    43、r Data Mining.Morgan Kaufmann,1999nS.Santini and R.Jain,”Similarity measures”,IEEE Trans.on Pattern Analysis and Machine Intelligence,21(9),1999nE.R.Tufte.The Visual Display of Quantitative Information,2nd ed.,Graphics Press,2001nC.Yu,et al,Visual data mining of multimedia data for social and behavioral studies,Information Visualization,8(1),2009

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:大学精品课件:CHAPTER2-数据.ppt
    链接地址:https://www.163wenku.com/p-5259616.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库