第2章-数据课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第2章-数据课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 课件
- 资源描述:
-
1、数据挖掘导论数据挖掘导论Pang-ning Tan,Michael Stieinbach,and Vipin Kumar著著Pearson Education LTD.范明范明 等译等译人民邮电出版社人民邮电出版社第第2章章 数据数据数据类型数据类型数据质量数据质量数据预处理数据预处理相似性和相异性度量相似性和相异性度量2.1 数据类型数据类型2023年5月23日星期二数据挖掘导论4数据数据n数据集是数据对象的集合数据集是数据对象的集合n数据对象用一组刻画对象基本特数据对象用一组刻画对象基本特性(如物体质量或事件发生时间)性(如物体质量或事件发生时间)的属性描述的属性描述 n数据对象的其他名称
2、数据对象的其他名称n记录、点、向量、模式、事件、记录、点、向量、模式、事件、案例、样本、观测或实体案例、样本、观测或实体 n属性的其他名称属性的其他名称n变量、特性、字段、特征或维变量、特性、字段、特征或维 Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8
3、 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 10 属性属性对象对象2023年5月23日星期二数据挖掘导论5属性与度量属性与度量 n属性(属性(Attribute)是对象的性质或特征是对象的性质或特征n例例:眼球颜色、温度眼球颜色、温度,etc.n属性值(属性值(Attribute values)是赋予属性的数或符号是赋予属性的数或符号n属性属性vs属性值属性值n相同的属性可以映射不同的属性值相同的属性可以映射不同的属性值n 例如例如:高度可以用尺或米度量高度可以用尺或米度量n不同的属性可以映射到相同的值集合不同的属性可
4、以映射到相同的值集合n 例如例如:ID 和和 age 都可以是整数都可以是整数n 但是,属性的性质可能不同但是,属性的性质可能不同nID 没有什么限制,但没有什么限制,但 age 有最大和最小值有最大和最小值2023年5月23日星期二数据挖掘导论6例例:线段长度线段长度n度量属性的方法可能与属性的性质不符度量属性的方法可能与属性的性质不符n 例例123557815104ABCDE2023年5月23日星期二数据挖掘导论7属性的类型属性的类型n不同类型的属性不同类型的属性n标称(标称(Nominal)n例例:ID 号、眼球颜色、邮政编码号、眼球颜色、邮政编码n序数(序数(Ordinal)n例例:军
5、阶军阶、gpa、用、用 tall,medium,short表示的高度表示的高度n区间(区间(Interval)n例例:日历、摄氏或华氏温度日历、摄氏或华氏温度.n比率(比率(Ratio)n例例:开氏温度、长度、计数开氏温度、长度、计数2023年5月23日星期二数据挖掘导论8属性值的性质属性值的性质nThe type of an attribute depends on which of the following properties it possesses:nDistinctness:=nOrder:nAddition:+-nMultiplication:*/nNominal attrib
6、ute:distinctnessnOrdinal attribute:distinctness&ordernInterval attribute:distinctness,order&additionnRatio attribute:all 4 properties2023年5月23日星期二数据挖掘导论9表表2-2 不同的属性类型不同的属性类型属性类型属性类型描描 述述例例 子子操操 作作标称属性的值仅仅只是不标称属性的值仅仅只是不同的名字,即标称值只提供同的名字,即标称值只提供足够的信息以区分对象足够的信息以区分对象(=,)邮政编码、雇员邮政编码、雇员ID号、号、眼球颜色、性别眼球颜色、性别
7、众数、熵、列联相关、众数、熵、列联相关、2检验检验序数属性的值提供足够的序数属性的值提供足够的信息确定对象的序信息确定对象的序()矿石硬度、矿石硬度、好,较好,好,较好,最好最好、成绩、街道号、成绩、街道号码码中值、百分位、秩相关、中值、百分位、秩相关、游程检验、符号检验游程检验、符号检验对于区间属性,值之间的对于区间属性,值之间的差是有意义的,即存在测量差是有意义的,即存在测量单位单位(,)日历日期、摄氏或华日历日期、摄氏或华氏温度氏温度均值、标准差、皮尔逊均值、标准差、皮尔逊相关、相关、t和和F检验检验对于比率变量,差和比率对于比率变量,差和比率都是有意义的都是有意义的(*,/)绝对温度、
8、货币量、绝对温度、货币量、计数、年龄、质量、计数、年龄、质量、长度、电流长度、电流几何平均、调和平均、几何平均、调和平均、百分比变差百分比变差分类的分类的(定性的定性的)数值的数值的(定量的定量的)标标称称序序数数区区间间比比率率2023年5月23日星期二数据挖掘导论10表表2-3 定义属性层次的变换定义属性层次的变换属性类型属性类型变变 换换注注 释释任何一对一变换,例如值的一个排列任何一对一变换,例如值的一个排列如果所有雇员的如果所有雇员的ID号都重新赋值,不号都重新赋值,不会导致任何不同会导致任何不同值的保序变换,即值的保序变换,即 新值新值=f(旧值旧值),其中其中f是单调函数是单调函
9、数包括概念好、较好、最好的属性可以包括概念好、较好、最好的属性可以完全等价地用值完全等价地用值1,2,3或用或用0.5,1,10表示表示新值新值=a旧值旧值+b,其中其中a、b是常数是常数华氏和摄氏温度标度零度的位置和华氏和摄氏温度标度零度的位置和1度度的大小(单位)不同的大小(单位)不同新值新值=a 旧值旧值长度可以用米或英尺度量长度可以用米或英尺度量分类的分类的(定性的定性的)数值的数值的(定量的定量的)标标称称序序数数区区间间比比率率2023年5月23日星期二数据挖掘导论11离散离散vs.连续属性连续属性n离散属性离散属性(Discrete Attribute)n有限或无限可数有限或无限
10、可数(countable infinite)个值个值n例例:邮政编码、计数、文档集的词邮政编码、计数、文档集的词n常表示为整数变量常表示为整数变量.n连续属性连续属性(Continuous Attribute)n属性值为实数属性值为实数n例例:温度、高度、重量温度、高度、重量.n实践中实践中,实数只能用有限位数字的数度量和表示实数只能用有限位数字的数度量和表示.n连续属性一般用浮点变量表示连续属性一般用浮点变量表示.2023年5月23日星期二数据挖掘导论12对称对称vs.非对称二元属性非对称二元属性n二元属性二元属性(binary attributes)n仅取两个不同值,常用仅取两个不同值,常
11、用0、1表示表示n是离散属性的特例是离散属性的特例n对称的二元属性对称的二元属性n两个值一样重要两个值一样重要n例如,性别例如,性别n非对称的二元属性非对称的二元属性n通常,一个值比另一个更重要通常,一个值比另一个更重要n重要的值通常比较少出现,通常用重要的值通常比较少出现,通常用1表示表示n例如,化验结果例如,化验结果阴性,阳性阴性,阳性,其中阳性较少,但更值得关注,其中阳性较少,但更值得关注2023年5月23日星期二数据挖掘导论13数据集的重要特性数据集的重要特性n维度维度(Dimensionality)n数据集的维度是数据集中的对象具有的属性数目数据集的维度是数据集中的对象具有的属性数目
12、 n维灾难(维灾难(Curse of Dimensionality)n维归约(维归约(dimensionality reduction)n稀疏性稀疏性(Sparsity)n具有非对称特征的数据集,一个对象的大部分属性上的值都为具有非对称特征的数据集,一个对象的大部分属性上的值都为0 n只存储和处理非零值只存储和处理非零值n分辨率分辨率(Resolution)n 模式依赖于度量尺度模式依赖于度量尺度(scale)n在数米的分辨率下,地球表面看上去很不平坦,但在数十公里在数米的分辨率下,地球表面看上去很不平坦,但在数十公里的分辨率下却相对平坦的分辨率下却相对平坦 n小时标度下的气压变化反映风暴或其
13、他天气系统的移动;在月小时标度下的气压变化反映风暴或其他天气系统的移动;在月标度下,这些现象就检测不到标度下,这些现象就检测不到 2023年5月23日星期二数据挖掘导论14数据集类型数据集类型n记录记录nData MatrixnDocument DatanTransaction Datan图图(Graph)nWorld Wide WebnMolecular Structuresn有序有序(Ordered)数据数据nSpatial DatanTemporal DatanSequential DatanGenetic Sequence Data2023年5月23日星期二数据挖掘导论15记录数据记录
14、数据:典型情况典型情况n记录数据有多种变体记录数据有多种变体n典型的记录数据典型的记录数据nData that consists of a collection of records,each of which consists of a fixed set of attributesTid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No
15、Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 10 2023年5月23日星期二数据挖掘导论16记录数据记录数据:数据矩阵数据矩阵n如果数据对象都具有固定个数的数值属性,则可以吧数据对象看做多如果数据对象都具有固定个数的数值属性,则可以吧数据对象看做多维空间中的点,其中每个位代表一个不同的属性维空间中的点,其中每个位代表一个不同的属性n这种数据可以用一个这种数据可以用一个 m n 矩阵表示矩阵表示,其中其中 m 行行,每个代表一个对象每个代表一个
16、对象,n 列列,每列代表一个属性每列代表一个属性1.12.216.226.2512.651.22.715.225.2710.23Thickness LoadDistanceProjection of y loadProjection of x Load1.12.216.226.2512.651.22.715.225.2710.23Thickness LoadDistanceProjection of y loadProjection of x Load2023年5月23日星期二数据挖掘导论17记录数据记录数据:文档数据文档数据nEach document becomes a term vect
17、or,neach term is a component(attribute)of the vector,nthe value of each component is the number of times the corresponding term occurs in the document2023年5月23日星期二数据挖掘导论18记录数据记录数据:事务数据事务数据nA special type of record data,where neach record(transaction)involves a set of items.nFor example,consider a gr
18、ocery store.The set of products purchased by a customer during one shopping trip constitute a transaction,while the individual products that were purchased are the items.TID Items 1 Bread,Coke,Milk 2 Beer,Bread 3 Beer,Coke,Diaper,Milk 4 Beer,Bread,Diaper,Milk 5 Coke,Diaper,Milk 2023年5月23日星期二数据挖掘导论19
19、基于图形的数据基于图形的数据1n带有对象之间联系的数据带有对象之间联系的数据 nExamples:HTML Links 2023年5月23日星期二数据挖掘导论20基于图形的数据基于图形的数据2n具有图形对象的数据具有图形对象的数据 n对象具有结构,即对象包含具有联系的子对象对象具有结构,即对象包含具有联系的子对象 n例例:苯分子的球苯分子的球棍图,包含碳原子(黑色)和氢原子(灰色)棍图,包含碳原子(黑色)和氢原子(灰色)2023年5月23日星期二数据挖掘导论21有序数据有序数据:时序数据时序数据n有序数据有多种有序数据有多种,常常涉及时间或空间序常常涉及时间或空间序n时序数据时序数据(sequ
20、ential data)n也称时间数据(也称时间数据(temporal data)n时间次序重要时间次序重要,但具体时间不重要但具体时间不重要n例:事务序列例:事务序列2023年5月23日星期二数据挖掘导论22有序数据有序数据:序列数据序列数据n序列数据序列数据(sequence data)n个体项的序列个体项的序列 n例:基因组序列数据例:基因组序列数据nDNA都由都由4种核苷酸种核苷酸 A,T,G和和C构造构造n没有时间标记,但与时序数据类似没有时间标记,但与时序数据类似n重要的是在序列中的位置重要的是在序列中的位置GGTTCCGCCTTCAGCCCCGCGCCCGCAGGGCCCGCCC
21、CGCGCCGTCGAGAAGGGCCCGCCTGGCGGGCGGGGGGAGGCGGGGCCGCCCGAGCCCAACCGAGTCCGACCAGGTGCCCCCTCTGCTCGGCCTAGACCTGAGCTCATTAGGCGGCAGCGGACAGGCCAAGTAGAACACGCGAAGCGCTGGGCTGCCTGCTGCGACCAGGG2023年5月23日星期二数据挖掘导论23有序数据有序数据:时间序列数据时间序列数据n 时间序列数据(时间序列数据(time series data)n特殊的时序数据,其中每个记录都是一个时间序列特殊的时序数据,其中每个记录都是一个时间序列(time seri
22、es),即,即一段时间的测量序列一段时间的测量序列 n时间自相关(时间自相关(temporal autocorrelation),即如果两个测量的时间),即如果两个测量的时间很接近,这些测量的值通常非常相似很接近,这些测量的值通常非常相似 2023年5月23日星期二数据挖掘导论24有序数据有序数据:空间数据空间数据n空间数据空间数据 n具有空间属性,如位具有空间属性,如位置或区域置或区域n例例:不同的地理位置收不同的地理位置收集的气象数据(降水集的气象数据(降水量、气温、气压)量、气温、气压)n空间自相关性(空间自相关性(spatial autocorrelation):物物理上靠近的对象趋向
23、理上靠近的对象趋向于在其他方面也相似于在其他方面也相似 n右图每月是空间数据右图每月是空间数据,显示多月是时间显示多月是时间-空间空间数据数据(Spatial-Temporal Data)2.2 数据质量数据质量2023年5月23日星期二数据挖掘导论26数据质量数据质量n数据质量有哪些问题数据质量有哪些问题?n如何检测这些数据问题如何检测这些数据问题?n如何处理这些数据问题如何处理这些数据问题?n数据质量问题的例子数据质量问题的例子:nNoise and outliers nmissing values nduplicate data2023年5月23日星期二数据挖掘导论27数据质量数据质量n
24、测量误差和数据收集错误测量误差和数据收集错误 n测量误差(测量误差(measurement error)n测量过程导致的任何问题测量过程导致的任何问题 n数据收集错误(数据收集错误(data collection error)n遗漏数据对象或属性值,或不正确地包含数据对象等错误遗漏数据对象或属性值,或不正确地包含数据对象等错误 n测量误差和数据收集错误都可能是系统的或随机的测量误差和数据收集错误都可能是系统的或随机的 2023年5月23日星期二数据挖掘导论28数据质量数据质量:噪声噪声n噪声是测量误差的随机部分噪声是测量误差的随机部分n导致对原始值的改变导致对原始值的改变n例子例子:n使用质量
25、很差的电话导致讲话人声音的失真使用质量很差的电话导致讲话人声音的失真n 电视屏幕上的电视屏幕上的“雪花点雪花点”Two Sine WavesTwo Sine Waves+Noise2023年5月23日星期二数据挖掘导论29数据质量数据质量:离群点离群点n离群点离群点(Outliers)ndata objects with characteristics that are considerably different than most of the other data objects in the data set2023年5月23日星期二数据挖掘导论30数据质量数据质量:缺失值缺失值n原因
展开阅读全文