书签 分享 收藏 举报 版权申诉 / 82
上传文档赚钱

类型第2章-数据课件.ppt

  • 上传人(卖家):ziliao2023
  • 文档编号:6042698
  • 上传时间:2023-05-23
  • 格式:PPT
  • 页数:82
  • 大小:2.89MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《第2章-数据课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 课件
    资源描述:

    1、数据挖掘导论数据挖掘导论Pang-ning Tan,Michael Stieinbach,and Vipin Kumar著著Pearson Education LTD.范明范明 等译等译人民邮电出版社人民邮电出版社第第2章章 数据数据数据类型数据类型数据质量数据质量数据预处理数据预处理相似性和相异性度量相似性和相异性度量2.1 数据类型数据类型2023年5月23日星期二数据挖掘导论4数据数据n数据集是数据对象的集合数据集是数据对象的集合n数据对象用一组刻画对象基本特数据对象用一组刻画对象基本特性(如物体质量或事件发生时间)性(如物体质量或事件发生时间)的属性描述的属性描述 n数据对象的其他名称

    2、数据对象的其他名称n记录、点、向量、模式、事件、记录、点、向量、模式、事件、案例、样本、观测或实体案例、样本、观测或实体 n属性的其他名称属性的其他名称n变量、特性、字段、特征或维变量、特性、字段、特征或维 Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8

    3、 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 10 属性属性对象对象2023年5月23日星期二数据挖掘导论5属性与度量属性与度量 n属性(属性(Attribute)是对象的性质或特征是对象的性质或特征n例例:眼球颜色、温度眼球颜色、温度,etc.n属性值(属性值(Attribute values)是赋予属性的数或符号是赋予属性的数或符号n属性属性vs属性值属性值n相同的属性可以映射不同的属性值相同的属性可以映射不同的属性值n 例如例如:高度可以用尺或米度量高度可以用尺或米度量n不同的属性可以映射到相同的值集合不同的属性可

    4、以映射到相同的值集合n 例如例如:ID 和和 age 都可以是整数都可以是整数n 但是,属性的性质可能不同但是,属性的性质可能不同nID 没有什么限制,但没有什么限制,但 age 有最大和最小值有最大和最小值2023年5月23日星期二数据挖掘导论6例例:线段长度线段长度n度量属性的方法可能与属性的性质不符度量属性的方法可能与属性的性质不符n 例例123557815104ABCDE2023年5月23日星期二数据挖掘导论7属性的类型属性的类型n不同类型的属性不同类型的属性n标称(标称(Nominal)n例例:ID 号、眼球颜色、邮政编码号、眼球颜色、邮政编码n序数(序数(Ordinal)n例例:军

    5、阶军阶、gpa、用、用 tall,medium,short表示的高度表示的高度n区间(区间(Interval)n例例:日历、摄氏或华氏温度日历、摄氏或华氏温度.n比率(比率(Ratio)n例例:开氏温度、长度、计数开氏温度、长度、计数2023年5月23日星期二数据挖掘导论8属性值的性质属性值的性质nThe type of an attribute depends on which of the following properties it possesses:nDistinctness:=nOrder:nAddition:+-nMultiplication:*/nNominal attrib

    6、ute:distinctnessnOrdinal attribute:distinctness&ordernInterval attribute:distinctness,order&additionnRatio attribute:all 4 properties2023年5月23日星期二数据挖掘导论9表表2-2 不同的属性类型不同的属性类型属性类型属性类型描描 述述例例 子子操操 作作标称属性的值仅仅只是不标称属性的值仅仅只是不同的名字,即标称值只提供同的名字,即标称值只提供足够的信息以区分对象足够的信息以区分对象(=,)邮政编码、雇员邮政编码、雇员ID号、号、眼球颜色、性别眼球颜色、性别

    7、众数、熵、列联相关、众数、熵、列联相关、2检验检验序数属性的值提供足够的序数属性的值提供足够的信息确定对象的序信息确定对象的序()矿石硬度、矿石硬度、好,较好,好,较好,最好最好、成绩、街道号、成绩、街道号码码中值、百分位、秩相关、中值、百分位、秩相关、游程检验、符号检验游程检验、符号检验对于区间属性,值之间的对于区间属性,值之间的差是有意义的,即存在测量差是有意义的,即存在测量单位单位(,)日历日期、摄氏或华日历日期、摄氏或华氏温度氏温度均值、标准差、皮尔逊均值、标准差、皮尔逊相关、相关、t和和F检验检验对于比率变量,差和比率对于比率变量,差和比率都是有意义的都是有意义的(*,/)绝对温度、

    8、货币量、绝对温度、货币量、计数、年龄、质量、计数、年龄、质量、长度、电流长度、电流几何平均、调和平均、几何平均、调和平均、百分比变差百分比变差分类的分类的(定性的定性的)数值的数值的(定量的定量的)标标称称序序数数区区间间比比率率2023年5月23日星期二数据挖掘导论10表表2-3 定义属性层次的变换定义属性层次的变换属性类型属性类型变变 换换注注 释释任何一对一变换,例如值的一个排列任何一对一变换,例如值的一个排列如果所有雇员的如果所有雇员的ID号都重新赋值,不号都重新赋值,不会导致任何不同会导致任何不同值的保序变换,即值的保序变换,即 新值新值=f(旧值旧值),其中其中f是单调函数是单调函

    9、数包括概念好、较好、最好的属性可以包括概念好、较好、最好的属性可以完全等价地用值完全等价地用值1,2,3或用或用0.5,1,10表示表示新值新值=a旧值旧值+b,其中其中a、b是常数是常数华氏和摄氏温度标度零度的位置和华氏和摄氏温度标度零度的位置和1度度的大小(单位)不同的大小(单位)不同新值新值=a 旧值旧值长度可以用米或英尺度量长度可以用米或英尺度量分类的分类的(定性的定性的)数值的数值的(定量的定量的)标标称称序序数数区区间间比比率率2023年5月23日星期二数据挖掘导论11离散离散vs.连续属性连续属性n离散属性离散属性(Discrete Attribute)n有限或无限可数有限或无限

    10、可数(countable infinite)个值个值n例例:邮政编码、计数、文档集的词邮政编码、计数、文档集的词n常表示为整数变量常表示为整数变量.n连续属性连续属性(Continuous Attribute)n属性值为实数属性值为实数n例例:温度、高度、重量温度、高度、重量.n实践中实践中,实数只能用有限位数字的数度量和表示实数只能用有限位数字的数度量和表示.n连续属性一般用浮点变量表示连续属性一般用浮点变量表示.2023年5月23日星期二数据挖掘导论12对称对称vs.非对称二元属性非对称二元属性n二元属性二元属性(binary attributes)n仅取两个不同值,常用仅取两个不同值,常

    11、用0、1表示表示n是离散属性的特例是离散属性的特例n对称的二元属性对称的二元属性n两个值一样重要两个值一样重要n例如,性别例如,性别n非对称的二元属性非对称的二元属性n通常,一个值比另一个更重要通常,一个值比另一个更重要n重要的值通常比较少出现,通常用重要的值通常比较少出现,通常用1表示表示n例如,化验结果例如,化验结果阴性,阳性阴性,阳性,其中阳性较少,但更值得关注,其中阳性较少,但更值得关注2023年5月23日星期二数据挖掘导论13数据集的重要特性数据集的重要特性n维度维度(Dimensionality)n数据集的维度是数据集中的对象具有的属性数目数据集的维度是数据集中的对象具有的属性数目

    12、 n维灾难(维灾难(Curse of Dimensionality)n维归约(维归约(dimensionality reduction)n稀疏性稀疏性(Sparsity)n具有非对称特征的数据集,一个对象的大部分属性上的值都为具有非对称特征的数据集,一个对象的大部分属性上的值都为0 n只存储和处理非零值只存储和处理非零值n分辨率分辨率(Resolution)n 模式依赖于度量尺度模式依赖于度量尺度(scale)n在数米的分辨率下,地球表面看上去很不平坦,但在数十公里在数米的分辨率下,地球表面看上去很不平坦,但在数十公里的分辨率下却相对平坦的分辨率下却相对平坦 n小时标度下的气压变化反映风暴或其

    13、他天气系统的移动;在月小时标度下的气压变化反映风暴或其他天气系统的移动;在月标度下,这些现象就检测不到标度下,这些现象就检测不到 2023年5月23日星期二数据挖掘导论14数据集类型数据集类型n记录记录nData MatrixnDocument DatanTransaction Datan图图(Graph)nWorld Wide WebnMolecular Structuresn有序有序(Ordered)数据数据nSpatial DatanTemporal DatanSequential DatanGenetic Sequence Data2023年5月23日星期二数据挖掘导论15记录数据记录

    14、数据:典型情况典型情况n记录数据有多种变体记录数据有多种变体n典型的记录数据典型的记录数据nData that consists of a collection of records,each of which consists of a fixed set of attributesTid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No

    15、Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 10 2023年5月23日星期二数据挖掘导论16记录数据记录数据:数据矩阵数据矩阵n如果数据对象都具有固定个数的数值属性,则可以吧数据对象看做多如果数据对象都具有固定个数的数值属性,则可以吧数据对象看做多维空间中的点,其中每个位代表一个不同的属性维空间中的点,其中每个位代表一个不同的属性n这种数据可以用一个这种数据可以用一个 m n 矩阵表示矩阵表示,其中其中 m 行行,每个代表一个对象每个代表一个

    16、对象,n 列列,每列代表一个属性每列代表一个属性1.12.216.226.2512.651.22.715.225.2710.23Thickness LoadDistanceProjection of y loadProjection of x Load1.12.216.226.2512.651.22.715.225.2710.23Thickness LoadDistanceProjection of y loadProjection of x Load2023年5月23日星期二数据挖掘导论17记录数据记录数据:文档数据文档数据nEach document becomes a term vect

    17、or,neach term is a component(attribute)of the vector,nthe value of each component is the number of times the corresponding term occurs in the document2023年5月23日星期二数据挖掘导论18记录数据记录数据:事务数据事务数据nA special type of record data,where neach record(transaction)involves a set of items.nFor example,consider a gr

    18、ocery store.The set of products purchased by a customer during one shopping trip constitute a transaction,while the individual products that were purchased are the items.TID Items 1 Bread,Coke,Milk 2 Beer,Bread 3 Beer,Coke,Diaper,Milk 4 Beer,Bread,Diaper,Milk 5 Coke,Diaper,Milk 2023年5月23日星期二数据挖掘导论19

    19、基于图形的数据基于图形的数据1n带有对象之间联系的数据带有对象之间联系的数据 nExamples:HTML Links 2023年5月23日星期二数据挖掘导论20基于图形的数据基于图形的数据2n具有图形对象的数据具有图形对象的数据 n对象具有结构,即对象包含具有联系的子对象对象具有结构,即对象包含具有联系的子对象 n例例:苯分子的球苯分子的球棍图,包含碳原子(黑色)和氢原子(灰色)棍图,包含碳原子(黑色)和氢原子(灰色)2023年5月23日星期二数据挖掘导论21有序数据有序数据:时序数据时序数据n有序数据有多种有序数据有多种,常常涉及时间或空间序常常涉及时间或空间序n时序数据时序数据(sequ

    20、ential data)n也称时间数据(也称时间数据(temporal data)n时间次序重要时间次序重要,但具体时间不重要但具体时间不重要n例:事务序列例:事务序列2023年5月23日星期二数据挖掘导论22有序数据有序数据:序列数据序列数据n序列数据序列数据(sequence data)n个体项的序列个体项的序列 n例:基因组序列数据例:基因组序列数据nDNA都由都由4种核苷酸种核苷酸 A,T,G和和C构造构造n没有时间标记,但与时序数据类似没有时间标记,但与时序数据类似n重要的是在序列中的位置重要的是在序列中的位置GGTTCCGCCTTCAGCCCCGCGCCCGCAGGGCCCGCCC

    21、CGCGCCGTCGAGAAGGGCCCGCCTGGCGGGCGGGGGGAGGCGGGGCCGCCCGAGCCCAACCGAGTCCGACCAGGTGCCCCCTCTGCTCGGCCTAGACCTGAGCTCATTAGGCGGCAGCGGACAGGCCAAGTAGAACACGCGAAGCGCTGGGCTGCCTGCTGCGACCAGGG2023年5月23日星期二数据挖掘导论23有序数据有序数据:时间序列数据时间序列数据n 时间序列数据(时间序列数据(time series data)n特殊的时序数据,其中每个记录都是一个时间序列特殊的时序数据,其中每个记录都是一个时间序列(time seri

    22、es),即,即一段时间的测量序列一段时间的测量序列 n时间自相关(时间自相关(temporal autocorrelation),即如果两个测量的时间),即如果两个测量的时间很接近,这些测量的值通常非常相似很接近,这些测量的值通常非常相似 2023年5月23日星期二数据挖掘导论24有序数据有序数据:空间数据空间数据n空间数据空间数据 n具有空间属性,如位具有空间属性,如位置或区域置或区域n例例:不同的地理位置收不同的地理位置收集的气象数据(降水集的气象数据(降水量、气温、气压)量、气温、气压)n空间自相关性(空间自相关性(spatial autocorrelation):物物理上靠近的对象趋向

    23、理上靠近的对象趋向于在其他方面也相似于在其他方面也相似 n右图每月是空间数据右图每月是空间数据,显示多月是时间显示多月是时间-空间空间数据数据(Spatial-Temporal Data)2.2 数据质量数据质量2023年5月23日星期二数据挖掘导论26数据质量数据质量n数据质量有哪些问题数据质量有哪些问题?n如何检测这些数据问题如何检测这些数据问题?n如何处理这些数据问题如何处理这些数据问题?n数据质量问题的例子数据质量问题的例子:nNoise and outliers nmissing values nduplicate data2023年5月23日星期二数据挖掘导论27数据质量数据质量n

    24、测量误差和数据收集错误测量误差和数据收集错误 n测量误差(测量误差(measurement error)n测量过程导致的任何问题测量过程导致的任何问题 n数据收集错误(数据收集错误(data collection error)n遗漏数据对象或属性值,或不正确地包含数据对象等错误遗漏数据对象或属性值,或不正确地包含数据对象等错误 n测量误差和数据收集错误都可能是系统的或随机的测量误差和数据收集错误都可能是系统的或随机的 2023年5月23日星期二数据挖掘导论28数据质量数据质量:噪声噪声n噪声是测量误差的随机部分噪声是测量误差的随机部分n导致对原始值的改变导致对原始值的改变n例子例子:n使用质量

    25、很差的电话导致讲话人声音的失真使用质量很差的电话导致讲话人声音的失真n 电视屏幕上的电视屏幕上的“雪花点雪花点”Two Sine WavesTwo Sine Waves+Noise2023年5月23日星期二数据挖掘导论29数据质量数据质量:离群点离群点n离群点离群点(Outliers)ndata objects with characteristics that are considerably different than most of the other data objects in the data set2023年5月23日星期二数据挖掘导论30数据质量数据质量:缺失值缺失值n原因

    26、原因n信息为收集信息为收集(例如例如,人们不愿意提供年龄和体重人们不愿意提供年龄和体重)n属性可能不能用于所有情况属性可能不能用于所有情况(例如例如,年薪不能用于儿童年薪不能用于儿童)n处理处理n删除具有缺失值的数据对象删除具有缺失值的数据对象n估计缺失的值估计缺失的值 n在分析时忽略缺失值在分析时忽略缺失值n用最可能的值替换缺失值用最可能的值替换缺失值(用它们的概率加权用它们的概率加权)2023年5月23日星期二数据挖掘导论31数据质量数据质量:不一致的值不一致的值n数据可能包含不一致的值数据可能包含不一致的值n例如例如,地址字段,其中列出了邮政编码和城市,但是特定的邮政编码地址字段,其中列

    27、出了邮政编码和城市,但是特定的邮政编码区域并不包含在该城市区域并不包含在该城市 n纠正不一致需要附加或冗余信息纠正不一致需要附加或冗余信息 n时间序列数据中的不一致可能是使用不同的测量手段时间序列数据中的不一致可能是使用不同的测量手段n例例:海洋表面温度(海洋表面温度(SST)n19581982年用船或浮标年用船或浮标 收集收集SSTn1983年之后使用卫星收集年之后使用卫星收集SSTn两组数据两组数据,每组内的年相互之间趋向于正相关,但与另一组的年每组内的年相互之间趋向于正相关,但与另一组的年负相关负相关 2023年5月23日星期二数据挖掘导论32数据质量数据质量:重复数据重复数据n数据集可

    28、能包含这样的数据对象,它们是,或几乎是其他数据对象的复数据集可能包含这样的数据对象,它们是,或几乎是其他数据对象的复制品制品n主要出现在从多个异构数据源合并数据时主要出现在从多个异构数据源合并数据时nExamples:nSame person with multiple email addressesnData cleaningnProcess of dealing with duplicate data issues2023年5月23日星期二数据挖掘导论33数据质量数据质量:应用问题应用问题n时效性时效性 n例如例如,顾客的购买行为或顾客的购买行为或Web浏览模式的快照只代表有限时间内的真浏

    29、览模式的快照只代表有限时间内的真实情况实情况 n如果数据已经过时,则基于它的模型和模式也已经过时。如果数据已经过时,则基于它的模型和模式也已经过时。n相关性相关性 n可用的数据必须包含应用所需要的信息可用的数据必须包含应用所需要的信息n例如例如,构造一个模型,预测驾驶事故发生率构造一个模型,预测驾驶事故发生率n如果忽略了关于驾驶员的年龄和性别信息,那么除非这些信息如果忽略了关于驾驶员的年龄和性别信息,那么除非这些信息可以间接地通过其他属性得到,否则模型的精度可能是有限的可以间接地通过其他属性得到,否则模型的精度可能是有限的 2.3 数据预处理数据预处理2023年5月23日星期二数据挖掘导论35

    30、数据预处理数据预处理n数据预处理方法数据预处理方法n聚集聚集(Aggregation)n抽样抽样(Sampling)n维归约维归约(Dimensionality Reduction)n特征子集选择特征子集选择(Feature subset selection)n特征构造特征构造(Feature creation)n离散化与二元化离散化与二元化(Discretization and Binarization)n属性变换属性变换(Attribute Transformation)2023年5月23日星期二数据挖掘导论36聚集聚集nAggregation:n Combining two or mor

    31、e attributes(or objects)into a single attribute(or object)nPurposenData reductionn Reduce the number of attributes or objectsnChange of scalen Cities aggregated into regions,states,countries,etcnMore“stable”datan Aggregated data tends to have less variability 2023年5月23日星期二数据挖掘导论37聚集聚集:例例nVariation o

    32、f Precipitation in AustraliaStandard Deviation of Average Monthly PrecipitationStandard Deviation of Average Yearly Precipitation2023年5月23日星期二数据挖掘导论38抽样抽样n抽样是数据选择所用的主要技术抽样是数据选择所用的主要技术.n对于初步的数据探查和最终的数据分析,都常常使用抽样技术对于初步的数据探查和最终的数据分析,都常常使用抽样技术.n统计学抽样统计学抽样 vs 数据挖掘抽样数据挖掘抽样nStatisticians sample because obt

    33、aining the entire set of data of interest is too expensive or time consuming.nSampling is used in data mining because processing the entire set of data of interest is too expensive or time consuming.2023年5月23日星期二数据挖掘导论39抽样抽样n有效抽样的原则有效抽样的原则:n代表性代表性nusing a sample will work almost as well as using the

    34、 entire data sets,if the sample is representativen保留原数据集的性质保留原数据集的性质nA sample is representative if it has approximately the same property(of interest)as the original set of data 2023年5月23日星期二数据挖掘导论40抽样方法抽样方法n简单抽样简单抽样(Simple Random Sampling)nThere is an equal probability of selecting any particular i

    35、temn简单无放回抽样简单无放回抽样(Sampling without replacement)nAs each item is selected,it is removed from the populationn简单有放回抽样简单有放回抽样(Sampling with replacement)nObjects are not removed from the population as they are selected for the sample.nIn sampling with replacement,the same object can be picked up more th

    36、an oncen分层抽样分层抽样(Stratified sampling)nSplit the data into several partitions;then draw random samples from each partitionn每组抽相同个数每组抽相同个数vs按比例按比例2023年5月23日星期二数据挖掘导论41样本大小样本大小:例例n从从8000个点分别抽个点分别抽2000和和500个点个点n2000个点的样本保留了数据集的大部分结构个点的样本保留了数据集的大部分结构 n500个点的样本丢失了许多结构个点的样本丢失了许多结构8000 points 2000 Points500

    37、 Points2023年5月23日星期二数据挖掘导论42样本大小样本大小:例例n给定一个数据集,它包含少量容量大致相等的组。从每组至少找出一个给定一个数据集,它包含少量容量大致相等的组。从每组至少找出一个代表点代表点 2023年5月23日星期二数据挖掘导论43渐进抽样渐进抽样 n自适应自适应(adaptive)或渐进抽样或渐进抽样(progressive sampling)n原因:有时难以预先确定样本集大小原因:有时难以预先确定样本集大小n方法:从一个小样本开始,然后增加样本容量直至得到足够容量的方法:从一个小样本开始,然后增加样本容量直至得到足够容量的样本样本 n需要评估样本的方法,确定它是

    38、否足够大需要评估样本的方法,确定它是否足够大 n例:使用渐进抽样来学习一个预测模型例:使用渐进抽样来学习一个预测模型 n预测模型的准确率随样本容量增加,但是在某一点准确率的增预测模型的准确率随样本容量增加,但是在某一点准确率的增加趋于稳定加趋于稳定n在稳定点停止增加样本容量在稳定点停止增加样本容量 n找出准确率随样本容量变化的函数找出准确率随样本容量变化的函数2023年5月23日星期二数据挖掘导论44维归约维归约n数据集包含大量特征数据集包含大量特征n例:文档数据集,数以万计的词对应数以万计的属性例:文档数据集,数以万计的词对应数以万计的属性n维灾难维灾难(curse of dimension

    39、ality)n随着数据维度的增加,许多数据分析变得非常困难。特殊地,随着随着数据维度的增加,许多数据分析变得非常困难。特殊地,随着维度增加,数据在它所占据的空间中越来越稀疏维度增加,数据在它所占据的空间中越来越稀疏 n对于分类,这可能意味没有足够的数据对象来创建模型对于分类,这可能意味没有足够的数据对象来创建模型 n对于聚类,点之间的密度和距离的定义(对聚类是至关重要的)对于聚类,点之间的密度和距离的定义(对聚类是至关重要的)变得不太有意义变得不太有意义 n结果结果:对于高维数据对于高维数据,许多分类和聚类算法(以及其他数据分析算法)许多分类和聚类算法(以及其他数据分析算法)都有麻烦都有麻烦分

    40、类准确率降低,聚类质量下降分类准确率降低,聚类质量下降 2023年5月23日星期二数据挖掘导论45维归约维归约:目的与方法目的与方法n目的目的:nAvoid curse of dimensionalitynReduce amount of time and memory required by data mining algorithmsnAllow data to be more easily visualizednMay help to eliminate irrelevant features or reduce noisen技术技术nPCA:Principle Component An

    41、alysisnSVD:Singular Value DecompositionnOthers:supervised and non-linear techniques2023年5月23日星期二数据挖掘导论46维归约维归约:PCAn目标:找出反映数据中最大变差的的投影目标:找出反映数据中最大变差的的投影n方法:方法:n规范化:诸属性值映射到相同的区间规范化:诸属性值映射到相同的区间n找出协方差矩阵的特征向量找出协方差矩阵的特征向量n取特征值最大的几个特征向量,这些特征向量定义新空间取特征值最大的几个特征向量,这些特征向量定义新空间n将数据变换到新空间将数据变换到新空间x2x1e2023年5月23

    42、日星期二数据挖掘导论47特征子集选择特征子集选择nAnother way to reduce dimensionality of datan冗余特征(冗余特征(Redundant features)n冗余特征包含了一个或多个其他属性所包含的大部分或所有信息冗余特征包含了一个或多个其他属性所包含的大部分或所有信息n例例:产品的购买价格和销售税,其中一个是冗余的产品的购买价格和销售税,其中一个是冗余的n不相关特征(不相关特征(Irrelevant features)n不包含对当前数据挖掘任务有用的信息不包含对当前数据挖掘任务有用的信息n例例:学号对于预测学生的学号对于预测学生的GPA是不相关的是不

    43、相关的2023年5月23日星期二数据挖掘导论48特征子集选择特征子集选择:技术技术n技术技术:n强力方法强力方法:n尝试用所有可能的数据特征子集作为数据挖掘算法的输入,找尝试用所有可能的数据特征子集作为数据挖掘算法的输入,找最好的子集最好的子集n内含方法内含方法:n特征选择作为数据挖掘算法的一部分,如决策树归纳特征选择作为数据挖掘算法的一部分,如决策树归纳n过滤方法过滤方法:n在数据挖掘算法运行前进行特征选择在数据挖掘算法运行前进行特征选择n封装(封装(Wrapper)方法)方法:n使用数据挖掘算法作为黑箱,找出最佳的属性子集使用数据挖掘算法作为黑箱,找出最佳的属性子集data mining

    44、algorithm as a black box to find best subset of attributesn例如,使用决策树例如,使用决策树2023年5月23日星期二数据挖掘导论49特征子集选择过程流程特征子集选择过程流程 选择的属性选择的属性验证过程验证过程停止标准停止标准属性属性搜索策略搜索策略评估评估属性子集属性子集满足满足不满足不满足2023年5月23日星期二数据挖掘导论50特征创建特征创建nCreate new attributes that can capture the important information in a data set much more effi

    45、ciently than the original attributesn三种一般方法三种一般方法:nFeature Extractionndomain-specificnMapping Data to New SpacenFeature Constructionn combining features 2023年5月23日星期二数据挖掘导论51映射数据到新空间映射数据到新空间n傅里叶变换傅里叶变换(Fourier transform)n小波变换小波变换(Wavelet transform)n例例:傅里叶变换傅里叶变换n左左:两个两个sin波波;n中中:两个两个sin波之和波之和+噪声噪声;检

    46、测不到模式检测不到模式n右右:傅里叶变换到频谱傅里叶变换到频谱;两个尖峰对应于两个无噪声的时间序列两个尖峰对应于两个无噪声的时间序列 Two Sine WavesTwo Sine Waves+NoiseFrequency2023年5月23日星期二数据挖掘导论52特征构造特征构造n原始数据集的特征具有必要的信息,但其形式不适合数据挖掘算法原始数据集的特征具有必要的信息,但其形式不适合数据挖掘算法 n由原特征构造的新特征可能比原特征更有用由原特征构造的新特征可能比原特征更有用 n例例:文物数据库文物数据库n每件文物的特征包括每件文物的特征包括:体积和质量,以及其他信息体积和质量,以及其他信息 n文

    47、物材质文物材质(类类):木材、陶土、青铜、黄金木材、陶土、青铜、黄金 n原特征不适合分类原特征不适合分类n构造新特征构造新特征:密度密度=质量质量/体积体积2023年5月23日星期二数据挖掘导论53离散化和二元化离散化和二元化 n为什么要离散化为什么要离散化/二元化二元化n减少属性值个数,便于挖掘,结果知识表达更简洁、更易于理解、减少属性值个数,便于挖掘,结果知识表达更简洁、更易于理解、更易使用更易使用n离散化产生概念分层结构,可以在不同抽象层进行挖掘离散化产生概念分层结构,可以在不同抽象层进行挖掘n有些算法需要离散属性有些算法需要离散属性n有些算法需要二元属性有些算法需要二元属性n非监督非监

    48、督 vs 监督离散化监督离散化n差别:是否使用类信息差别:是否使用类信息2023年5月23日星期二数据挖掘导论54离散属性二元化离散属性二元化(1)n方法方法1n如果属性具有如果属性具有m个值,则将每个原始值唯一地映射到区间个值,则将每个原始值唯一地映射到区间0,m 1中中的一个整数的一个整数(保序保序)n把把m个整数都变换成一个二进制数个整数都变换成一个二进制数n需要需要n=log2m 个二进位表示这些整数个二进位表示这些整数 n用用n个二元属性表示这些二进制数个二元属性表示这些二进制数 n例例:5个值个值awful,poor,OK,good,great的分类变量需要三个二元变的分类变量需要

    49、三个二元变量量x1、x2、x3 2023年5月23日星期二数据挖掘导论55离散属性二元化离散属性二元化(2)n方法方法1的缺点的缺点n建立了属性之间的联系,如建立了属性之间的联系,如good值用值用x2=1,x3=1表示表示n不适合非对称属性处理不适合非对称属性处理n非对称的二元属性,非对称的二元属性,1比比0更重要更重要n方法方法2:n对对m个属性值建立个属性值建立m个二元变量,每个对应于一个原属性值个二元变量,每个对应于一个原属性值2023年5月23日星期二数据挖掘导论56连续属性离散化连续属性离散化 n基本思想基本思想n将连续属性值排序后,通过指定将连续属性值排序后,通过指定n 1个分割

    50、点(个分割点(split point)把它们)把它们分成分成n个区间个区间 n将一个区间中的所有值映射到相同的分类值将一个区间中的所有值映射到相同的分类值 n离散化问题就是决定选择多少个分割点和确定分割点位置的问题离散化问题就是决定选择多少个分割点和确定分割点位置的问题n分割点数目一般由用户确定分割点数目一般由用户确定n分割点位置可以用非监督分割点位置可以用非监督/监督方法确定监督方法确定n结果表示结果表示n区间集合:区间集合:(x0,x1,(x1,x2,.,(xn-1,xn),其中,其中x0和和xn可以分别为可以分别为-或或+n一系列不等式:一系列不等式:x0 x x1,.,xn-1 x x

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:第2章-数据课件.ppt
    链接地址:https://www.163wenku.com/p-6042698.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库