数据挖掘工具教程课件.ppt

上传人（卖家）：三亚风情

文档编号：3326093

上传时间：2022-08-20

格式：PPT

页数：57

大小：592KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

28 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《数据挖掘工具教程课件.ppt》由用户（三亚风情）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据挖掘工具教程课件

资源描述：: 1、数据挖掘工具数据挖掘工具WEKA教程教程广东外语外贸大学杜剑峰WEKA教程1.WEKA简介2.数据格式3.数据准备4.属性选择5.可视化分析6.分类预测7.关联分析8.聚类分析9.扩展WEKA课程的总体目标和要求：课程的总体目标和要求：v熟悉WEKA的基本操作，了解WEKA的各项功能v掌握数据挖掘实验的流程准备数据选择算法和参数运行评估实验结果v了解或掌握在WEKA中加入新算法的方法1、WEKA简介vWEKA的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），其源代码可从http:/www.cs.waikato.ac.nz/ml/
2、weka/得到。同时weka也是新西兰的一种鸟名，而WEKA的主要开发者来自新西兰。v2005年8月，在第11届ACM SIGKDD国际会议上，怀卡托大学的WEKA小组荣获了数据挖掘和知识探索领域的最高服务奖，WEKA系统得到了广泛的认可，被誉为数据挖掘和机器学习历史上的里程碑，是现今最完备最完备的数据挖掘工具之一。WEKA的每月下载次数已超过万次。1、WEKA简介（续）v作为一个大众化的数据挖掘工作平台，WEKA集成了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理、分类、回归、聚类、关联分析以及在新的交互式界面上的可视化等等。通过其接口，可在其基础上实现自己的数据挖掘算法。WEK
3、A的界面2、数据格式vWEKA所用的数据格式（跟Excel一样）Explorer界面界面 Open file Edit2、数据格式（续）uWEKA文件相关术语表格里的一个横行称作一个实例（Instance），相当于统计学中的一个样本，或者数据库中的一条记录。竖行称作一个属性（Attribute），相当于统计学中的一个变量，或者数据库中的一个字段。这样一个表格，或者叫数据集，在WEKA看来，呈现了属性之间的一种关系(Relation)。上图中一共有14个实例，5个属性，关系名称为“weather”。WEKA存储数据的格式是ARFF（Attribute-Relation File Format）
4、文件，这是一种ASCII文本文件。上图所示的二维表格存储在如下的ARFF文件中。这也就是WEKA自带的“weather.arff”文件，在WEKA安装目录的“data”子目录下可以找到。2、数据格式（续）v文件内容说明识别ARFF文件的重要依据是分行，因此不能在这种文件里随意的断行。空行（或全是空格的行）将被忽略。以“%”开始的行是注释，WEKA将忽略这些行。如果你看到的“weather.arff”文件多了或少了些“%”开始的行，是没有影响的。除去注释后，整个ARFF文件可以分为两个部分。第一部分给出了头信息（Head information），包括了对关系的声明和对属性的声明。第二部分给出
5、了数据信息（Data information），即数据集中给出的数据。从“data”标记开始，后面的就是数据信息了。2、数据格式（续）v关系声明关系名称在ARFF文件的第一个有效行来定义，格式为 relation 是一个字符串。如果这个字符串包含空格，它必须加上引号（指英文标点的单引号或双引号）。2、数据格式（续）v属性声明属性声明用一列以“attribute”开头的语句表示。数据集中的每一个属性都有它对应的“attribute”语句，来定义它的属性名称和数据类型。这些声明语句的顺序很重要。首先它表明了该项属性在数据部分的位置。例如，“humidity”是第三个被声明的属性，这说明数据部分
6、那些被逗号分开的列中，第三列数据 85 90 86 96.是相应的“humidity”值。其次，最后一个声明的属性被称作class属性，在分类或回归任务中，它是默认的目标变量。属性声明的格式为 attribute 其中是必须以字母开头的字符串。和关系名称一样，如果这个字符串包含空格，它必须加上引号。2、数据格式（续）vWEKA支持的有四种numeric数值型标称（nominal）型string字符串型date 日期和时间型其中和将在下面说明。还可以使用两个类型“integer”和“real”，但是WEKA把它们都当作“numeric”看待。注意“integer”，“real”，“nume
7、ric”，“date”，“string”这些关键字是区分大小写的，而“relation”、“attribute”和“data”则不区分。2、数据格式（续）v数值属性数值型属性可以是整数或者实数，但WEKA把它们都当作实数看待。v标称属性标称属性由列出一系列可能的类别名称并放在花括号中：,.。数据集中该属性的值只能是其中一种类别。例如如下的属性声明说明“outlook”属性有三种类别：“sunny”，“overcast”和“rainy”。而数据集中每个实例对应的“outlook”值必是这三者之一。attribute outlook sunny,overcast,rainy 如果类别名称带有空
8、格，仍需要将之放入引号中。2、数据格式（续）u字符串属性字符串属性中可以包含任意的文本。这种类型的属性在文本挖掘中非常有用。示例：ATTRIBUTE LCC string u日期和时间属性日期和时间属性统一用“date”类型表示，它的格式是 attribute date 其中是这个属性的名称，是一个字符串，来规定该怎样解析和显示日期或时间的格式，默认的字符串是ISO-8601所给的日期时间组合格式“yyyy-MM-ddTHH:mm:ss”。数据信息部分表达日期的字符串必须符合声明中规定的格式要求（下文有例子）。2、数据格式（续）u数据信息数据信息中“data”标记独占一行，剩下的是各个实
9、例的数据。每个实例占一行。实例的各属性值用逗号“,”隔开。如果某个属性的值是缺失值（missing value），用问号“?”表示，且这个问号不能省略。例如：data sunny,85,85,FALSE,no?,78,90,?,yes2、数据格式（续）u字符串属性和标称属性的值是区分大小写的。若值中含有空格，必须被引号括起来。例如：relation LCCvsLCSH attribute LCC string attribute LCSH string data AG5,Encyclopedias and dictionaries.;Twentieth century.AS262,Scienc
10、e-Soviet Union-History.2、数据格式（续）u日期属性的值必须与属性声明中给定的相一致。例如：RELATION Timestamps ATTRIBUTE timestamp DATE yyyy-MM-dd HH:mm:ss DATA 2001-04-03 12:12:12 2001-05-03 12:59:553、数据准备v数据文件格式转换使用WEKA作数据挖掘，面临的第一个问题往往是我们的数据不是ARFF格式的。幸好，WEKA还提供了对CSV文件的支持，而这种格式是被很多其他软件，比如Excel，所支持的。现在我们打开“bank-data.csv”。利用WEKA可以将CS
11、V文件格式转化成ARFF文件格式。ARFF格式是WEKA支持得最好的文件格式。此外，WEKA还提供了通过JDBC访问数据库的功能。v“Explorer”界面界面“Explorer”提供了很多功能，是WEKA使用最多的模块。现在我们先来熟悉它的界面，然后利用它对数据进行预处理。3、数据准备（续）vbank-data数据各属性的含义如下：id:a unique identification number age:age of customer in years(numeric)sex:MALE/FEMALE region:inner_city/rural/suburban/town income:
12、income of customer(numeric)married:is the customer married(YES/NO)children:number of children(numeric)car:does the customer own a car(YES/NO)save_act:does the customer have a saving account(YES/NO)current_act:does the customer have a current account(YES/NO)mortgage:does the customer have a mortgage(
13、YES/NO)pep:did the customer buy a PEP(Personal Equity Plan，个人参股计划)after the last mailing(YES/NO)123456783、数据准备（续）v上图显示的是“Explorer”打开“bank-data.csv”的情况。我们根据不同的功能把这个界面分成8个区域。1.区域1的几个选项卡是用来切换不同的挖掘任务面板。这一节用到的只有“Preprocess”，其他面板的功能将在以后介绍。2.区域2是一些常用按钮。包括打开数据，保存及编辑功能。我们可以在这里把“bank-data.csv”另存为“bank-data.ar
14、ff”。3.在区域3中“Choose”某个“Filter”，可以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。4.区域4展示了数据集的一些基本情况。3、数据准备（续）5.区域5中列出了数据集的所有属性。勾选一些属性并“Remove”就可以删除它们，删除后还可以利用区域2的“Undo”按钮找回。区域5上方的一排按钮是用来实现快速勾选的。在区域5中选中某个属性，则区域6中有关于这个属性的摘要。注意对于数值属性和标称属性，摘要的方式是不一样的。图中显示的是对数值属性“income”的摘要。6.区域7是区域5中选中属性的直方图。若数据集的最后一个属性（这是分类或回归任务的默认目标变
15、量）是类标变量（这里的“pep”正好是），直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。要想换个分段的依据，在区域7上方的下拉框中选个不同的分类属性就可以了。下拉框里选上“No Class”或者一个数值属性会变成黑白的直方图。7.区域8是状态栏，可以查看Log以判断是否有错。右边的weka鸟在动的话说明WEKA正在执行挖掘任务。右键点击状态栏还可以执行JAVA内存的垃圾回收。3、数据准备（预处理1）v去除无用属性通常对于数据挖掘任务来说，ID这样的信息是无用的，我们将之删除。在区域5勾选属性“id”，并点击“Remove”。将新的数据集保存为“bank-data.arff”，重新
16、打开。接下来演示“RemoveType”。v离散化我们知道，有些算法(如关联分析)，只能处理所有的属性都是标称型的情况。这时候我们就需要对数值型的属性进行离散化。在这个数据集中有3个变量是数值型的，分别是“age”，“income”和“children”。其中“children”只有4个取值：0，1，2，3。这时我们直接修改ARFF文件，把 attribute children numeric 改为 attribute children 0,1,2,3 就可以了。在“Explorer”中重新打开“bank-data.arff”，看看选中“children”属性后，区域6那里显示的“Type”变
17、成“Nominal”了。3、数据准备（预处理2）v离散化（续）u“age”和“income”的离散化可借助WEKA中名为“Discretize”的Filter来完成。在区域2中点“Choose”，出现一棵“Filter树”，逐级找到“weka.filters.unsupervised.attribute.Discretize”，点击。现在“Choose”旁边的文本框应该显示“Discretize-B 10-M-0.1-R first-last”。点击这个文本框会弹出新窗口以修改离散化的参数。我们不打算对所有的属性离散化，只是针对对第1个和第4个属性（见区域5属性名左边的数字），故把attrib
18、uteIndices右边改成“1,4”。计划把这两个属性都分成3段，于是把“bins”改成“3”。其它框里不用更改。点“OK”回到“Explorer”，可以看到“age”和“income”已经被离散化成分类型的属性。若想放弃离散化可以点区域2的“Undo”。u经过上述操作得到的数据集我们保存为bank-data-final.arff。3、数据准备（预处理3）v属性类型转换NominalToBinary过滤器将所有nominal类型的属性转为binary(0,1二值)属性，一个可取k个值的nominal类型的属性转为k个二值属性，这样可将数据中所有属性转为数值(numeric)属性。以下是wea
19、ther.arff转换后的结果。3、数据准备（预处理4）v增加一个表达式属性uAddExpression:An instance filter that creates a new attribute by applying a mathematical expression to existing attributes.The expression can contain attribute references and numeric constants.Supported operators are:+,-,*,/,log,abs,cos,exp,sqrt,floor,ceil,rint
20、,tan,sin,(,)uAttributes are specified by prefixing with a,eg.a7 is attribute number 7(starting from 1).Example expression:a12*a5/log(a7*4.0).以下命令在weather.arff中增加了一个temp/hum属性，其值为第二个属性（temperature）除以第三个属性（humidity）的值。AddExpression E a2/a3 N temp/hum3、数据准备（预处理5）v采样u使用weka.filters.supervised.instance.R
21、esample对整个数据集进行分层的采样(stratified subsample，采样所得数据仍保持原来的类分布)。以下Filter命令从soybean.arff中采样了5%的数据。Resample B 1.0 S 1 Z 5.0u使用weka.filters.unsupervised.instance.Resample 进行不分层的采样，即与类信息无关。以下Filter命令从soybean.arff中采样了5%的数据。Resample S 1 Z 5.04、属性选择v两种属性子集选择模式属性子集评估器搜索方法单一属性评估器排序方法4.1 属性选择模式1v属性子集评估器CfsSubset
22、Eval:综合考虑单一属性的预测值和属性间的重复度ClassifierSubsetEval:用分类器评估属性集ConsistencySubsetEval:将训练数据集映射到属性集上来检测类值的一致性WrapperSubsetEval:使用分类器和交叉验证v搜索方法BestFirst:回溯的贪婪搜索ExhaustiveSearch:穷举搜索GeneticSearch:使用遗传算法搜索GreedyStepwise:不回溯的贪婪搜索RaceSearch:竞争搜索RandomSearch:随机搜索RankSearch:排列属性并使用属性子集评估器将有潜力的属性进行排序4.2、属性选择模式2v单一属性评
23、估器ChiSquaredAttributeEval:以基于类的2为依据的属性评估GainRationAttributeEval:以增益率为依据的属性评估InfoGainAttributeEval:以信息增益为依据的属性评估OneRAttributeEval:以OneR的方法论来评估属性PrincipleComponents:进行主成分的分析和转换ReliefAttributeEval:基于实例的属性评估器SymmetricalUncertAttributeEval:以对称不确定性为依据的属性评估v排序方法Ranker:按照属性的评估对它们进行排序5、可视化分析v二维散列图选择类标v标称类标：数
24、据点的颜色是离散的v数值类标：数据点的颜色用色谱（蓝色到橙色）表示改变点阵的大小和点的大小改变抖动度，使互相重叠的点分开选择属性子集和采样注意：必须点击Update按钮上述改动才能生效6、分类预测lWEKA把分类(Classification)和回归(Regression)都放在“Classify”选项卡中。在这两个任务中，都有一个目标属性（类别属性，输出变量）。我们希望根据一个样本(WEKA中称作实例)的一组特征（输入变量），对目标进行预测。为了实现这一目的，我们需要有一个训练数据集，这个数据集中每个实例的输入和输出都是已知的。观察训练集中的实例，可以建立起预测的模型。有了这个模型，我们就
25、可以对新的未知实例进行预测了。衡量模型的好坏主要在于预测的准确程度。选择分类算法vWEKA中的典型分类算法Bayes:贝叶斯分类器vBayesNet:贝叶斯信念网络vNaveBayes:朴素贝叶斯网络Functions:人工神经网络和支持向量机vMultilayerPerceptron:多层前馈人工神经网络vSMO:支持向量机（采用顺序最优化学习方法）Lazy:基于实例的分类器vIB1:1-最近邻分类器vIBk:k-最近邻分类器选择分类算法Meta:组合方法vAdaBoostM1:AdaBoost M1方法vBagging:袋装方法Rules:基于规则的分类器vJRip:直接方法Ripper算
26、法vPart:间接方法从J48产生的决策树抽取规则Trees:决策树分类器vId3:ID3决策树学习算法（不支持连续属性）vJ48:C4.5决策树学习算法（第8版本）vREPTree:使用降低错误剪枝的决策树学习算法:基于决策树的组合方法选择模型评估方法v四种方法完全使用训练集使用外部的检验集交叉验证v设置折数保持方法v设置训练实例的百分比v其他设置设置代价矩阵文字结果分析窗口显示的文字结果信息：v运行信息v使用全部训练数据构造的分类模型v针对训练/检验集的预测效果汇总k-折交叉验证的结果是k次实验的汇总即 TP=TP1+TPk,FN=FN1+FNk,FP=FP1+FPk,TN=TN1+TNk
27、v基于类的详细结果加权平均的系数是类大小的百分比v混淆矩阵图形结果分析v可视化分类错误实际类与预测类的散布图v可视化模型可视化图：贝叶斯网络v查看条件概率表可视化树：决策树v居中显示v屏幕大小显示v自动调整显示v查看结点关联的训练集图形结果分析v可视化边缘曲线(margin curve)显示预测边缘，即实际类的预测概率与其他类的最大预测概率的差别对于每个检验实例，从小到大显示预测边缘四个变量vMargin:预测边缘的值vInstance_number:检验实例的序号vCurrent:具有当前预测边缘值的实例个数vCumulative:小于或等于预测边缘值的实例个数（与Instance_numb
28、er一致）图形结果分析v可视化阈值曲线（基于类）阈值是将检验实例归为当前类的最小概率，使用点的颜色表示阈值曲线上的每个点通过改变阈值的大小生成可以进行ROC分析vX轴选假正率vY轴选真正率问题：为什么决策树也可以进行ROC分析？v可能答案：叶子不一定是纯的，存在类的概率分布实验者界面v优点同时对多个数据集和多个分类算法工作可以比较多个分类算法的性能v缺点不能使用数据预处理工具不能选择类标，只能将输入数据集的最后一个属性作为类标v三个页面设置页面(Setup)设置实验参数运行页面(Run)启动实验，监视实验过程分析页面(Analyze)分析实验结果设置页面v设置实验配置模式(Experiment
29、 Configuration Mode)v设置保存结果路径(Choose Destination)v设置实验类型(Experiment Type)交叉验证保持方法（随机化记录次序）保持方法（未知原有记录次序）v迭代控制(Iteration Control)设置实验迭代次数，特别适用于保持方法v数据集(Datasets)增加数据集，类标是数据集最后一个属性v分类算法(Algorithms)增加算法设置算法参数运行页面v点击运行，报告运行情况v运行后生成一个数据集一个记录对应一个数据集和一个分类算法的一次实验，字段包括算法、数据集和不同的性能度量分析仅限于数值分析和显著性测试没有可视化分析功能分析
30、页面v实验结果数据源(Source)v配置测试(Configure test)选择行和列，行缺省是数据集，列缺省是Scheme,Scheme_options和Scheme_version_ID基准分类模型(Test base)v某个输入模型v汇总(summary)v排序(ranking)v结果列表(Result list)v测试输出(Test output)实验内容v分组对UCI数据集进行实验http:/archive.ics.uci.edu/ml/datasets.html12个组每组选择一个数据集分析v实验内容使用一个UCI数据集，选择任意三个分类算法分析三个分类算法的实验结果v解释文字分
31、析结果v解释图形分析结果使用两个性能度量比较三个分类算法的性能差异v解释基于某个分类算法的性能比较结果v解释基于排序的性能比较结果知识流界面v功能：将WEKA组件在设计画布上相互连接以形成可进行动态数据处理分析的知识流v两种数据处理模式1.批量处理2.增量处理探索者界面不支持增量处理数据目前WEKA实现了下面这些可增量学习的分类器：AODE、IB1、IBk、KStar、NaiveBayesMultinomialUpdateable、NaiveBayesUpdateable、NNge、Winnow、RacedIncrementalLogitBoost、LWL批量处理模式v交叉验证J48显示Dat
32、asources ArffLoaderEvaluation ClassAssignerEvaluation CrossValidationFoldMakerClassifiers J48Evaluation ClassifierPerformanceEvaluatorVisualization TextViewerVisualization GraphViewer批量处理模式v交叉验证J48显示批量处理模式v交叉验证BayesNet显示Datasources ArffLoaderEvaluation ClassAssignerEvaluation CrossValidationFoldMake
33、rClassifiers BayesNetEvaluation ClassifierPerformanceEvaluatorVisualization TextViewerVisualization GraphViewer批量处理模式v交叉验证BayesNet显示增量处理模式v增量学习NaiveBayesUpdateable显示Datasources ArffLoaderEvaluation ClassAssignerClassifiers NaiveBayesUpdateableEvaluation IncrementalClassiferEvaluatorVisualization Tex
34、tViewerVisualization StripChartvAccuracy 准确率vRMSE 均方根误差(root-mean-square error)增量处理模式v增量学习NaiveBayesUpdateable显示7、关联分析vSoybean数据的关联分析用“Explorer”打开“soybean.arff”后，切换到“Associate”选项卡。默认关联规则分析是用Apriori算法。点“Choose”右边的文本框修改默认的参数，弹出的窗口中点“More”可以看到各参数的说明。点击“Start”按钮开始关联分析。vWEKA中关联分析的过程从数据项的最少支持度100%开始，逐步递减5
35、，直到至少有所要求的最小置信度为0.9的10条规则，或者支持度达到了10%的下限。Apriori的有关知识v对于关联规则L-R，由支持度决定规则的统计显著性，并由四种不同的因素之一决定规则的优先度。v支持度（support）同时观察到前件和后件的概率support=Pr(L,R)v置信度（confidence）出现前件时同时出现后件的概率confidence=Pr(L,R)/Pr(L)v提升度（lift）置信度与后件支持度的比率lift=Pr(L,R)/(Pr(L)Pr(R)v平衡度（leverage）在前件和后件统计独立的假设下，被前件和后件同时涵盖的超出期望值的那部分实例的比例levera
36、ge=Pr(L,R)-Pr(L)Pr(R)v可信度（conviction）也用来衡量前件和后件的独立性conviction=Pr(L)Pr(not R)/Pr(L,R)参数设置v任务一：挖掘支持度在10%到100%之间，并且提升度超过1.5且提升度排在前100位的关联规则“lowerBoundMinSupport”和“upperBoundMinSupport”分别设为0.1和1“metricType”设为lift“minMetric”设为1.5“numRules”设为100v任务二：挖掘支持度在10%到100%之间，并且置信度超过0.8且置信度排在前100位的分类关联规则分类关联规则数据集为“
37、weather.nominal.arff”“car”设为True“metricType”设为confidence(只能选confidence!)“minMetric”设为0.8“numRules”设为1008、聚类分析v聚类分析是把对象分配给各个簇，使同簇中的对象相似，而不同簇间的对象相异。vWEKA在“Explorer”界面的“Cluster”提供聚类分析工具，主要算法包括：SimpleKMeans 支持分类属性的K均值算法DBScan 支持分类属性的DBSCAN算法EM 基于混合模型的聚类算法FathestFirst K中心点算法OPTICS 基于密度的另一个算法Cobweb 概念聚类算法
38、sIB 基于信息论的聚类算法，不支持分类属性XMeans 能自动确定簇个数的扩展K均值算法，不支持分类属性参数设置v聚类模式使用训练集(Use training set)报告训练对象的聚类结果和分组结果使用附加的检验集(Supplied test set)报告训练对象的聚类结果和附加的检验对象的分组结果百分比划分(Percentage split)报告全部对象的聚类结果、训练对象的聚类结果，以及检验对象的分组结果监督评估(Classes to clusters evaluation)报告训练对象的聚类结果和分组结果、类/簇混淆矩阵和错误分组信息vSimpleKMeans重要参数N 簇个数vDB
39、Scan重要参数E EpsM MinPts结果分析v文字分析SimpleKMeansv非监督模式：运行信息、KMeans结果（迭代次数、SSE、簇中心）、检验对象的分组信息v监督模式：运行信息、KMeans结果（迭代次数、SSE、簇中心）、类/簇混淆矩阵、错误分组的对象个数和比例v簇中心：对于数值属性为均值，对于分类属性为众数DBScanv非监督模式：运行信息、DBScan结果（迭代次数、各个训练对象的分组信息）、检验对象的分组信息v监督模式：运行信息、DBScan结果（迭代次数、各个训练对象的分组信息）、类/簇混淆矩阵、错误分组的对象个数和比例v图形分析（必须将store clusters
40、for visualization勾上）可视化簇指派(Visualize cluster assignments)：2D散布图，能够可视化类/簇混淆矩阵WEKA小结v数据预处理Explorer Preprocess:Explorer Select attributes:还可以在Preprocess页面使用属性选择方法v数据可视化Explorer Visualize:二维散布图v分类预测Explorer Classify:Experimenter:比较多个算法的性能KnowledgeFlow:批量/增量学习模式v关联分析Explorer Associate:v聚类分析Explorer Cluster:

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：数据挖掘工具教程课件.ppt
链接地址：https://www.163wenku.com/p-3326093.html

三亚风情

内容提供者

实名认证

联系作者