书签 分享 收藏 举报 版权申诉 / 24
上传文档赚钱

类型数据挖掘工具软件介绍weka课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:3325442
  • 上传时间:2022-08-20
  • 格式:PPT
  • 页数:24
  • 大小:299.51KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《数据挖掘工具软件介绍weka课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 挖掘 工具软件 介绍 weka 课件
    资源描述:

    1、数据挖掘软件介绍目前较为著名的数据挖掘软件n传统的数据挖掘套件(Classic suites):SAS Enterprise Miner 5.3SPSS Clementine 12n开源数据挖掘软件(Open Source):RapidMiner 4.2 http:/ 2.0 http:/www.knime.org/Weka 3.6n专门化的数据挖掘软件(Specialized):Viscovery SOMiner 5.0prudsys Discovery 5.5/Basket Analyzer 5.2Bissantz Delta Master 5.3.62目前较为著名的数据挖掘软件n自动化数

    2、据挖掘软件(Self-Acting):KXEN Analytic Framework 4.04nBI产品内置的数据挖掘软件(BI Vendors):SAP NetWear 7.0 Data Mining WorkbenchOracle 11g Data MiningMicrosoft SQL Server 2005 Analysis Servicesn其他优秀的软件nTeradata Warehouse MinernIBM的DB2 Intelligence MinernAngoss的KnowledgeSTUDIOnUnica3WEKAn简介http:/www.cs.waikato.ac.nz/

    3、ml/weka中文论坛http:/bbs2.wekacn.org/n功能ProgramLogWindowMemeryUsageExitVisualization4WEKA PLOTROCTreeVisualizerGraphVisualizerBoundaryVisualizerToolsArffViewerSqlViewerBayesNetEditer5WEKAApplicationsExplorerExperimenterKnowledgeFlowSimpleCLIHelpWeka homepageHOWTOs,code snippets,etc.Weka on SourceforgeSy

    4、stemInfo6WEKA nWEKA Explorer 1.Preprocess.选择和修改要处理的数据。2.Classify.训练和测试关于分类或回归的学习方案。3.Cluster.从数据中学习聚类。4.Associate.从数据中学习关联规则。5.Select attributes.选择数据中最相关的属性。6.Visualize.查看数据的交互式二维图像。7.Memory Information.在 log 栏中显示 WEKA 可用的内存量。8.Run garbage collector.强制运行 Java 垃圾回收器,搜索不再需要的内存空间7WEKA EXPLORERn载入数据n1.O

    5、pen file.打开一个对话框,允许你浏览本地文件系统上的数据文件。n2.Open URL.请求一个存有数据的 URL 地址。n3.Open DB.从数据库中读取数据(注意,要使之可用,可能需要编辑nweka/experiment/DatabaseUtils.props 中的文件)n4.Generate.从一些数据生成器(DataGenerators)中生成人造数据。8WEKA EXPLORERn处理属性处理属性n1.No.一个数字,用来标识数据文件中指定的各属性的顺序。n2.选择框.允许勾选关系中呈现的各属性。n3.Name.数据文件中声明的各属性的名称。n当点击属性列表中的不同行时,右边

    6、Selected attribute 一栏的内容随之改变。这一栏给出了列表中当前高亮显示的属性的一些描述:n1.Name.属性的名称,和属性列表中给出的相同。n2.Type.属性的类型,最常见的是分类型(Nominal)和数值型(Numeric)。n3.Missing.数据中该属性缺失(或者未指定)的实例的数量(及百分比)。n4.Distinct.数据中该属性包含的不同值的数目。n5.Unique.唯一地拥有某值的实例的数目(及百分比),这些实例每个的取值都和别的不一样。9WEKA EXPLORER ATTRIBUTESnPattern.n让用户基于 Perl 5 正则表达式来选择属性。例如所

    7、有以M开头的属性。n筛选器筛选器filternGenericObjectEditor 对话框n应用筛选器 注意:一些筛选器会依据是否设置了 class 属性来做出不同的动作。(点击直方图上方那一栏时,会出现一个可供选择的下拉列表。)特别的,“supervised filters”(监督式筛选器)需要设置一个 class 属性,而某些“unsupervised attribute filters”(非监督式属性筛选器)将忽略 class 属性。注意也可以将 Class 设成 None,这时没有设置 class属性。10WEKA EXPLORER CLASSIFYn分类器分类器选择分类器测试选项n

    8、1.Using training set.根据分类器在用来训练的实例上的预测效果来评价它。n2.Supplied test set.从文件载入的一组实例,根据分类器在这组实例上的预测效果来评价它。点击 Set 按钮将打开一个对话框来选择用来测试的文件。n3.Cross-validation.使用交叉验证来评价分类器,所用的折数填在Folds 文本框中。n4.Percentage split.从数据集中按一定百分比取出部分数据放在一边作测试用,根据分类器这些实例上预测效果来评价它。取出的数据量由%一栏中的值决定。11WEKA EXPLORER CLASSIFYn分类器输出文本分类器输出文本nCl

    9、assifier output 区域的文本有一个滚动条以便浏览结果。按住 Alt 和 Shift 键,在这个区域点击鼠标左键,会出现一个对话框,让你用各种格式(目前可用 JPEG 和 EPS)保存输出的结果。n输出结果输出结果n1.Run information.给出了学习算法各选项的一个列表。包括了学习过程中涉及到的关系名称,属性,实例和测试模式。n2.Classifier model(full training set).用文本表示的基于整个训练集的分类模型。n所选测试模式的结果可以分解为以下几个部分:n3.Summary.一列统计量,描述了在指定测试模式下,分类器预测 class 属性的

    10、准确程度。n4.Detailed Accuracy By Class.更详细地给出了关于每一类的预测准确度的描述。n5.Confusion Matrix.给出了预测结果中每个类的实例数。其中矩阵的行是实际的类,矩阵的列是预测得到的类,矩阵元素就是相应测试样本的个数。12WEKA EXPLORER CLUSTERn聚类n聚类模式nUse training setnSupplied test set nPercentage splitn前三个和分类的一样nClasses to clusters evaluation是要比较所得到的聚类与在数据中预先给出的类别吻合得怎样。13WEKA EXPLORE

    11、R ASSOCIATEn关联规则n关联规则的学习器也可以跟其它面板的聚类器,筛选器和分类器一样选择和配置。14Attribute Selectionn属性选择属性选择n属性选择是说搜索数据集中全部属性的所有可能组合,找出预测效果最好的那一组属性。为实现这一目标,必须设定两个东西:属性评估器(evaluator)和搜索策略。评估器决定了怎样给一组属性安排一个表示它们好坏的值。搜索策略决定了要怎样进行搜索。nAttribute Selection Mode 一栏有两个选项。n1.Use full training set.使用训练数据的全体好决定一组属性的好坏。n2.Cross-validatio

    12、n.一组属性的好坏通过一个交叉验证过程来决定。Fold 和nSeed 分别给出了交叉验证的折数和打乱数据时的随机种子。15WEKA EXPLORER Visualizen散点图矩阵散点图矩阵n选择了 Visualize 面板后,会为所有的属性给出一个散点图矩阵,它们会根据所选的class 属性来着色。在这里可以改变每个二维散点图的大小,改变各点的大小,以及随机地抖动(jitter)数据(使得被隐藏的点显示出来)。也可以改变用来着色的属性,可以只选择一组属性的子集放在散点图矩阵中,还可以取出数据的一个子样本。注意这些改变只有在点击了Update 了按钮之后才会生效。n选择实例n1.Select

    13、Instance.点击各数据点会打开一个窗口列出它的属性值,如果点击处的点超过一个,则更多组的属性值也会列出来。n2.Rectangle.通过拖动创建一个矩形,选取其中的点。16WEKA EXPLORER Visualizen3.Polygon.创建一个形式自由的多边形并选取其中的点。左键点击添加多边形的顶n点,右键点击完成顶点设置。起始点和最终点会自动连接起来因此多边形总是闭n合的。n4.Polyline.可以创建一条折线把它两边的点区分开。左键添加折线顶点,右键结束n设置。折线总是打开的(与闭合的多边形相反)。n使用 Rectangle,Polygon 或 Polyline 选取了散点图的

    14、一个区域后,该区域会变成灰色。这时点击Submit 按钮会移除落在灰色区域之外的所有实例。点击Clear 按钮会清除所选区域而不对图形产生任何影响。17Weka 试验(Experiment)nExperimenter 有两种模式:一种具有较简单的界面,并提供了试验所需要的大部分功能,另一种则n提供了一个可以使用 Experimenter 所有功能的界面。你可使用 Experiment Configuration Mode 单选n按钮在这两者间进行选择。n Simplen Advanced18Weka 试验(Experiment)nSimple(简单)模式n1.新试验n2.Result Dest

    15、ination(结果的目的文件)如果文件名为空,将在系统的 TEMP 目录下创建一个临时文件。连接数据库:这个时候还没有测试数据库连接;启动试验时才会进行连接测试。JDBC 数据库的优点是可以继续运行那些被中止的或扩展了的试验。它不用重新运行那些已试验过的算法/数据集组合,而仅计算还没有被试验的那些。19n3.Experiment type(试验类型)Cross-validation(交叉验证)(默认)根据给定的折数执行分层交叉验证 Train/Test Percentage Split(data randomized)(按比例分割训练/测试集,随机挑选数据)把数据打乱顺序并确定层次后,根据给

    16、定的百分比把这个数据集分割成一个训练文件和一个测试文件 Train/Test Percentage Split(order preserved)(按比例分割训练/测试集,按顺序挑选数据)20Weka 试验(Experiment)n4.Datasets(数据集)可以通过绝对路径或相对路径添加数据集文件。后者使得在不同的机器上运行试验更加方便,因此你在点击 Add new.之前,应该勾选 Use relative paths(使用相对路径)。n5.Iteration control(迭代控制)Number of repetitions(重复次数)Data sets first/Algorithms

    17、 first(数据集优先/算法优先)当存在多个数据集和算法的时候,切换成优先迭代数据集的模式可能会有用。举个例子,会有人把结果存储在数据库中,并且想尽早完成某个算法在所有数据集上的结果。21Weka 试验(Experiment)n6.Algorithms(算法)使用 Load options.和 Save options.按钮,你可从 XML 加载或保存选中分类器的设置。这对 配置相当复杂的分类器(如 nested meta-分类器)尤其有用,因为手动设置它们需要一些时间,却又经常要用到。n7.保存设置 试验文件默认的的格式是 Java 序列化提供的二进制文件。这个格式的缺点是不同版本的 Weka 间可能存在格式的不兼容性。还有一种更加健壮的XML格式可供选择。可通过 Open.按钮重新装载之前保存的 experiments。22Weka 试验(Experiment)n8.运行试验 当前试验将使用 ZeroR 和 J48 算法在Iris 数据集上执行十次10折的分层交叉验证。如果试验定义正确,在 Log 面板上将显示如上 3 条信息。试验结果保存在ExpResult.arff数据集里。23

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:数据挖掘工具软件介绍weka课件.ppt
    链接地址:https://www.163wenku.com/p-3325442.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库