欢迎来到163文库! | 帮助中心 精品课件PPT、教案、教学设计、试题试卷、教学素材分享与下载!
163文库
全部分类
  • 办公、行业>
  • 幼教>
  • 小学>
  • 初中>
  • 高中>
  • 中职>
  • 大学>
  • 各类题库>
  • ImageVerifierCode 换一换
    首页 163文库 > 资源分类 > PPT文档下载
    分享到微信 分享到微博 分享到QQ空间

    数据挖掘工具软件介绍weka课件.ppt

    • 文档编号:3325442       资源大小:299.51KB        全文页数:24页
    • 资源格式: PPT        下载积分:22文币     交易提醒:下载本文档,22文币将自动转入上传用户(三亚风情)的账号。
    微信登录下载
    快捷注册下载 游客一键下载
    账号登录下载
    二维码
    微信扫一扫登录
    下载资源需要22文币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    优惠套餐(点此详情)
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、试题类文档,标题没说有答案的,则无答案。带答案试题资料的主观题可能无答案。PPT文档的音视频可能无法播放。请谨慎下单,否则不予退换。
    3、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者搜狗浏览器、谷歌浏览器下载即可。。

    数据挖掘工具软件介绍weka课件.ppt

    1、数据挖掘软件介绍目前较为著名的数据挖掘软件n传统的数据挖掘套件(Classic suites):SAS Enterprise Miner 5.3SPSS Clementine 12n开源数据挖掘软件(Open Source):RapidMiner 4.2 http:/ 2.0 http:/www.knime.org/Weka 3.6n专门化的数据挖掘软件(Specialized):Viscovery SOMiner 5.0prudsys Discovery 5.5/Basket Analyzer 5.2Bissantz Delta Master 5.3.62目前较为著名的数据挖掘软件n自动化数

    2、据挖掘软件(Self-Acting):KXEN Analytic Framework 4.04nBI产品内置的数据挖掘软件(BI Vendors):SAP NetWear 7.0 Data Mining WorkbenchOracle 11g Data MiningMicrosoft SQL Server 2005 Analysis Servicesn其他优秀的软件nTeradata Warehouse MinernIBM的DB2 Intelligence MinernAngoss的KnowledgeSTUDIOnUnica3WEKAn简介http:/www.cs.waikato.ac.nz/

    3、ml/weka中文论坛http:/bbs2.wekacn.org/n功能ProgramLogWindowMemeryUsageExitVisualization4WEKA PLOTROCTreeVisualizerGraphVisualizerBoundaryVisualizerToolsArffViewerSqlViewerBayesNetEditer5WEKAApplicationsExplorerExperimenterKnowledgeFlowSimpleCLIHelpWeka homepageHOWTOs,code snippets,etc.Weka on SourceforgeSy

    4、stemInfo6WEKA nWEKA Explorer 1.Preprocess.选择和修改要处理的数据。2.Classify.训练和测试关于分类或回归的学习方案。3.Cluster.从数据中学习聚类。4.Associate.从数据中学习关联规则。5.Select attributes.选择数据中最相关的属性。6.Visualize.查看数据的交互式二维图像。7.Memory Information.在 log 栏中显示 WEKA 可用的内存量。8.Run garbage collector.强制运行 Java 垃圾回收器,搜索不再需要的内存空间7WEKA EXPLORERn载入数据n1.O

    5、pen file.打开一个对话框,允许你浏览本地文件系统上的数据文件。n2.Open URL.请求一个存有数据的 URL 地址。n3.Open DB.从数据库中读取数据(注意,要使之可用,可能需要编辑nweka/experiment/DatabaseUtils.props 中的文件)n4.Generate.从一些数据生成器(DataGenerators)中生成人造数据。8WEKA EXPLORERn处理属性处理属性n1.No.一个数字,用来标识数据文件中指定的各属性的顺序。n2.选择框.允许勾选关系中呈现的各属性。n3.Name.数据文件中声明的各属性的名称。n当点击属性列表中的不同行时,右边

    6、Selected attribute 一栏的内容随之改变。这一栏给出了列表中当前高亮显示的属性的一些描述:n1.Name.属性的名称,和属性列表中给出的相同。n2.Type.属性的类型,最常见的是分类型(Nominal)和数值型(Numeric)。n3.Missing.数据中该属性缺失(或者未指定)的实例的数量(及百分比)。n4.Distinct.数据中该属性包含的不同值的数目。n5.Unique.唯一地拥有某值的实例的数目(及百分比),这些实例每个的取值都和别的不一样。9WEKA EXPLORER ATTRIBUTESnPattern.n让用户基于 Perl 5 正则表达式来选择属性。例如所

    7、有以M开头的属性。n筛选器筛选器filternGenericObjectEditor 对话框n应用筛选器 注意:一些筛选器会依据是否设置了 class 属性来做出不同的动作。(点击直方图上方那一栏时,会出现一个可供选择的下拉列表。)特别的,“supervised filters”(监督式筛选器)需要设置一个 class 属性,而某些“unsupervised attribute filters”(非监督式属性筛选器)将忽略 class 属性。注意也可以将 Class 设成 None,这时没有设置 class属性。10WEKA EXPLORER CLASSIFYn分类器分类器选择分类器测试选项n

    8、1.Using training set.根据分类器在用来训练的实例上的预测效果来评价它。n2.Supplied test set.从文件载入的一组实例,根据分类器在这组实例上的预测效果来评价它。点击 Set 按钮将打开一个对话框来选择用来测试的文件。n3.Cross-validation.使用交叉验证来评价分类器,所用的折数填在Folds 文本框中。n4.Percentage split.从数据集中按一定百分比取出部分数据放在一边作测试用,根据分类器这些实例上预测效果来评价它。取出的数据量由%一栏中的值决定。11WEKA EXPLORER CLASSIFYn分类器输出文本分类器输出文本nCl

    9、assifier output 区域的文本有一个滚动条以便浏览结果。按住 Alt 和 Shift 键,在这个区域点击鼠标左键,会出现一个对话框,让你用各种格式(目前可用 JPEG 和 EPS)保存输出的结果。n输出结果输出结果n1.Run information.给出了学习算法各选项的一个列表。包括了学习过程中涉及到的关系名称,属性,实例和测试模式。n2.Classifier model(full training set).用文本表示的基于整个训练集的分类模型。n所选测试模式的结果可以分解为以下几个部分:n3.Summary.一列统计量,描述了在指定测试模式下,分类器预测 class 属性的

    10、准确程度。n4.Detailed Accuracy By Class.更详细地给出了关于每一类的预测准确度的描述。n5.Confusion Matrix.给出了预测结果中每个类的实例数。其中矩阵的行是实际的类,矩阵的列是预测得到的类,矩阵元素就是相应测试样本的个数。12WEKA EXPLORER CLUSTERn聚类n聚类模式nUse training setnSupplied test set nPercentage splitn前三个和分类的一样nClasses to clusters evaluation是要比较所得到的聚类与在数据中预先给出的类别吻合得怎样。13WEKA EXPLORE

    11、R ASSOCIATEn关联规则n关联规则的学习器也可以跟其它面板的聚类器,筛选器和分类器一样选择和配置。14Attribute Selectionn属性选择属性选择n属性选择是说搜索数据集中全部属性的所有可能组合,找出预测效果最好的那一组属性。为实现这一目标,必须设定两个东西:属性评估器(evaluator)和搜索策略。评估器决定了怎样给一组属性安排一个表示它们好坏的值。搜索策略决定了要怎样进行搜索。nAttribute Selection Mode 一栏有两个选项。n1.Use full training set.使用训练数据的全体好决定一组属性的好坏。n2.Cross-validatio

    12、n.一组属性的好坏通过一个交叉验证过程来决定。Fold 和nSeed 分别给出了交叉验证的折数和打乱数据时的随机种子。15WEKA EXPLORER Visualizen散点图矩阵散点图矩阵n选择了 Visualize 面板后,会为所有的属性给出一个散点图矩阵,它们会根据所选的class 属性来着色。在这里可以改变每个二维散点图的大小,改变各点的大小,以及随机地抖动(jitter)数据(使得被隐藏的点显示出来)。也可以改变用来着色的属性,可以只选择一组属性的子集放在散点图矩阵中,还可以取出数据的一个子样本。注意这些改变只有在点击了Update 了按钮之后才会生效。n选择实例n1.Select

    13、Instance.点击各数据点会打开一个窗口列出它的属性值,如果点击处的点超过一个,则更多组的属性值也会列出来。n2.Rectangle.通过拖动创建一个矩形,选取其中的点。16WEKA EXPLORER Visualizen3.Polygon.创建一个形式自由的多边形并选取其中的点。左键点击添加多边形的顶n点,右键点击完成顶点设置。起始点和最终点会自动连接起来因此多边形总是闭n合的。n4.Polyline.可以创建一条折线把它两边的点区分开。左键添加折线顶点,右键结束n设置。折线总是打开的(与闭合的多边形相反)。n使用 Rectangle,Polygon 或 Polyline 选取了散点图的

    14、一个区域后,该区域会变成灰色。这时点击Submit 按钮会移除落在灰色区域之外的所有实例。点击Clear 按钮会清除所选区域而不对图形产生任何影响。17Weka 试验(Experiment)nExperimenter 有两种模式:一种具有较简单的界面,并提供了试验所需要的大部分功能,另一种则n提供了一个可以使用 Experimenter 所有功能的界面。你可使用 Experiment Configuration Mode 单选n按钮在这两者间进行选择。n Simplen Advanced18Weka 试验(Experiment)nSimple(简单)模式n1.新试验n2.Result Dest

    15、ination(结果的目的文件)如果文件名为空,将在系统的 TEMP 目录下创建一个临时文件。连接数据库:这个时候还没有测试数据库连接;启动试验时才会进行连接测试。JDBC 数据库的优点是可以继续运行那些被中止的或扩展了的试验。它不用重新运行那些已试验过的算法/数据集组合,而仅计算还没有被试验的那些。19n3.Experiment type(试验类型)Cross-validation(交叉验证)(默认)根据给定的折数执行分层交叉验证 Train/Test Percentage Split(data randomized)(按比例分割训练/测试集,随机挑选数据)把数据打乱顺序并确定层次后,根据给

    16、定的百分比把这个数据集分割成一个训练文件和一个测试文件 Train/Test Percentage Split(order preserved)(按比例分割训练/测试集,按顺序挑选数据)20Weka 试验(Experiment)n4.Datasets(数据集)可以通过绝对路径或相对路径添加数据集文件。后者使得在不同的机器上运行试验更加方便,因此你在点击 Add new.之前,应该勾选 Use relative paths(使用相对路径)。n5.Iteration control(迭代控制)Number of repetitions(重复次数)Data sets first/Algorithms

    17、 first(数据集优先/算法优先)当存在多个数据集和算法的时候,切换成优先迭代数据集的模式可能会有用。举个例子,会有人把结果存储在数据库中,并且想尽早完成某个算法在所有数据集上的结果。21Weka 试验(Experiment)n6.Algorithms(算法)使用 Load options.和 Save options.按钮,你可从 XML 加载或保存选中分类器的设置。这对 配置相当复杂的分类器(如 nested meta-分类器)尤其有用,因为手动设置它们需要一些时间,却又经常要用到。n7.保存设置 试验文件默认的的格式是 Java 序列化提供的二进制文件。这个格式的缺点是不同版本的 Weka 间可能存在格式的不兼容性。还有一种更加健壮的XML格式可供选择。可通过 Open.按钮重新装载之前保存的 experiments。22Weka 试验(Experiment)n8.运行试验 当前试验将使用 ZeroR 和 J48 算法在Iris 数据集上执行十次10折的分层交叉验证。如果试验定义正确,在 Log 面板上将显示如上 3 条信息。试验结果保存在ExpResult.arff数据集里。23


    注意事项

    本文(数据挖掘工具软件介绍weka课件.ppt)为本站会员(三亚风情)主动上传,其收益全归该用户,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!




    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库