书签 分享 收藏 举报 版权申诉 / 51
上传文档赚钱

类型数据挖掘基础讲座课件.pptx

  • 上传人(卖家):ziliao2023
  • 文档编号:5925191
  • 上传时间:2023-05-16
  • 格式:PPTX
  • 页数:51
  • 大小:1.03MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《数据挖掘基础讲座课件.pptx》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 挖掘 基础 讲座 课件
    资源描述:

    1、数据挖掘基础讲座概率统计、随机过程、信息论基础课程的性质 短时间讲多内容 数学分析讲辛钦(国立莫斯科大学)数据挖掘课程上所需要的概率统计、随机过程、信息论知识 结合工作中数据挖掘、统计中的学习体会概率论 随机变量和概率分布 联合分布、条件分布和独立性 概率分布的特征 联合与条件分布特征 一些重要的分布数理统计 估计量的有限样本性质 估计量的大样本性质(大数定律、中心极限定理)参数估计 区间估计和置信区间信息论 熵、相对熵、信息量、互信息 渐进均分性(信息论中的大数定律)信息论与统计 科尔莫戈罗夫复杂性(奥克姆剃刀)随机过程 马尔可夫过程 隐马尔可夫模型随机变量和概率分布 离散随机变量:取值至多

    2、可数的随机变量为离散型的随机变量。概率分布(分布律)且 典型的离散随机变量分布 0-1分布:且 p+q=1,p0,q0,则称X服从参数为p的0-1分布,或两点分布,还可以表示成:典型的离散随机变量分布 且 二项二项分布分布:二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。举个例子就是,独立重复地抛n次硬币,每次只有两个可能的结果:正面,反面,概率各占1/2。典型的离散随机变量分布 且 泊松泊松分布分布:连续的随机变量分布分布函数分布函数:定义:对于随机变量X的分布函数F(x),若存在非负的函数f(x),使对于任意实

    3、数x,有:则称X为连续型随机变量,其中f(x)称为X的概率密度函数,简称概率密度。型随机变量的概率密度f(x)有如下性质:典型的连续随机变量分布均匀分布均匀分布:若连续型随机变量X具有概率密度,则称均匀分布:典型的连续随机变量分布指数指数分布分布:典型的连续随机变量分布正态分布(高斯分布)正态分布(高斯分布):典型的连续随机变量分布 正态分布(高斯分布)特点(为何如此重要)正态分布(高斯分布)特点(为何如此重要):中心极限定理的完美体现 分布的值非常集中的分布在中心区域 面积可以精确的计算出来典型的连续随机变量分布 幂律分布幂律分布(长尾分布长尾分布):没有明确的代数式子 分布趋向于0的速度远

    4、小于指数分布典型的连续随机变量分布 判断方法判断方法:典型的连续随机变量分布 真实的分布真实的分布:社交网站用户数量和用户社交网站用户数量和用户关注度数量的分布关注度数量的分布网络终端结点之间网络终端结点之间RTT值的值的分布(密度函数)分布(密度函数)典型的连续随机变量分布 幂律分布的重要幂律分布的重要:大量社会规律服从,实践中常遇到,大量社会规律服从,实践中常遇到,大数据大数据领领域经常遇到域经常遇到 数学期望发散,不要用均值来替代整体分布数学期望发散,不要用均值来替代整体分布 大数大数定律和中心极限定理不成立定律和中心极限定理不成立典型的连续随机变量分布 幂律分布的应用幂律分布的应用:数

    5、学期望 如果X是在概率空间(,P)中的一个随机变量,那么它的期望值EX的定义是:方差 方差:一个随机变量的方差(Variance)描述的是它的离散程度,也就是该变量离其期望值的距离。一个实随机变量的方差也称为它的二阶矩或二阶中心动差,恰巧也是它的二阶累积量。为平均数,N为样本总数方差 离散和连续随机变量方差计算:中位数 中位数:对数据集中趋势的一个度量。定义定义:连续随机变量概率密度函数中,左边和右边刚好相等的位置。离散随机变量中的中间值。特点:数据约不平衡,中位数和数学期望相差越大。幂律分布下,观察样本数据的数学期望和中位数之间差值的变化。联合分布、条件分布和独立性 协方差:涵义:协方差度量

    6、两个随机变量的线性相关性,正值代表同向移动,负值代表反向移动。独立 协方差为0,反过来不正确相关系数 相关系数:sd(X),sd(Y)代表标准差条件数学期望 离散变量:给定 X的条件数学期望 连续变量:联合概率密度函数Y边缘概率密度函数条件概率密度函数条件数学期望数理统计 估计量的有限样本性质 估计量的大样本性质(大数定律、中心极限定理)参数估计 区间估计和置信度 假设检验估计量性质 无偏性W为参数u的一个估计量,h为函数 有效性:样本方差小的那个估计量估计量性质 一致性:估计量的趋势特性大数定律中心极限定理 排除了原始分布的影响,只要期望方差存在。其存在有一定的假设中心极限定理 随机变量独立

    7、 服从同一分布 期望、方差存在并有限 幂律分布第三个条件不满足参数估计 矩估计 将参数 表示成与 X 分布的某些期望有某种关系,通常是 E(X)有关系的量,如果样本均值 是 E(X)的无偏并且一致估计量,是线性函数因此依然无偏,则可用样本矩 代替总体矩最大似然估计 最大似然估计 似然函数:关于 的函数区间估计和置信区间 区间估计的必要性 点估计+样本的标准差 不足以给出总体值落在相对于样本值的什么地方 置信区间的理解问题充分统计量 充分统计量 2 p83 充分统计量是一个关于样本D的函数s,其中包含了能够有助于估计某种参数 的所有相关的信息 样本均值和样本(协)方差构成了真实均值和协方差的一个

    8、充分统计量充分统计量 Hadoop适合处理的统计量 信息论对充分统计量的估计信息论 熵、相对熵、信息量、互信息 渐进均分性(信息论中的大数定律)信息论与统计学 科尔莫戈罗夫复杂性(奥克姆剃刀)信息论初步熵、相对熵 熵:相对熵:熵、相对熵 相对熵:涵义:两个随机分布之间的距离的度量。互信息互信息:一个随机变量包含另一个随机变量信息量的度量。也即在给定另一随机变量知识的条件下,原随机变量不确定度的缩减量充分统计量渐进均分性 渐进均分定理:解释:几乎一切事件都令人同等的意外信息和统计 费希尔信息在参数估计中的作用:参数值逼近的评估奥克姆剃刀 奥克姆剃刀:简单性原理,是科学界常用的一个准则,具体表述为

    9、,如果多个理论同时都能解释某一现象,那么我们优先取利用假设最少的理论,这个理论被认为是最好的。越简洁的推论可能性就越高。根据复杂度来权衡所有可能的解释 科尔莫戈罗夫复杂度:一个数据串的复杂度可以定义为计算该数据串所需的最短二进制程序的长度。如果序列服从熵为H的分布,那么该序列的科尔莫戈罗夫复杂度近似等于熵H。算法复杂度 PK 计算复杂度随机过程 马尔可夫过程 隐马尔可夫模型马尔科夫过程 马尔可夫链 马尔可夫链(Markov Chain),描述了一种状态序列,其每个状态值取决于前面有限个状态。状态迁移问题 状态分类和状态空间分解 马尔科夫链的极限形态和平稳分布 生灭过程隐马尔科夫过程 状态序列隐藏 观察序列 观察序列只和状态序列相关(独立输出假设)模型训练:给定一个模型,如何计算某个特定的输出序列的概率;给定一个模型和某个特定的输出序列,如何找到最可能产生这个输出的状态序列;给定足够量的观测数据,如何估计HMM模型算法参考文献1 计量经济学,现代观点 J.M.Wooldridge.2 信息论基础 Thomas M.Cover 3 应用随机过程 林元烈4 模式分类 Richard O.Duda5 数据之魅 Philipp K.Janert

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:数据挖掘基础讲座课件.pptx
    链接地址:https://www.163wenku.com/p-5925191.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库