数据挖掘基础讲座课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘基础讲座课件.pptx》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 基础 讲座 课件
- 资源描述:
-
1、数据挖掘基础讲座概率统计、随机过程、信息论基础课程的性质 短时间讲多内容 数学分析讲辛钦(国立莫斯科大学)数据挖掘课程上所需要的概率统计、随机过程、信息论知识 结合工作中数据挖掘、统计中的学习体会概率论 随机变量和概率分布 联合分布、条件分布和独立性 概率分布的特征 联合与条件分布特征 一些重要的分布数理统计 估计量的有限样本性质 估计量的大样本性质(大数定律、中心极限定理)参数估计 区间估计和置信区间信息论 熵、相对熵、信息量、互信息 渐进均分性(信息论中的大数定律)信息论与统计 科尔莫戈罗夫复杂性(奥克姆剃刀)随机过程 马尔可夫过程 隐马尔可夫模型随机变量和概率分布 离散随机变量:取值至多
2、可数的随机变量为离散型的随机变量。概率分布(分布律)且 典型的离散随机变量分布 0-1分布:且 p+q=1,p0,q0,则称X服从参数为p的0-1分布,或两点分布,还可以表示成:典型的离散随机变量分布 且 二项二项分布分布:二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。举个例子就是,独立重复地抛n次硬币,每次只有两个可能的结果:正面,反面,概率各占1/2。典型的离散随机变量分布 且 泊松泊松分布分布:连续的随机变量分布分布函数分布函数:定义:对于随机变量X的分布函数F(x),若存在非负的函数f(x),使对于任意实
3、数x,有:则称X为连续型随机变量,其中f(x)称为X的概率密度函数,简称概率密度。型随机变量的概率密度f(x)有如下性质:典型的连续随机变量分布均匀分布均匀分布:若连续型随机变量X具有概率密度,则称均匀分布:典型的连续随机变量分布指数指数分布分布:典型的连续随机变量分布正态分布(高斯分布)正态分布(高斯分布):典型的连续随机变量分布 正态分布(高斯分布)特点(为何如此重要)正态分布(高斯分布)特点(为何如此重要):中心极限定理的完美体现 分布的值非常集中的分布在中心区域 面积可以精确的计算出来典型的连续随机变量分布 幂律分布幂律分布(长尾分布长尾分布):没有明确的代数式子 分布趋向于0的速度远
4、小于指数分布典型的连续随机变量分布 判断方法判断方法:典型的连续随机变量分布 真实的分布真实的分布:社交网站用户数量和用户社交网站用户数量和用户关注度数量的分布关注度数量的分布网络终端结点之间网络终端结点之间RTT值的值的分布(密度函数)分布(密度函数)典型的连续随机变量分布 幂律分布的重要幂律分布的重要:大量社会规律服从,实践中常遇到,大量社会规律服从,实践中常遇到,大数据大数据领领域经常遇到域经常遇到 数学期望发散,不要用均值来替代整体分布数学期望发散,不要用均值来替代整体分布 大数大数定律和中心极限定理不成立定律和中心极限定理不成立典型的连续随机变量分布 幂律分布的应用幂律分布的应用:数
展开阅读全文