IVD性能评估的统计学基础-课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《IVD性能评估的统计学基础-课件.pptx》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IVD 性能 评估 统计学 基础 课件
- 资源描述:
-
1、性能指标的建立性能指标的确认、验证、评价涉及不同机构统计学基础知识在IVD性能评估中的应用(前提是测量的随机误差小,可靠性高,系统概念要加强),如均匀性、稳定性、比对、互换性、线性等收集、处理、分析、解释数据并从数据中得出结论的科学收集数据:取得数据处理数据:图表展示分析数据:利用统计方法分析数据数据解释:结果的说明得到结论:从数据分析中得出客观结论统计学是一门科学统计方法是通用的数据分析方法。这些方法不是为某个特定的问题领域而构造的统计学是一门艺术不同的人对同一组数据的分析可能得到不同的结论。使用数字讲故事取决于统计学家的技巧和他们的经验统计学是一门技术统计方法是为保证产品达到所希望的质量和
2、保持其稳定性的管理系统中建立起来的 统计思维总有一天会像读与写一样成为一个有效率公民的必备能力 Herbert George Wells 谈到统计大家都认为统计是一种抽象、复杂、逻辑性强的概念 其实,我们大家每天都在用统计 统计基础知识大家都学过,现在我们再次温习一遍,加深印象 现在学统计不要有太多的为什么,而是“能不能用”,对结果的解释程度能到多少,是否合理?假设?统计分析统计分析描述统计描述统计推断统计推断统计参数参数估计估计假设假设检验检验研究数据收集、整理和描述的统计学方法 02040608010012012345目的u描述数据特征u找出数据的基本规律内容u搜集数据u整理数据u展示数据
3、u描述性分析 研究如何利用样本数据来推断总体特征的统计学方法内容u参数估计u假设检验 目的u对总体特征做出判断定量变量定量变量(quantitative variable)或或数值变量数值变量(metric variable)可以用阿拉伯数据来记录其观察结果如“葡萄糖浓度”、“酶的催化活性”、“血细胞的个数”、“核酸扩增的CT值?”定量变量的观察结果称为定量数据或数值型数据(metric data)分类变量分类变量(categorical variable)表现为不同的类别如“药敏实验结果”、“干化学尿液分析结果”等分类变量的观察结果就是分类数据(categorical data)顺序变量顺序
4、变量(rank variable)或有序分类变量或有序分类变量具有一定顺序的类别变量如氨基酸序列(测序)顺序变量的观察结果就是顺序数据或有序分类数据(rank data)抽取样本总体:包含所研究的全部个体(数据)的集合样本:从总体中抽取的一部分元素的集合样本量:构成样本的元素的数目概率抽样方法概率抽样根据一个已知的概率来抽取样本单位,也称随机抽样特点l按一定的概率以随机原则抽取样本l抽取样本时使每个单位都有一定的机会被抽中l每个单位被抽中的概率是已知的,或是可以计算出来的 l当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样从总体N个单位(元素)中随机地抽取n个单位作
5、为样本,使得总体中每一个元素总体中每一个元素都有相同的机会(概率)被抽中(抽签法、随机数表法抽签法、随机数表法)抽取元素的具体方法有重复抽样和不重复抽样特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率简单随机样本由简单随机抽样形成的样本从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为每一个容量为n样本样本都有相同的机会(概率)被抽中 参数估计和假设检验所依据的主要是简单随机样本分层抽样(分类抽样)将总体单位按某种特征或某种规则划分为不同的层
6、,然后从不同的层中独立、随机地抽取样本优点l保证样本的结构与总体的结构比较相近,从而提高估计的精度l组织实施调查方便l既可以对总体参数进行估计,也可以对各层的目标量进行估计系统抽样(等距抽样)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位l先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位优点:操作简便,有时可提高估计的精度缺点:对估计量方差的估计比较困难整群抽样将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点l抽样时只需群的抽样框,可
7、简化工作量l调查的地点相对集中,节省调查费用,方便调查的实施l缺点是估计的精度通常较差类别类别特点特点相互联系相互联系适用范围适用范围共同点共同点简单随机简单随机抽样抽样逐一抽取逐一抽取 小样本小样本等概率等概率系统抽样系统抽样 总体分成几部分总体分成几部分每部分简单随每部分简单随机抽样机抽样大样本大样本分布均匀分布均匀分层抽样分层抽样总体总体分成几分成几层(差层(差异异大大、小小)每每层用层用简单随简单随机抽样或系统机抽样或系统抽样抽样总体由差异总体由差异明显的几部明显的几部分组成分组成总体分布总体分布正态分布正态分布非正态分布非正态分布样本均值样本均值正态分布正态分布样本均值样本均值正态分
8、布正态分布样本均值样本均值非正态分布非正态分布大样本大样本小样本小样本大样本大样本小样本小样本数据类别数据类别定性数据定性数据定量数据定量数据图表类别图表类别频数分布频数分布频数分布频数分布条形图条形图直方图直方图饼形图饼形图茎叶、箱线茎叶、箱线垂线、误差垂线、误差环形图环形图散点图散点图雷达图雷达图轮廓图轮廓图某地区不同年龄段男女血清ALT活性测量(95%)2029303940495059男 Stem-and-Leaf Plot Frequency Stem&Leaf 1.00 1.2 2.00 2.59 .00 3.1.00 4.5 Stem width:100 Each leaf:1 c
9、ase(s)数据类型与显示数据类型与显示数值型数据数值型数据分类分类数据数据分组数据分组数据总计表总计表茎茎叶叶图图条条形形图图圆圆形形图图环环形形图图直直方方图图箱箱线线图图折折线线图图原始数据原始数据时序数据时序数据线线图图雷雷达达图图多元数据多元数据数据特性数据特性水平水平差异差异分布分布统计量统计量平均数平均数方差方差偏态偏态众数众数极差极差四分位差四分位差峰态峰态中位数中位数Zi标准分数标准分数分位数分位数离散系数离散系数集中趋势的描述之一出现次数最多的变量值不受极端值的影响可能没有众数或有几个众数主要用于分类数据,也可用于定序数据和数值型数据中位数和分位数集中趋势的描述之一排序后处
10、于中间位置上的值不受极端值的影响主要用于定序数据,也可用数值型数据,但不能用于定类数据各变量值与中位数的离差绝对值之和最小中位数和分位数计算公式:中位数和分位数集中趋势的描述之一排序后处于25%和75%位置上的值不受极端值的影响主要用于定序数据,也可用于数值型数据,但不能用于定类数据均值集中趋势的描述之一最常用的统计量一组数据的均衡点所在易受极端值的影响用于数值型数据,不能用于定类数据和定序数据均值简单均值加权均值几何平均值(平均发展速度)对称分布左偏分布中位数右偏分布众众 数数 不受极端值影响不受极端值影响 具有不惟一性具有不惟一性 数据较多时有意义,且有数据较多时有意义,且有明显峰值时应用
11、明显峰值时应用 中位数中位数 不受极端值影响不受极端值影响 数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用 平均数平均数 易受极端值影响易受极端值影响 利用了全部数据信息,数学性质优良利用了全部数据信息,数学性质优良 数据数据对称分布或接近对称分布时应用较好对称分布或接近对称分布时应用较好 当要用样本信息对总体进行当要用样本信息对总体进行推断时,平均数就更显示出它的各种推断时,平均数就更显示出它的各种 优良特性优良特性 SPSS定义定义EXCEL1 11.251.251 11.751.752 23 33.753.753 33.253.254 4四分位差四分位差2.52.52 21.51.
12、5四分位差离散程度的描述之一也称为内距或四分间距上四分位数与下四分位数之差 QD=QU QL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性一组数据的最大值与最小值之差离散程度的最简单描述易受极端值影响未考虑数据的分布离散程度的描述之一最常用的描述值反映了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差计算公式也称标准分数给出某一个值在一组数据中的相对位置可用于判断一组数据是否有离群点用于对变量的标准化处理计算公式为我们叫变异系数标准差与其相应的均值之比消除了数据水平高低和计量单位的影响描述了数据的相
13、对离散程度用于对不同组别数据离散程度的比较偏态峰度数据分布偏斜程度的描述偏态系数=0为对称分布偏态系数 0为右偏分布偏态系数 0为左偏分布计算公式为数据分布扁平程度的测度峰度系数=3=3扁平程度适中偏态系数333为尖峰分布计算公式为 数学定律不能百分之百确切的用在现实生活里;能百分之百确切的用数学定律描述的就不是现实生活 Albert Einstein举例,不同的应用2n2%事件的概率事件A的概率是对事件A在试验中出现的可能性大小的一种度量表示事件A出现可能性大小的数值事件A的概率表示为P(A)概率的定义有:古典定义、统计定义和主观概率定义事件的概率古典定义事件的概率统计的定义 在相同条件下进
14、行n次随机试验,事件A出现 m 次,则比值 m/n 称为事件A发生的频率。随着n的增大,该频率围绕某一常数P上下摆动,且波动的幅度逐渐减小,取向于稳定,这个频率的稳定值即为事件A的概率,记为期望值:描述随机变量集中程度的统计量离散型概率分布:Binomdist、Poisson、Hypergeometric 连续型概率分布 均匀、正态、指数、其他分布离散型概率分布二项分布与贝努里试验有关贝努里试验具有如下属性l试验包含了n 个相同的试验l每次试验只有两个可能的结果,即“成功”和“失败”l出现“成功”的概率 p 对每次试验结果是相同的;“失败”的概率 q 也相同,且 p+q=1l试验是相互独立的l
15、试验“成功”或“失败”可以计数离散型概率分布进行 n 次重复试验,出现“成功”的次数的概率分布称为二项分布设X为 n 次重复试验中事件A出现的次数,X 取 x 的概率为离散型概率分布泊松分布泊松分布用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布泊松分布的例子1mL溶液中粒子计数离散型概率分布 给定的时间间隔、长度、面积、体积内“成功”的平均数e=2.71828 x 给定的时间间隔、长度、面积、体积内“成功”的次数连续型概率分布密度函数曲线下的面积等于1分布函数是曲线下小于 x0 的面积连续型概率分布 若随机变量X的概率密度函数为 称X在区间a,b上均匀分布 数学
16、期望和方差分别为xf(x)ba连续型概率分布 描述连续型随机变量的最重要的分布 可用于近似离散型随机变量的分布例如:二项分布 经典统计推断的基础连续型概率分布xCAB连续型概率分布任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布连续型概率分布数据正态性评估数据正态性评估直方图、茎叶图、直方图、茎叶图、P-P、Q-Q样本均值样本均值标准化标准化(两个样本两个样本)样本方差除以样本方差除以总体方差(分类变量)总体方差(分类变量)两个样本方差两个样本方差相比(多个样本)相比(多个样本)ExcelTDIST(2,10,22,10,2)=0.073=0.073TINV(0.073,100.
17、073,10)=2=2自由度趋于无限大时,接近标准的自由度趋于无限大时,接近标准的Z Z分布分布用途:均值差异用途:均值差异ExcelCHIDIST(8,108,10)=0.073=0.073CHIINV(0.073,80.073,8)=1.20=1.20(右尾概率)(右尾概率)独立正态变量的平方和,自由度无限大时接近对称分布独立正态变量的平方和,自由度无限大时接近对称分布用途:总体方差估计、非参数检验(单样本、双样本)用途:总体方差估计、非参数检验(单样本、双样本)统计量(统计量(H0:独立):独立)列联表的独立性检验列联表的独立性检验 【例】如表所如表所示示频数分布,频数分布,以以95%9
18、5%显著水平显著水平,检验,检验ALTALT异异常与肝炎是否常与肝炎是否有关有关患者ALTALT指标指标肝炎正常合计ALT异常ALT正常620345354246974591合计9656001565对表对表1 1所示频数分布表,以所示频数分布表,以95%95%显著水平,检验色觉与性别是否有关。显著水平,检验色觉与性别是否有关。表表 1色觉与性别联合分布频数色觉与性别联合分布频数(fij)对表对表1 1所示频数分布表,以所示频数分布表,以95%95%显著水平,检验色觉与性别是否有关。显著水平,检验色觉与性别是否有关。表表 1色觉与性别联合分布频数色觉与性别联合分布频数(fij)P0.040.04拒
19、绝原假设,即拒绝原假设,即ALTALT异常和肝炎相互不独立异常和肝炎相互不独立患者ALTALT指标指标肝炎正常合计ALT异常ALT正常601364373227974591合计9656001565ExcelFDIST(3 3,1010 ,8 8)=0.066=0.066FINV(0.050.05,1010,8 8)=3.35=3.35CHICHI分布的比分布的比用途:方差差异用途:方差差异待估参数待估参数均值均值大样本大样本Z分布分布小样本小样本Z分布分布T分布分布比例比例大样本大样本Z分布分布方差方差大、小样本大、小样本待估参数待估参数均值差均值差Z分布分布配对样本配对样本t分布分布t分布分布
20、比例差比例差独立大样本独立大样本Z分布分布方差比方差比独立大样本独立大样本独立小样本独立小样本正态总体正态总体t分布分布Z分布分布Z分布分布Muriel BristolFisher提出提出原假设和备择假设原假设和备择假设 什么是原假设?什么是原假设?(Null Hypothesis)待检验的假设,又称待检验的假设,又称“0假设假设”,表示为表示为 H0 什么是备择假设?什么是备择假设?(Alternative Hypothesis)与原假设对立的假设与原假设对立的假设,表示为表示为 H1 确定统计量确定统计量,基本形式为基本形式为:什么显著性水平?什么显著性水平?是一个概率值原假设为真时,拒绝
21、原假设的概率被称为抽样分布的拒绝域表示为(alpha)常用的 值有0.01,0.05,0.10由研究者事先确定假设检验假设检验中的小概率中的小概率原理原理什么小概率?什么小概率?在一次试验中,一个几乎不可能发生的事件发生的概率在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设小概率由研究者事先确定假设检验中的两类假设检验中的两类错误错误(提供推翻原假设的证据,不提供推翻原假设的证据,不提供原假设正确与否的提供原假设正确与否的证据证据)第一类错误(弃真错误)第一类错误(弃真错误)原假设为真时拒绝原假设会产生一系列后果第一类错误的概率为被称为显著性水平第二类错误(取伪错误)第二类错误(取伪错误
22、)原假设为假时不拒绝原假设第二类错误的概率为(Beta)你不能同时减你不能同时减少两类错误少两类错误!两个总体均值之差的 t 检验(12、22未知)检验具有等方差的两个总体的均值假定条件两个样本是独立的随机样本两个总体都是正态分布两个总体方差未知但相等12=22(?)检验统计量其中两个总体均值之差的 t 检验(配对样本的 t 检验)检验两个相关总体的均值配对或匹配重复测量(前/后)利用相关样本可消除项目间的方差假定条件两个总体都服从正态分布如果不服从正态分布,可用正态分布来近似(n1 30,n2 30)配对样本的 t 检验独立性独立性-配对性配对性是否考虑方差齐性是否考虑方差齐性独立样本计算合
23、并方差独立样本计算合并方差-配对样本计算标准差配对样本计算标准差单单样本与配对样本样本与配对样本独立样本t检验 配对样本t检验 【例】A、B两个厂家的ALT试剂盒分别测量10份血清样本,结果如下:请问取显著性水平=0.05时,A、B两个厂家的测量结果是否存在显著差异 厂家厂家1 12 23 34 45 56 67 78 89 91010A2245385218964369600870106B2550405518067360590860110解:解:结果为一组样本的不同试剂测量结果,配对关系明确结果为一组样本的不同试剂测量结果,配对关系明确设原假设设原假设H H0 0:两种试剂测量结果之间无差异:
24、两种试剂测量结果之间无差异备择假设备择假设H H1 1:两种试剂测量结果:两种试剂测量结果之间有差异之间有差异检验多个总体均值是否检验多个总体均值是否相等相等(样本是否来自同一总体样本是否来自同一总体)通过对各观察数据误差来源的分析来判断多个总体均值是否相等通过对各观察数据误差来源的分析来判断多个总体均值是否相等变量变量(分类变量与数值变量的分类变量与数值变量的关系关系)一个分类变量一个分类变量2 2个个或多个或多个(k 个个)处理水平或分类处理水平或分类一个因变量一个因变量用于分析完全随机化试验设计用于分析完全随机化试验设计假设:正、齐、假设:正、齐、立立每个总体都应服从正态分布每个总体都应
25、服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本单随机样本各个总体的方差必须相同各个总体的方差必须相同对于各组观察数据,是从具有相同方差的总体中抽取的对于各组观察数据,是从具有相同方差的总体中抽取的观察值是独立的观察值是独立的之间不相关之间不相关 公式公式 正态性:正态性:P-P、Q-Q 方差齐性:方差齐性:单因素方差分析单因素方差分析2.t检验适用于两个变量均数间的差异检验,多于两个检验适用于两个变量均数间的差异检验,多于两个变量间的均数比较要用方差分析变量间的均数比较要用方差分析1.方差分析与成组设计方差
展开阅读全文