数据、模型与决策课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据、模型与决策课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 模型 决策 课件
- 资源描述:
-
1、结论决策执行结果管理者信息提供模型反馈数据、模型与决策的目的数据、模型与决策的目的 是在科学、符合是在科学、符合逻辑和合理的基础上制定决策逻辑和合理的基础上制定决策n潘得罗索工业公司生产胶合板,根据厚度和所用木材的质量而有所不同。因为产品在一个竞争的环境中进行销售,产品的价格由市场决定。所以每个月管理层面临的一个关键问题是选择产品组合以获取尽可能多的利润。需要考虑当前生产产品必须的各种资源的可得数量。六项最重要的资源为(1)四种类型的原木(根据原木的质量区分)和(2)生产胶合板的两项关键作业的生产能力(模压作业和刨光作业)。 你们公司有这样的经历吗?你们公司有这样的经历吗?n某食品公司生产各种
2、系列的冷饮食品,冷饮食品生产是季节性,需要提前组织生产。一般是每年四月就要制订接下去的五个月生产计划,包括生产的冷饮品种、等级、规格与原料组合。因此要制订采购计划和工厂生产能力计划,以满足市场的需要。如何来预测客户的需求量呢?n 预测对生产计划有多重要?预测对生产计划有多重要?有兄弟姐妹的人得病少“坐立不安”让人苗条n数据收集好了,那我们就来看看从数据中能挖到什么宝藏了!3.1 类别数据的表格表示n例例3.1 交通事故的驾驶因素分析交通事故的驾驶因素分析n造成交通事故的驾驶因素有判断失误、察觉得晚、驾驶错误、偏离规定的行驶路线和酒后或疲劳驾驶等。某地区交通管理部门对某段时间中的50起交通事故进
3、行驾驶因素分析,得到的原始数据如下: 驾驶错误察觉得晚察觉得晚判断失误驾驶错误察觉得晚判断失误察觉得晚判断失误察觉得晚判断失误酒后或疲劳驾驶察觉得晚判断失误察觉得晚驾驶错误判断失误驾驶错误察觉得晚判断失误酒 后 或 疲 劳驾驶察觉得晚察觉得晚察觉得晚察觉得晚察觉得晚偏离规定的行驶路线判断失误驾驶错误察觉得晚判断失误判断失误判断失误察觉得晚驾驶错误察觉得晚察觉得晚驾驶错误察觉得晚判断失误判断失误驾驶错误驾驶错误判断失误驾驶错误驾驶错误酒后或疲劳驾驶察觉得晚察觉得晚察觉得晚n从例3.1的数据,你能看出些什么?n也许你看出了“察觉得晚”、“判断失误”等因素比较多,“偏离规定的行驶路线”、“酒后或疲劳
4、驾驶”等因素比较少。很好!n其实,只要借助一些简单的图表,就能对数据加以整理并进行初步的定量分析。n一些常用的软件如Excel,几乎能完美地为你完成这些图表!n我们从表1很容易看出:n哪些因素是比较主要的因素?n各因素之间频率的差异有多大? 等等。n有时,累积频率也需要在频数频率分布表中列出。n每一类的累积频率每一类的累积频率是指,从第一类开始累积到该类的频率总和,即将该类及其之前的所有类的频率相加。n譬如,为了分析驾驶因素中的主要因素,我们可以进一步改进表1,按照频数或频率从大到小的顺序,将各因素排序后列出来,并加上累积频率一项,结果列于表2中。表2 分析驾驶因素中主要因素的频数频率分布表驾
5、驶因素频数频率()累积频率察觉得晚214242判断失误142870驾驶错误112292酒后或疲劳驾驶 3 698偏离规定的行驶路线 1 2100合计50100用Excel制作定性数据频数频率分布表n累积频率更常用于有序数据的分析中。我们来看一个例子。n例例3.2 博客调查博客调查 n(http:/ Development 公司在其网页上发布了一项关于博客的调查报告。该调查根据8个博客服务商提供的博客用户资料,得到了各年龄段的人创建的博客数,频数频率分布表3显示了调查结果。 表表3 各年龄段的博客创建情况各年龄段的博客创建情况1012 55,500 1.35 1.351319 2,120,000
6、 51.45 52.802029 1,630,000 39.56 92.353039 241,000 5.85 98.203049 41,700 1.01 99.215059 18,500 0.45 99.66年龄段创建的博客数 频率()累积频率()6069 13,9000.34100.00合计4,120,600100.00数据的图形表示n用于数据描述的图形比较多,譬如常用的饼状图、柱状图、直方图,以及在统计学中常用的茎叶图、排列图等等。n当我们在考虑各种图的时候,把变量稍加分类会有帮助。n有的变量具备有意义的数值尺度,如身高几厘米、考试成绩几分等;而有的变量只是把个体分到不同类别而已,如性别
7、、职业或教育程度。n类别变量只记录所属类别,譬如,例1的变量就是类别变量,它包含5个类,个体的数据就是指个体属于其中某个类。n要表示类别变量的分布,可以用饼图,也可用柱状图或条形图,等等。以下是例3.1的图形表示。n柱形图与条形图作法 垂直柱状组成的图形称为柱形图,水平条状组成的图形称为条形图。 例:创建我国20012004年第一、第二和第三产业产值数量的变化的柱形图。1.打开Excel表,单击“插入图标”工具图标,选择图表类型柱形图和子图标类型,点击“下一步”。 2. 选择目标数据,用鼠标选定B4:D8 ,单击“系列”卡片,点击“下一步”。3. 输入系列名称,用鼠标选定“分类(X)轴标志”
8、A5:A8 ,单击“下一步”n4. 输入或修改“标题”、“坐标轴”、“网格线”、“图例”、“数据标志”、“数据表”等属性,单击“下一步”。 5. 选择图表位置,单击“完成”。6. 图表完成。如果需要,可以双击图表中任何一部分进行修改。 图表区分类轴分类轴标题数值轴图例图表标题系列“第一产业”绘图区数值轴主要网格线数值轴标题系列“第二产业”系列“第三产业”n因为类别变量的可能值相对来说不多,所以我们可以用饼状图或柱状图来呈现类别变量的分布。那么像月收入这种数量变量要如何呈现呢?因为数量变量的可能值太多,所以不太可能用饼状图或柱状图来呈现。若将数量变量的数据进行适当的分组,再画出分布图,那么将会比
9、较清楚。这就是本节中我们将重点介绍的图形直方图直方图(histogram),它是描述数量变量分布最常用的图。n在平面直角坐标系中,用横轴表示各类观察值,纵轴表示频数或频率,所绘制的由若干个长方形所组成的图形,就叫做频数分布直方图,简称直直方图方图。通过直方图,我们可以比较快速、直观地把握整体的分布情况。用Excel制作定量数据频数频率分布表和直方图见例1.14n描述数据的分布属性是描述统计的主要内容,数据的分布属性包括:n数据的频数分布和直方图n数据集中属性的指标(平均数、中位数、众数、比例)n数据离散属性的指标(极差、方差、标准差)n数据分布形态的指标(偏度、峰度)n数据的计数和求和n数据之
10、间的相关程度的指标(相关系数)nExcel中的统计功能有以下三种实现方法n使用Excel的菜单统计工具n使用Excel统计函数n使用Excel统计插件(例如PHStat等)nxxxxn.21不同年龄段每周上网时间的平均值=AVERAGE(B23:B158)=AVERAGE(C23:C279)=AVERAGE(D23:D186)=AVERAGE(E23:E133)=AVERAGE(F23:F86)n一组数据按大小顺序排列以后,处于中间一组数据按大小顺序排列以后,处于中间位置的数据。对于奇数组,中位数是中间位置的数据。对于奇数组,中位数是中间的一个,对于偶数组,中位数是中间的两的一个,对于偶数组,
11、中位数是中间的两个的平均值。个的平均值。=MEDIAN(B23:B158)=MEDIAN(C23:C279)=MEDIAN(D23:D186)=MEDIAN(E23:E133)=MEDIAN(F23:F86)n众数是一组数据出现次数最多的数值。如果一组数据各不相同,则这组数据不存在众数。“不同年龄段上网时间均值的区间估计.xls”数据的如下:=MODE(B23:B158)=MODE(C23:C279)=MODE(D23:D186)=MODE(E23:E133)=MODE(F23:F86)niixxn12)(111)(12nxxsnii1)(12nxxsnii1)(12nxxsnii标准差的重要
12、性切比雪夫定理:任何一组数据,设它的平均数为,标准差为,这组数据落在 范围内的数据个数占数据总数的比例,至少是 。这个定理说明了标准差是数据分散程度的一个普遍性的指标。(,),1kkk 211k3223%7543%.898898在工业生产中,产品的指标总会出现波动,一般都把产品指标的变动控制在指标平均值加减3个标准差的范围内,认为这是生产正常的标志。96624.002953.929543.如果产品指标波动超出这个范围,说明生产系统不正常。n在投资风险分析中,评价投资收益有两个指标,一个是收益期望值(平均值),另一个是收益的标准差。投资收益的标准差表示投资风险的大小,标准差越大,风险越大。低收益
13、低风险低收益高风险高收益低风险高收益高风险收益期望值收益标准差标准差是测定数据离散程度的标志,但由于不同的数据数值大小不同,相同的离散程度,数值比较大的标准差也会比较大。以下是不同年龄组每周上网时间的统计数据:为了比较大小不同的几组数据的离散程度,定义如下的变异系数(Coefficient of Variation ):均值标准差)变异系数(CV)3)(2() 1(3)()3)(2)(1() 1(2414NNNxNNNNNCKNii313)2)(1()(NNxNCSNii)(),(,YVarXVaryx和)()(),(YVarXVarYXCovR )(),(yxYXEYXCov22()()()
14、()XYXX YYXXYYlrllXXYY 相关系数没有单位,其值为相关系数没有单位,其值为-1 r 1。r值为正值为正表示正相关,表示正相关,r值为负表示负相关,值为负表示负相关, r绝对绝对值反应两变量间相关关系的密切程度值反应两变量间相关关系的密切程度,绝,绝对值越大说明相关关系越密切,对值越大说明相关关系越密切, r的绝对值的绝对值等于等于1为完全相关,为完全相关,r=0为零相关。为零相关。随机事件的交(Intersection):事件A和事件B同时发生的事件称为事件A和事件B的交。记为AB或A and B随机事件的并(Union):事件A和事件B至少一个发生的事件称为事件A和事件B的
15、并。记为AB或A or B。如果两个事件不可能同时发生,则这两个事件是互斥(Mutually exclusive)的。 随机事件的差:事件A发生而事件B不发生,则称这个事件是A与B的差事件。A-Bmxxx,21ix)(ixXFNxXFmii)(1NxXFxXfii)()(1)(1miixXf几个概率法则几个概率法则n法则法则1:概率值都在01之间。n法则法则2:所有可能性的概率之和等于1n法则3:如果事件A和事件B互斥,那么两个事件的并发生的概率等于两事件发生的概率之和。即 P(AB)=P(A)+P(B)(ixXPix)(lim)(inixXfxXP法则法则4 4:如果两事件不是互斥的,那么两
16、个事件的并发生的概率等于两事件发生的概率之和,减去两事件的交发生的概率。即:P(AB)=P(A)+P(B)-P(AB)。)()()(xxiixXPxXPxF0,11,)(xpxpxf其他, 0, 2 , 1 , 0,)1 ()(nxppCxfxnxxn),(pnxB!)(kekpk1212 ,()x xaxxb2112()()xxPxX xf t dt( )()( )xaF xP Xxf t dt1221()()()P xXxF xF x( )0,( )1F aF b22()21( )2xf xe, 22()21( )()2txF xP Xxedt222)(21)(xexf),(2Nx0,12
17、21( )2zxzf ze( )()xx( )()1xx 2( ,)XN xxF)( ),0 xf xex( )XE0( )()xtF xP Xxedtn离散随机变量的期望值 对于离散随机变量X,期望值是这个随机变量的所有可能结果,用每一个结果发生的概率作为权重的加权平均。 设随机变量X有n个取值,第i个取值等于xi的概率为f(xi),则随机变量X的期望值EX等于离散随机变量的方差(Variance))x(fxXEinii1njjj)x(f)XEx()X(Var12方差度量随机变量的不确定性,方差越大,结果的不确定越大。由于方差的单位和变量的单位不同,因此常用标准差(Standard devi
18、ation)表示随机变量的波动的大小。由于标准差的单位和变量相同,因此它比方差更有意义。标准差是对风险的一种测度,因此它在金融模型中是一个关键的概念。n1ii2ix)x(f)XEx(n例: 风险投资问题 有一项风险投资,每次投资成功和失败的概率都是50。投入1元资本,如果成功,连本带利资本增值为2.2元,如果失败,投入的资金全部损失,资本变为0。为了避免所有的资本全部损失,每次只投入当前资本的一半。假设最初的资本为100万元,而这项投资的次数没有限制。问题:这项投资的前景如何?是一本万利,还是血本无归?解1 设初始资本A=100万元,投资成功的资本增值率为K2.2第一次投资成功后的资本为:A/
19、2+KA/2=(K+1)A/2第一次投资失败后的资本为:A/2第一次投资后的资本的期望值为:0.5 (K+1)A/2+0.5A/2=0.5 (K+2) A/2=0.5(K/2+1)A第二次投资成功后的资本为:0.5 (K+2) A/4+0.5 (K+2)KA/4=0.5 (K+2)(K+1) A/4第二次投资失败后的资本为:0.5 (K+2) A/4第二次投资以后的资本期望值为:0.5*0.5 (K+2)(K+1) A/4+0.5*0.5 (K+2) A/4=0.52(K+2)2A/4=0.5(K/2+1)2A第n次投资以后的资本期望值为: 0.5(K/2+1)nA=0.5*(1.1+1)nA
20、=(1.05)nA当n无限增大时,资本会无限增加,即投资是一本万利的。n解2 设投资2n次,当n很大时,其中大约有n次成功,n次失败。其中对投资者最有利的是前n次都成功,后n次全失败。第1次成功后的资本为A/2+KA/2=(K+1)A/2第2次成功后的资本为(K+1)A/4+K(K+1)A/4=(K+1)2A/4=(K/2+1/2)2A第n次成功后的资本为(K/2+1/2)nA第1次失败后的资本为(K/2+1/2)nA/2第2次失败后的资本为 (K/2+1/2)nA/22第n次失败后的资本为(K/2+1/2)nA/2n=(K/4+1/4)nA=(0.8)nA当n无限增大时,2n次投资以后的资本
21、趋向于0。即投资将会血本无归。解法1和解法2的结果显然是矛盾的,至少有一个是错的,哪一个是错的?错在哪里?连续随机变量的期望值设连续随机变量X的概率分布密度函数为f(x),它的期望值为a, b是随机变量所在的变化范围,a可以是-,b可以是+。随机变量X的方差为随机变量X的标准差为badxxxfXE)(badxxfXExXD)()(2)(XDxn在描述一些事物的运行规律,比如蚂蚁爬行所处的位置,飞机在空中的位置这样一些随机事件,就必须考虑多个随机变量构成的变量组。 设 是一随机变量组,则X的分布称为联合分布。设其密度函数为则分布函数为12(,)nXXXX12( ,)nf x xx1112121(
22、 ,)( , ,)nnxxxnnnF x xxf t tt dtdt 将表中的统计人数除以总人数1898人,得到患病人数关于年龄和化验指标的联合概率分布:n由表中的数据可以看出,如果某个患者的年龄在55-64岁之间,化验指标在6.0-7.9之间,他患病的概率为11.2。n设年龄为随机变量X,化验指标为随机变量Y,表中的数值记为f(x,y),称为随机变量X和Y的联合概率分布。 第一行数值表示不考虑年龄(x)时,化验指标(y)的概率函数,第一列数值表示不考虑化验指标(y)时,年龄(x)的概率函数。第一行和第一列称为边际概率(Marginal probability)( )( , ),yf xf x
23、 y( )( , )xf yf x y( )( , )f xf x y dy( )( , )f yf x y dx(,)() ()ijijP Xx YyP Xx P Yy( , )( ) ( )f x yf x f yn在一个随机事件(Y)已经发生的条件下,某一个随机事件(X)发生的概率,称为条件概率。记为f( x | y )。由下表看出,55-64岁的患者人数为606人,其中化验指标的6.0-7.9之间的患者人数为213人,所求的条件概率为:213/606=0.351。年龄在5564岁之间的人数为606人化验指标在6.0-7.9之间、年龄在55-64岁之间的人数为213人n以上的计算表明,条
24、件概率f(x|y)等于联合分布概率f(x,y)除以边际概率f(y)由此得到,联合分布概率等于条件概率乘以边际概率:联合分布概率f(x,y)边际概率f(y)351. 0319. 0112. 0)(),()|(yfyxfyxf)()|(),(yfyxfyxf统计学是处理统计数据的科学。统计学在科学研究、社会经济分析、商业决策和日常生活中有广泛的应用。根据处理统计数据的目的和方法的不同,统计学可以分为描述统计、推断统计和预测统计。下面简要介绍这三类统计的主要内容。描述统计统计数据有不同的特征。例如,哈尔滨市和三亚市的年气温变化显然有很大差别。哈尔滨的年温差(一年中最高气温和最低气温之差)较大而三亚的
25、年温差较小,两地的年平均气温(全年每小时气温的平均值)也相差很大。描述统计就是计算和分析统计数据的一些统计指标,用来表示统计数据的特点。这些统计指标包括前面介绍过的均值、方差、标准差、中位数、极差以及峰度、偏度、相关系数等。研究分析和表示统计数据的统计特征,就是描述统计的主要内容。n 推断统计我们经常需要通过数据的研究,来确定某一个统计结论有效的范围,或者用统计数据证实或否定一些统计结论。例如,通过抽样检测得出“某件产品的合格率为97”,通过市场调查确定“某商品的市场份额为12”,根据民意调查得知“某候选人在未来的选举中得票的比例为59”。由于这些统计数据是根据抽样得到的,重复进行抽样,这些数
展开阅读全文