统计数据的收集整理与显示课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《统计数据的收集整理与显示课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计数据 收集 整理 显示 课件
- 资源描述:
-
1、统计数据的收集整理与显示统计数据的收集整理与显示2引导案例 宋词密码惨遭破解宋词密码惨遭破解,三步你就能写一首诗三步你就能写一首诗!“yixuan”在个人博客里写道:“突然想看看宋词里面什么样的意象是最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”3引导案例 宋词密码惨遭破解宋词密码惨遭破解,三步你就能写一首诗三步你就能写一首诗!比如“犹解嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是“犹解嫁”
2、“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句话可能的字的组合都列举出来,就可以整体统计高频词频率了,排在前面的分别是:1.无效数字(14852)2.东风(1382)3.何处(1230)4.人间(1202)5.风流(857)6.归去(812)7.春风(802)8.西风(779)9.归来(771)10.江南(765)至于为什么第一名是数字,他解释:“排在第一的是无效字符,这跟数据源有关。”4567如梦令如梦令根号二根号二=1.41421356(414213)深处时节千里,)深处时节千里,(562373)消息当年鸳鸯。)消息当年鸳鸯。(0950)归来今日,)归来今日,(48801
3、6)一点无情多少。)一点无情多少。(8888)今夜,今夜)今夜,今夜(724209)而今时节归来。)而今时节归来。8 研究人员将中国艺术研究院红楼梦研究所校注、人民文学出版社1982年出版的红楼梦作为基础原文全文输入计算机。人们利用这个检索系统第一次得到了红楼梦中一系列重要的统计数据。如红楼梦全书的精确字数是731017个;书中使用不同的汉字4462个,使用最多的是 ,达21176次;全书有1623个不同的四字格成语,用得最多的是 ;书中采用了二十四种修辞手法,用得最多的是“比喻”,共408条。“了”“不在话下”统计分析与红学进展9 1987年,复旦大学数学系副教授李贤平的工作引人注目。他在美
4、国威斯康星大学的计算机前工作了数百小时,绘制了三百多张图纸,运用计算机技术中的模式识别法和统计学家使用的探索性数据分析法,对红楼梦进行统计分析、风格分析。他翻阅了大量的红学研究论文和资料,利用过去红学家发掘的资料进行考证。统计分析与红学进展10 把红楼梦一百二十回本作为一个整体,以47个虚字为识别特征,对它们在书中各回的出现频率进行统计分析,输入计算机后将使用频率绘成图纸,根据图纸反映出的表明不同创作风格的星云状和阶梯状图形,提出了又一次震惊红学界的红楼梦成书过程新观点,证明了红楼梦各回写作风格具有不同的类别,各部分实际上是由不同作者在不同时期里完成的。统计分析与红学进展11 李贤平认为:“红
5、楼梦前八十回是曹雪芹据石头记增删而成,其中插入他早年著的金瓶梅式小说风月宝鉴,并增写了具有深刻内涵的许多内容。红楼梦后四十回是曹家亲友在曹雪芹全书尚未完成就突然去世之后,搜集整理原稿并加工补写而成。程伟元将全稿以活字版印刷刊行。高鹗校勘异文补遗订讹”。统计分析与红学进展12Dewey G.统计了约438023个英语单词中各字母出现的频率,发现各字母出现的频率不同:A:0.0788B:0.0156C:0.0268D:0.0389E:0.1268F:0.0256G:0.0187H:0.0573I:0.0707J:0.0010K:0.0060L:0.0394M:0.0244N:0.0706O:0.0
6、776P:0.0186Q:0.0009R:0.0594S:0.0634T:0.0987U:0.0280V:0.0102W:0.0214X:0.0016Y:0.0202Z:0.0006 统计分析与键盘设计132.1 统计数据的收集数据来源科学实验统计调查:按照统计研究的任务,运用科学的 统计调查方法,有计划、有组织地 向客观实际搜集资料的过程:在实验中控制实验对象而收集到的 数据,称为实验数据 收集数据的要求:准确、及时拟定统计调查方案:确定统计调查的目的、调查的对象、调查的项目等内容 14天津广播听众调查问卷 目的目的:了解我市听众收听天津人民广播电台节目的一些 基本情况,为提高节目质量、推出
7、优秀节目提供 科学依据。对象和单位:对象和单位:天津市市民调查项目调查项目和调查表:和调查表:调查项目:听众收听天津人民广播电台节目的 一些基本情况 调查表:调查项目以表格的形式来表现。调查什么152.1.1 统计调查方案的确定 1确定调查目的 2确定调查对象和调查单位 3设计调查项目和调查表 4方案设计中的其他内容调查方式调查时间调查的组织与实施2.1.2 常用的统计调查方法1普查普查:是专门组织的一般用来调查属于一定时点上 社会经济现象数量的全面调查。优点优点:全面、系统缺点缺点:只限于有限总体、工作量大、时间性强164抽样调查:抽样调查:是从调查对象中随机抽取一部分单位作为 样本进行调查
8、的一种非全面调查 优点优点:经济灵活、时效性强、适应面广和准确性高3典型调查典型调查:在对研究对象进行全面分析的基础上,有 意识地选择部分有代表性单位进行调查优点优点:调查范围小、省时省力、具体深入缺点缺点:具有主观性2重点调查重点调查:只在对象中选择一部分重点单位进行调查 以了解总体情况的一种非全面调查优点优点:省时、省力、不带主观性。比重较大人为选择的典型单位随机原则:调查单位以等可能被抽到,保证代表性 最大抽样效果原则:误差尽量小or调查费用尽可能小。175统计报表统计报表是按照国家有关法规的规定,自上而下地逐级提供统计数据的一种调查方式。特点:特点:是由政府部门组织、采用统一的表格、自
9、上而下布置、自下而上报告。统计报表是经常性的全面调查。种类种类:(1)调查范围调查范围:全面报表、非全面报表全面报表:要求调查对象每一个单位都填报。非全面报表:要求调查对象中的部分单位填报。(2)内容和实施范围内容和实施范围:国家/部门/地方统计报表(3)报送周期长短报送周期长短:日报、旬报、月报、季报、半年报、年报(4)报送单位不同报送单位不同:基层统计报表、综合统计报表。18补充知识:抽样调查的组织方式:简单随机抽样(纯随机抽样)简单随机抽样(纯随机抽样)类型抽样(分层抽样)类型抽样(分层抽样)等距抽样(机械抽样)等距抽样(机械抽样)整群抽样整群抽样19抽样调查的组织方式:抽样调查的组织方
10、式:简单随机抽样(纯随机抽样)简单随机抽样(纯随机抽样)方法:将总体单位编成抽样框,而后用抽签或方法:将总体单位编成抽样框,而后用抽签或 随机数表直接抽取样本随机数表直接抽取样本单位。单位。适用:总体规模不大;总体内部差异小适用:总体规模不大;总体内部差异小类型抽样(分层抽样)类型抽样(分层抽样)方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。总体总体N样本样本n等额分配等额分配等比例分配等比例分配最优分配最优分配2NkN1N1n2nkn20等距抽样(机械抽样)等距抽样(机械
11、抽样)方法:将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。方法:将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。排序依据的标志:(排序依据的标志:(1)无关标志;()无关标志;(2)有关标志)有关标志(总体单位按某一标志排序)(总体单位按某一标志排序)整群抽样整群抽样方法:方法:将总体全部单位分为许多个将总体全部单位分为许多个“群群”,然后随机抽取若干,然后随机抽取若干“群群”,对被抽中的各,对被抽中的各“群群”内的所有单位登记调查。内的所有单位登记调查。抽样调查的组织方式:抽样调查的组织方式:21总体群数总体群数R=16 样本群数样本群数r=4 样本容量样本容量例:例:AB
12、CDEFGHIJKLMNOPLHPDhlpdnnnnn抽样调查的组织方式:抽样调查的组织方式:222.1.3 调查问卷设计与问卷调查表的编码调查问卷设计与问卷调查表的编码2.1.3.1 调查问卷设计调查问卷设计1问卷的基本结构问卷的基本结构 问卷是调查者根据调查目的和要求所设计的,一般由开头部分、甄别部分、主体部分和背景部分组成。主体部分是调查问卷的核心内容,它包括了所要调查的全部问题。23开头部分开头部分 开头部分也是问候语,说明调查的目的,消除被调查者的顾虑,争取合作。甄别部分甄别部分 甄别部分是为了符合调查的需要,而对被调查者进行筛选。24 背景部分主要是有关被调查者的一些背景资料。背景
13、部分背景部分主体部分主体部分 主体部分是调查问卷的核心内容,包括了所要调查的全部问题。252设立问卷问题的注意事项设立问卷问题的注意事项(1)提问的内容尽可能短。(2)问题设计的用词要准确,用语要含义明确。例例:您通常喜爱选购什么样的鞋?您外出旅游时,会选购什么牌号的旅游鞋?例例:您对它的价格和服务质量满意还是不满意?您对它的价格是否满意?您对它的服务质量是否满意?例例:您最常用的获取新闻的方式是什么?(只适合单选)例:例:最近您是否浏览过网站?今天您是否浏览过网站?26(3)在问卷中的问题,必须是能够获得诚实回答的问题。例:例:你对本课程的任课教师是否满意?(实名调查)(4)问题的不同提法,
14、可能导致不同的回答结果。例例:1941年罗格(Rugg)进行的试验:A:您是否认为美国应该禁止反对民主的公开言论?B:您是否认为美国应该允许反对民主的公开议论?调查结果:A54“是”B75“否”27(5)尽量避免诱导性、否定性和敏感性问题。例:例:购买盗版制品是不道德的,你是否购买过盗版制品。您并不认为应该增加反污染法规吧?您的个人收入是多少?3设立问卷答案的注意事项设立问卷答案的注意事项 (1)对单选问题,备选答案应当是一个空间的完整划分。A:您对食堂的伙食满意么?(a)非常满意(b)满意(c)不满意 (2)对单选,备选答案不应当是两个空间(层面)的混淆。A:您至今未买电脑的原因是什么?(单
15、选不可以,多选可以)(a)买不起(b)没有用(c)不懂(d)其它 28(3)无论多单选题,任一个备选答案都不能有多重含义。A.您选择信息专业的目的是:(a)自己喜欢,好就业(b)(4)无论多单选题,备选答案之间不能有包含关系。A.您上大学的目的是:(a)将来有一份收入高的工作(b)能够过上比较富裕的生活(c)294问卷设计的基本原则问卷设计的基本原则主题鲜明目的明确,重点突出,没有可有可无的问题。2)结构合理先封闭后开放,先易后难。封闭性问题封闭性问题:事先设计好答案开放性问题开放性问题:自由回答例如,您对学校的教学管理有何更具体的看法?3)适当控制回答时间(尽量不超过30分钟)4)便于计算机
16、处理易于编码、录入、汇总和数据出表302.1.3.2 问卷调查表的编码问卷调查表的编码1单选题问卷调查表的编码单选题问卷调查表的编码(1)题号代号不能重复。(2)同一量表的题号最好有相同的识别码。(3)名义或类别问题的代号最好与其意义内涵有关,以36个英文字母简写代表最好。例:例:年龄为AGE,年级为YEAR,工作类别为JOB等,学生性别为SEX,教育程度为EDU等。2复选题问卷调查表的编码。31表2-1 问卷调查表您的性别:1男生 2女生您的职务:1主任 2组长 3教师一您认为目前教改阻力来自哪些单位?(可复选)1教育行政单位 2学校行政人员 3家长团体4教师本身 5其他团体二.您认为目前教
17、改对哪些人会有影响?(可复选)1教师 2行政人员 3学生 4其他A1A11A15A14A13A12A2A21A24A23A2232表2-2 变量编码表NUMNUMSEXSEXJOBJOBA A1111A A1212A A1313A A1414A A1515A A2121A A2222A A2323A A24240011110110110100212001111000编码表说明:编码表说明:NUM-编码 SEX-性别 jOB-职务 A11A15代表第一题中5个选项,选中者输入1,未选中者输入0。A21A24代表第二题中4个选项,选中者输入1,未选中者输入0。33补充知识:问卷调查常用量表李克特量
展开阅读全文