您好、欢迎来到现金彩票网!
当前位置:2019全年免费资料大全 > 统计推理 >

4-数值变量的统计分析-统计推断

发布时间:2019-07-17 10:26 来源:未知 编辑:admin

  数值变量的统计分析  目的要求① 掌握数值变量描述指标的计算方法② 正态曲线下面积的分布规律的应用③ 掌握假设检验的基本步骤:t检验的计算方法及应用条件④ 熟悉标准差和标准误在应用上的不同 实习内容① 频数表的编制② 数值变量资料常见统计描述指标的计算③ 正常值范围与可信区间④ 均数的t检验数值变量的统计分析 数值变量的统计分析第一节 数值变量资料的统计描述第二节 数值变量资料的统计推断第三节 均数假设检验的基本方法第一节 数值变量资料的统计描述第二节 数值变量资料的统计推断第三节 均数假设检验的基本方法 第二节 数值变量资料...

  数值变量的统计分析  目的要求① 掌握数值变量描述指标的计算方法② 正态曲线下面积的分布规律的应用③ 掌握假设检验的基本步骤:t检验的计算方法及应用条件④ 熟悉标准差和标准误在应用上的不同 实习内容① 频数表的编制② 数值变量资料常见统计描述指标的计算③ 正常值范围与可信区间④ 均数的t检验数值变量的统计分析 数值变量的统计分析第一节 数值变量资料的统计描述第二节 数值变量资料的统计推断第三节 均数假设检验的基本方法第一节 数值变量资料的统计描述第二节 数值变量资料的统计推断第三节 均数假设检验的基本方法 第二节 数值变量资料的统计推断一. 均数的抽样误差与标准误差二. t分布三. 总体均数的置信区间估计四. 假设检验的基本步骤和概念重点:掌握假设检验的基本步骤:t检验的计算方法及应用条件掌握假设检验的基本步骤:t检验的计算方法及应用条件 5统计推断的目的: 用样本的信息去推论总体1. 参数估计2. 假设检验 6例: 某地14岁健康女生身高的总体均数 为 为155.4cm,标准差为5.30155.4cm,标准差为5.30。若从该地14岁健康女生中随机抽取样本含量。若从该地14岁健康女生中随机抽取样本含量 n均为10人 的样本共 100次,计算出每次样本的均数为153.8cm,155.5cm,计算出每次样本的均数为153.8cm,155.5cm,总体8 . 1531 = x1 . 158100 = x5 . 1552 = = x0 . 1563 = = x 7 : 抽样误差(sam pling error):因各样本包含的个体不同,所得的各个样本统计量(如均数)往往不相等,这种由于个体差异和抽样造成的样本统计量与总体参数的差异,称为因各样本包含的个体不同,所得的各个样本统计量(如均数)往往不相等,这种由于个体差异和抽样造成的样本统计量与总体参数的差异,称为 抽样误差。 产生抽样误差的原因:个体差异 在抽样研究中,抽样误差是无法避免的; 抽样误差的分布有一定的规律性。一、均数的抽样误差与标准误 8身高组段(cm)频数151~ 1152 ~ 6153 ~ 10154 ~ 18155 ~ 29156 ~ 20157 ~ 8158 ~ 6159~ 2样本均数的抽样分布特点:样本均数的抽样分布特点:各样本均数未必等于总体均数各样本均数未必等于总体均数各样本均数之间存在差异各样本均数之间存在差异样本均数的分布有一定规律性样本均数的分布有一定规律性可计算 100个样本均数,得频数分布如下:个样本均数,得频数分布如下: 9计算出这100个样本均数的均数为计算出这100个样本均数的均数为m 155.52cm ,样本均数的标准差为,样本均数的标准差为 1.64cm身高组段(cm)频数151~ 1152 ~ 6153 ~ 10154 ~ 18155 ~ 29156 ~ 20157 ~ 8158 ~ 6159~ 2 10标准误(standard error) 样本均数的标准差,也称 均数的标准误 ,是反映均数抽样误差大小的指标。 均数标准误越小,说明样本均数与总体均数的差异程度越小,用该样本均数估计总体均数越可靠。均数标准误越小,说明样本均数与总体均数的差异程度越小,用该样本均数估计总体均数越可靠。 11标准误的计算nSSnX X= = , 当标准差一定时,标准误与样本含量n的平方根呈反比可以通过适当增加样本含量来减少标准误,从而降低抽样误差。可以通过适当增加样本含量来减少标准误,从而降低抽样误差。 12标准误的计算 例 , S=5.40 cm, n=10 = = 155.4 cm,71 . 11040 . 5 = = =nSSX68 . 11030 . 5= = =nX 总体标准差已知 总体标准差未知:cm 30 . 5 = cm x 8 . 1541 = 13标准误的用途: 衡量样本均数的可靠性 估计总体均数的置信区间 用于均数的假设检验 14数理统计推理和中心极限定理 从正态总体中,随机抽取例数为n的样本,样本均数服从正态分布;的样本,样本均数服从正态分布; 从偏态总体随机抽样,当n足够大时,样本均数也近似服从正态分布;足够大时,样本均数也近似服从正态分布; 从均数为 ,标准差为 的正态或偏态总体,抽取例数为n 的样本,样本均数的总体均数= ,标准差 。X 15二、 t 分布 t 分 布的概念 t 分布的图形、性质、 t 界 值 表 查 表 ( ) 2, N ~ X ( )2XX, N ~ ( ) 1 , 0 ~ NXu =( ) 1 , 0 ~ NX =Xu估计,则 用 未知时, 当nSSX X= 1 - n , == 分布 为tSXtX(一)t分布的概念 17t 分 布 的 概 念 当总体标准差未知时,可作正态变量 t t 转换: : t分布与标准正态分布的联系 :t t 分布只有1 1 个参数:自由度( =n-1 )。n sxt =x 18(二) t 分布的图形和特征 以0 为中心,左右对称的单峰曲线 t 分布是一簇曲线,自由度 决定曲线的形状。 越小,t值越分散,曲线峰部越矮,尾部越高;值越分散,曲线峰部越矮,尾部越高; 逐渐增大,t 分布逐渐逼近标准正态分布,  ,t 分布 标准正态分布 19(三)t t 值表的使用( P544 )纵标目: 自由度(1,2,3,,)横标目: 概率P(双侧:0.05, 0. 01, 0.001 )(单侧:0.025,0.005,0.0005 )(双侧:0.05, 0. 01, 0.001 )(单侧:0.025,0.005,0.0005 )t界值:一侧尾部面积为单侧概率,两侧尾部面积之和称为双侧概率。一侧尾部面积为单侧概率,两侧尾部面积之和称为双侧概率。 20(三)t t 值表的使用t分布曲线两端尾部面积表示在随机抽样中,获得的t值大于等于某t界值的概率,t分布曲线两端尾部面积表示在随机抽样中,获得的t值大于等于某t界值的概率, 即P值 。例: =10时 , 当t界值表得 t t (, 10) = 1.812含义为: 单侧概率=0.05 : P(t1.812)=P(t -1.812)=0.05双侧概率=0.10 :P( ︱t︱ ︱ 1.812)=P(t 1.812)+P(t -1.812)=0.10-1.812 1.8120.050.05 (三)t t 值表的使用例: =16 时, 当t t 界值表得 t t (, 16) = 1.746含义为:单侧概率双侧概率单侧概率双侧概率 22t t 值表中: 相同时,t值越大, P值越小; P值相同时,自由度 值越大,t值越小; t t 值相同时,双侧概率P为单侧概率P的两倍。 (四)t t 分布的应用: 总体均数的区间估计 t检验 24三、总体均数的置信区间估计 参数估计的基础理论 可信区间的概念 总体均数可信区间的计算 可信区间的解释 均数可信区间与参考值范围的区别 25(一)参数估计的基础理论 参数估计: (parametric estimation):用样本统计量估计总体参数的方法。 点(值)估计:point estimation,直接用样本统计量作为总体参数的估计值。方法简单但未考虑抽样误差大小。 区间估计:interval estimation, 按预先给定的概率95% ,或(1- ),确定的包含未知总体参数的可能范围,考虑了抽样误差。,确定的包含未知总体参数的可能范围,考虑了抽样误差。 26(二)可信区间的概念 (confidence interval, CI ) 有1- (如95%)的可能认为计算出的可信区间包含了总体参数。)的可能认为计算出的可信区间包含了总体参数。 较小的数值称为置信下限,而较大的数值为置信上限,可信区间不含可信限。较小的数值称为置信下限,而较大的数值为置信上限,可信区间不含可信限。例4.3 某市随机抽查12 岁男孩100 人,得身高均数139.6cm,标准差,标准差6.85cm 。该地12 岁男孩身高均数的95% 可信区间为:138.3(cm)~141.0 (cm) 。 27总体均数的可信区间原理 按t分布的原理得出nSt X S t XS t X S t XtSXt PXX XX , 2 / , 2 /, 2 / , 2 /, 2 / , 2 / 1 = + = 28(三)总体均数可信区间的计算1 1 、 已知时:总体均数的 95% 置信区间为:XX 96 . 1 292 2 、 未知、且样本例数较少时,按t t 分布原理 总体均数的 95% 置信区间为:XS t X , 05. 0 30例9.10 随机抽取某地健康男子 20人,测得样本的收缩压均值为人,测得样本的收缩压均值为 118.4 m m H g , 标准差为10.8 m m H g,试估计该地男子收缩压总体均数的95% 的置信区间。,试估计该地男子收缩压总体均数的95% 的置信区间。) 23.5 1 , 3 . 113 ()208 . 10093 . 2 4 . 118 ,208 . 10093 . 2 4 . 118 (19 , 05 . 0 19 , 05 . 0=× + × = = =× + × = = nSt X S t XX =20-1= 19 t 0.05, 19 =2.093 313、 未知、但样本例数足够大时(n50时) ,按正态分布原理。,按正态分布原理。 总体均数的 95% 置信区间为:XS X 96 . 1 32大样本时总体均数的可信区间估计 例:测得某地200名正常人血清胆固醇的均数为3.64 mmol/L3.64 mmol/L ,标准差为 1.20 mmol/L。试求该地正常人血清胆固醇均数95%的可信区间。。试求该地正常人血清胆固醇均数95%的可信区间。) 81 . 3 , 47 . 3 (20020 . 196 . 1 64 . 32 / 2 /= = = nSu X S u XX 该地正常人血清胆固醇均数95%的可信区间为3.47~3.81( mmol/L ) 334 4 、两总体均数差的可信区间 从标准差相等、均数不等的两个正态总体中随机抽样,样本含量分别为n从标准差相等、均数不等的两个正态总体中随机抽样,样本含量分别为n 1 1 ,n 2 2 ,样本均数和标准差分别为 、S,样本均数和标准差分别为 、S 1 1 和 、S 2 2 ,则两总体均数之差( 1 1 - - 2 2 )的1- 可信区间为可信区间为) (n 2) 1 ( ) 1 ( 1 12 122 221 122 122 1较小时 + + =+ =n nS n S nSn nS Sc c X X , ) (2 1, 2 / 2 1 X XS t X X 1X2X2 12 / 2 1) (X XS u X X ) (n ,2 22221212 1 2 1较大时X X X XS SnSnSS + = + = 34两总体均数差的可信区间 某医院心内科在冠心病普查工作中,测得40~50岁年龄组男性193人的某医院心内科在冠心病普查工作中,测得40~50岁年龄组男性193人的 脂蛋白均数为379.59(mg%),标准差为104.30 (mg%);女性128人的脂蛋白均数为379.59(mg%),标准差为104.30 (mg%);女性128人的 脂蛋白均数为357.89(mg%),标准差为89.67 (mg%)。问男性与女性的脂蛋白均数为357.89(mg%),标准差为89.67 (mg%)。问男性与女性的 脂蛋白总体均数有多大差别?( ) %) ( 10 . 61 ~ 30 . 18 92 . 10 96 . 1 70 . 39 , 92 . 10 96 . 1 70 . 3992 . 1012867 . 8919330 . 104 , ) ( 70 . 39 89 . 357 59 . 397 X X2 22221212 / 2 12 12 1 2 1mgnSnSS S u X XX X X X= × + × = + = + = = = = × + × = + = + = = = 结论:40~50岁年龄组男性与女性的脂蛋白总体均数不同,男性平均比女性高出18.30~61.10 (mg%) 35(四)可信区间的解释 该地健康男子收缩压总体均数的95% 置信区间为(113.3 ,123.5 )mmHg 。 从理论上说,做100 次抽样,可计算得100个置信区间,平均有个置信区间,平均有95 个置信区间包括总体均数,只有5个置信区间不包括总体均数。这种估计方法会冒个置信区间不包括总体均数。这种估计方法会冒5%犯错误的风险。犯错误的风险。 36可信区间的确切含义是指 有1- (如95%)的可能认为计算出的可信区间包含了总体参数。)的可能认为计算出的可信区间包含了总体参数。 在可信度确定的前提下,增加样本例数,可减少区间宽度在可信度确定的前提下,增加样本例数,可减少区间宽度 37(五)可信区间与参考值范围的区别 随机抽取某地200名正常成人,测得血清胆固醇均数为3.64 mmol / L,标准差为1.20 mmol / L 。求得该地正常人血清胆固醇随机抽取某地200名正常成人,测得血清胆固醇均数为3.64 mmol / L,标准差为1.20 mmol / L 。求得该地正常人血清胆固醇 均数的95%可信区间为3.47~ 3.81(mmol / L) 95%参考值范围为1.29~ 5.99(mmol / L)) 81 . 3 , 47 . 3 (20020 . 196 . 1 64 . 3 96 . 12 /= = = nSX S u XX) 99 . 5 , 29 . 1 ( 20 . 1 96 . 1 64 . 3 96 . 1 = × = S X 38标准误 ( standard error ) VS 标准差 ( standard deviation ) 标准差(或 s) 标准误 (x xs 或 ) 意义上 描述一组变量值的离散趋势 描述样本均数间的离散趋势。 应用上 (1)s 越小,表示变量值围绕均值分布越密集,说明平均数的代表性越好。 (1)应用上 (1)s 越小,表示变量值围绕均值分布越密集,说明平均数的代表性越好。 (1) s x 越小,表示样本均数与总体均数越接近,说明样本均数推断总体均数的可靠性越大。 (2)可用越小,表示样本均数与总体均数越接近,说明样本均数推断总体均数的可靠性越大。 (2)可用s u x估计变量值的范围 (2)可用 估计变量值的范围 (2)可用 xs t x ,估计总体均数的可信区间。 与n的关系 n 越大,s 越趋于稳定 n 越大,估计总体均数的可信区间。 与n的关系 n 越大,s 越趋于稳定 n 越大, s x 越小 参考值范围与均数的可信区间的区别 40四、假设检验的基本概念和步骤例:某医生测量了36名铅作业男性工人的血红蛋白含量,算得其均数为例:某医生测量了36名铅作业男性工人的血红蛋白含量,算得其均数为 130.83g/L ,标准差为 25.74g/L。已知正常成年男性的血红蛋白为平均为。已知正常成年男性的血红蛋白为平均为L 140.0g/L 。试问能否认为从事铅作业工人的血红蛋白不同于正常成年男性的血红蛋白?。试问能否认为从事铅作业工人的血红蛋白不同于正常成年男性的血红蛋白? 0 =140.0g/L已知总体 未知总体X=130.83g/LS= 25.74g/Ln=36 41出现差别的两种可能: 总体均数不同, 故样本均数有差别 总体均数相同,差别仅仅是由于抽样误差造成的怎样判断属于哪一种可能?先计算一个统计量,如t值,然后根据相应的概率做判断。差别仅仅是由于抽样误差造成的怎样判断属于哪一种可能?先计算一个统计量,如t值,然后根据相应的概率做判断。 通过假设来处理的问题具有两个特点 需要从全局的范围即从总体上对问题做出判断 不可能或者不允许对研究总体的每一个个体都做观测 43(一)假设检验的基本原理 样本均数与已知总体均数不等,原因?(1)样本均数与已知总体均数不等,原因?(1) = 0 0 ,抽样误差所致(2),抽样误差所致(2) 0 0 ,两总体均数不等 这种不等,有多大的可能性由抽样误差造成?如果抽样误差造成的可能性很小,则认为这种不等,有多大的可能性由抽样误差造成?如果抽样误差造成的可能性很小,则认为 0 0 先假设 = 0 0 ,再看由于抽样误差造成的可能性(,再看由于抽样误差造成的可能性( P值 )有多大?怎样计算 P值 的大小呢? 44( 二)假设检验的基本步骤 建立检验假设,确定检验水准 选定检验方法,计算统计量 确定P值,作出推断结论 451、建立检验假设,确定检验水准 无效假设(null hypothesis ), 用H 0 表示① 假设未知总体参数等于已知总体参数, = 0 0② 假设两个总体参数相等, 1 1 = 2 2 备择假设(alternative hypothesis ), 若H0被否决则该假设成立。用被否决则该假设成立。用H 1 表示。 H H 1 1 的内容反映出检验的单双侧,分三种情况: 0 0 (单侧), 0 0 (单侧), 0 0(双侧) 假设是对总体而言,不是针对样本。 H H0 0 与H1 1 是相互联系、对立的假设。 46单、双侧的确定 研究者所关心的只是 差异是否有本质上的区别,则采用双侧检验,则采用双侧检验(two-side test),一般认为双侧检验较保守和稳妥,尤其是多样本。,一般认为双侧检验较保守和稳妥,尤其是多样本。 研究者想知道是否有一方较高,则采用单侧检验(one-side test)。从专业知识判断知:一结果不可能低于另一结果,拟用单侧检验。。从专业知识判断知:一结果不可能低于另一结果,拟用单侧检验。一般认为双侧检验稳妥 47确定检验水准, size of a test,  过去称显著性水平(significance level )确定H 0 成立但被拒绝的概率的界值,是成立但被拒绝的概率的界值,是I 型错误的概率大小。 它确定了小概率事件的大小,常取 =0.05 482、选定检验方法,计算检验统计量 根据变量类型、设计方案、检验方法的适用条件等 ,选择适当的检验方法和统计量。根据变量类型、设计方案、检验方法的适用条件等 ,选择适当的检验方法和统计量。 所有检验统计量都是在H 0 成立的前提条件下计算出来的,这就是为什么要假设某两个(多个)总体参数相等,或服从某一分布的原因。成立的前提条件下计算出来的,这就是为什么要假设某两个(多个)总体参数相等,或服从某一分布的原因。 493. 确定P 值,作出推断结论 P值: 指从H 0 0 规定的总体随机抽得 (或- ?)现有样本获得的检验统计量值(如t)的概率。规定的总体随机抽得 (或- ?)现有样本获得的检验统计量值(如t)的概率。 怎样计算P P 值 的大小呢?以36名铅作业男性工人的血红蛋白含量为例:36名铅作业男性工人的血红蛋白含量为例:已知总体 未知总体 0 =140.0g/LX=130.83g/LS= 25.74g/Ln=3614 . 236 / 74 . 25140 83 . 1300 ====X XSXSXt 50怎样计算P P 值 的大小呢? 若假设 = = 0 0 ,︱t t︱ ︱ =2.14 值 当P 小于或等于预先规定的概率值 (如0.05),则为小概率事件,即在一次抽样中发生的可能性很小,如果它发生了,则有理由怀疑原假设),则为小概率事件,即在一次抽样中发生的可能性很小,如果它发生了,则有理由怀疑原假设 = 0可能不成立,认为其对立面 0 成立,该结论的正确性冒着犯成立,该结论的正确性冒着犯5% 错误的风险。t 0.05,35 =2.03t 0.01,35 =2.720.01P0.05 513. 确定P 值,作出推断结论 P值就是依据所计算的统计量确定H H 0 0 成立的可能性大小 判断准则:① 当P 时,拒绝H 0 0 ,接受H 1 1 ,认为差异有统计学意义(statistical significance,统计结论) ;可认为不同或不等(专业结论)认为差异有统计学意义(statistical significance,统计结论) ;可认为不同或不等(专业结论)② 当P 时,不拒绝H 0 0 ,认为差异无统计学意义(no statistical significance)。还不能认为不同或不等(专业结论)认为差异无统计学意义(no statistical significance)。还不能认为不同或不等(专业结论)

http://linkzoo.net/tongjituili/405.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有