考研统计学,考研统计学专业课考什么
你是否曾经面对一大堆临床数据不知从何入手,尽管很多教材说了应该先做什么再怎么样,但是当我们实际操作时,照本宣科并不是一件那么有用的事。前面我们已经讲了常见的临床研究及统计学思维的培养,那么根据不同的临床研究如何选择正确的统计学方法呢?跟着唐老鸭一探究竟吧~~
一.医学统计两大任务–统计描述和统计推断
我们在试验设计阶段就应该将统计分析考虑在内,后面进入数据处理阶段,主要分为两类,一类为统计描述,一类为统计推断,也是医学统计的两大任务。
例如我们在临床研究摘要的结果部分中,经常见到类似描述:A组的结果为5.80,B组的结果为11.6,A 组和 B 组差异有统计学意义(p<0.05)。其中,A 组和B组的具体数值是统计描述,A组和B组的差异有统计学意义就是统计推断。
二.统计学中常见的试验设计
在研究设计阶段我们要紧跟统计学设计,下面例举几个常用的统计设计的方法:
1.完全随机设计(成组设计)
最常见,最易实施的实验设计方案。将研究对象随机分配到几个组,然后做实验。
ps:各组间是互相独立的。组间比较是一种比较简单的思想,就是你采用相应的设计方法(如完全随机设计),把人群分为两组或多组,比较各组之间的均值或率有没有统计学差异。涉及的因素很简单,就是一个组别因素。
2.配对设计(区组设计)
将具有相似特征的研究对象配成对子,然后再将每个对子的对象随机分配到两个组进行实验。常见形式: ①同源配对(如样品一分为二);②异源配对(按性别、体重、年龄配对);③自身前后配对(试验前后的对比)
3.析因设计
同时研究多个实验因素对结果的影响。
例如,研究药物剂量(3mg、6mg)及给药方式(口服、肌注)对结果的影响,每种组合均需要做试验(3mg+口服,3mg+肌注,6mg+口服,6mg+肌注),为2×2析因设计。
ps:在析因设计中,我们除了要考虑单因素的影响,同时也要考虑因素和因素之间是否有交互(影响)。例如A、B两种药物的作用均为1,我们认为A+B=2为联合,A+B>2为协同,A+B<2为拮抗,其中A+B>2和A+B<2均说明两种药物互有影响。
4.重复测量设计
同一对象在不同时间点上进行某个指标的观测,以分析该指标在时间上的变化;或同一个对象在不同状态下多次测量。
5.交叉设计
设有A和B两种处理,将受试对象随机分为两组,第1组在时期1接受A处理,在时期2接受B处理,试验顺序为AB;第2组则相反,试验顺序为BA,这是2种处理、2个序列、2个阶段的交叉试验。
6.成组序贯设计
成组序贯设计不同于序贯设计每增加一对受试者即进行分析的策略,而是在完成一定的样本比例或时间间隔后进行中期评价。
三.如何选择统计学方法?
1.单因素分析
单因素分析是比较单个自变量x与因变量y的关系。常见的单因素统计方法包括简单相关、t检验、卡方检验、方差分析、非参数检验等。
(1)定量资料结局的单因素分析
①单样本:在此不多赘述,满足正态分布选t检验,否则秩和检验。
②两样本:当你做了一个完全随机设计(组间独立),例如要比较两种降压药的疗效,最后的分析结局指标是血压的降低值,这是一个连续资料。既然是两组,那就看两组的部分。然后接着判断两组数据是否服从正态分布(要分别每组看),如果不满足正态分布,我们可以看到,线条直接指向了Wilcoxon秩和检验,那你就用这种方法就好了。如果满足正态分布,线条指向还得继续做方差齐性检验(也就是比较两组的方差是不是相等),如果方差齐(两组方差相等),指向t检验,那就用t检验就好了。如果方差不齐(两组方差不相等),那就用校正t检验。如果两组样本是配对关系(组间不独立),则根据正态性选择配对t检验或配对秩和检验。
③多样本:在多样本中我们首先要看不同的组之间是否有配伍关系,如果没有配伍关系即组间是完全独立的,要是满足正态分布,我们选择单因素方差分析或者随机区组方差分析,否则选择Kruskal-Wails H秩和检验。如果不同的组之间不独立,如因素和因素之间有交互,要选择对应的方差分析,如重复测量方差分析或析因设计方差分析。
(2)定性资料的单因素分析,即有效/无效、治愈/未治愈。
①两样本:当我们的结局资料是定性资料,无非就是两样本率和构成比的问题。两样本中,如果独立即选择普通卡方检验,如果是配对关系即选择配对卡方检验。
②多样本:如果有多组,即行X列表的情况。图中的“有序”我们一般指的是结局变量,单向有序中只要是结果变量有序,我们就要选择秩和检验。双向有序属性不同的情况下,如果你要研究随着X变化下Y的变化,研究二者的相关性,则要选择秩相关分析。
(3)相关与回归分析方法选择
①相关分析:满足正态分布及Pearson相关分析,否则Spearman秩相关分析。这个Pearson分析满足条件比较苛刻,它要求X1、X2两个变量均要满足正态分布的连续变量的条件。当有一个变量不满足就8要用Spearman秩相关分析。
②回归分析:我们主要看Y是不是线性的,非线性的话我们要考虑是否要进行线性的转换。
(4)定量/定性/生存资料的多因素分析
说完单因素分析,多因素分析则是研究一个因变量和多个自变量之间线性关系的统计分析方法。在临床研究中,如果条件允许,尽可能进行多因素分析。多因素分析最常用的就是多因素回归,包括线性回归,Logistic回归和Cox回归。我们根据因变量即Y值主要分为三大类,即定量、定性、生存资料的对因素分析。
①因变量为连续变量,采用多元线性回归。
②因变量为计数资料,如我们观察患儿一年哮喘发病次数或者癫痫患者在过去1个月发病的次数等,这种非负值的整数我们采用泊松回归。
③因变量为分类变量,如果不考虑时间则采用Logistic回归;如果y值为分类变量又要同时考虑时间的话,如考虑从观察开始到出现结局的时间,即我们所说的生存资料,则选择Cox风险模型或竞争风险模型等。
四.案例分享
【例1】30只大鼠随机分为A, B、C三组,每组10只,分别给予三种药物, 5天后测定某指标值如下表:
资料特点:完全随机设计,计量资料,三组
错误方法:t检验
合适方法:方差分析
t检验适用于两组样本计量资料的比较,如果同学们分别进行三次t检验,即AB/AC/BC均进行t检验,则会增加假阳性的概率。当单因素方差分析条件不满足时,可以采用秩和检验。
【例2】36只大鼠随机分为对照组、实验组1、实验组2三组,每组12只,分别给予三种饲料,分别于10天、15天、20天、25天测定大鼠体重,如下表:
资料特点:完全随机设计,计量资料,三组,重复测量
错误方法:每个时间点(10d/15d/20d/25d)t检验或方差分析
合适方法:重复测量的方差分析
要注意的是我们对一个个体进行多次测量是一种重复测量,在这里我们可以采用重复测量的方差分析,也可以选择混合效应模型等,唯独不能分别对每个时间点进行t检验或方差分析。
【例3】72只小鼠随机分为3组,每组24只,进行实验,分别于试验后1, 3, 5, 7天处死小鼠,测定大脑中酪氨酸激酶B的表达水平,如下表:
资料特点:计量资料,三组,重复测量?析因设计?
错误方法:每个时间点用t检验,重复测量的方差分析
合适方法:3X4析因设计方差分析
和例2不用的是,这里的数据并非是重复测量,因为小鼠分别在试验后1, 3, 5, 7天处死,所以每一只小鼠就只测了1次而已,并没有对小鼠进行1, 3, 5, 7天的4次测量。而这里的1d/3d/5d/7d我们可以看做是三组中每一组的4个水平,即选择采用3X4析因设计方差分析。
【例4】两组手术病人,采用两种不同的镇痛方式(试验组、对照组) ,于手术后24小时测定血清中的IL-6,结果如下表:
资料特点:计量资料,两组,标准差相差较大(方差当然也不齐)
错误方法:t检验
合适方法:校正t检验/Wilcoxon秩和检验
t检验要求结局变量是正态分布的连续变量,除此之外还要求两组的方差要齐。因此本案例要选择校正t检验或者Wilcoxon秩和检验。
【例5】两组病人,采用两种药物治疗,治疗疗效如下表。经卡方检验,P=0.0486,差异有统计学意义。因此可以认为试验组的疗效比对照组的疗效好。
资料特点:计数资料,两组,例数比较少
错误方法:卡方检验
合适方法:Fisher精确概率法
本组案例中,试验组:有效18例/无效2例,对照组:有效10例/无效6例,四格表(18/2/10/6)中2<5,而且n(20+16=36)小于40。
卡方检验:理论值T>5且n>40;
校正卡方检验:n≥40,且至少1个1≤T<5;
Fisher精确概率法:n<40,或至少1个T小于1
【例6】两组病人,采用两种药物治疗,治疗疗效如下表。经卡方检验, P=0.0570,差异无统计学意义。
资料特点:等级资料,两组
错误方法:卡方检验
合适方法:Wilcolon秩和检验
此案例为一个单向有序的列联表,当我们的结果变量是有等级关系(显效/有效/无效)的时候,不能用卡方检验,要用秩和检验。
五.小结
好了,本期的讲解就到这里了。唐老鸭总结了以下四个步骤方便同学们进行统计分析。其实总体来看,你需要做的就是问自己以下几个问题:
我的数据是定量资料?还是定性资料?
我要比较的组别数是几组?这个自己最清楚了~
我的研究设计类型是完全随机还是配对设计?
我的数据是否满足正态性、方差齐性等假设检验基本要求?
考研统计学(考研统计学专业课考什么)