考研统计学,考研统计学专业课考什么
悖论这个词主要是指一切与我们的直觉或日常生活经验相矛盾的结论。悖论这个词由来已久,公元前6世纪古希腊有一句经典的“说谎者悖论”,哲学家克利特人艾皮米尼地斯(Epimenides):“所有克利特人都说谎,他们中间的一个诗人这么说。”这就是这个著名悖论的来源。
统计学中也有悖论。当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。
“找男票”的故事
罗尼哈特小姐是一位统计员,最近想找一位男朋友,便加入了一个俱乐部。一个周末的晚上,她去参加俱乐部的活动。去了之后,发现这些人分别在不同的厅。其中犹太人在东厅,非犹太人在西厅,东西两个厅中,有些人有胡子,有些人没有胡子,有些人放荡不羁,有些人循规蹈矩。
罗尼哈特小姐想找一个风流倜傥的男朋友,在她看来,循规蹈矩的人比较古板,所以想找一个比较活跃的男友。
罗尼哈特小姐想到一个问题:“我要找风流潇洒的人,是不是应该找有胡子的人呢?”作为统计员的她,迅速观察了一下,东厅中是犹太人,留胡子的人中,风流人物的比例是5/11=45.5%,不留胡子的人中风流人物的比例是3/7=42.9%。
她又到了西厅,也观察了一下,西厅是非犹太人。发现结果相似,西厅中留胡子的人中,风流人物的比例是6/9=66.7%,不留胡子的人中风流人物的比例是9/14=64.3%。
罗尼哈特小姐认真统计完之后,想“多简单啊,不管去哪个厅,我只要找留胡子的人就更加容易结识到风流潇洒的人物。”当她稍加整理,准备随便到一个厅去认识留胡子的人时,联欢会的主办者已经将两个厅中的人全部集中到一个大厅中。
罗尼哈特小姐想:“现在怎么办?不过原来两个厅中都是留胡子的人中风流人物多,现在集中到一个厅,结论应该还是不变,我还是应该找留胡子的人。不过为了保险起见我还是重新核对一下吧。”
但是,当她重新核对之后,结果令她大吃一惊:在大厅中的所有人中,留胡子的人中风流人物的比例是11/20=55%,不留胡子的人中,风流人物的比例是12/21=57.1%。还是原来的人,比例却改变了。现在她要找的不是留胡子的,而是不留胡子的人了。
罗尼哈特小姐百思不得其解“我得改变我的策略,可是我还是不明白,这到底是怎么回事,怎么会变成这样?”
“辛普森悖论”大揭秘
简单点说,这正是典型的单因素与多因素关系的例子。单因素的情况下,考虑的情况太少,有些情况下就能发生“辛普森悖论”,而多因素分析中考虑了更多的情况,就可以解开“辛普森悖论”之谜。
单因素分析是研究一个因变量与一个自变量之间呈直线关系的统计方法。常见的单因素统计方法包括简单相关、t检验、χ2检验、ANOVA、非参数检验等。
多因素分析则是研究一个因变量和多个自变量之间线性关系的统计分析方法。最常用的就是多因素回归,包括线性回归,Logistic回归和Cox回归。
临床研究通常研究因和果的关系,例如研究某药是否有效,药是因,疗效是果。在进行因果研究时,针对一个结局,往往有很多原因,还有一些未知的原因。例如,人为什么会得高血压?可能与遗传有关,也可能与生活习惯、应激事件等其他因素有关,还可能与一些未知因素有关。
首先我们从所有人群中得出结论留胡子的人群中,风流人物的比例低于不留胡子的。但是,我们一旦考虑到种族因素,结论就变得相反了。将人群按犹太人和非犹太人分开,结果每一群人中都显示留胡子的人中风流人物的比例高于不留胡子的人。
这里的关键是什么呢?如果大家留意一下,就会发现,犹太人之中留胡子的比例(11/18)高于非犹太人中留胡子的比例(9/23),而且犹太人的性格偏于古板(10/18>8/23)。
本来,留胡子的人更多的是风流人物,而由于留胡子的人中犹太人多,且犹太人更古板,结果导致了留胡子的人中古板的比例增多,使得结论逆转。
当然,犹太人在这里还可以称之为“混杂因素(confounding factor)”,这是许多统计教材,尤其是流行病学教程中最通常的称谓。正是这一个因素的存在,使得原本的结果发生了扭曲,即真相被掩盖了。所以统计学的重要作用也就显示出来了,透过现象认识本质,不要被表面的数据结果所迷惑,而要透过数据本身抓住隐藏在背后的真实的结论。
到底怎样才算混杂因素呢?我们从这个找对象的例子就能很好地理解:犹太人与留不留胡子有关,犹太人留胡子的人更多;犹太人与风流古板有关,犹太人更古板。这里,种族这一个因素与留胡子和风流与否都有关系,这样的因素最容易导致混杂现象的发生。
说到这里,大家应该明白,为什么要做多因素分析,因为它能更好地帮助我们认清事物的本质,能够帮助我们排除混杂因素的干扰,更好地实现统计学的目的—透过现象认识本质。
古今中外有不少著名的悖论,它们震撼了逻辑和数学的基础,激发了人们求知和精密的思考,吸引了古往今来许多思想家和爱好者的注意力。解决悖论难题需要创造性的思考,悖论的解决又往往可以给人带来全新的观念。
科研猫精品课程系列
《单细胞scRNA-seq数据分析实战》
第一天
8:30-
12:00
单细胞scRNA-seq测序分析的基本流程和关键技术鸟瞰
单细胞测序的目的、意义和常见平台基本介绍(优缺点)
常见单细胞测序论文的主要内容
R软件包的安装、检查等
R语言的基本操作(变量、列表、矩阵和文件读取和保存等)
13:30-
17:00
单细胞数据的基本分析内容
单细胞数据的获取,读入和质量控制
数据初步分析、分群和亚群鉴定
DoubleFinder分析Doublets
不同批次、来源数据的整合
细胞注释、Heatmap和细胞分布
实战演练以及学员提问和讨论
第二天
8:30-
12:00
单细胞scRNA-seq的高级分析 1
单细胞种类的自动化注释
GSVA和GSEA对细胞功能进行注释和作图
inferCNV对肿瘤细胞基因组拷贝变异分析和恶性细胞亚群鉴定
单细胞数据的拟时序分析(monocle2和monocle3)
SCENIC对单细胞亚群转录调控的分析
13:30-
17:00
单细胞scRNA-seq的高级分析 2
细胞间通讯分析和分组比较(以CellChat为主)
TCGA数据库的下载以及预处理
TCGA数据与单细胞测序数据的结合和数据挖掘
实战演练以及学员提问和讨论
注:1、实际授课过程中,老师可能根据学员接受程度对授课进度进行微调。2、学员电脑配置:Mac或者Windows系统的笔记本均可(内存16G以上)(Windows系统推荐Win10),老师将用MAC系统进行讲解。3、课后赠送课堂同步视频,可无限重复回放。参加培训的学员可通过微信群继续和老师交流,获得答疑机会。
时间:
2021年12月18-19日(周六、周日)
地点:
在线直播授课
注册费(可开发票):
2人组团报名,每人可优惠100元
3人及以上组团报名,每人可优惠200元
注:
报名请联系下方叮当猫·小姐姐(微信号:KYM008008),加微信时请注明“姓名+单细胞”。
↓ ↓ 报名通道 ↓ ↓
考研统计学(考研统计学专业课考什么)