| 课程设计 |
Topic1统计是什么?统计学的起源
课程主题:统计是什么?统计学的起源 课程目标:了解统计学的渊源和发展史 课程组织:老师主讲,学生讨论 研讨问题:1,统计学的起源? 2,统计学有什么用? 3,统计学的关键点在于什么? 课程重点:统计学的起源与用途 课程难点:无 |
Topic2女士品茶中分析与推断
课程主题:女士品茶中分析与推断 课程目标:了解统计推断的基本问题,构建统计思维 课程组织:故事研讨,思辨,演讲 研讨问题:1,概率如何计算? 2,如何提炼问题?并转化为数学模型? 3,如何验证问题,证实猜想? 课程重点:概率的计算 课程难点:统计推断的反证法
课程故事简介:20世纪20年代后期,在英国剑桥一个夏日的午后,一群大学的绅士和他们的夫人,以及来访者,正围坐在户外的桌旁,享用着下午的奶茶。奶茶由牛奶和茶混合而成,调制时可先倒茶后倒牛奶,也可以先倒牛奶后倒茶。有一位女士声称,她能分辨这两种不同做法调制出来的奶茶。在场的一帮科学精英们,对这位女士的说法感到可笑。这怎么可能呢?
他们不能想象,仅仅因为倒茶和牛奶的顺序不同,奶茶就会发生不同的化学反应。同时在场的著名统计学家费歇尔却不这么看,他对这个问题产生了很大兴趣。费歇尔兴奋地对在场的人们说:“让我们来检验这个命题吧!”其实,费歇尔的兴趣并不在于这位女士是否能正确品尝出不同的奶茶来,而在于找到一种能判断该女士说法是否正确的方法。也许正是这件事,激发了这位统计学家的灵感,提出了显著性检验的思想,在开创假设检验这个方向上起了重大的作用。
上面的女士品茶问题可以表述为:一种奶茶由茶加上牛奶制成,调制时可以先倒茶后倒牛奶(记为TM),也可以先倒牛奶后倒茶(记为MT)。而某女士声称,她能做到品尝一杯就能鉴别是TM还是MT。那我们要问,你相信她的说法吗?
一般人都会回答“不相信”。费歇尔设计了如下的试验来检验该女士的说法:取8个一样的杯子,每杯含体积相同的奶茶,由同样比例的茶和牛奶混合调匀而成,其中4个杯子先倒茶后倒牛奶(TM),4个杯子先倒牛奶后倒茶(MT),把8个杯子随机排成一列。如果品尝结果是,她4杯全说对了,问该女士是否有鉴别这两种奶茶的能力?费歇尔的推理如下:引入一个假设H0:该女士对这两种奶茶无鉴别能力。当原假设H0正确时,即该女士无鉴别能力,她全靠猜(随机判断)。可以计算得出4杯全说对的概率是:
因此,若该女士全部说对,下属两种情况必发生其一:第二种情况相当于在一个盛有70个球的箱子中随机摸出一个,正好摸到了指定的那个球。这是一个小概率事件。我们很难用运气来解释所发生的结果,因为有相当的理由承认第一种可能性。或者说,该女士4杯全选对这一结果,是一个不利于假设H0的显著的证据。据此,我们拒绝H0,认为该女士确有鉴别力。
在这个例子中,若该女士品尝的结果是选对3杯,则可以计算得,纯凭瞎猜,出现此结果及更好结果的概率是 17/70≈0.243
接近1/4,这个概率不算太小,就好比从装有4个球的盒子中,随机取一个球,正好取到了指定的那个球,这不算是太稀罕。因此,选对3杯这一结果,并没有给拒绝假设H0以充分的支持,我们还不能拒绝这个假设。
费歇尔把上述性质的推理叫做“显著性检验。本例中,“显著”一词,是指由试验结果反映的“该女士对这两种奶茶有鉴别力”的显著程度如何,二者显著程度则使用概率来表示的,概率越小,显著性越高,“该女士对这两种茶有鉴别力”的理由就显得越充分,或者说,拒绝前面的假设H0的理由就越充分。 |
Topic3样本偏见---二战飞机工程师犯下的致命错误
课程主题:二战飞机工程师犯下的致命错误 课程目标:了解样本的重要性,建立样本与抽样的概念 课程组织:故事研讨,思辨,文献查阅,文献展示 研讨问题:1,如何把实际问题抽象为统计问题? 2,什么才是研究的对象(样本)? 3,如何获得有效的样本? 课程重点:样本概念与样本的获取 课程难点:无
课程故事简介: 第二次世界大战期间,各国为了在战争中取得胜利,必须要解决许多数学和战略上的问题。其中的一项困难任务就是找到改进飞机的方法,使其能够抵抗敌人的更多攻击。改进飞机的装甲,就必然要统计飞机的损伤,在统计学家们从数据中寻求改进的最佳方法时,一个名叫亚伯拉罕·沃尔德(Abraham Wald)的人提出了一个非常具有创意的建议,但不幸的是,在当时并不是所有人都同意他的观点。现在的社会也同样如此! 为了减少地方火力对飞机的伤害,统计学家们面临着一项艰巨的任务,必须要评估并确定改进飞机的哪个部分的装甲让其更能抗受击打。 根据海军提供的一份受损图表,工程师们统计出了飞机通常最容易受损的部分。根据这份评估报告,他们开始着手在这些受损部位设计新的装甲,以减少飞机的战斗损伤。
但是一个名叫亚伯拉罕·沃尔德的人完全不同意这个计划。他认为,统计数据全部是来自于安全返航的飞机,能够安全返航,意味着飞机的受损程度并不严重。沃尔德指出,工程师们应该做出与原先的计划完全相反的决定,为飞机没有受损的部分加固装甲,因为正是因为这些地方没有受到致命攻击,飞机才得以安全返航。
亚伯拉罕·沃尔德的发现其实是一个非常容易被我们所忽视的逻辑错误,他被称为“生存偏见”。作家Rishabh Nahar在他的文章中完美地解释了“生存偏见”这一理论。
“这是一种只关注幸存者的倾向,而直接忽略了那些能够提供真正数据的失败者。在幸存者的背后,那些不幸者往往被摧毁或转移。如果失败变得无形,那么我们自然只会专注于成功。”
在作者看来,这种逻辑上的错误在当今的社会依然非常普遍。例如,当一家公司在讨论开发新业务的时候,他们只会列出那些已经成功的类似业务模型,然后在这些成功企业当中去发现优点和规避错误。当这种思维模式有着一个致命的弱点,那就是它让我们选择了“忘记”,忘记那些大量类似的没有成功的商业模式。
“失败是成功之母!”要杜绝失败,我们真正应该做的是去发现这些失败者为什么会失败的原因,而不是试图去修复和改进那些成功者的模式。
所以,在汇过来看一下亚伯拉罕·沃尔德为海军提供的这一理论,你就会发现,真正受损严重的飞机并没有能够返航,而不是一直都只是在研究幸存者。
希望这一理论能够给你带来一些不一样的视觉角度,共勉! |
Topic4从南丁格尔玫瑰图思考科研中的数据可视化(1)
课程主题:从南丁格尔玫瑰图思考科研中的数据可视化(1) 课程目标:认识数据的可视化,动手展示数据 课程组织:故事研讨,数据可视化案例分享,微视频展示 研讨问题:1,没有数据的可视化,如何读懂数据(表格) 2,可视化的方法和工具。 3,自行寻找大数据,设计软件程序,展示数据。 课程重点:读懂数据展示的图表 课程难点:可视化的展示,软件
课程故事简介:19世纪中叶,有这样一个出身欧洲贵族的名媛,弗洛伦斯—南丁格尔,她本可以像当今的卡戴珊、希尔顿、邓文迪等名媛一样,过着每天各种Shopping、Party、Happy的生活。但这位贵族小姐姐偏偏心系贫苦大众、热爱公共卫生事业,志向是成为一名护士。这本也不奇怪,广大的贵族团体中总有那么一些能够感受到平民生活的水深火热、并施以怜悯之心,所以她的父母也没在意,只是认为这个女儿心地善良。
突然有一天,南丁格尔告诉她父母:我接到了上帝的旨意,让我成为一名护士。要去护士学校学习护理,并准备去克里米亚战场充当战地护士。她父母坚决反对,因为当时护士是很低贱一种工作,只是穷人们才会去从事;况且,一个贵族千金要去前线战场,也很荒谬。但南丁格尔不顾父母的反对,还是毅然决然的学习护理、并率领38名护士于1854年10月前往克里米亚战争前线。
来到前线,南丁格尔发现战区的医疗卫生情况非常糟糕,大量的受伤士兵因为医疗卫生状态太差而死于感染,并非直接死于战争或者恶劣的自然条件。南丁格尔向英国政府报告这一状况,并极力要求改善战区医院条件。1855年3月英国派出的卫生委员会到达战区,积极改善医院医疗卫生状况,从而显著降低了英军的死亡率。
这一改变让南丁格尔意识到公共医疗卫生的重要性。回到英国,南丁格尔开始收集大量证据、并进行详细的统计分析,向皇家委员会报告士兵的健康状况。据此,南丁格尔开始游说英国政府加强公众医疗卫生建设和相关投入。1858年,为了说服维多利亚女王改进军事医院的卫生条件,她编辑了830页的报告。然而,她担心女王的眼睛可能会被表格搞得眼花缭乱,因此发明了一种巧妙的方法,也就是用图形来展示信息。
南丁格尔玫瑰图正是来自于她用于游说的一篇文章或者报告中。为什么“南丁格尔玫瑰图”能够载入史册,流传下来呢?其与普通的柱形图、饼图又有什么区别?这又能给我们的科研中数据作图带来哪些启示?
Weblink: https://zhuanlan.zhihu.com/p/28543569 |
Topic5从南丁格尔玫瑰图思考科研中的数据可视化(2)
课程主题:从南丁格尔玫瑰图思考科研中的数据可视化(2) 课程目标:引导学生展示自己的数据可视化项目 课程组织:把学生分组,PPT展示,软件过程展示,研讨,翻转课堂 研讨问题:1,展示原始数据,2,分析数据可视化的目标,3,展示编程或软件操作过程。 补充研讨:伦敦霍乱防治图 课程重点:展示数据可视化的过程 课程难点:无 |
Topic6鉴定莎士比亚的作品
课程主题:鉴定莎士比亚的作品 课程目标:了解相关性和文本数据分析,引导大数据思维 课程组织:故事研讨,大数据分析相关文献分享 研讨问题:1,文本统计的思路; 2,习惯的描述,人物画像; 3,词频统计的意义,如何比较不同文本的词频差异? 课程重点:什么是文本数据 课程难点:文本数据的信息提取,分析
课程故事简介: 1985年11月,一位美国学者Gary Taylor在英国牛津大学的一图书馆找到了一首诗(姑且称为“Taylor诗”好了),引发了一场英美研究莎士比亚文学作品的学者们的口水大战,争论的焦点就是此诗是否为莎士比亚所作。
不少专家认为这首“Taylor诗”,不论是用字遣词,还是韵味风格,都迥异于莎士比亚其他作品。论战两个月后,1986年1月24日出版的Science 杂志刊登了一篇“莎士比亚的新诗:向统计学致敬”(Shakespeare's new poem: an ode to statistics)的文章,介绍两位统计学者Efron与Thisted如何以统计方法鉴定这首“Taylor诗”是否为莎士比亚所作的过程。
Efron与Thisted的方法是这样的:每个人都有其各自的用字习惯,特别是对于生僻字,每个作者使用的习惯差异可能更大。在莎士比亚已知的总作品中,共有884,647个字,其中有31,534个相异字。这些相异字中,有14,376个字从头到尾只出现过1次,有4,343个字只出现2次。出现几次的字都被计算出来。那些在总作品中, 出现频率较低的,就是莎士比亚的生僻字。依据这些数据,假设这首共429个字的“Taylor诗”为莎士比亚所写,他们估计会有几个字,在总作品中从未出现(也就是新字),只出现1次,2次, ……,一直到曾出现99次,都给出估计值。实际情况与估计非常吻合。
这样做还不够,会不会当时代的诗人用字习惯都差不多?于是,两人又找了三位大致与莎士比亚同时代的诗人,各取其一首诗,及另取四首莎士比亚的诗,与这首泰勒诗做比较。经过3种统计检定发现对前三首,若假设为莎士比亚的作品,罕用字出现次数之实际值与估计值皆不吻合。而所挑选的四首莎士比亚的诗,虽偶有不合,但总的来说是可接受的。Efron及Thisted说,他们的分析并无法完全证明“Taylor诗”为莎士比亚所写,但在罕用字之使用情况,如此与莎士比亚的总作品吻合,确实令人惊讶。
一场文学上的争论,经统计学家发声后迅速平息,难怪要向统计学致敬了。运用统计方法来做决策,反映的是一种客观及合理的思维。与其主观的争论风格相同否,还不如以客观的统计方法来判定。但如何才算已经够客观?除了只检验“Taylor诗”外,Efron和Thisted还拿了几位与莎士比亚同时代的诗人来比较,这样做就更保险了。免得万一莎士比亚那个时期的诗人,有如时尚般,生僻字之使用习惯类似,则此检定就没有什么参考价值了。 |
Topic7平均数的调查
课程主题:数据调查实践 课程目标:了解调查数据的过程,鼓励团队合作 课程组织:课前布置任务,将学生分组,每组调查学生身高,不少于5人,课中演讲,展示数据调查的过程与结果 研讨问题:1,如何设计调查问卷 2,如何执行调查过程 课程重点:问卷设计,调查实施 课程难点:探讨平均数能否描述总体情况 |
Topic8数据有大有小,探讨数据的变异性
课程主题:数据有大有小,探讨数据的变异性 课程目标:通过案课前调查,鼓励团队合作 课程组织:课前布置任务,将学生分组,每组调查学生身高,不少于5人,研讨问题:数据变异性如何描述?图形展示在数据描述中的作用 课程重点:数据变异性描述,图形化展示 课程难点:无 故事背景:课前调查数据 |
Topic9什么是有关系?--相关性研究
课程主题:什么是有关系?--相关性研究 课程目标:了解相关性的分析思路 课程组织:课前布置任务,课中演讲,展示资料查阅的过程与结果,鼓励团队合作 研讨问题:1,如何推断因果? 2,研究如何设计? 课程重点:两个因素相关的研究中发散思维 课程难点:抓住主要问题,抽丝剥茧,分析相关性 故事背景:冰激凌销售量(蓝色)与鲨鱼攻击人的数量(红)随月份变化的规律几乎完全一致,高度相关。那么我们能不能说是冰激凌销售导致了鲨鱼吃人,或者鲨鱼吃人导致了冰激凌销售增加呢? |
Topic10回归的由来---父子身高的关系研究
课程主题:回归的由来---父子身高的关系研究 课程目标:探讨自然界的基本属性 课程组织:研讨,课前调查分析 研讨问题:1,高的父亲,儿子一定更高吗?,翻转课堂 2,回归的基本内容认识 课程重点:调查数据 课程难点:理论的讲解与回归过程的演示。
课程故事简介:“回归”是由英国著名生物学家兼统计学家高尔顿(Francis Galton,1822~1911.生物学家达尔文的表弟)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。但是,高尔顿对试验数据进行了深入的分析,发现了一个很有趣的现象—回归效应。因为当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更矮的概率;父亲矮于平均身高时,他们的儿子身高比他更矮的概率要小于比他更高的概率。它反映了一个规律,即这两种身高父亲的儿子的身高,有向他们父辈的平均身高回归的趋势。对于这个一般结论的解释是:大自然具有一种约束力,使人类身高的分布相对稳定而不产生两极分化,这就是所谓的回归效应。 1855年, 高尔顿发表《遗传的身高向平均数方向的回归》一文,他和他的学生卡尔•皮尔逊Karl·Pearson通过观察1078对夫妇的身高数据,以每对夫妇的平均身高作为自变量,取他们的一个成年儿子的身高作为因变量,分析儿子身高与父母身高之间的关系,发现父母的身高可以预测子女的身高,两者近乎一条直线。当父母越高或越矮时,子女的身高会比一般儿童高或矮,他将儿子与父母身高的这种现象拟合出一种线形关系,分析出儿子的身高y与父亲的身高x大致可归结为一下关系: y=33.73+0.516*x (单位为英寸) 根据换算公式1英寸=0.0254米, 1米=39.37英寸。单位换算成米后: Y= 0.8567+0.516*X (单位为米); 假如父母辈的平均身高为1.75米,则预测子女的身高为1.7597米。 这种趋势及回归方程表明父母身高每增加一个单位时,其成年儿子的身高平均增加0.516个单位。这就是回归一词最初在遗传学上的含义。 有趣的是,通过观察,高尔顿还注意到,尽管这是一种拟合较好的线形关系,但仍然存在例外现象:矮个父母所 生的儿子比其父要高,身材较高的父母所生子女的身高却回降到多数人的平均身高。换句话说,当父母身高走向极端,子女的身高不会象父母身高那样极端化,其身高要比父母们的身高更接近平均身高,即有“回归”到平均数去的趋势,这就是统计学上最初出现“回归”时的涵义,高尔顿把这一现象叫做“向平均数方向的回归” (regression toward mediocrity)。虽然这是一种特殊情况,与线形关系拟合的一般规则无关,但“线形回归”的术语却因此沿用下来,作为根据一种变量(父母身高)预测另一种变量(子女身高)或多种变量关系的描述方法。 回归的现代意义: 它要比其原始意义广泛的多。具体地说,回归分析的内容包括: • 确定响应变量与预报变量间的回归模型,即变量间相关关系的数学表达式(通常称为经验公式); • 根据样本估计并检验回归模型及未知参数; • 从众多的预报变量中,判断哪些变量对响应变量的影响是显著的,哪些是不显著的; • 根据预报变量的已知值或给定值来估计或预测响应变量的平均值并给出预测精度或根据响应变量的给定值来估计预报变量的值,即所谓的预报与控制问题。 |
Topic11统计学的坑--辛普森悖论
课程主题:统计学的坑--辛普森悖论 课程目标:理解数据悖论的基本原理 课程组织:研讨,演讲,同学PPT展示,翻转课堂 研讨问题:1,数据分层的思考;2,整提与部分的差异 课程重点:分层分析数据 课程难点:无
课程故事简介:普森悖论(Simpson’s Paradox)亦有人译为辛普森诡论,为英国统计学家E.H.辛普森(E.H.Simpson)于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
当人们尝试探究两种变量是否具有相关性的时候,比如新生录取率与性别,报酬与性别等,会分别对之进行分组研究。辛普森悖论是在这种研究中,在某些前提下有时会产生的一种现象。即在分组比较中都占优势的一方,会在总评中反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年E.H.辛普森在他发表的论文中,该现象才算正式被描述解释。后来就以他的名字命名该悖论。
为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时必需了解清楚情况,是否存在潜在因素,综合考虑。 |
Topic12吸烟会致癌吗?(1)
课程主题:吸烟会致癌吗?(1) 课程目标:通过案例,了解横断面设计 课程组织:研讨,课前文献复习 研讨问题:两个因素关系的研究如何进行? 课程重点:横断面设计 课程难点:横断面设计的要点与数据分析 故事背景:英国流行病学家A.B.Doll与R.Hill于1948~1952年进行过一项病例对照研究。他们从伦敦20所医院及其他几个地区选取确诊的肺癌1465例。每一病例按性别、年龄组、种族、职业、社会阶层等条件匹配一个对照;对照系胃癌、肠癌及其他非癌症住院病人,也是1465例。由调查员根据调查表询问调查。经分析数据,得到的主要结果有:①肺癌病人中不吸烟者的比例远小于对照组:男性占0.3%,女性占31.7%;而对照组中男性不吸烟者占4.2%,女性占53.3%,差别均很显著;②肺癌病人在病前10年内大量吸烟者(≥25支/日)显著多于对照组;③随着每日吸烟量的增加,肺癌的预期死亡率。(推算出的年死亡率)也升高,例如男性45岁~64岁组日吸烟25~49支者与不吸烟者死亡率之比为2.94/0.14,即前者的率为后者的21倍;④肺癌病人与对照组比较,开始吸烟的年龄较早,持续的年数较多,而病例中已戒烟者的停吸年数也少于对照组中已戒烟者。 |
Topic13吸烟会致癌吗?(2)
课程主题:吸烟会致癌吗?(2) 课程目标:通过案例,了解前瞻性设计 课程组织:研讨,课前文献复习 研讨问题:因果关系的研究如何设计? 课程重点:队列设计的要点与数据分析,剂量反应关系 课程难点: 因果推断的基本思想 故事背景: Doll和Hill于1951年至1976年间,用队列研究方法研究了吸烟与肺癌的关系,结果说明吸烟者比不吸烟者发生肺癌多,吸烟量愈大、吸入肺部愈深,患肺癌的危险性愈大,戒烟后可以减少患肺癌的危险 |
Topic14大数据与互联网
课程主题:大数据与互联网 课程目标:通过案例,了解互联网大数据 课程组织:研讨,课前自备资料 研讨问题:1,互联网大数据怎么来的?2,有什么用途? 课程重点:了解大数据的概念? 课程难点:大数据的潜在用途 |
Topic15人工智能与机器学习
课程主题:吸烟会致癌吗?(2) 课程目标:通过案例,了解前瞻性设计 课程组织:研讨,课前文献复习 研讨问题:什么是人工智能? 课程重点:了解人工智能的基本概念 课程难点: 了解大数据在人工智能中的作用 |
Topic16统计学学习的方法
课程主题:统计学学习的方法 课程目标:通过分享,认识统计学的重要性,统计思维的重要性 课程组织:研讨,同学PPT分享 研讨问题:1,统计学学习方法,2,统计学的重要性 课程重点:掌握统计学学习的基本方法 课程难点: 建立统计思维,用数据说话 |
|