数据分析在因果领域有最新的研究吗?


对这个问题非常感兴趣,借此机会,整理了下之前零散的笔记并搜集了一些新的资料,当做是一次复习和沉淀。

  社会科学因果推断中面临的一个重要挑战就是:相关不等于因果(也被称为内生性问题)。也就是说,A与B相关,并不能说A导致B。也有可能是B导致A,或者A与B之外的第三个变量C既影响A也影响B,从而导致A与B的共同变化。有一个有趣的例子,即雪糕的销量和淹死的人呈显著正相关,即雪糕销量越高,淹死的人就越多。但我们不能断言说雪糕销量导致人们被淹死。事实上,这是由于二者都发生在夏天造成的。解决这一问题的方法有很多,大致可以分为两种类型,一种是从数据收集出发,通过一定的研究程序来进行因果推断,如实验法,但社会科学中的很多主题和领域没法使用实验法,这就引出了第二种类型:从数据分析出发,通过一定的统计方法来推断因果(主要针对调查数据)。

  实验法是社会科学尤其是心理学研究中进行因果推断的重要方法。大部分心理学研究都会选择实验法,因为它能帮助研究得出因果结论。在心理学研究中,实验法甚至被称作解释因果关系的唯一方法。在这种方法中,研究者会将实验参与者随机分配到不同情境中(通常是一个实验组...对这个问题非常感兴趣,借此机会,整理了下之前零散的笔记并搜集了一些新的资料,当做是一次复习和沉淀。

  社会科学因果推断中面临的一个重要挑战就是:相关不等于因果(也被称为内生性问题)。也就是说,A与B相关,并不能说A导致B。也有可能是B导致A,或者A与B之外的第三个变量C既影响A也影响B,从而导致A与B的共同变化。有一个有趣的例子,即雪糕的销量和淹死的人呈显著正相关,即雪糕销量越高,淹死的人就越多。但我们不能断言说雪糕销量导致人们被淹死。事实上,这是由于二者都发生在夏天造成的。解决这一问题的方法有很多,大致可以分为两种类型,一种是从数据收集出发,通过一定的研究程序来进行因果推断,如实验法,但社会科学中的很多主题和领域没法使用实验法,这就引出了第二种类型:从数据分析出发,通过一定的统计方法来推断因果(主要针对调查数据)。

  实验法是社会科学尤其是心理学研究中进行因果推断的重要方法。大部分心理学研究都会选择实验法,因为它能帮助研究得出因果结论。在心理学研究中,实验法甚至被称作解释因果关系的唯一方法。在这种方法中,研究者会将实验参与者随机分配到不同情境中(通常是一个实验组和一个控制组),并确保这些情境除了自变量(研究者认为会对人们的行为产生影响的变量)之外,其他的条件完全一致。这样,我们就有理由相信,不同情境下因变量的差异是由自变量造成的。

  为了更为直观地理解,这里介绍一个社会心理学当中的经典实验:最简群体范式(tajfeletal.,1971;billing&tajfel,1973)。在tajfel的实验里,实验参与者是被随机分配到两个不同的群体中(随机分配是控制混淆变量的重要手段,即保证不同情境下除了自变量之外其他条件完全一致)。在一个实验中划分的依据是他们声称的艺术偏好:Klee的画和Kandinsky的画,更喜欢哪个?在另一个实验中,通过投硬币来把实验参与者划分到两个群体中。每组成员实际上从没有见过彼此,也没有见过对方组的成员,所以两组里的人都不认识,没有任何形成内群体或外群体刻板印象的基础,这也是“最简群体”这一名称的由来。最后,tajfel和他的同事让群体成员在内群体和外群体间分配奖励(最多15分)。结果发现,分给自己组的明显多于对方组的。这被称为“最简群体范式”。

三、聚焦教育精准扶贫:随机干预实验的中国经验

反贫困是整个人类面临的巨大课题。要实现减贫的伟大目标,仍有大量的理论问题需要理清、大量的现实问题有待解决。本文对中国教育扶贫领域开展的随机干预实验研究进行了梳理,展现了随机干预实验方法在理清理论问题、提供政策依据等方面的巨大作用和潜力。2019年诺贝尔经济学奖授予Abhijit Banerjee,Esther Duflo和Michael Kremer三人,也主要是因为他们应用包括随机干预实验在内的“实验性方案”在减贫方面的巨大贡献。诺贝尔经济学奖的肯定引起了国内外对随机干预实验方法的关注和讨论,既有对其积极作用进行肯定的,也有因其局限性而对其排斥否定的。本文通过梳理随机干预实验法在中国教育扶贫领域的实践经验发现,研究者和政策制定者需要对该方法的作用和局限性有清醒的认识,不应因诺贝尔经济学奖的肯定夸大随机干预实验的作用,当然也不应因其实施过程的复杂性和局限性而排斥使用。

随机干预实验是对政策或干预项目是否达到预期成效进行影响评估的一种方法。相对于其他方法,随机干预实验最主要的优势是能够进行因果分析,能够准确评估出项目的“净”影响效果。相对于其他方法,随机干预实验在进行归因时需要更少的假设,且这些假设更容易成立,其评估结果具有更高的内部有效性(Internal Validity)。同样是提供证据,相对于其他方法,随机干预实验能够提供更科学、更准确的证据,也因此,该方法在基于证据(evidence-based)的政策制定中越来越受到重视。

从梳理现有旨在减贫的相关研究来看,一些项目评估通常只进行干预样本实施前后观测指标的对比,而缺少反事实对照组,因此有可能得出错误结论。以通过家长培训改善学生的缺铁性贫血状况为例。假设项目实施前学生平均贫血率为27%,项目实施一年后学生平均贫血率降至15%,下降了12个百分点。由此,可能得出“家长培训对改善学生缺铁性贫血有巨大效果”的结论。但事实上,学生缺铁性贫血状况的改善可能受诸多因素影响,而并非仅由“家长培训”带来。例如,在项目实施过程中,学校可能在同时给学生补充含铁的多维元素片,或者在培训家长的同时教师也参加了相关培训、进而改善了学生在校期间的饮食。学生贫血状况的改善到底是由“家长培训”项目带来的,还是由其他干预措施带来的,理清这一问题有重要的政策意义。基于错误证据或不准确的证据设定的政策可能会带来巨大的社会资源浪费。运用随机干预实验方法评估的结果表明,相对于“家长培训”,补充含铁的多维元素片对改善学生的缺铁性贫血状况效果更好。

从这一过程可以看出,虽然诺贝尔经济学奖肯定了“实验性方案”在减贫领域的应用,但仍需要明确随机干预实验本身并非减贫的直接解决方案。更准确地说,随机干预实验是为减贫寻找、发现出相对更好的解决方案的方法。一项减贫方案的优劣并不取决于是否使用了随机干预实验,不是说使用了随机干预实验方法进行评估的方案就一定是好方案,也不是说没有使用随机干预实验方法的方案就不是好方案。因此,不应夸大随机干预实验的作用,而忽视了准确的问题界定、更合理的干预设计等基本问题。

当然,也不应因随机干预实验本身的复杂性而排斥使用。相对于其他研究方法,随机干预实验的使用相对更复杂,例如,随机干预实验需要有对照组,因此需要更多的样本观测。随机干预实验需要基线调研、评估调研等多次观测,而不只是一次观测。随机干预实验对于项目过程的控制要求也更高,例如需要避免因对照组和干预组因相互交流而带来的污染。更重要的是,随机干预实验不像其他研究方法多以旁观者的身份进行监测,而是要求研究者不仅要观测,还要设计项目、参与到项目实施过程中。比如要评估计算机辅助学习干预对学生学业表现的影响,就需要制作相应软件、去学校安装软件、对教师培训使用软件、对使用软件的过程进行监测、对可能的错误进行纠正等。研究者在看到其复杂性的同时,也应充分肯定其相对于其他方法的优势,不应因畏惧实施的困难而排斥使用随机干预实施方法。

并不是说随意地使用随机干预实验方法就能找到好的教育扶贫方案。总结中国实践可以发现,要通过随机干预实验发现、推动实施有效的教育扶贫政策,需要解决好以下几方面问题:(1)合理、精准的干预设计;(2)深入的数据分析;(3)避免威胁内部有效性的因素;(4)应对好项目规模化的挑战,提高项目的外部有效性(External Validity)。中国随机干预实验的实践为解决这些问题提供了重要的经验借鉴。

(一) 问题精准、干预合理

一项干预方案的优劣,首先取决于问题选择是否精准、干预设计是否合理。

1. 问题导向,精准聚焦,选题要有较强的政策性

选择合适的研究问题是确保教育扶贫项目既“精”又“准”的第一步,而确定研究问题的重要原则之一是政策相关性。研究的问题应当是瞄准教育现实的,应当是教育政策制定者(或其他相关人员)关注的、迫切想要解决的现实问题(例如,学生的心理健康问题),或者是制定政策时迫切需要理清的问题(例如,确定是否要增加对改善学生缺铁性贫血问题的投入,首先需要理清缺铁性贫血问题到底带来哪些危害,是否影响学生的长期健康或学业表现)。因此,研究者在选题时需要教育政策制定者和项目实际执行者的参与。

问题精准聚焦还应明确研究关心的到底是谁的问题,明确项目最终是为谁服务的,尤其需要区别过程对象与最终对象的不同。例如,在改善儿童早期发展水平的项目中,过程对象可以是社区、父母等,但最终对象是孩子。对家长的培训要解决的问题并非提高家长的养育知识,而是要最终改善孩子的发展水平。项目是否有效应以孩子的发展水平最终是否提高为判断依据。

当前聚焦教育精准扶贫,需要关注影响农村贫困地区教育发展的两个根本问题:一是教师发展面临的挑战,二是学生学习资源、学业表现和身心健康等方面存在的问题。教师作为提高学生学业表现的核心因素之一,在教育中发挥着不可替代的作用。而当前我国农村贫困地区的教师发展仍面临环境和资源的限制,许多问题有待回答:教师能力能否通过“国培计划”得到提升?教师能力的提升是否意味着教学行为的改善?能否通过现代信息技术改善传统的教学方式,解放部分教师工作量、提高教学质量?师范生教育能否为农村贫困地区提供高质量且留得住的师资?而对农村学生来说同样面对许多挑战:营养改善计划是否改善了学生的营养状况(比如贫血发生率)、提高了其学业表现?心理健康问题能否得到准确识别及相应治疗?缺乏课后辅导的学生能否在学校得到相应的免费补习?对他们来说遥不可及的现代信息技术能否更近一点?这些技术是缩小了还是扩大了城乡教育的差距?这些问题仍需通过科学严谨的随机干预实验研究来回答。

2. 多方合力,设计干预方案时加强多学科合作

虽然当前各研究学科有着各自明确的研究领域,但现实问题是复杂的,一个现实问题的出现可能是多方面的原因带来的。随机干预实验是一项具体的社会行动,社会行动的落实必然要求项目设计要考虑到社会生活的各个方面。随机干预实验本身是以经济学为主要基础的评估方法,但干预项目的设计必然要求多学科交叉。当今教育研究和教育政策的设计,明显表现出从宏观到微观、从静态到动态、从单一到多元的变化趋势,集合经济学、教育学、心理学和计算机科学等多学科的交叉研究已成为教育研究、教育政策设计的发展趋势。

促进多学科合作是提高干预设计质量的关键因素之一。例如,要解决学生的缺铁性贫血问题,首先需要营养学、医学等相关背景学者的参与,需要明确缺铁性贫血发生的生理原因是什么,有哪些可能的解决办法;如果需要进行信息干预,则需要营养学、医学学者帮助设计信息干预手册,明确要向学生和家长传递哪些关键信息;问卷设计也需要营养学、医学学者的参与,帮助明确测量哪些营养健康指标、如何测量等;如果要通过激励制度设计改善这一问题,还需要教育学、心理学等学科学者的参与。解决现实问题的干预设计并非某个学科的学者可以独立完成的,当前的学科划分方式、以学科为主要领域开展研究的模式是开展随机干预实验的重要挑战之一。以现实问题为中心、而不是以学科为中心,促进多学科合作的交叉研究,能有效提高干预方案设计的精准性、可行性。

3. 逐步探索,简单渐进

教育产出受多种因素共同影响,但是用一次尝试多种因素的干预方案来解决所有问题是不可取的。例如,对于学生的缺铁性贫血问题,可能的解决方案包括补充含铁的多维元素片、对学生家长或教师进行营养健康教育、对校长进行激励等。但是否应将这些因素“打包”组合成一项干预进行影响评估呢?如果进行“打包”,该干预有影响效果的可能性更高。但这也面临诸多问题:(1)作用机制不清楚。即使该干预被评估有效果,但仍然不清楚哪种因素起了作用。例如,单独看,对家长的信息干预对改善学生缺铁性贫血问题没有显著影响,这表明从“打包”组合的方案中去除这一因素不会影响整体效果。如果可以精简干预内容但未精简,则会造成社会资源的浪费。(2)推广实施面临巨大挑战。复杂的干预设计会对可获得的资源数量、项目监督等项目实施条件提出更高要求。例如,对于这一“打包”的干预,是否应该满足了提供多维元素片、家长信息干预等条件才可能实施?如果部分县区没有相应人力对家长进行培训,“打包”干预中的其他部分是否也不应当实施了?因此,干预设计应当是简单的,其判断依据是对最终结果的影响机制是否简单和清晰明了。每个随机干预实验的组别应只检验单个因素的影响效果;如果需要检验其他影响因素,则需要另外的随机干预实验或另外的干预组别。这看似会增加项目成本,但其实会更快地厘清问题、找到有效方案,是更可取的一种方式。

要通过一次随机干预实验就找到有效的干预方式并彻底解决问题,通常也是非常困难的。对复杂问题的认知需要在实践过程中发展、完善,因此对干预的设计也需要不断发展、完善。对于评估有效的方案,可以在总结经验的基础上改进以进一步增强其效果。对于评估没有影响效果的方案,也不应彻底放弃,需要分析项目无效的原因,分析因果链条在哪些环节断裂了,思考是否可以通过调整、改进使其变得有效果。

干预设计的“简单渐进”原则将复杂问题简单化、将大问题化解为小问题,通过一步步的累积逐步解决问题,而不是试图一次性、彻底地解决所有问题。围绕一个待解决的问题,通过多次的项目逐步迭代,一步步设计出更有效的解决方案,是中国随机干预实验实践积累的重要经验之一。

4. 干预设计注重理论指导下的创新性

干预方案的设计强调政策导向性,但并不排斥干预设计对理论的应用。某些随机干预实验可能并不强调干预设计的理论意义。例如,对于政府拟实施的一些政策,无论是否有理论意义、理论意义是什么,既然“不可避免”地要实施,就有必要通过随机实验干预方法评估其可能的影响效果。但对于多数问题,在理论指导下设计干预可能会更快地找到有效的干预方案。理论可能预测了某些结果的产生、产生这些结果可能需要的条件等。通过基于理论的因果链分析,可以提前准备干预所需要的条件、控制关键环节避免干预效果耗散等问题。

为检验某理论而设计的干预可能有更广泛的政策意义。例如,针对学生缺铁性贫血问题设计的两项干预是向学校提供补贴和向校长提供激励。单独看,这是两项具体的干预措施,它们如果被评估有效可以转化为具体的政策,但这并不会给其他干预的设计带来启发。但也可以从更深层的理论角度来理解这两项干预:学生的营养健康问题主要是学校资源不足造成的(没有资源改善这一问题),还是激励不足造成的(学校管理者没有意愿改善这一问题)。这样一来,这一随机干预实验的研究结果不仅可以提出解决学生缺铁性贫血问题的具体政策,还可以对其他类似问题的解决提供重要借鉴。例如对于学生的视力问题、体能问题、发育滞后问题、心理健康问题等,在解决这些问题时就可以考虑应优先从资源不足入手还是应从激励不足入手。

此外,干预设计的创新性也应当被重视。一些社会问题可能早已被社会发现,但长期以来没有得到解决,这不是因为之前没有尝试,更可能是因为已有的尝试、已有的解决办法均没有显著效果。要想取得更好的效果,就需要有新的解决思路。这一方面需要对已有的干预方案、解决办法进行梳理总结,了解是否已经有其他机构/组织在尝试解决这一问题?是从哪些方面来解决这一问题的?解决方法是否有效,为什么有效或者无效?在总结已有经验的基础上,结合理论提出新的解决思路、设计新的解决方案,这样才有可能提出更有效的解决方案。

(二) 进行深入的数据分析

开展过随机干预实验,发现了可以解决问题的有效干预方案,并不意味着可以直接将其转化为政策。政策制定时可能需要更多细节,例如,政策制定者不只要知道是否有效,还需要知道细节如何执行、如何监管等。这就需要通过对随机干预实验数据进行深入的数据分析来提供。

1. 明确关键环节,发现改进项目的线索

基于随机干预实验提出政策时,不仅需要说明哪种干预有效,还需要说明该干预转化为政策时具体如何执行。一个项目的实施、一项政策的落实是复杂的,在实施前必须要明确执行细节:哪些是决定项目成败的关键环节、需要重点落实,哪部分群体需要重点关注,哪些是管理项目的重要监控指标等。而这些均可以通过对干预的因果链进行分析、对影响的异质性进行分析等来实现。例如,通过建设儿童早期发展活动中心促进婴幼儿发展项目被证明是有效的,但在具体操作中还应明确一些细节问题:中心的建设面积对干预效果的影响,是否应该鼓励妈妈而不是奶奶带孩子来中心,是应该关注家长来中心的次数还是关注他们来中心的总时长,等等。这些分析将为项目的落实提供一套能确保项目有成效的具体操作流程,而不是模糊的建议。

当干预项目未观测到影响效果时,也需要通过因果链分析明确下一步改进项目的方向。项目未发现影响效果,既可能是项目本身没有效果,但也可能项目本身是有影响的只是某些环节未执行好而使影响效果耗散了。以视力干预项目为例,如果发放免费眼镜后干预组学生有眼镜比例、使用眼镜比例均显著高于控制组,但仍然未发现学业表现有差异,则可能说明该种干预对改善学生学业表现本身是无效的。但如果两组学生有眼镜比例、使用眼镜比例未有显著差异,则说明项目没有效果可能仅是执行问题。进一步分析发现,干预组学生并未更多使用眼镜可能是因为:(1)制作好的免费眼镜可能并未及时下发;(2)学生并不珍惜免费得到的眼镜,所获得的免费眼镜很快被损坏了;(3)该年龄段学生视力下降太快,得到免费眼镜后很快需要更换新眼镜,但学生未更换;(4)问题可能在对照组而不是干预组。对照组学生家长重视视力问题,在得到了《告家长书》后就给孩子配了眼镜,从而使得对照组学生使用眼镜的比例与干预组没有区别。每种原因对改进项目的意义是完全不同的。只有厘清项目为什么会失败,才能明确如何进一步改进项目或者完全放弃项目。因此,不仅应该把随机干预实验方法看作评估项目真实影响效果的工具,还应该将其看作动态地、不断改进项目的工具。

2. 运用成本效益分析对比干预项目

对于一个干预项目,不仅应关注其是否有效、影响效果大小,还要关注达到这一影响效果所需的成本。成本效益分析反映了实现每单位影响效果所需成本,即成本/效果(或每单位成本可实现的影响效果,即影响效果/成本)。通过成本效益分析可以更直观地对不同干预项目进行比较,为决策者将有限资源优先分配到哪些领域、优先实施哪些政策提供决策参考(Dhaliwal et al.,2013;Evans & Popova,2016)。例如,虽然同样可以改善学生的缺铁性贫血情况,但相对于对家长进行培训,直接提供含铁元素的多维元素片影响效果更大、成本更低,因此更具有成本效益优势,更值得优先投入。

此外,在设计干预项目时也应注意通过某些设计来提高其成本效益。免费提供的物品可能存在使用率不高的问题。以视力项目为例,可能有部分学生得到免费眼镜后也不使用,这就造成了资源的浪费。相对于免费发放眼镜,提供眼镜兑换券为学生获得免费眼镜增设了一个小小的障碍:花费时间和精力去县城领取这一免费眼镜。如果学生对使用眼镜的意愿很低,则可能因这一障碍放弃领取免费眼镜,从而避免资源浪费。这一小小的障碍设定显著提高了项目的成本效益(Sylvia

3. 对项目实践进行理论总结和提升

在设计随机干预实验项目时应注意理论指导;在项目完成后,也应注意对项目实践进行理论总结,尤其是在针对某一问题一系列的随机干预实验开展之后。随机干预实验的结果有明确的政策含义,但如果能进一步进行理论总结,则可能使研究结果对现实具有更强的指导意义。中国教育扶贫领域的随机干预实验实践检验或发展了多方面的理论问题,其中有两方面比较重要。

(1)关于生命周期不同阶段人力资本投资的社会回报率

中国教育扶贫领域的随机干预实验实践表明,生命周期不同阶段的人力资本投资回报率是随着年龄增长而递减的。当以教育人力资本为结果变量时(例如学生的学业表现或者上大学、上高中的概率),针对高学龄段开展的干预项目通常没有针对低学龄段开展的项目有效。例如,对于大学生、高中生的干预远没有对初中生的有效;而对于初中生的干预,没有对小学生的干预有效。当以健康人力资本为结果变量时,同样也表明越早进行干预越有效。中国的随机干预实验实践表明,James Heckman关于生命周期不同阶段的人力资本投资社会回报率的曲线(图7)在中国农村地区仍然成立。这一理论的验证为教育扶贫领域进行政策干预指出了重要的方向。

(2)关于信息干预的有效性问题

对于诸多的社会问题,人们最容易想到的干预方式可能是各类信息干预:通过改变干预对象的知识、意识或态度,从而改变其行为。例如,关于垃圾分类,通常的政策干预是对居民进行相关教育、发放宣传页、通过宣传栏进行宣传等。但中国的实践表明,通过信息干预解决问题很难达到预期。比如,关于学生的缺铁性贫血问题,对学生进行课堂教育、给家长发放《告家长书》、对家长进行知识培训、向家长发送短信提醒、对校长进行知识培训等诸多方式均没有显著效果。虽然信息干预是最常用的干预形式,但不应将其作为主要的或唯一的干预形式,而是可以结合其他方法使用,例如只向家长发送短信是没有效果的,但在短信的基础上增加一个有现金激励的测试,就可能有效果。

(三) 避免威胁内部有效性的因素

随机干预实验方法最主要的优势是能够估计出干预项目对结果变量的真实影响效果,这一特点可称之为内部有效性(Internal Validity)。但并非任一随机干预实验均具有内部有效性,内部有效性常常受到威胁,确保随机干预实验的内部有效性需要满足一定条件。中国的随机干预实验实践为处理好内部有效性的威胁提供了重要的经验借鉴。

非预期行为是指干预组或对照组样本意识到干预分配结果而产生的非预期反应。这包括两个典型现象。一是霍桑效应(Hawthorne Effect,也称为实验效应),指样本知道自己被选择参加实验而产生个人行为变化,例如更努力工作。二是约翰·亨利效应(John Henry Effect),指对照组样本意识到自己没有被分到干预组而更加努力工作。这些都会造成干预项目真实影响效果的偏误(Heckman

解决这些问题可采用单盲甚至双盲的实验设计,即实验参与者不应知道自己被分配组别的情况(单盲)、甚至实验实施者也不知道干预分配情况(双盲)。例如,对于教师绩效工资项目,对于对照组的教师不应让他们提前知道这一干预项目的存在。此外,也可通过类似医学中安慰剂的设计来消弱实验效应。例如,对于通过《告家长书》改善学生的缺铁性贫血问题,在向干预组学生发放《告家长书》的同时,也应向对照组学生发放同样的一份《告家长书》。后者在纸张材质、开头称呼、页数等方面均与前者一致,只是不包含关于缺铁性贫血的关键信息。

尽管样本随机分配到干预组或对照组,但会出现被分到干预组或对照组中的样本未完全遵守分配的情况,即依从性问题(Gertler et al.,2013)。这可能是由错误的项目执行造成的,例如在免费眼镜项目中,由于执行中出现偏差,分配到干预组的学生并未收到免费眼镜,而这批眼镜被错误地分发给了对照组的学生。不完全依从也可能是由非项目原因造成的,例如对于对照组有视力问题的学生,即使未发放免费眼镜,他们也可能自己配眼镜。

为提高项目依从性,研究者可采用提高干预方案的可获得性、改变随机层面等相关实施策略,尽管如此,也仍然难以完全避免这一问题。这种情况下,研究者可通过识别项目依从样本个体与非依从样本个体,通过工具变量方法估计项目的局部平均干预效果。

在随机分配后可能出现干预组样本影响到控制组样本或者相反的情况。例如,如果干预组和对照组学生同在一个学校,干预组收到可咀嚼的多维元素片的学生可能会分给控制组的学生吃,或者告诉控制组的学生自己去买这种多维元素片。这种情况的出现会在项目评估时低估项目的影响。

为避免样本污染,一是要改变随机分配的层次,例如不是在学生层面进行随机,而是在学校层面进行随机,从而保证同一学校的学生是被分配在同一干预组别中,从而减少不同组别学生接触的可能性;二是注意抽样方法,例如,在选取学校时,可以每个乡镇只选择一所学校而不是多所学校,由于地理上的隔离,一所干预组学校的学生较少有机会接触到另一个乡镇对照组学校的学生;三是在项目实施过程中减少不同组别接触的机会,例如,如果需要对对照组学校和干预组学校的负责人进行缺铁性知识的培训,应该分开、分批次培训,而不是集中一起培训(即使这样可以节省成本),同时,也应避免将对照组的联系人和干预组的联系人加入到同一个工作群中。如果实在难以避免这一问题,目前也有一些实验设计的技术性方法至少可以测量出这一效应的大小(Banerjee

在随机干预实验实施过程中可能出现样本中途退出或在评估调研时未能追踪到等情况,即样本流失。这可能带来两方面的问题:一是如果流失的样本与最初样本有显著差异,例如实验开始后,最需要眼镜的、近视度数高的学生因学习成绩差而辍学,则评估时可能低估了项目的影响,因为最需要眼镜的这部分学生的影响效果未包含在内;二是如果流失的样本在干预组和控制组之间有差异,例如,由于获得了免费眼镜,干预组辍学的学生显著少于对照组,此时干预组与对照组不再具有可比性,通过随机干预实验估计出的项目影响效果也将是有偏差的。

为避免样本流失问题,一是在项目开始前应提前估计样本流失的可能性,考虑是否可以提前将流失可能性高的样本排除在样本框之外。例如,对于婴幼儿早期发展的干预,由于农村样本流动性较高,可以在基线调研时询问样本的流动意向,将未来6个月内(干预期为6个月)有外出务工打算的样本暂不纳入样本。二是对样本流失提前做好应对预案。例如,留下家中多名联系人的联系方式,避免样本对象因更换手机号而联系不到等问题。当样本流失问题不可避免地发生以后,可以通过相关分析来评估这一问题可能的影响。研究者可通过分析检验流失样本与非流失样本是否存在差异、流失以后的干预组和控制组是否存在差异等来评估样本流失的影响。

(四) 应对好项目规模化的挑战,提高项目的外部有效性

在上一节中我们提到,随机干预实验结果的内部有效性受到多重挑战,这些挑战需要在随机干预实验设计、执行和分析过程中进行控制和应对。那么,是不是随机干预实验很好地应对了内部有效性的挑战(也就是说,我们可以将干预组和对照组的结果差异归因于项目干预的影响),其结果就可以在更大范围的人群里进行规模化复制?显而易见,答案是否定的。虽然在理想条件下,通过寻找一个环境和实施伙伴来验证一个新的社会干预方法的概念是有意义的,因为只有这样的环境和实施伙伴,才有可能采纳所有保证成功的必要步骤(例如,进行干预方法的随机分配等),但这样一个小规模实验项目的结果,并不一定能很好地预测大规模实施类似项目的成本和影响,尽管它提供了相关信息(如干预效果及其作用机制等)。事实上,大规模的项目无法复制小型随机干预实验结果的情况并不罕见(Banerjee et al.,2017)。然而,政府的核心目标之一是改善人民的生活水平,尤其是弱势群体的利益,政府需要通过普惠性的公共服务政策来改善这些群体的生存状况。随机干预实验作为一种识别项目效果的方法需要为政府提供可执行的、可落地的、具有成本效益优势的政策建议,因此随机干预实验的结论需要明确其规模化的影响是什么。

那么,什么是“规模化影响”(Scale-Up Effect)?规模化影响是指项目从小规模研究阶段(通常由项目团队或者非盈利性机构执行)走向规模化阶段(通常是普惠性的并由政府执行)所可能产生的成本效益的变化(Al-Ubaydli et al.,2019;Banerjee et al.,2017)。

项目规模化时,其项目影响与项目成本都可能发生变化。2019年诺贝尔经济学奖得主Abhijit Banerjee、Esther Duflo及其他学者总结了小规模项目在规模化时可能面临的六个挑战:溢出效应、市场均衡效应、政治反应、情景相依性、随机化或选择偏误、试点偏差/执行挑战(Banerjee et al.,2017)。这一总结得到了广泛的认可,研究者和政府人员普遍认为它们会影响到项目在规模化实施时的成本与效益。具体来讲,六个挑战及其影响如下(在以下内容中,我们同时也总结应对这些挑战的国内外经验):

溢出效应是指干预措施对干预对象的相邻单元的影响。溢出效应既会威胁项目的内部有效性,也会影响项目的外部有效性,从而对规模化产生影响。当干预措施影响的相邻单元是实验对象时(例如对照组样本),溢出效应就会导致内部有效性问题。但当干预措施影响的相邻单元不是实验对象而是更大范围的人群时就会产生外部有效性问题。这种溢出效应可以分为技术溢出效应和信息溢出效应。一些溢出效应与技术有关,例如儿童驱虫项目,如果项目对一个学校的孩子进行了驱虫药的干预,那么临近学校那些没有进行驱虫药干预的孩子也可能受益(Miguel & Kremer,2004)。一些溢出效应与信息有关,例如实施一项新的技术或干预时(如在线学习、社区孕产妇周末课堂、驱虫蚊帐等),最开始接触它的人群可能不会正确地使用或积极参与,但是当越来越多的人体验过产品或服务以后,他们的朋友和邻居也会经过口耳相传的社会学习而知道该项产品或服务,从而产生强化效应(Reinforcement Effect)。因此,研究者需要识别和厘清溢出效应可能带来的规模化影响。

在经济学中,溢出效应已经被广泛关注,也有不同的方法可以用于测量溢出效应。例如,在“养育未来”整县项目中,项目通过在问卷中设计蓝色染料(Blue-Dye)问题来测量溢出效应,这些问题是只有干预组对象知道的特别信息,通过询问干预组和未被干预的临近单元对于这些信息的掌握程度来测量溢出效应的大小。小规模实验也可以通过实验设计来测量溢出效应。例如,Duflo和Saez(2003)运用两层随机过程(Two-Stage Procedure)的方法在村层面随机分配干预比例,然后再在各村内部随机分配干预组和控制组,以测量退休存款决定的信息溢出效应。但是,并非所有的溢出效应都可以通过小规模实验进行测量,特别是当溢出效应高度非线性(Nonlinearity)时。非线性的溢出效应是指一个干预需要足够多的参与人数才能对临近单元产生影响,例如Tarozzi等(2014)进行的驱虫蚊帐项目。因此,当溢出效应高度非线性(Nonlinearities)或存在转折点(Tipping Points)时,研究者需要通过大规模的实验来进行溢出效应的测量。

市场均衡效应也可以被理解为是溢出效应的一种。市场均衡效应是指当一项干预措施被大规模实施时,它可能会改变市场的性质。通常来讲,小规模实验在很多情况下与部分均衡分析是一致的:所有市场价格都可以假定保持不变。相比之下,一项大规模的实验—比如全国性的政策干预—可能会影响工资和土地等非贸易商品的价格,而这些价格的变化可能会影响整个项目的净收益(Banerjee et

Banerjee 等(2017)指出,规模化情况下的项目净收益可能减少也可能增加。例如,奖学金项目通常在小规模实验中能够提高一部分人的教育水平,从而改善他们的收入状况。但是,当项目在人群层面实施时,由于增加了市场上高质量劳动力的供给,供大于求的经济规律会使得工资水平降低,因而在规模化情况下,项目对于收入改善的效果会小于小规模项目的效果(Heckman et al.,1998;Duflo et al.,2017)。再比如,提高收入的项目会产生乘数效应(Multiplier Effect),它不仅会改变被干预者的收入,也能促进他们的消费,从而影响这些消费品供给方的收入,因此大规模项目中,国民收入的均衡效应要大于小规模实验对收入的影响。

近期的研究采用了不同的方法来应对市场均衡效应的挑战。一种方法是建立模型并进行模拟(Townsend,2010)。第二种方法则是通过实验设计来测量市场均衡效应。其中比较常见的是通过两层随机过程(Two-Stage Randomization Procedure)在市场层面先随机分配干预比例,然后再在各市场内部进行干预的随机分配,以测量市场均衡效应(Crepon et al.,2013)。另一种实验则是通过在市场层面进行随机并通过市场层面的结果来测量市场均衡效应(Muralidharan et al.,2016)。

规模化情况下的项目的执行成本也可能受到影响,比如前面提到的养育未来项目,如果政府要在农村地区为0—3岁儿童及其家庭提供普惠性的公共服务,那么它需要雇佣大量的一线工作者来执行项目,然而由于目前尚没有成体系的培养体系,此类人员的供给几乎为零,因此该政策将面临招工难的问题。因此,研究者在进行政策建议时应当在成本效益分析中纳入该部分的人力成本。

等(2017)提到,随着项目规模的扩大,政治反应可能会有所不同,包括反对或支持项目的反应。有关政治反应的试点项目(比如反腐败)通常比典型的验证干预方法或概念的研究要大得多,因为它涉及的群体要足够大才能产生政治影响。一个小规模试点研究可能会没那么艰难,但这种政治上的反应可能不会显现,因而容易被忽视。然而在其他情况下,试点项目可能比规模化项目更容易受到攻击:因为他们要接受审查,所以很容易被终止。因此,通常需要一定规模的实验才能激发政治反应,并进一步找到解决办法。

在中国的实践中,与政府进行渐进式的合作是一种有效方法。陕西师范大学教育实验经济研究所研究团队及其合作者经过多年的实践总结了研究项目与政府合作的三种渐进模式,即政府观察模式、政府部分参与模式及政府全程参与模式。通过渐近的模式与政府建立信任和合作的关系,有助于逐步达到政府全程参与的效果。

项目评估通常会在几个精心挑选的地点和特定的组织中进行,其结果可能取决于干预地点或实施组织的一些可观察或不可观察的特征,因此,它们通常不能扩展到不同的地区或组织(即使是在同一个国家)。

解决情景相依性问题的一种方法是对在不同地区或不同组织实施的重复实验进行系统综述。重复实验使研究人员能够理解干预过程中究竟是哪些关键情景因素对直接干预效果产生了作用。例如,Banerjee 等(2017)提到的Cochrane Collabration对健康领域的实验综述,对学龄儿童驱虫、饮水质量以及驱虫蚊帐等项目的重复实验的综述,American Economic Association的注册随机干预实验与数据的公共存档,以及系统元分析(meta-analysis)方法所产生的研究结果。

另一种方法是通过已有实证结果建构理论,利用理论模型的预测指导实验设计,以求验证理论预测,为政策实施提供更为系统有效的指导。例如,Kremer和Glennerster(2011)关注了价格敏感性对预防性保健产品使用的影响。他们通过理论模型构建了不同的理论解释,如流动性约束(Liquidity Constraints)、信息缺乏(Lack of

在中国教育领域的随机干预实验的实践中,理论指导下的重复性实验也为政府决策提供了清晰明确的建议。

Banerjee等(2017)提到,在小规模实验中,同意参与早期实验的组织或个人可能与其他人群不同,Heckman(1992)称之为随机化偏差。

这种担心有三个不同的可能来源。首先,愿意参加随机干预实验的组织(甚至政府内部的个人)通常是例外。第二,当人们选择接受干预时,那些更有可能受益的群体也更容易接受干预,那么随机干预实验的估计效果仅适用于依从者(那些会因干预而产生反应的人),因此这些结果可能不适用于更广泛的人群(Imbens & Angrist,1994)。第三,选址偏差的产生是因为一个组织为了能够使干预产生有效的结果而选择了一个地点或一个影响特别大的子群体。

通常的解决方法是通过与最终会执行项目的政府或者机构合作,在一个更大的范围内随机抽取具有代表性的人群来进行实验。更大范围和更大规模的实验不仅能够保证抽取的样本更具有代表性,还能帮助研究者在统计上识别出对于不同群体的异质性干预效果。在本文中列举的养育干预项目和营养健康干预项目都是通过这种方式来解决随机化偏差问题的。

一个大规模的项目将不可避免地由一个大规模的政府机构来管理,因此,在试点项目中的严密监测和督导在规模化中通常不再可行,或者需要特别的努力。许多研究发现,非政府组织或者研究团队与政府在执行方面存在差异(Banerjee et al.,2007;Barrera-Osorio & Linden,2009)。

因此,一个研究项目需要识别项目的关键步骤和核心因素,这些干预的核心部分(或“不可协商的部分”)应该在规模化开展之前进行详细说明,以确保在实施时将执行偏差最小化。那么如何识别出项目的关键步骤和核心因素并减少执行偏误呢?在国际实践(Banerjee et al.,2017;Al-Ubaydli et al.,2019)以及中国实践中,我们总结出以下几点重要经验。

第一,项目设计需要梳理项目从投入到结果的因果链,以及关键的监测和督导时间及其指标。这个过程不仅需要研究团队梳理已有文献,还需要项目相关利益方的共同参与。

第二,需要通过与未来会执行政策的政府或机构合作,在更大范围内进行实验,并详实记录执行的过程数据。这是非常关键的内容,然而在现有的很多实验研究中(至少在已发表的研究中)很少有记录执行过程数据的研究。一方面可能是因为记录这些内容的过程繁杂(比如需要一线人员通过手动记录,然后再人工录入),另一方面是因为人为记录的信息可能因为利益相关而不真实,导致收集的信息不会发挥作用。从实践中可以发现,记录方面的问题完全可以通过技术手段进行解决。比如在前面提到的“养育未来”干预项目中,家庭参与儿童早期发展中心活动的记录数据可以由人脸识别系统自动记录和生成,这有效保证了项目干预过程数据的可及性,以及内容的完整性和真实性。

第三,需要通过项目执行手册等使执行方理解项目干预有效的作用机制。只有项目执行者充分理解了成功或失败的关键因素才能更好地减少执行偏误。

第四,项目的研究者应当在项目的实际大规模开展中发挥重要作用,比如起到“脚手架”的作用(即研究团队从深度参与到逐步退出的过程)。研究者应当帮助执行方逐步独立执行项目,掌握执行的核心要素和步骤,并设立研究者逐步退出的机制。

总而言之,研究者应充分认识到项目规模化的挑战,并在项目设计、执行和规模化过程中应对这些挑战。具体来说:情景相依性问题需要通过复制来解决,并且最好是在理论的指导下来完成;市场均衡效应和溢出效应可以通过将这些效应的估计纳入研究设计中,或通过在均衡发生时进行大规模实验来解决;随机化和试点偏差可以通过与最终会执行项目的政府或机构合作,在一个足够大的范围内来尝试解决,这需要详细记录成功和失败的过程数据,并帮助执行方掌握执行的关键步骤,也需要详细记录成本数据,并进行规模化的成本效益估计。

从各国的实践经验来看,成功地设计和完成一项随机干预实验需要特别注意以下两点:

一是要重视对项目作用机制的分析。在随机干预实验的设计、执行及分析等各个环节中,依托因果链进行的机制分析都发挥着重要作用。一个被很好设计和执行的随机干预实验不仅能够厘清项目与潜在结果的因果关系、准确评估项目的影响效果,而且能够打开政策影响的“黑箱”,厘清项目影响的作用机制。因此,基于因果链设计进行作用机制分析无论是在项目的设计、项目执行过程中,还是在项目评估结束的数据分析时都发挥着重要作用。

在随机干预实验中进行作用机制分析,需注意以下几个方面。从操作流程上看,作用机制的探索体现在随机干预实验的全过程中,而不只是项目结束以后的数据分析中。在项目设计时,就应基于变化理论,理清项目的因果链:每项干预的投入、活动、产出、短期结果、长期结果分别是什么?每个环节的测量指标是什么?各环节成立的假设条件是什么?具体地说,要探索作用机制,在问卷设计时就要明确收集哪些数据、关注哪些指标,在项目执行时要明确重点监测哪些环节,在数据分析时要明确如果项目没有效果,可以检验哪些假设以发现改进项目的线索。

从分析内容来看,作用机制的探索既可以指向实践、服务政策,也可以指向理论、促进创新。在实践层面,可以通过对中间过程变量的变化情况、各环节的假设条件是否成立等进行监测、分析,来明确项目执行过程中的难点,及时调整监督管理的重点。例如,对于没有影响效果的干预项目,要检验哪些应发生改变的中间变量未发生改变、哪些假设条件未如预期一样成立,这对于不断改进项目、形成项目的标准化操作流程、提高项目推广后的有效性具有重要意义。在理论层面,可以根据理论假设设计干预项目(例如,基于理论的影响评估),从多个竞争的理论中检验哪一个理论成立,例如学校的激励问题和资源问题是相互替代还是相互补充;也可以通过多个随机干预实验的对比,总结、提炼出理论,例如,对学生缺铁性贫血问题进行信息干预难以达到预期效果,这可能是由于健康教育的KAP(Knowledge

从识别方法上看,随机干预实验可以通过以下几种方式进行作用机制的探索。一是项目的干预设计。例如,在养育项目中,研究人员向干预组提供了特殊信息,这些信息只有干预组对象才知道。因此在评估时向对照组同样询问这些特殊信息时,便可以明确是否存在溢出效应。在探讨解决学生缺铁性贫血的激励问题和资源问题的关系时,随机干预实验可以使用交叉设计,在激励组和补贴组之外增加同时包含这两项干预的干预组,从而可以检验两者之间是相互替代还是相互补充的关系。二是项目的异质性分析。对校长进行缺铁性贫血的信息干预时,对项目的影响效果根据学生是否住校进行异质性分析,则可以明确这种干预效果是通过直接改善学生在校期间的饮食行为实现的,还是通过改善学生和家长的知识、行为实现的。三是对一系列实验的结果进行对比分析。通过信息干预改善学生的贫血状况,涉及接受信息的对象、接受信息的形式、接受信息的频次等多个具体环节,而针对该问题设计的一系列实验恰好瞄准了不同的环节(接受对象从家长到校长,接受频次从一次到两次再到多次,接受形式从宣传页到现场培训再到短信等),这些实验分别检验了信息干预的不同环节,对于理解信息干预的作用机制有重要意义。最后,也可以基于因果链收集中间变量信息,运用中介分析方法探究和对比不同中间变量与最终变量的相关性强度,以识别与项目效果最为相关的因素,从而得出项目效果的产生机制。

二是研究者需要理解、接受和积极应对随机干预实验实践性的特点。一般的研究是思维性的,重在理论构建、数据分析、假设检验等。而随机干预实验不仅是思维性的,更是实践性的。从方法来看,随机干预实验属于行动研究,因其极强的政策导向,随机干预实验也被视为“政策模拟”。随机干预实验的开展不仅需要思维层面的理论思考与分析,更需要实践层面的具体执行与落实,需要去思考和解决各种现实的、有时可能是非常琐碎的问题。某些理论研究者可能不屑于思考和面对一些琐碎的现实问题,例如,如何建立一个工作群联系对照组和干预组的联系人。但这些现实问题能否处理好,会极大地影响随机干预实验的成败。如果把对照组和干预组的联系人放在同一工作群中通知信息,很可能出现严重的样本污染问题。

因此,将一项随机干预实验称为一项复杂的工程并不为过。要通过随机干预实验方法找到解决社会现实问题的有效方法、真正推动社会的进步,需要根据实践的需求,不断进行方法层面的理论创新和实践层面的经验总结,解决好内部有效性、外部有效性等各种问题,做到理性分析、大胆假设、精准设计、高质量执行。

四、随机干预实验的全球实践对未来教育精准扶贫的启示

当越来越多的国家和个人将资源用于解决发展等民生问题后,也会有越来越多的人会拷问“我们的钱花得是否值得”。这就是干预的有效性问题。这样的思考往往是考虑项目需要在更大范围和规模推广的情况下引出的。

教育精准扶贫,核心是精准。回顾全球在教育精准扶贫方面的工作,一个简单而重要的理念是,没有证据就没有改善。提高减贫能力,需要在政策制定和项目设计中,通过实证证据进行验证。

证据的重要内涵是准确,而随机干预实验是提供准确证据的重要手段。如前文所述,传统的评估方法囿于内生性问题,结果往往存在偏误,借鉴意义受限。随机干预实验作为一个跨领域和跨学科的方法,因其引入外生的随机因素,往往可以得出无偏结果,揭示因果关系,并在此基础上开展公共政策制定所需的成本效益分析。

2019年诺贝尔经济学奖的官方颁奖词是,“表彰其在全球扶贫问题上使用的实验性方法”。以Abhijit Banerjee、Esther Duflo和Michael Kremer为代表的新一代发展经济学家,将复杂的贫困问题分解为更为具体的问题,应用随机干预实验方法,针对这些具体问题设计了可能改善或者解决的机制与方案。

作为世界上最大的发展中国家,中国从教育、健康等多方面以“摸着石头过河”的方式在扶贫领域精耕细作,扶贫工作取得显著成效。在这样的背景下,在农村贫困地区开展教育、健康等多方面的随机干预实验,不仅更好地厘清了从干预政策到项目结果之间的因果关系,也为更大范围的政策制定和干预推广提供了有效工具和可靠依据。这些基于循证科学论证的有效经验总结和减贫措施,提升了政策制定者对学术研究成果的接受程度,极大地提高了整体减贫能力。这些科学的减贫依据也将为发展中国家乃至全球的减贫工作提供宝贵经验。

本节基于各国政府、国际组织、研究机构的相关实践,进行经验总结,希望发掘相关实践对未来教育精准扶贫的启示。

(一) 国际经验的启示

国际上,评估项目的有效性是制定政策的重要环节。影响评估不仅使项目给当地带来实际效应,还能够通过积累知识影响全球发展议程。政府机构如美国国际开发署(United States Agency for International Development)、英国国际开发署(UK Department for International Bank),会资助甚至成立专门的影响评估部门或基金会。美国麻省理工学院的贫困行动实验室(J-PAL)和贫困行动创新组织(IPA)是目前全球最大的两个致力于推动影响评估和实验经济学方法应用的组织。过去十几年,J-PAL和IPA用实验经济学方法开展了大量影响评估研究,为发展中国家发展政策的制定提供了大量的实证依据。

Evaluation,3ie)成立于2008年,是国际上最有政策影响力的影响评估团队之一。3ie致力于为发展中国家提供经过科学影响评估验证的政策建议和项目方案。该组织主要通过在国际发展领域资助高水平影响评估项目、提高项目评估质量、生产影响评估项目综述、推广对证据的使用来达成其目标。

3ie不对项目干预本身进行资助,而只资助影响评估。目前该组织已在超过50个国家和地区资助超过300项影响评估研究,总计1.25亿美元。该组织基于这些研究,发表大量影响评估报告、项目评述和政策简报,是利用影响评估促进全球发展的重要平台。目前,3ie的工作主要聚焦于非洲、东亚和拉美地区。在我国的研究则集中于教育和公共健康领域,合作机构主要分布在中西部地区。

在国际组织的推动下,中低收入国家在制定新的教育扶贫政策时很大程度上依赖基于随机干预实验的影响评估结果。以美洲开发银行为例,其26个客户国如果想向美洲开发银行申请贷款推行新的教育扶贫项目,在立项前就需要以有效性为前提进行项目设计。项目设计需要提供合理解决问题的方案,而这些解决方案要能基于实证研究结果论证该项目的潜在有效性。

(二) 中国实践的启示

1. 项目设计需要尽量简单

对于一个社会问题,人们可能想到的干预是多方面的、多层次的,其解决通常需要整合社会资源、上下联动、多方参与。但由于开展教育领域的随机干预实验最终是为了推动教育政策的改善,如果实验方案过于复杂、对实施者的要求过高,则会给后续政策推广造成一定的困难。

例如,对于学生的营养问题,可能的解决办法包括:(1)让学生每天服用一片含铁的维生素片;(2)财政补贴改善学生饮食;(3)通过激励让学校领导更重视学生的营养问题(例如,设置流动红旗);(4)给学生开展健康教育课程;(5)给学生定期进行体检;(6)给家长进行营养健康知识培训。这些干预协调了各方面资源,调动了各方面的积极性,政府、社会(企业)、家长、学生本身都参与进来了。这些干预使用了多种方法,包括激励、物质干预、制度设计等。这些干预可以同时实施,作为一个“组合拳”去解决学生的营养问题。

尽管使用随机干预实验可以把“组合拳”作为一个整体进行影响评估,但当项目的组成办法过多时,其作用机理难以厘清。在随机干预实验中,如果要严格评估每一个办法本身的有效性及其与其他办法的有效性的差异,样本量需要几何程度的增加——往往由于成本和样本数量所限在现实中难以做到。

无法厘清项目机理对项目大规模推广复制的有效性和可行性都提出了巨大挑战。除了需要更多的资源,相比于一个适用于一刀切执行的项目,复杂项目在执行过程中的有效性要大打折扣。“组合拳”中,真正起作用的是什么?是全部都有用,还是有些干预其实没有发挥作用,甚至相互冲突、抵消?如果在政策推广中,不能完全复制“组合拳”,只执行其中几项措施,项目还会有效吗?在规模化阶段,大规模执行无效的项目就是一种资源的浪费。

2. 政策制定与推广需要成本效益分析的证据

除了通过建立更为直接和严谨的评估标准,如何应用影响评估/随机干预实验研究结果为政策制定者提供更为有效的建议亦十分重要。在教育扶贫政策制定过程中,实现目标的干预方案往往不止一种,在众多方案中进行选择以及更大范围的项目推广都需要有关项目成本效益的研究证据。因此,进行基于影响评估结论的成本效益分析极为重要(White,2009)。

成本效益分析通过分析比较项目的全部成本和效益来评估项目所产生的价值。将这一分析方法运用于教育扶贫公共政策制定过程中,可以告诉我们每一分钱在教育扶贫项目中产生的价值。不同项目中的对比可以帮助决策者在多种政策或项目中做出选择,以实现在公共政策实施中用最小的成本获得最大的收益。

以视力项目为例。该项目采用了信息干预、直接发放免费眼镜干预和眼镜兑换券干预三种形式,其目标是通过提高学生的戴镜率改善学生学业表现,标准化数学测试成绩的提高是这个项目的最终结果指标。干预的成本包括项目成本、税收成本(假设该项目由政府部门组织实施,成本由财政性税收承担,即税收成本)和家庭成本(眼镜兑换券家庭需自行前往县城兑换眼镜的时间与交通成本)。信息干预未能改善项目的最终目标,即改善学生学业表现,说明信息干预方案不具备成本效益。直接发放免费眼镜干预和眼镜兑换券干预均显著提高了学生学业表现,但对比两种干预方案的成本,可以发现,发放眼镜兑换券方案的成本低于直接发放免费眼镜的成本,相较于直接发放眼镜,发放眼镜券更具有成本效益优势(Sylvia

3. 教育精准扶贫随机干预实验不只是学术研究,更需政府参与

尽管会受多种因素的共同影响,但如果教育政策的制定是基于高质量的实证研究结果,那么政策制定过程本身就可以促进和保障教育政策的科学性。如果教育政策制定者充分理解随机干预实验在验证项目效果方面的科学性,知道哪些新政策和新项目确实有助于改善教育精准扶贫政策的实施效果,哪些可能是无效的,那么,他们就可以把资源投向那些有效的政策和项目。

教育精准扶贫随机干预实验的最终目标是制定有效的教育领域的扶贫政策,作为政策制定者的政府部门的参与尤为重要。那么作为随机干预实验研究领域的“非专业人士”,教育政策制定者应该如何更有效地参与到教育领域的随机干预实验当中呢?笔者团队根据大量实证研究,总结出了研究者与政府合作的三种渐进式不断探索的实践模式,分别为:(1)观察模式;(2)部分参与模式;(3)全程参与模式。

观察模式,即政府以一个纯粹的观察者的角色来参与解决教育政策关注的某一方面或多个方面的问题。在这种合作模式下,项目团队主要负责开展项目,但从选题到实验设计等各阶段均需得到政府部门的认可,以此促进政府在科学研究证实问题后,作为主体参与到项目下一阶段的实施中。

当政府官员还没有完全理解研究问题本身或某一干预方案时,通常会采取规避风险的做法,以一种谨慎、缓慢的方式来参与项目实验。面对这样的挑战,实证研究应该先于政策制定者的行动。研究团队需要向政策制定者展示详尽的项目报告,重点介绍为何关注该问题、做了什么干预、结果如何以及下一步如何改进等,以此让政府部门意识,到针对这一特定问题研究团队将开展随机干预实验研究,并希望为政府部门提供科学的决策依据,这样一来,政府在下一阶段参与项目时就会减少很多顾虑。

部分参与模式,即政府部门从项目执行的早期阶段开始参与。在这种合作模式下,研究团队将让政策制定者部分地参与该项目的实施,而在项目构思及设计等比较复杂、零散的前期部分,政府部门还是更多地以观察者的形式参与。

对一些问题,已有经国际研究验证的潜在、可行的解决方案,但尚未在中国进行本土化的尝试和改善,这种情况下项目团队需要与政府部门密切合作,以推动政府全面参与项目的实施。从理论上讲,研究团队已经知道某种干预是起作用的,但在方案实施过程中,研究团队需要与政府合作来回答一些基本问题:这种干预是否在当地的政策环境中可行?在已知多种干预方案都有效的情况下,哪一种在本地政策环境下最有效?等等。如果政府部门实地参与项目实施,并且对研究团队评估干预方案的过程进行观察,那么在验证了干预效果后,该方案后续作为政策试点推广的机会也会大大增加。一般来说,项目实施将会逐渐转化为政府的行动,政府部门可以在自己的管辖区域内大规模推广项目成果。

全程参与模式,即政策制定者在项目的早期构思阶段便参与进来,成为项目团队的一部分,参与项目选题构思、实验设计、方案实施、结果分析及政策推广。对于一些教育发展问题,基于国际成熟经验和国内本土化的试点验证,政府已经接受并认可这些成功的项目干预方案,并将作为主体探索下一步推广方案。经过研究团队与政府部门共同探索的推广方案,政府可以独立总结出更适合自己管辖区域的有效方案,并向其他区域推广。

4. 教育精准扶贫需要更多随机干预实验

从全球范围来看,21世纪后使用随机干预实验等方法的社会发展领域的影响评估研究得到了迅猛发展,尤其是在教育领域。从2006年全球发展中心(The Center for Global Development,CGD)发表的发展中国家社会发展领域影响评估综述报告可知,截止2004年仅有92项教育领域的科学影响评估项目,而10年后这个数字增长到512项(Shi et al.,2015)。国际影响评估协会2015年对1990至2015年间发表的全球中低收入国家开展的教育领域的干预研究(包括RCTs和准实验方法)做了系统的文献综述(Systematic Reviews),该综述关注的238项研究,大多集中在拉丁美洲和加勒比海、撒哈拉以南非洲和南亚,中国仅有不到30项(Snilstveit et al.,2015)。

当然,我们不是说我国教育领域的随机干预实验研究数量不够多,而是希望强调严谨的科学实验能够给政策制定者提供实证决策依据,因此可以更多地使用。从全球发展中国家开展的教育领域的实验研究的结果来看,通过科学的实验设计、严谨的实验执行以及精确的结果分析,不仅能告诉政策制定者哪些干预有效、哪些干预无效,还能清楚地展示出为什么有些干预有效、有些干预却不起作用,从而可以帮助政策制定者快速筛选出可能的政策方向。而对地域辽阔的中国,仅在一个地方开展政策干预实验是无法惠及所有的贫困群体的,要想将一项政策推广到其他地区,政策成本和异质性影响都是首要考虑的问题,而这些问题都可以通过随机干预实验来解答。因此,借鉴国际成功经验,我们还需要开展更多的教育领域的随机干预实验研究,以识别精准有效的教育扶贫政策,这可能是未来贫困群体教育研究的一个发展方向。

附论:不开展随机干预实验时,教育精准扶贫如何做?

 尽管随机干预实验被认为是影响评估的“黄金准则”,国内外已应用该方法开展了大量教育发展方面的研究,在减贫方面应用前景广阔,但它并不完美,仍存在局限性。除文章中提及的在理论和实操方面的局限外,面对复杂的现实环境和各种各样的资源/条件限制,随机干预实验还并不能适用于所有研究问题。本部分将简要介绍随机干预实验在研究问题上的局限性,并更一步阐述在随机干预实验不适用或没有条件使用的情况下,如何应用准实验方法开展教育精准扶贫的政策研究。

(一) 随机干预实验在研究问题上的局限性

随机干预实验在研究问题上,主要有伦理和逻辑两方面限制(Duflo et al,2007):

有些问题的干预需要实验者有目的地给干预组提供好处却不给对照组提供可能,这不符合伦理要求。比如,在评估教育对人力资本的重要性时,若通过直接开展随机干预实验评估随机分组后教育水平供给的不同对干预组和对照组样本群体收入水平的影响,我们不能禁止对照组样本接受同等水平的教育。因为这样的随机干预实验是不符合伦理要求的,也是无法开展的。

有时候在研究者开展基线调查数据收集或者随机分配之前,已经实施了与干预类似的政策或项目方案,从逻辑上看,这种情况是不能开展随机实验的。比如,为改善农村学生营养健康状况,国家于2012年推行“农村义务教育学生营养改善计划”,主要是由中央给予经费支持,提高农村学生在校的营养状况。由于政策已经在各地学校推行,若应用随机干预实验评估营养改善对学生身体健康状况及学业成绩的影响,我们无法创造出没有推行政策的对照组样本群体。因此,我们很难通过随机干预实验方法评估已推广政策的实施效果。

(二) 准实验方法在教育精准扶贫中的应用

鉴于随机干预实验自身存在一些局限,加上现实存在的环境资源等限制,并不是所有教育发展问题都适合用随机干预实验来提供解决方案。那么,遇到随机干预实验不适用的情况,如何进行教育精准扶贫政策研究?国内外大量实证研究已经为我们探索出除随机干预实验外的其他验证因果关系的“准实验方法”,这些方法可以用于不适于做随机干预实验的一些领域。

随机干预实验被认为是因果推断的“黄金准则”,最关键的就在于可以通过随机实验构建“反事实”作为对照,以验证干预影响。“准实验方法”其实也一样,可以通过满足特定假设条件来构建“反事实”对照组,通过验证两组的结果变化来识别影响。准实验方法内容较多,假设不同,且不同方法在内部和外部有效性上差别较大,使用场景和方法也千变万化。对此做详细探讨已超出本文题目范围,因此本部分仅对几种常用的“准实验方法”进行简要概述,包括工具变量法、断点回归法、匹配法以及倍差分析法。

假设我们有一个可观测变量,该变量满足以下两个条件:一,这个变量是外生的,即它与误差项不相关;二,与内生解释变量相关。符合这两个条件,我们就可以称这个变量为解释变量的“工具”,即工具变量。使用工具变量法的核心在于工具外生性(Instrument Exogeneity),这意味着通过工具变量估计的结果变量的变化是无偏的,因为工具变量不与其他影响结果变量的不可观测因素相关。但是工具变量的外生性假设是无法检验的,通常情况下要使用该方法,我们需要借助经济行为或反向思考来维持相信这一假定。不过需要注意的是,工具变量估计不代表平均干预效果(Average Treatment Effect,ATE),而是估计所谓的局部平均干预效果(Local Average Treatment Effect,LATE)。也就是说,工具变量法估计的是对那些由外生工具所引起的干预组或对照组样本的平均干预效果。

Glewwe等(2016)研究了佩戴眼镜对学生学业表现的影响。该项目首先分析了给学生发放眼镜与学业表现的因果关系。然而发放眼镜不等于学生佩戴了眼镜,考虑到不完全依从的问题,我们还需要无偏地估计真实佩戴了眼镜的这部分学生的学业表现。由于佩戴眼镜这个变量本身具有潜在的内生性,它不仅受到发放眼镜的影响,还可能与家庭到学校的距离以及家长对学生视力和学习的关注程度有关,而这些因素都可能对学生的学业表现产生影响。为识别佩戴眼镜与学业表现真实的因果关系,研究者引入了一个外生变量即“是否得到免费发放的眼镜”,这个变量既与内生的解释变量相关,又与误差项不相关。在这个项目中,发放眼镜仅通过影响学生佩戴眼镜的概率来影响学业表现,不与其他不可观测变量相关,因此不再有内生性问题,可以作为工具变量来识别佩戴眼镜与学业表现之间的因果关系。使用工具变量法分析结果表明,参与该项目的4—6年级学生佩戴眼镜8—9个月就可以将学业成绩显著提高0.41个标准差。

在某些情况下,我们需要分析处在一个特定变量(通常称为“游动变量”)临界值两端的结果变量的差异,即干预组和对照组分别位于临界值左右两侧的影响评估设计,这称为断点回归法。使用断点回归法的前提是,在这个“游动变量”的临界值两端,干预的可能性呈现突变或不连续的变化。使用断点回归方法识别因果关系,必须同时满足四个条件。第一,用于区分样本的游动变量必须是连续的,比如年龄、考试成绩、收入等。反之,分类变量(例如性别、就业情况、教育程度等变量)则不能用来区分样本。第二,该游动变量必须存在一个“临界值”,使临界值两边的样本分别参与或不参与干预。例如女童奖学金项目,对于所有奖学金申请者,只有家庭资产不高于1.6万元的女童获得了奖学金,则1.6万元就是游动变量(即家庭资产)的临界值。第三,这个临界值必须只可以用来区分该研究项目。如果1.6万元的家庭资产不仅可以决定女童是否收到奖学金,还决定其家庭的医疗保险等其他社会救济,那么我们就不能通过断点回归法来评估奖学金项目的效果。第四,任何个体都不能精确地将其游动变量值控制在临界值的左右,在临界值周围的个体,无法操纵使其落在它所在的临界值的任一边。这就好像使样本个体被随机分配到临界值的左侧或者右侧,从而模拟了随机干预实验的场景。

Park等(2015)使用断点回归法对就读重点高中如何影响学生学业表现进行了研究。在该项目中,干预方式为是否就读重点高中。区分干预组和对照组的游动变量为样本学生的中考成绩,而录取分数线则为该游动变量上的临界值:高于录取分数线的学生可以进入重点高中(即干预组),低于录取分数线的学生则只能在普通高中就读(即对照组)。为降低选择性偏误,研究者为样本分组进一步设定条件,即干预组为在重点高中就读且中考成绩略高于录取分数线的学生,而对照组则是在普通高中就读且中考成绩略低于录取分数线的学生。假设干预组和对照组学生的其他基本特征相似,其差异只在于是否就读于重点高中,那么分析两组学生在三年后高考成绩中的差异就能识别出干预对学生学业表现的影响。

该项目满足使用断点回归法的四个条件:其一,基线调研时,区别样本特征的游动变量(即学生的中考成绩)是连续的;其二,样本特征存在明显的“临界值”,即录取分数线;其三,落在录取分数线两边学生的其他基本个人特征是非常相似的,其差异只在于是否就读于重点高中;最后,在录取分数线周围的学生,其就读的高中只取决于中考分数,而不能人为操纵。使用断点回归法分析结果表明,就读重点高中比没有就读重点高中的学生高考成绩高出0.387个标准差,同时,就读重点高中可以将大学入学率显著提高27.8个百分点。

为了寻找“反事实”对照,在观察数据里面对于每一个接受干预的参与者来说,我们都希望找到一个没有得到干预的“双胞胎”,这个“双胞胎”是一个对照组参与者,它与实验干预组的参与者一样在除干预之外的其他控制变量水平上有相同的取值。我们就是要通过利用这些控制变量来“匹配”接受干预的样本和未接受干预的对照样本,经过将干预组与对照组“配对”,比较干预组的一个“双胞胎”和对照组的另一个“双胞胎”之间结果的平均值是如何变化的,这种比较是对实验干预平均影响的一个估计。然而,相比于工具变量法和断点回归法,使用匹配法和下面即将介绍的倍差分析法需满足更严格的假设条件。运用匹配法的一个关键性假设是使评估者能控制大量的可观测控制变量,但仍会有一些同样重要的不可观测变量影响着主要自变量和结果变量。因此,为了通过匹配产生相对无偏的估计,研究者需要控制每一个同时与主要自变量和结果变量相关的重要可观测变量。

使用倾向匹配得分法评估了高中减免学费政策对提高我国农村学生高中入学率的影响。在该研究项目中,干预组的样本初中生已经受到政策干预,即事前承诺初中生若能考入高中,则减免该生的高中学费。为评估干预效果,研究者构建了对照组,即没有接受到高中减免学费政策的学生群体。考虑到干预已在一个县全面实施(即干预县),研究者选择了另一个县作为对照组样本框,被纳入的对照县与干预县在以下主要特征变量上相似:(1)与干预组样本县隶属于同一个市,且均属于国家级贫困县;(2)与干预组样本县同处于多山地带;(3)农村居民人均收入水平接近;(4)教育经费相近且均由政府承担;(5)学生初中课程内容、高中入学标准以及学费标准一致。这也就保证了对照组与干预组样本县在地理地形、政府财政支持、居民经济状况和教育体系上较为相似,可构建为干预组的“反事实”对照组。通过倾向匹配得分法分析结果表明,高中减免学费政策能显著提高初中生高中入学率21个百分点,显著降低初中生职业高中入学率11.9个百分点。

在寻找“反事实”对照组的过程中,有些干预(个体层面上的干预)可以通过匹配法找到一个没有得到干预的“双胞胎”,而另一些整体层面上的干预,可以通过倍差分析法比较干预前后干预组平均结果和干预前后对照组平均结果的变化来识别因果。倍差分析法的关键假设为“平行趋势假设”,即如果干预组没有进行实验干预,那么干预组的干预前后变化与对照组的干预前后变化遵循相同的趋势,也就是说对照组的平均结果变化代表未经干预的干预组的平均“反事实”的变化。由于倍差分析法依赖于在两个或两个以上的时间点的干预组和对照组结果变量的变化来识别因果关系,因此不要求两组样本在基线时有相同的特征,但必须同时有干预组和对照组样本在干预前后的结果变量的观测值。用干预组干预前后结果变量的变化减去对照组干预前后结果变量的变化,就可以识别出项目产生的影响。

Liu等人(2010)使用倍差分析法研究了中国农村地区小学合并项目对学生学业表现的影响。一些人认为,将偏远地区规模较小的小学合并到规模较大的中心小学,会对学生的学习表现产生一定的负面影响。那么是否合并小学会导致学习成绩下滑呢?研究者在中国西北农村地区选取了62所小学共2446名小学生参与调研,其中,561名学生来自被关闭的小学(干预组A),820名学生来自合并前的中心小学(干预组B),其余1065名学生来自非合并小学(对照组)。该实验研究假设,如果不存在小学合并的情况,两个干预组的学生与对照组学生学习成绩的变化趋势是相同的。那么,分别研究两个干预组与对照组学生在小学合并前后学习成绩的差异就可以识别出小学合并对学生学业表现的影响。分析结果表明,合并小学并不会对学生的学习成绩产生显著的负面影响。但是,合并时的年龄与学习成绩的变化有显著关系:年龄较大的学生合并后成绩显著提高了,而年龄较小的学生成绩显著降低了。

回顾上文所述,识别一项教育扶贫政策是否实现了精准扶贫的核心在于评估其影响,即测算这项政策的作用对象在接受政策干预前后的结果变化并准确归因。随机干预实验方法与准实验方法,均可广泛应用于在教育领域开展的精准扶贫类政策研究中,通过相关研究来分析干预措施是否对最终结果产生了影响。尽管随机干预实验有其局限性,但仍是因果推断的“黄金准则”,可以识别出干预或政策产生影响的作用机制,有效模拟政策实施效果。在不适用开展随机干预或资源有限没有条件开展随机干预实验的情况下,可应用准实验方法进行影响评估政策实验来识别有效的教育类政策(或项目),从而促进贫困群体的发展。

需要强调的是,不管是随机干预实验还是准实验方法,均具有其适用性与局限性。研究者在开展实证研究时,更应注重社会问题本身,而非仅关心验证完美的科学实验方法。在开展教育类影响评估时,研究者需结合自己的研究问题和研究项目的实际可能性,判断是应用随机干预实验还是准实验方法来进行政策评估,从而为政府制定教育扶贫政策提供更加科学的决策依据,以进一步促进消除贫困目标的实现。

作者感谢以下项目和机构的支持:

国家自然科学基金重点项目(项目号:);国家自然科学基金青年项目(项目号:,,,);高等学校学科创新引智计划(项目号:B16031);教育部人文社会科学研究青年基金项目(19YJC790080);中央高校基本科研业务费专项资金资助项目(项目号:2017CBY017);中国博士后科学基金面上资助项目(项目号:);陕西师范大学中央高校基本科研业务费专项资金项目(20SZYB12)。

国家卫生健康委员会干部培训中心;浙江省湖畔魔豆公益基金会;北京三一公益基金会;北京陈江和公益基金会;澳门同济慈善会北京办事处(Macao Tong Chai Charity Association in Beijing);北京情系远山公益基金会;瑞银慈善基金会(UBS Optimus Foundation);国际影响评估协会(International Bank);广州市好百年助学慈善基金会;北京億方公益基金会;深圳市爱阅公益基金会;携程旅游网络技术(上海)有限公司;北京观妙公益基金会;广东省唯品会慈善基金会;和美酒店管理(上海)有限公司;上海胤胜资产管理有限公司;上海市慈善基金会。

PK小课堂系列是由PK导师和部分优秀学员基于丰富的人生经历,为处于不同阶段的学生解惑答疑,经PK汇总而成的短篇文章集,收录了留学、考研、保研、论文写作、就业等方方面面的专家意见

本期文章针对的问题是“统计学和计量经济学有什么区别?

统计学是一门关于数据分析的方法论科学,为自然科学和社会科学的实证研究和经验分析提供严谨的分析方法和工具。统计学大致分为描述性统计和推断统计两大类。

具体来说,描述性统计研究的是数据收集、处理、汇总、图标描述、概括与分析等统计方法;推断统计是研究如何利用样本数据来推断总体特征的统计方法。

而计量经济学正是将统计学应用到经济学领域,以一定的经济学理论为基础,运用统计学以及计算机技术,建立计量模型,从而进行定量地分析一些具体的经济问题。

具体来说,计量经济学假设经济系统是一个随机过程,服从某一客观运行规律;任何观测经济数据,都是从这个随机经济系统产生出来的。计量经济学的主要任务就是基于观测经济数据,以经济理论为指导,利用统计推断的方法,识别经济变量之间的因果关系,揭示经济运行规律。

可以说,计量经济学是推断统计学在经济学的应用,但并不是简单的应用,而是统计推断理论和经济理论的有机结合。首先,在数理统计学中,统计推断是通过数学概率模型对样本数据建模。在计量经济学中,计量经济模型不仅仅是数学概率模型,其模型设定需要经济理论的指导(如选择哪些经济解释变量)。其次,数理统计学的一些方法论并不能直接用于对经济数据的统计推断,因为经济数据有其特殊性,例如经济数据中存在的内生性在纯统计科学中是不会被考虑的。

我要回帖

更多关于 因果联系的分析 的文章

 

随机推荐