- 伪关系:Y和X只是恰巧同时发生,实际上没有明显的逻辑上的关联,如巧克力销量和诺奖得主数量
- 遗漏变量偏差:存在既影响X也影响Y的混淆变量,如年龄混淆了年收入和罹患癌症几率之间的关系
- 幸存者偏差:部分样本没有被收集到
-
- 是一种特殊的固定效应模型,模型简单,基本不需要算法拟合
- 指标差异拆分为trend和treatment带来的差异两部分,通过平行趋势检验,利用对照组政策前后的波动差异来量化trend,从而剥离出treatment带来的独立影响(类似于“AB差异-AA差异=真实策略差异”的思想)
- 对实验组在实验日期之后构造一个虚拟的对照组
- 由于该方法对内生性控制方面的扩展不足, 比较适合外生事件的分析。内生事件的分析推荐用PSM
- 不适用于微观数据分析,原因有:不存在十年以上的微观数据 (比如说追踪调查);该方法不适用于参照组无限大的情况 (比如说统计了上千家庭的微观截面数据 );即适合小样本量长时间跨度(matching+DID适合大样本量短时间跨度)
例子:一项新活动上线,评估该活动对用户价值的影响:
- 对比活动前后的用户价值:没有剥离前后两个时段的市场要素的差异;
- 对比参与活动的用户与未参与活动的用户:参与活动的用户大概率本事是忠实用户(选择偏差);
- AB实验:一组可以看到活动,一组看不到活动,对比两组用户:可以进一步筛选出可以看到活动的用户中参与了该活动的用户,此外如果参与该活动的渗透率低,可以考虑在看不到活动的组中做matching