温馨提示若页面不能正常显示数学公式和代码请阅读原文获得更好的阅读体验。作者赵俊 (南开大学)邮箱m16531438093_1163.comTitle: medDML双重机器学习下的因果中介分析-R语言Keywords: 中介分析, 直接效应, 间接效应, 因果机制, 双重机器学习, 有效得分, causalweight, medDML, Double Machine Learning, Causal Mediation Analysis编者按本文主要摘译自下文并结合 R 包causalweight演示其实现特此致谢Source: Farbmacher H, Huber M, Lafférs L, Langen H, Spindler M. Causal mediation analysis with double machine learning.The Econometrics Journal, 2022, 25(2): 277-300. -Link--PDF-摘要本文介绍 Farbmacher et al. (2022) 提出的因果中介分析与双重机器学习相结合的方法。该方法在高维设定下基于「可观测变量选择」(selection-on-observables) 假设以数据驱动的方式控制观测到的混淆因素将二元处理的平均处理效应分解为经由中介变量的间接效应与不经由中介的直接效应。估计基于有效得分函数对结果模型、中介模型与处理模型的错设具有多重稳健性并通过 K 折交叉拟合避免过拟合在特定正则条件下效应估计量渐近正态且具有 root-nn 一致性。文末结合 R 包causalweight的medDML()函数用数值模拟演示该方法的具体操作并比较不同机器学习器的表现。1. 引言在很多实证问题里我们不只想知道「处理有没有效果」更想回答一个更细的问题这个效果是怎么产生的比如医疗保险为什么能改善健康是因为更多人去做体检、早发现早治疗还是因为其他渠道——治疗更容易获得、用药负担下降、心理安全感提升这就是因果中介分析要做的事把总效应拆成两部分。一部分是间接效应即处理通过中介变量 MM 影响结果 YY 的那一段另一部分是直接效应即不经过 MM 的那一段涵盖所有其他机制。需要说明的是即便处理 DD 是随机分配的把 MM「当作控制变量」直接放进回归也不一定能识别直接效应和间接效应。原因在于中介 MM 是处理后的变量往往带有内生性和复杂的选择机制简单控制很容易引入偏差——这也是中介分析从早期线性回归框架走向潜在结果框架的重要原因 (Kaufman et al., 2004)。经典的识别思路通常依赖「可观测变量选择」式假设只要把足够丰富的处理前协变量 XX 控制好处理和中介在条件意义下就可以看作外生从而识别自然直接效应、自然间接效应与受控直接效应等关键参数。问题在于现实数据中 XX 往往非常多甚至高维研究者很难凭经验决定「到底该控制哪些」。更糟的是很多人会不断尝试不同的控制变量组合以提升拟合或显著性由此产生的模型选择不确定性会让传统推断失真。Farbmacher et al. (2022) 的思路可以概括为一句话用双重机器学习 (DML) 把「高维控制变量怎么选」这件事交给机器学习同时仍然得到可靠的因果推断。具体来说作者把中介分析中基于有效得分/影响函数的识别结果 (Tchetgen Tchetgen and Shpitser, 2012) 与 DML 框架 (Chernozhukov et al., 2018) 结合起来构造出满足Neyman 正交性的得分函数。正交性的直观含义是即便用机器学习去估计倾向得分、结果回归、中介模型这些「辅助函数」只要它们估得「差不多」目标效应的估计就不会被这些误差的一阶项拖垮依然可以做标准的 n−1/2n−1/2 推断——渐近正态、可建置信区间。为了避免机器学习的过拟合污染估计论文同时使用样本分割 K 折交叉拟合(cross-fitting)用部分样本训练辅助模型在另一部分样本上计算得分并估计效应再把各折结果平均。作者还给出一个很实用的扩展通过贝叶斯公式改写得分函数得到一种不必显式估计中介条件密度 f(M∣D,X)f(M∣D,X) 的替代表达式。当 MM 连续或多维时这一点尤其关键——「估密度」往往是中介分析里最难、也最不稳定的一步。这一表示法正是 R 包causalweight中medDML()函数的默认实现本文第 5–6 节将演示其用法。2. 直接效应与间接效应的定义我们的目标是将二元处理对结果变量的平均处理效应 (ATE) 分解为两部分通过中介变量 MM 发挥作用的间接效应以及不通过 MM、包含其他所有因果机制的直接效应。采用潜在结果框架 (Rubin, 1974) 定义这些参数。M(d)M(d) 表示处理取值为 d∈{0,1}d∈{0,1} 时的潜在中介Y(d,m)Y(d,m) 表示处理为 dd、中介为 mm 时的潜在结果。观测到的结果与中介对应于实际处理状态下的潜在变量YD⋅Y(1,M(1))(1−D)⋅Y(0,M(0))YD⋅Y(1,M(1))(1−D)⋅Y(0,M(0))MD⋅M(1)(1−D)⋅M(0).MD⋅M(1)(1−D)⋅M(0).也就是说其他潜在结果或潜在中介在不施加进一步统计假设的情况下都是观测不到的。用 ΔE[Y(1,M(1))−Y(0,M(0))]ΔE[Y(1,M(1))−Y(0,M(0))] 表示 ATE它同时包含直接效应与间接效应。平均直接效应θ(d)θ(d) 是在切换处理状态、同时把潜在中介固定在 M(d)M(d) 时潜在结果均值的差——这样就阻断了经由 MM 的因果路径θ(d)E[Y(1,M(d))−Y(0,M(d))],d∈{0,1}.(1)θ(d)E[Y(1,M(d))−Y(0,M(d))],d∈{0,1}.(1)平均间接效应δ(d)δ(d) 则是保持处理固定在 dd阻断直接路径、切换潜在中介取值时潜在结果均值的差δ(d)E[Y(d,M(1))−Y(d,M(0))],d∈{0,1}.(2)δ(d)E[Y(d,M(1))−Y(d,M(0))],d∈{0,1}.(2)简言之θ(d)θ(d) 是「只动处理、不动中介」的效应δ(d)δ(d) 是「只动中介、不动处理」的效应。在 (3) 式中对反事实结果 E[Y(0,M(1))]E[Y(0,M(1))] 与 E[Y(1,M(0))]E[Y(1,M(0))] 做加减即可看出 ATE 等于在相反处理状态上定义的直接效应与间接效应之和ΔE[Y(1,M(1))−Y(0,M(0))]E[Y(1,M(1))−Y(0,M(1))]E[Y(0,M(1))−Y(0,M(0))]θ(1)δ(0)E[Y(1,M(0))−Y(0,M(0))]E[Y(1,M(1))−Y(1,M(0))]θ(0)δ(1).(3)ΔE[Y(1,M(1))−Y(0,M(0))]E[Y(1,M(1))−Y(0,M(1))]E[Y(0,M(1))−Y(0,M(0))]θ(1)δ(0)E[Y(1,M(0))−Y(0,M(0))]E[Y(1,M(1))−Y(1,M(0))]θ(0)δ(1).(3)为什么要区分 θ(1)θ(1) 与 θ(0)θ(0)、δ(1)δ(1) 与 δ(0)δ(0)因为 DD 与 MM 之间可能存在交互效应效应在不同处理状态下可能是异质的。例如医疗保险覆盖 (DD) 对健康 (YY) 的直接效应可能取决于个体是否进行了常规体检 (MM)。处理与中介的交互也可以用另一种方式呈现即把 ATE 做三重分解纯直接效应 θ(0)θ(0)、纯间接效应 δ(0)δ(0) 与「中介化交互效应」 (VanderWeele, 2013)。中介分析文献中还有一个受到广泛关注的参数受控直接效应γ(m)γ(m)对应于切换处理状态、并把中介在全体样本中强制固定为同一取值 mm 时潜在结果均值之差γ(m)E[Y(1,m)−Y(0,m)],m∈supp(M).(4)γ(m)E[Y(1,m)−Y(0,m)],m∈supp(M).(4)γ(m)γ(m) 与 θ(d)θ(d) 的区别在于后者把中介固定在「自然实现」的潜在取值 M(d)M(d) 上可因人而异前者则在整个总体中强制实施同一个中介状态。两者只有在 DD 与 MM 不存在交互时才等价。哪个参数更相关取决于「对中介进行干预或规定」在现实中是否可行、是否可取。还需要说明的是受控直接效应没有与之配对的间接效应参数——总效应与受控直接效应之差一般并不对应任何间接效应除非 DD 与 MM 不存在交互。3. 假设与识别识别策略基于这样一种假设处理—结果、处理—中介、中介—结果这三类关系中的混淆都可以通过控制观测协变量 XX 来排除。XX 不能包含会受处理影响的变量因此通常要求 XX 在处理赋值之前测量。假设 1处理的条件独立对所有 d′,d∈{0,1}d′,d∈{0,1} 以及 MM 支撑集中的所有 mm{Y(d′,m), M(d)}⊥D∣X,{Y(d′,m),M(d)}⊥D∣X,其中 ⊥⊥ 表示统计独立。这一限制在处理效应文献中也称为条件独立、可观测变量选择或外生性 (Imbens, 2004)。它排除的情形是给定 XX 后仍存在同时影响处理以及中介和/或结果的因素。在非实验数据中这个假设是否可信关键看 XX 是否足够丰富。假设 2中介的条件独立对所有 d′,d∈{0,1}d′,d∈{0,1} 以及 M,XM,X 支撑集中的所有 m,xm,xY(d′,m)⊥M∣Dd, Xx.Y(d′,m)⊥M∣Dd,Xx.假设 2 排除的情形是给定 DD 与 XX 后仍存在同时影响中介与结果的因素。若 XX 是处理前变量这很常见这就意味着不存在中介—结果关系的处理后混淆(post-treatment confounding)。需要说明的是如果处理测量与中介测量之间的时间窗口很长、期间很多变量都在变化这一假设的可信度就会下降。假设 3共同支撑对所有 d∈{0,1}d∈{0,1} 以及 M,XM,X 支撑集中的所有 m,xm,xPr(Dd∣Mm, Xx)0.Pr(Dd∣Mm,Xx)0.共同支撑假设也称为正则性 (positivity) 或协变量重叠假设。它要求给定 (M,X)(M,X) 时接受与不接受处理的条件概率均严格大于 0并蕴含一个更弱的条件 Pr(Dd∣Xx)0Pr(Dd∣Xx)0处理在 XX 下不能是确定性的否则就找不到处理组与对照组之间在 XX 意义上可比的个体。由贝叶斯定理假设 3 还蕴含给定 (D,X)(D,X) 时中介的条件概率离散情形或条件密度连续情形处处为正——中介在处理状态下同样不能是确定性的。假设 1–3 是因果中介文献中的标准假设见 Imai, Keele, and Yamamoto (2010)、Tchetgen Tchetgen and Shpitser (2012)、Huber (2014)。在上述假设下Tchetgen Tchetgen and Shpitser (2012) 给出了反事实量 E[Y(d,M(1−d))]E[Y(d,M(1−d))] 基于有效得分函数的识别结果E[Y(d,M(1−d))]E[ψd]E[Y(d,M(1−d))]E[ψd]其中温馨提示若页面不能正常显示数学公式和代码请阅读原文获得更好的阅读体验。
medDML:双重机器学习下的因果中介分析-R语言
温馨提示若页面不能正常显示数学公式和代码请阅读原文获得更好的阅读体验。作者赵俊 (南开大学)邮箱m16531438093_1163.comTitle: medDML双重机器学习下的因果中介分析-R语言Keywords: 中介分析, 直接效应, 间接效应, 因果机制, 双重机器学习, 有效得分, causalweight, medDML, Double Machine Learning, Causal Mediation Analysis编者按本文主要摘译自下文并结合 R 包causalweight演示其实现特此致谢Source: Farbmacher H, Huber M, Lafférs L, Langen H, Spindler M. Causal mediation analysis with double machine learning.The Econometrics Journal, 2022, 25(2): 277-300. -Link--PDF-摘要本文介绍 Farbmacher et al. (2022) 提出的因果中介分析与双重机器学习相结合的方法。该方法在高维设定下基于「可观测变量选择」(selection-on-observables) 假设以数据驱动的方式控制观测到的混淆因素将二元处理的平均处理效应分解为经由中介变量的间接效应与不经由中介的直接效应。估计基于有效得分函数对结果模型、中介模型与处理模型的错设具有多重稳健性并通过 K 折交叉拟合避免过拟合在特定正则条件下效应估计量渐近正态且具有 root-nn 一致性。文末结合 R 包causalweight的medDML()函数用数值模拟演示该方法的具体操作并比较不同机器学习器的表现。1. 引言在很多实证问题里我们不只想知道「处理有没有效果」更想回答一个更细的问题这个效果是怎么产生的比如医疗保险为什么能改善健康是因为更多人去做体检、早发现早治疗还是因为其他渠道——治疗更容易获得、用药负担下降、心理安全感提升这就是因果中介分析要做的事把总效应拆成两部分。一部分是间接效应即处理通过中介变量 MM 影响结果 YY 的那一段另一部分是直接效应即不经过 MM 的那一段涵盖所有其他机制。需要说明的是即便处理 DD 是随机分配的把 MM「当作控制变量」直接放进回归也不一定能识别直接效应和间接效应。原因在于中介 MM 是处理后的变量往往带有内生性和复杂的选择机制简单控制很容易引入偏差——这也是中介分析从早期线性回归框架走向潜在结果框架的重要原因 (Kaufman et al., 2004)。经典的识别思路通常依赖「可观测变量选择」式假设只要把足够丰富的处理前协变量 XX 控制好处理和中介在条件意义下就可以看作外生从而识别自然直接效应、自然间接效应与受控直接效应等关键参数。问题在于现实数据中 XX 往往非常多甚至高维研究者很难凭经验决定「到底该控制哪些」。更糟的是很多人会不断尝试不同的控制变量组合以提升拟合或显著性由此产生的模型选择不确定性会让传统推断失真。Farbmacher et al. (2022) 的思路可以概括为一句话用双重机器学习 (DML) 把「高维控制变量怎么选」这件事交给机器学习同时仍然得到可靠的因果推断。具体来说作者把中介分析中基于有效得分/影响函数的识别结果 (Tchetgen Tchetgen and Shpitser, 2012) 与 DML 框架 (Chernozhukov et al., 2018) 结合起来构造出满足Neyman 正交性的得分函数。正交性的直观含义是即便用机器学习去估计倾向得分、结果回归、中介模型这些「辅助函数」只要它们估得「差不多」目标效应的估计就不会被这些误差的一阶项拖垮依然可以做标准的 n−1/2n−1/2 推断——渐近正态、可建置信区间。为了避免机器学习的过拟合污染估计论文同时使用样本分割 K 折交叉拟合(cross-fitting)用部分样本训练辅助模型在另一部分样本上计算得分并估计效应再把各折结果平均。作者还给出一个很实用的扩展通过贝叶斯公式改写得分函数得到一种不必显式估计中介条件密度 f(M∣D,X)f(M∣D,X) 的替代表达式。当 MM 连续或多维时这一点尤其关键——「估密度」往往是中介分析里最难、也最不稳定的一步。这一表示法正是 R 包causalweight中medDML()函数的默认实现本文第 5–6 节将演示其用法。2. 直接效应与间接效应的定义我们的目标是将二元处理对结果变量的平均处理效应 (ATE) 分解为两部分通过中介变量 MM 发挥作用的间接效应以及不通过 MM、包含其他所有因果机制的直接效应。采用潜在结果框架 (Rubin, 1974) 定义这些参数。M(d)M(d) 表示处理取值为 d∈{0,1}d∈{0,1} 时的潜在中介Y(d,m)Y(d,m) 表示处理为 dd、中介为 mm 时的潜在结果。观测到的结果与中介对应于实际处理状态下的潜在变量YD⋅Y(1,M(1))(1−D)⋅Y(0,M(0))YD⋅Y(1,M(1))(1−D)⋅Y(0,M(0))MD⋅M(1)(1−D)⋅M(0).MD⋅M(1)(1−D)⋅M(0).也就是说其他潜在结果或潜在中介在不施加进一步统计假设的情况下都是观测不到的。用 ΔE[Y(1,M(1))−Y(0,M(0))]ΔE[Y(1,M(1))−Y(0,M(0))] 表示 ATE它同时包含直接效应与间接效应。平均直接效应θ(d)θ(d) 是在切换处理状态、同时把潜在中介固定在 M(d)M(d) 时潜在结果均值的差——这样就阻断了经由 MM 的因果路径θ(d)E[Y(1,M(d))−Y(0,M(d))],d∈{0,1}.(1)θ(d)E[Y(1,M(d))−Y(0,M(d))],d∈{0,1}.(1)平均间接效应δ(d)δ(d) 则是保持处理固定在 dd阻断直接路径、切换潜在中介取值时潜在结果均值的差δ(d)E[Y(d,M(1))−Y(d,M(0))],d∈{0,1}.(2)δ(d)E[Y(d,M(1))−Y(d,M(0))],d∈{0,1}.(2)简言之θ(d)θ(d) 是「只动处理、不动中介」的效应δ(d)δ(d) 是「只动中介、不动处理」的效应。在 (3) 式中对反事实结果 E[Y(0,M(1))]E[Y(0,M(1))] 与 E[Y(1,M(0))]E[Y(1,M(0))] 做加减即可看出 ATE 等于在相反处理状态上定义的直接效应与间接效应之和ΔE[Y(1,M(1))−Y(0,M(0))]E[Y(1,M(1))−Y(0,M(1))]E[Y(0,M(1))−Y(0,M(0))]θ(1)δ(0)E[Y(1,M(0))−Y(0,M(0))]E[Y(1,M(1))−Y(1,M(0))]θ(0)δ(1).(3)ΔE[Y(1,M(1))−Y(0,M(0))]E[Y(1,M(1))−Y(0,M(1))]E[Y(0,M(1))−Y(0,M(0))]θ(1)δ(0)E[Y(1,M(0))−Y(0,M(0))]E[Y(1,M(1))−Y(1,M(0))]θ(0)δ(1).(3)为什么要区分 θ(1)θ(1) 与 θ(0)θ(0)、δ(1)δ(1) 与 δ(0)δ(0)因为 DD 与 MM 之间可能存在交互效应效应在不同处理状态下可能是异质的。例如医疗保险覆盖 (DD) 对健康 (YY) 的直接效应可能取决于个体是否进行了常规体检 (MM)。处理与中介的交互也可以用另一种方式呈现即把 ATE 做三重分解纯直接效应 θ(0)θ(0)、纯间接效应 δ(0)δ(0) 与「中介化交互效应」 (VanderWeele, 2013)。中介分析文献中还有一个受到广泛关注的参数受控直接效应γ(m)γ(m)对应于切换处理状态、并把中介在全体样本中强制固定为同一取值 mm 时潜在结果均值之差γ(m)E[Y(1,m)−Y(0,m)],m∈supp(M).(4)γ(m)E[Y(1,m)−Y(0,m)],m∈supp(M).(4)γ(m)γ(m) 与 θ(d)θ(d) 的区别在于后者把中介固定在「自然实现」的潜在取值 M(d)M(d) 上可因人而异前者则在整个总体中强制实施同一个中介状态。两者只有在 DD 与 MM 不存在交互时才等价。哪个参数更相关取决于「对中介进行干预或规定」在现实中是否可行、是否可取。还需要说明的是受控直接效应没有与之配对的间接效应参数——总效应与受控直接效应之差一般并不对应任何间接效应除非 DD 与 MM 不存在交互。3. 假设与识别识别策略基于这样一种假设处理—结果、处理—中介、中介—结果这三类关系中的混淆都可以通过控制观测协变量 XX 来排除。XX 不能包含会受处理影响的变量因此通常要求 XX 在处理赋值之前测量。假设 1处理的条件独立对所有 d′,d∈{0,1}d′,d∈{0,1} 以及 MM 支撑集中的所有 mm{Y(d′,m), M(d)}⊥D∣X,{Y(d′,m),M(d)}⊥D∣X,其中 ⊥⊥ 表示统计独立。这一限制在处理效应文献中也称为条件独立、可观测变量选择或外生性 (Imbens, 2004)。它排除的情形是给定 XX 后仍存在同时影响处理以及中介和/或结果的因素。在非实验数据中这个假设是否可信关键看 XX 是否足够丰富。假设 2中介的条件独立对所有 d′,d∈{0,1}d′,d∈{0,1} 以及 M,XM,X 支撑集中的所有 m,xm,xY(d′,m)⊥M∣Dd, Xx.Y(d′,m)⊥M∣Dd,Xx.假设 2 排除的情形是给定 DD 与 XX 后仍存在同时影响中介与结果的因素。若 XX 是处理前变量这很常见这就意味着不存在中介—结果关系的处理后混淆(post-treatment confounding)。需要说明的是如果处理测量与中介测量之间的时间窗口很长、期间很多变量都在变化这一假设的可信度就会下降。假设 3共同支撑对所有 d∈{0,1}d∈{0,1} 以及 M,XM,X 支撑集中的所有 m,xm,xPr(Dd∣Mm, Xx)0.Pr(Dd∣Mm,Xx)0.共同支撑假设也称为正则性 (positivity) 或协变量重叠假设。它要求给定 (M,X)(M,X) 时接受与不接受处理的条件概率均严格大于 0并蕴含一个更弱的条件 Pr(Dd∣Xx)0Pr(Dd∣Xx)0处理在 XX 下不能是确定性的否则就找不到处理组与对照组之间在 XX 意义上可比的个体。由贝叶斯定理假设 3 还蕴含给定 (D,X)(D,X) 时中介的条件概率离散情形或条件密度连续情形处处为正——中介在处理状态下同样不能是确定性的。假设 1–3 是因果中介文献中的标准假设见 Imai, Keele, and Yamamoto (2010)、Tchetgen Tchetgen and Shpitser (2012)、Huber (2014)。在上述假设下Tchetgen Tchetgen and Shpitser (2012) 给出了反事实量 E[Y(d,M(1−d))]E[Y(d,M(1−d))] 基于有效得分函数的识别结果E[Y(d,M(1−d))]E[ψd]E[Y(d,M(1−d))]E[ψd]其中温馨提示若页面不能正常显示数学公式和代码请阅读原文获得更好的阅读体验。