除外変数バイアス

除外変数バイアス(じょがいへんすうばいあす、omitted-variable bias, OVB)は、統計学において、統計モデルから関連する変数を除外することで発生するバイアス。このバイアスの結果、除外された変数の効果を、モデルに含まれた変数の効果に帰してしまう。

より具体的には、回帰分析において、従属変数の決定要因であり、含まれている独立変数と相関するような変数が省略されているなど、仮定した仕様が正しくない場合に、パラメータの推定値にあらわれるバイアスのこと。

線形回帰の例

直感

真の因果関係が次の式で与えられると仮定する。

y = a + b x + c z + u {\displaystyle y=a+bx+cz+u}

ここで、 a , b , c {\displaystyle a,b,c} はパラメータ、 y {\displaystyle y} は従属変数、 x , z {\displaystyle x,z} は独立変数、 u {\displaystyle u} は誤差項であり、 x {\displaystyle x} y {\displaystyle y} に与える影響( b {\displaystyle b} の推定値)を検討する。

除外変数バイアスが線形回帰に存在するには、2つの条件が当てはまる必要がある。

  • 除外変数は、従属変数の決定要因である、すなわち真の回帰係数が非ゼロ
  • 除外変数は、独立変数と相関している、すなわち c o v ( z , x ) {\displaystyle \mathrm {cov} (z,x)} が非ゼロ)

回帰から z {\displaystyle z} を省略し、 x {\displaystyle x} z {\displaystyle z} の関係が次のようになるとする。

z = d + f x + e {\displaystyle z=d+fx+e}

ここで、 d , f {\displaystyle d,f} はパラメータ、 e {\displaystyle e} は誤差項である。

2番目の方程式を最初の方程式に代入すると、

y = ( a + c d ) + ( b + c f ) x + ( u + c e ) {\displaystyle y=(a+cd)+(b+cf)x+(u+ce)}

y {\displaystyle y} x {\displaystyle x} のみで回帰する場合、この最後の方程式が推定され、 x {\displaystyle x} の回帰係数は実際には b + c f {\displaystyle b+cf} の推定値ということになる。 x {\displaystyle x} y {\displaystyle y} への直接効果 b {\displaystyle b} ではなく、間接効果( x {\displaystyle x} z {\displaystyle z} への効果 f {\displaystyle f} z {\displaystyle z} y {\displaystyle y} への効果 c {\displaystyle c} との積)との和になる。したがって、回帰から変数 z {\displaystyle z} を省略することにより、 偏微分ではなく全微分を推定したことになる。 c {\displaystyle c} f {\displaystyle f} も非ゼロであれば、両者は異なる。

バイアスの向きは c f {\displaystyle cf} の正負、バイアスの大きさは c f {\displaystyle cf} の絶対値によって求められる。

詳細な分析

例として、次の形式の線形モデルを考える。

y i = x i β + z i δ + u i , i = 1 , , n {\displaystyle y_{i}=\mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}+z_{i}\delta +u_{i},\quad i=1,\cdots ,n}

ここで、

  • 列ベクトル x i {\displaystyle \mathbf {x} _{i}} は時刻 i {\displaystyle i} ないし被験者 i {\displaystyle i} で観測された p {\displaystyle p} 個の独立変数の値
  • 列ベクトル β {\displaystyle {\boldsymbol {\beta }}} は推定すべき観測不可能な p {\displaystyle p} 個のパラメータ( x i {\displaystyle \mathbf {x} _{i}} の各独立変数の応答係数)
  • スカラー z i {\displaystyle z_{i}} は時刻 i {\displaystyle i} ないし被験者 i {\displaystyle i} で観測されたもう一つの独立変数の値
  • スカラー δ {\displaystyle \delta } は推定すべき観測不可能なパラメータ( z i {\displaystyle z_{i}} の応答係数)
  • u i {\displaystyle u_{i}} は時刻 i {\displaystyle i} ないし被験者 i {\displaystyle i} に対応する観測不能である誤差項であり、 x i {\displaystyle \mathbf {x} _{i}} および z i {\displaystyle z_{i}} を条件として期待値 0 の確率変数の観測不可能な実現値。
  • y i {\displaystyle y_{i}} は時刻 i {\displaystyle i} ないし被験者 i {\displaystyle i} で観測された従属変数

i = 1 , , n {\displaystyle i=1,\cdots ,n} と添え字のついた全ての変数の観測値を集め、それらを積み重ねて、行列 X とベクトル yzu を得る。

X = [ x 1 x n ] R n × p {\displaystyle \mathbf {X} =\left[{\begin{array}{c}\mathbf {x} _{1}^{\top }\\\vdots \\\mathbf {x} _{n}^{\top }\end{array}}\right]\in \mathbb {R} ^{n\times p}}

y = [ y 1 y n ] , z = [ z 1 z n ] , u = [ u 1 u n ] R n × 1 {\displaystyle \mathbf {y} =\left[{\begin{array}{c}y_{1}\\\vdots \\y_{n}\end{array}}\right],\quad \mathbf {z} =\left[{\begin{array}{c}z_{1}\\\vdots \\z_{n}\end{array}}\right],\quad \mathbf {u} =\left[{\begin{array}{c}u_{1}\\\vdots \\u_{n}\end{array}}\right]\in \mathbb {R} ^{n\times 1}}

独立変数 z が回帰から省略されている場合、他の独立変数の応答係数の推定値は、通常の最小二乗計算によって与えられる。

β ^ = ( X X ) 1 X y {\displaystyle {\widehat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {y} }

ここで、 {\displaystyle \top } 記号は行列の転置を意味し、-1の上付き文字は逆行列を表す。

仮定された線形モデルに基づいて y を代入すると、

β ^ = ( X X ) 1 X ( X β + z δ + u ) = ( X X ) 1 X X β + ( X X ) 1 X z δ + ( X X ) 1 X u = β + ( X X ) 1 X z δ + ( X X ) 1 X u {\displaystyle {\begin{aligned}{\widehat {\boldsymbol {\beta }}}&=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }(\mathbf {X} {\boldsymbol {\beta }}+\mathbf {z} \delta +\mathbf {u} )\\&=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {X} {\boldsymbol {\beta }}+(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {z} \delta +(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {u} \\&={\boldsymbol {\beta }}+(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {z} \delta +(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {u} \end{aligned}}}

u {\displaystyle \mathbf {u} } X {\displaystyle \mathbf {X} } とは相関しないので、期待最終項は期待値には影響しない。残りの項を整理すると

E ( β ^ X ) = β + ( X X ) 1 E ( X z X ) δ = β + bias {\displaystyle {\begin{aligned}\mathbb {E} \left({\widehat {\boldsymbol {\beta }}}\mid \mathbf {X} \right)&={\boldsymbol {\beta }}+(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbb {E} \left(\mathbf {X} ^{\top }\mathbf {z} \mid \mathbf {X} \right)\delta \\&={\boldsymbol {\beta }}+{\text{bias}}\end{aligned}}}

右辺第2項が除外変数バイアスであり、除外変数 z が行列 X に含まれる変数のいずれかと相関している場合( X z 0 {\displaystyle \mathbf {X} ^{\top }\mathbf {z} \neq \mathbf {0} } の場合)非ゼロである。

通常の最小二乗法での効果

ガウス-マルコフの定理は、古典的な線形回帰モデルの仮定を満たす回帰モデルが、最も効率的で線形で不偏な推定量を提供すると述べている。通常の最小二乗法では、古典的な線形回帰モデルの関連する仮定は、誤差項が回帰子と無相関であるということである。

除外変数バイアスの存在は、この仮定に反するので、通常の最小二乗法による推定値にバイアスがかかり、一貫性が失われる。バイアスの方向は、推定量や、回帰子と除外された変数の間の共分散に依存する。除外変数が回帰変数や従属変数と共分散が正の時、係数の推定値は真の値よりも大きくなる。

参考文献

  • Barreto; Howland (2006). “Omitted Variable Bias”. Introductory Econometrics: Using Monte Carlo Simulation with Microsoft Excel. Cambridge University Press. http://www3.wabash.edu/econometrics/EconometricsBook/chap18.htm 
  • Clarke, Kevin A. (2005). “The Phantom Menace: Omitted Variable Bias in Econometric Research”. Conflict Management and Peace Science 22 (4): 341–352. doi:10.1080/07388940500339183. 
  • Greene, W. H. (1993). Econometric Analysis (2nd ed.). Macmillan. pp. 245–246 
  • Wooldridge, Jeffrey M. (2009). “Omitted Variable Bias: The Simple Case”. Introductory Econometrics: A Modern Approach. Mason, OH: Cengage Learning. pp. 89–93. ISBN 9780324660548 

関連項目