Propiedades Estadísticas de los Coeficientes Estimados

Propiedades Estadísticas de los Coeficientes Estimados#

El objetivo de esta sección es explorar las propiedades estadísticas de un modelo de regresión simple. En particular, nos ocuparemos de una situación en donde se asume que la relación entre una variable a explicar \(Y\) y una variable explicativa \(X\) está dada por

\[ Y_i=\beta_0+\beta_1X_i+\varepsilon_i \]

donde \(\beta_0\) y \(\beta_1\) son los parámetros poblacionales de interés, y \(\varepsilon_i\) es un término de error aleatorio. Consideraremos \(n\) observaciones, indexadas por \(i=1,...,n\), provenientes de una muestra de la población de interés.

Asumiremos también que, a partir de la muestra de datos, estimamos el modelo mediante el método de Mínimos Cuadrados Ordinarios, obteniendo valores para los estimadores \(\hat{\beta}_0\) y \(\hat{\beta}_1\). La pregunta estadística que nos ocupa es:

¿Qué podemos decir sobre la precisión de los estimadores \(\hat{\beta}_0\) y \(\hat{\beta}_1\)? ¿Qué tan cerca (o lejos) esperamos que se encuentren de los verdaderos valores de \(\beta_0\) y \(\beta_1\)?

Afortunadamente, la teoría estadística nos provee dos resultados importantes para entender esta pregunta: la ausencia de sesgo y los determinantes de su varianza. En esta sección introduciremos primero estos resultados de manera formal, y luego utilizaremos una simulación interactiva para demostrarlos de forma numérica.

1. Insesgadez

Esta propiedad establece que, en valor esperado, los coeficientes estimados son iguales a los verdaderos coeficientes poblacionales. La intuición detrás de este resultado es que, aunque las estimaciones individuales pueden variar y diferir del valor verdadero debido a la aleatoriedad inherente del muestreo, si pudiéramos repetir esta estimación en múltiples muestras, el promedio de estas estimaciones coincidiría con el valor verdadero. Esta propiedad garantiza que nuestras estimaciones no estén sistemáticamente sesgadas en una dirección particular.

Resultado formal:

\[E(\hat{\beta}_0) = \beta_0, \qquad E(\hat{\beta}_1) = \beta_1\]

Esto significa que, bajo el supuesto \(E[\varepsilon_i \mid X] = 0\), el estimador MCO no sobreestima ni subestima el verdadero parámetro en promedio: el sesgo es exactamente cero. La demostración formal de este resultado se encuentra en el apéndice. A continuación, la simulación interactiva nos permitirá verificarlo numéricamente.

2. Varianza de los estimadores

Aunque insesgados, los estimadores MCO siempre exhiben cierto grado de varianza, que cuantifica la incertidumbre alrededor del coeficiente estimado. Una varianza más alta indica una estimación menos precisa; una varianza más baja sugiere que el estimador se concentra cerca del verdadero valor.

La varianza de \(\hat{\beta}_1\) está determinada por dos factores: la variabilidad no explicada del modelo y la dispersión de la variable independiente.

Resultado formal:

\[\text{Var}(\hat{\beta}_1 \mid X) = \frac{\sigma^2}{SST_x}, \qquad SST_x = \sum_{i=1}^{n}(x_i - \bar{x})^2\]

donde \(\sigma^2 = \text{Var}(\varepsilon_i \mid X)\) es la varianza del error. La fórmula captura directamente las dos intuiciones: un mayor error del modelo (\(\sigma^2\) grande) aumenta la varianza del estimador, mientras que mayor variabilidad en \(X\) (\(SST_x\) grande) la reduce, porque un rango más amplio de valores de \(X\) provee más información para identificar la pendiente. La derivación formal se encuentra en el apéndice.

Simulación interactiva

Para ilustrar numéricamente estos resultados, la simulación a continuación nos permite explorar la siguiente pregunta: si pudiéramos simular múltiples muestras de datos de un modelo poblacional conocido, ¿qué tan cercanas serían las estimaciones (\(\hat{\beta}_0\) y \(\hat{\beta}_1\)) a los valores verdaderos (\(\beta_0\) y \(\beta_1\))? La simulación permite experimentar con distintos supuestos del modelo poblacional y visualizar los resultados de las múltiples estimaciones mediante gráficos.

Apéndice: Demostraciones formales

A.1 Insesgadez de \(\hat{\beta}_1\)

Paso 1 — Reescribir \(\hat{\beta}_1\) en función del error poblacional.

Partimos de la expresión del estimador MCO:

\[\hat{\beta}_1 = \frac{\sum_{i=1}^n (x_i - \bar{x})\,Y_i}{SST_x}\]

Sustituimos \(Y_i = \beta_0 + \beta_1 x_i + \varepsilon_i\):

\[\hat{\beta}_1 = \frac{\sum_{i=1}^n (x_i - \bar{x})(\beta_0 + \beta_1 x_i + \varepsilon_i)}{SST_x}\]

Usando que \(\sum_{i=1}^n (x_i - \bar{x}) = 0\) y \(\sum_{i=1}^n (x_i - \bar{x})\,x_i = SST_x\), los términos en \(\beta_0\) desaparecen y el término en \(\beta_1\) se simplifica:

\[\hat{\beta}_1 = \beta_1 + \frac{\sum_{i=1}^n (x_i - \bar{x})\,\varepsilon_i}{SST_x}\]

Paso 2 — Tomar la esperanza condicional en \(X\).

\[E[\hat{\beta}_1 \mid X] = \beta_1 + \frac{1}{SST_x}\sum_{i=1}^n (x_i - \bar{x})\underbrace{E[\varepsilon_i \mid X]}_{=\;0} = \beta_1\]

La última igualdad sigue del supuesto \(E[\varepsilon_i \mid X] = 0\). Como la esperanza condicional es \(\beta_1\) para cualquier realización de \(X\), se concluye también que \(E[\hat{\beta}_1] = \beta_1\).

Para \(\hat{\beta}_0\), el resultado sigue de manera análoga: dado que \(\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1\bar{x}\), tomando esperanzas y usando \(E[\hat{\beta}_1] = \beta_1\) y \(E[\varepsilon_i \mid X] = 0\) se obtiene \(E[\hat{\beta}_0] = \beta_0\).

A.2 Varianza de \(\hat{\beta}_1\)

Del Paso 1 anterior sabemos que:

\[\hat{\beta}_1 - \beta_1 = \frac{\sum_{i=1}^n (x_i - \bar{x})\,\varepsilon_i}{SST_x}\]

Tomamos la varianza condicional en \(X\). Bajo el supuesto de homocedasticidad, \(\text{Var}(\varepsilon_i \mid X) = \sigma^2\) para todo \(i\), y los errores son independientes entre sí:

\[\text{Var}(\hat{\beta}_1 \mid X) = \frac{1}{SST_x^2}\,\sum_{i=1}^n (x_i - \bar{x})^2\,\sigma^2 = \frac{\sigma^2 \cdot SST_x}{SST_x^2} = \frac{\sigma^2}{SST_x}\]

La expresión confirma que la precisión del estimador mejora (varianza menor) cuando el error del modelo es pequeño o cuando los datos de \(X\) están más dispersos.