Transformaciones logarítmicas#

El modelo de regresión lineal admite una gran flexibilidad en la forma en que se definen las variables. Una de las transformaciones más frecuentes en economía y ciencias sociales es tomar el logaritmo natural de alguna o de todas las variables del modelo. Esta decisión, aparentemente técnica, tiene consecuencias muy concretas sobre cómo se interpretan los coeficientes.

¿Por qué tomar logaritmos?#

Muchas variables de interés en economía tienen distribuciones fuertemente asimétricas: unas pocas observaciones toman valores muy grandes mientras que la mayoría se concentra en valores bajos. El ingreso de las personas es el ejemplo clásico. Si graficamos el ingreso, la distribución muestra una cola larga hacia la derecha; si graficamos su logaritmo, la distribución se vuelve mucho más simétrica y normal, lo que a su vez traerá, como veremos, ventajas a la hora de realizar test estadístico.

Pero la motivación no es solo estadística. En muchos fenómenos económicos, lo que importa no son los cambios absolutos sino los cambios proporcionales. A un trabajador no le resulta igual recibir un aumento de $1.000 si su salario es de $10.000 que si es de $200.000. Lo que le importa es el porcentaje de aumento. Cuando las relaciones entre variables operan en términos proporcionales, el logaritmo es la transformación natural para capturarlas. Esto es así debido a que, como veremos, la variación entre logaritmos se aproxima a la variación porcentual.

Adicionalmente, tomar logaritmos puede linealizar relaciones que en niveles son no lineales. Si la teoría sugiere que \(Y\) crece proporcionalmente con \(X\), la relación \(Y = A \cdot X^{\beta_1}\) no es lineal en los parámetros, pero al tomar logaritmos se convierte en:

\[\ln(Y) = \ln(A) + \beta_1 \ln(X)\]

que sí lo es. Esto permite estimar \(\beta_1\) por MCO.

Nota

El logaritmo natural solo está definido para valores estrictamente positivos. Antes de transformar una variable, es necesario verificar que todas sus observaciones sean positivas. Variables que pueden tomar el valor cero (como horas trabajadas, número de hijos o exportaciones) requieren un tratamiento especial.


Modelo log-nivel: logaritmo en la variable dependiente#

El primer caso es aquel en que transformamos solo \(Y\):

\[\ln(Y_i) = \beta_0 + \beta_1 X_i + \varepsilon_i\]

A este modelo se lo suele llamar semi-logarítmico o log-nivel. \(X\) se mide en sus unidades originales; \(Y\), en logaritmos.

Interpretación del coeficiente \(\beta_1\)#

Para entender qué mide \(\beta_1\), pensemos en qué ocurre cuando \(X\) aumenta en una unidad. Antes del aumento:

\[\ln(Y) = \beta_0 + \beta_1 X\]

Después del aumento:

\[\ln(Y') = \beta_0 + \beta_1 (X + 1) = \ln(Y) + \beta_1\]

La diferencia entre ambos logaritmos es:

\[\ln(Y') - \ln(Y) = \ln\!\left(\frac{Y'}{Y}\right) = \beta_1\]

Es decir, \(Y'/Y = e^{\beta_1}\). El cambio porcentual exacto en \(Y\) ante un incremento de una unidad en \(X\) es:

\[\%\Delta Y = 100 \cdot (e^{\beta_1} - 1)\]

Para valores pequeños de \(\beta_1\), la aproximación \(e^{\beta_1} - 1 \approx \beta_1\) es muy precisa, por lo que habitualmente se reporta:

Un aumento de una unidad en \(X\) se asocia con un cambio de aproximadamente \(100 \cdot \beta_1\) por ciento en \(Y\).

Por ejemplo, si en una regresión de \(\ln(\text{salario})\) sobre años de educación obtenemos \(\hat\beta_1 = 0.08\), la interpretación es: un año adicional de educación se asocia con un salario aproximadamente 8% mayor.

Aproximación vs. valor exacto

La interpretación aproximada (\(100\beta_1\%\)) es confiable cuando \(|\beta_1| < 0.10\) aproximadamente. Para coeficientes más grandes conviene reportar el efecto exacto: \(100(e^{\beta_1}-1)\%\). Por ejemplo, \(\hat\beta_1 = 0.40\) implica un cambio exacto de \(100(e^{0.40}-1) \approx 49\%\), no 40%.


Modelo nivel-log: logaritmo en la variable explicativa#

El segundo caso transforma solo \(X\):

\[Y_i = \beta_0 + \beta_1 \ln(X_i) + \varepsilon_i\]

Aquí \(Y\) permanece en sus unidades originales y la no linealidad se captura a través del logaritmo de \(X\).

Interpretación del coeficiente \(\beta_1\)#

Usando el diferencial, un cambio \(\Delta X\) en \(X\) produce un cambio en \(Y\) de:

\[\Delta Y \approx \beta_1 \cdot \frac{\Delta X}{X}\]

Si expresamos \(\Delta X / X\) como cambio porcentual en \(X\) (dividiendo por 100):

\[\Delta Y \approx \frac{\beta_1}{100} \times \%\Delta X\]

Lo que lleva a la interpretación estándar:

Un aumento de 1% en \(X\) se asocia con un cambio de \(\beta_1 / 100\) unidades en \(Y\).

O equivalentemente: si \(X\) se duplica (\(\%\Delta X \approx 100 \cdot \ln 2 \approx 69\%\)):

\[\Delta Y \approx \beta_1 \cdot \ln(2) \approx 0.693 \, \beta_1\]

Este modelo es útil cuando la relación tiene rendimientos decrecientes: cada unidad adicional de \(X\) aporta menos que la anterior. Por ejemplo, en la relación entre el tamaño de una ciudad (en habitantes) y su salario promedio: pasar de 10.000 a 100.000 habitantes puede tener un gran efecto, pero pasar de 5 millones a 6 millones, mucho menor.


Modelo log-log: logaritmo en ambas variables#

El tercer caso, llamado modelo log-log o doble logarítmico, transforma tanto \(Y\) como \(X\):

\[\ln(Y_i) = \beta_0 + \beta_1 \ln(X_i) + \varepsilon_i\]

Interpretación del coeficiente \(\beta_1\): elasticidad#

Usando el diferencial:

\[d\ln(Y) = \beta_1 \, d\ln(X) \quad \Longrightarrow \quad \frac{dY}{Y} = \beta_1 \cdot \frac{dX}{X}\]

En términos de cambios porcentuales:

\[\%\Delta Y \approx \beta_1 \times \%\Delta X\]

El coeficiente \(\beta_1\) es precisamente la elasticidad de \(Y\) respecto de \(X\): mide cuánto por ciento cambia \(Y\) ante un aumento de 1% en \(X\).

Un aumento de 1% en \(X\) se asocia con un cambio de \(\beta_1\%\) en \(Y\).

La elasticidad es una medida sin unidades, lo que facilita la comparación entre contextos muy distintos. Por eso el modelo log-log es el estándar en economía para estimar elasticidades de demanda, producción, comercio exterior, entre otros.

Algunos valores de referencia usuales:

  • \(|\beta_1| < 1\): relación inelástica\(Y\) cambia en menor proporción que \(X\)

  • \(|\beta_1| = 1\): elasticidad unitaria

  • \(|\beta_1| > 1\): relación elástica\(Y\) cambia en mayor proporción que \(X\)


Resumen comparativo#

Modelo

Ecuación

Interpretación de \(\hat\beta_1\)

Nivel-nivel

\(Y = \beta_0 + \beta_1 X + \varepsilon\)

\(\Delta X = 1 \Rightarrow \Delta Y = \hat\beta_1\) (unidades)

Log-nivel

\(\ln(Y) = \beta_0 + \beta_1 X + \varepsilon\)

\(\Delta X = 1 \Rightarrow \%\Delta Y \approx 100\hat\beta_1\)

Nivel-log

\(Y = \beta_0 + \beta_1 \ln(X) + \varepsilon\)

\(\%\Delta X = 1 \Rightarrow \Delta Y \approx \hat\beta_1/100\)

Log-log

\(\ln(Y) = \beta_0 + \beta_1 \ln(X) + \varepsilon\)

\(\%\Delta X = 1 \Rightarrow \%\Delta Y \approx \hat\beta_1\) (elasticidad)

La elección entre estos modelos no debería basarse únicamente en cuál produce un \(R^2\) más alto. Lo correcto es guiarse por la teoría económica o por la inspección gráfica de los datos. En muchos casos, la propia pregunta de investigación sugiere cuál es la escala más natural: si nos interesa el efecto en niveles, usamos el modelo nivel-nivel; si nos interesa el efecto porcentual, el logaritmo en \(Y\) es la elección apropiada.