La Maximización de la Normalidad y los coeficientes óptimos [MARTIN, J.M]

José-Manuel Martin Coronado
Chief Economist
EMECEP Consultoría
wp-0305-2020-emecep-normalidad

La normalidad de los errores es un requisito indispensable para que funcione un modelo MCO, bajo los supuestos de Gauss-Markov. Así mismo, dicha característica permite la coincidencia con el estimador de Máximo Verosimilitud (MV), así como una correcta interpretabilidad de los coeficientes y las pruebas asociadas a éstos. 

No obstante, en las clases de econometría básica no se hace mayor énfasis en lo que hay detrás de este requisito básico. Se presenta una prueba y se asume que el alumno es capaz de identificar si es normal o anormal. De ser anormal, tendrá que hacer transformaciones arbitrarias a las variables, usualmente las de tipo logarítmica, presumiendo que es una técnica válida per se

Si bien los resultados de un modelo de regresión puede ser espurios y/o aleatorios respecto a la coeficientes, existen algunos indicios que pueden ayudar a prever la ocurrencia de la normalidad o mejor aún, implementar un tratamiento efectivo para obtenerla, y no depender solamente de las propiedades asintóticas o las transformaciones arbitrarias antes indicadas.

Al respecto debe recordarse que la normalidad estadística es más una cuestión de grado que dicotómica, en otras palabras, existe un amplio rango en el cual una variable puede ser considerada normal. Este grado de normalidad se puede "medir" con la prueba de Jarque-Bera o su símil, la prueba de asimetría-curtosis (sktest). 

Del mismo modo, es preciso recordar que el error no es otra cosa que una combinación lineal de la variable dependiente y las independientes ponderadas por sus respectivos coeficientes. Por lo que los valores de dichos coeficientes pueden tener un impacto sobre la función de densidad o función de distribución de probabilidad de dichos errores, y de ello sobre la normalidad.

Ahora bien, si se tiene un modelo econométrico de tipo: Y = B0+B1*Z+B2*X+B3*W+U, y se observa que la variable X es anormal y significativa, esta condición puede generar que el error sea anormal. Ello se agrava si además Y es anormal. Del mismo modo si Z fuera anormal sería el remate del modelo.

¿Qué pasaría si Z fuera no significativo pero normal o "extremadamente" normal? En la práctica, dado que el impacto de B1 es casi nulo, su normalidad tendría a su vez poco impacto sobre la FDP del error, por lo que no lo podría hacer normal. Intuitivamente, si X es normal su presencia si colabora con la normalidad del error. 

Ante ello, debe recordarse que la magnitud del impacto "real" de una variable se observa a través de su estadístico t (significancia) y no a través del coeficiente, siendo este último la estricta medición de ese impacto "nominal" en la ecuación estimada, ajustada por las unidades de la variable exógena asociada. De ahí que los betas también tienen el nombre de coeficientes de transformación. 

Por ello la adición y multiplicación de los regresores ponderados por los betas tiene un impacto significativo sobre el grado de normalidad de los errores; para ser precisos, sobre el grado de asimetría/curtosis que determinan la normalidad estadística del error. No obstante, dado que una imagen vale más que mil palabras, se presenta un gráfico de especial interés, cuya explicación se hará a continuación.

Se trata de un modelo multivariable, en el cual la variable X2 se encuentra ponderada por el coeficiente B2, su valor estimado es de 4.38, es ligeramente normal (p=0.05902), es altamente significativa y genera un error también ligeramente normal (p=0.05981). Sin embargo, esta normalidad se da por el simple hecho que se eligieron 4 variables explicativas (millaje, peso, longitud y tamaño del cofre) y el precio como variable endógena. 

Al ensayar con otras combinaciones de las mismas variables esta normalidad se pierde. Si bien existe un numero elevado de posibilidades y eventualmente algunas tendrán errores normales y otras no, el objetivo no es dejar la normalidad al libre albedrío de la especificación por técnicas combinatorias, con el riesgo de sesgo por variables omitidas, ineficiencia por variables redundantes, overfitting, entre otros.

Por tanto, se realizará una simulación más concreta: Valores alternativos de beta2, asociado a la variable ligeramente normal y significativa (X2: peso). En este ejemplo se realizó una simulación con valores enteros, considerando un rango entre 0 y 10. Cabe precisar que el intervalo de confianza de dicho coeficiente se encuentra entre 2 y 6.69.


Puede observarse que el valor (entero) de beta2 (asociado a X2=peso) que "maximiza" la normalidad del error (p-valor=0.159) es de 5. Mientras que el valor de beta de 4.38 genera un p-valor mayor a 0.05 (alfa) pero menor al máximo. Estos resultados permiten las siguientes conclusiones:

1) Los coeficientes que multiplican variables aleatorias normales y significativas en una combinación lineal pueden cambiar la distribución del resultado de dicha combinación (U). Esto se explica debido a las propiedades de multiplicación y/o adición de variables aleatorias.

2) La relación entre valor del beta2 y el p-valor de la normalidad de los errores no es lineal. Incluso se asemeja a una distribución normal.

3) Un rango relativamente simétrico respecto a la media y aproximado al intervalo de confianza del coeficiente de regresión de dicha variable puede permitir identificar un máximo local, esto eso un coeficiente óptimo de normalidad.

4)  El resultado de la estimación MCO no necesariamente maximiza la normalidad, aunque podría estar dentro de un rango aceptable.

5)  En caso beta2 genere errores normales, los valores alternativos que se encuentren dentro del intervalo de confianza no necesariamente generan errores normales.

6) Si el resultado que maximiza la normalidad se encuentra dentro del intervalo de confianza y además supera la prueba de t para valores de coeficientes (Ej. B2=5), entonces es posible utilizar mínimos cuadrados restringidos para "asegurar" la normalidad del modelo, aunque debido al proceso de optimización restringido con recálculo de los demás coeficientes, el resultado podría tener un margen de error respecto a la normalidad.

Lima 05 de marzo de 2020

Comments

Popular posts from this blog

Endogeneidad y Exogeneidad en los Modelos Econométricos [MARTIN, JM.]

"De los modelos ARDL - Primera Parte" (Traducción)

La multicausalidad y la insuficiencia de la causalidad lineal: Aspectos preliminares