Martin (2020) La trampa de la selección de variables: Variables dominantes y variables problemáticas.

José-Manuel Martin Coronado
Instituto de Econometría de Lima

La trampa de la selección de variables hace referencia a que los resultados de un modelo pueden cambiar de manera muy fuerte según las variables que se elija, lo cual sugiere que si una o más se cambia, entonces los resultados cambiarán.

Nótese que esto tiene mucho que ver con la existencia de una variable dominante, es decir, una variable con una estrecha relación, significativamente superior a la de cualquier variable sobre la endógena; así como la exactitud (ajuste) que puede tener el modelo.

Sea y = a+bx+e, donde e es el término residual, es la parte que permite ajustar la ecuación, ya que los valores de a+bx no son totalmente exactos para representar a y. Si bien en muchos modelos económicos no existe el términos e, en la práctica se le puede llamar una variable latente ó no conocida. Por ejemplo: y = a+bx+z, donde z es la variable desconocida, que permite cuadrar la ecuación.  

Dado que y, a, b y x son conocidas, entonces z es posible de conocerse. Este fue el principio básico para la obtención del residuo de Solow. Más allá de los nombres, en los modelos econométricos existirá una variable latente no conocida, pero que permitirá cuadrar la relación.

Al mismo tiempo, puede existir otras variables explicativas, por ejemplo: y = a+bx+cw+z. La pregunta que uno podría hacerse es si el término z de la ecuación bivariable es el mismo que el de la función multivariable. Es decir, si z1=z2 o no. Para evaluar eso, se tendria: y = a+bx + z1  e  y = a+bx+cw+z2Entendiendo que x no ha cambiado, y asumiendo que a y b tampoco, entonces inevitablemente z1 = cw+z2 y, a menos que cw=0, z1≠z2.

No obstante, si se forzara a que los z fueran iguales, entonces, necesariamente los valores de a y b deberían cambiar, dado que x no puede cambiar. Es decir: y = a’+b’x+cw+z. El problema se puede complicar aún si es que considera que puede existir una relación bivariable de y con w, tal que: y = a’’+ cw+z3.  Puede notarse entonces la problemática en saber si el valor de c es el mismo en y(w) que en y(x,w).

Una idea tratada en la sesión anterior, fue la adición de funciones bivariables, es decir:
Sea y = a+bx+z1  e    y = c+dw+z1
2y = a+c+bx+dw+z1+z2
y = a/2 + c/2+bx/2+dw/2+z1/2+z2/2
y = 0.5*a + 0.5*c+0.5*bx+0.5*dw+0.5*z1+0.5*z2
y = p*a + (1-p)*c+p*bx+(1-p)*dw+0.5*z1+(1-p)*z2
y = a’+c’+b’x+d’w+z1’+z2
y = u + b’x+d’w+z, donde u=a’+b’ y z=z1’+z2

Puede observarse que los coeficientes del modelo dependen del coeficiente p, cuyo valor puede cambiar, y no se conoce a priori.  Considerando que la ecuación debe estar balanceada, no pueden mantenerse exactamente todos los coeficientes y variables residuales. De modo similar, si en lugar de incluir la variable v, los resultados también sería diferentes. O también, se incluyera la variable v de manera adicional. 

Para analizar esto con mayor detenimiento, se realizará un ejemplo, con una reflexión inicial. Sea y = 100 y x=40, entonces, claramente. y = 20+2x; pero también, y = 60+x. Cualquiera podría ser la solución. Inclusive, y=10+x+50, donde z1=50. Peor aún, si se permite que b sea cualquier número real ó que a sea también negativo, entonces las soluciones serían infinitas. 

En dicho caso, se se incluye la variable w=30, entonces, una solución posible podría ser: y = 10+x+w+20, donde z=20. Por el momento, todos los valores posibles son enteros. Puede observarse que z1 = w+z y puede deducirse que, en este caso, c=0. 

Pero la solución podría ser muy distinta, en el caso de que el modelo inicial sea, y=20+x+z1, z1=40. Esto implica que al incluir w=30, se estaría sobrepasando los limites del error original, es decir, y =20+40+40+30+z2 = 100. Claramente, z2=-30, de ello z=z1+z2=10.

Ahora bien, extendiendo el caso a una estructura originaria para cada relación, por ejemplo: y = 20+x+z1  e y = 30 + w + z2, puede deducirse que z1=40 y z2=40. Si se agregan ambas ecuaciones, tal que: y = 20+x+z1+30+w+z2, y se espera que se mantengan todos los coeficientes, entonces los valores de z1 y z1 no podrían ser los mismos; aún más, la suma de estos tendría que ser negativa. Por ejemplo, y=50+x+w+z = 50+40+30+z, donde z=-20. Lo que no se sabe exactamente son los nuevos valores de z1 y z1 de manera independiente. Aunque si se fija uno, el segundo saldría por diferencia. 

¿Qué pasaría si sólo los coeficientes y z1 de la primera ecuación se mantuvieran, mientras que los de la segunda se adaptaran? En este caso, y=20+x+d+w+40+z2. se observa que y=20+40+30+d+z2 = 90+d+z2Puede observarse que, si d, e y z2 pueden adaptarse, entonces  una solución podría ser d=5, e=1z2=5. Es importante notar entonces que en este proceso de adaptación el intercepto de la y(w) se redujo de 30 a 5 y la variable latente se redujo de 40 a 5.  

A priori, no puede saberse si habrá un proceso de adaptación o no ante la fusión de las dos ecuaciones. En el caso teórico presentado, la adaptación es mutua, donde todos los elementos de cada ecuación bivariable se dividen entre dos. Pero no siempre es el caso. Así, por ejemplo, lo indicado en el párrafo anterior implicaría que la variable x es una variable dominante, por encima de v. Y en el caso que se dividan entre dos, ninguna de las variables sería dominante. 

Un caso especial de variables es cuando el modelador desea que la variables x se mantenga como variable dominante, pero al incluir la variable w, la situación puede desencadenar en una pérdida de significancia muy fuerte. Esto podría pasar que al ser w más dominante que x. En este sentido, si y(x) es la ecuación de base, entonces la inclusión de w implicaría que esta última sería una variable problemática. 

En conclusión, la selección de variables tiene muchas trampas. Los resultados de los coeficientes o de las variables latentes ("errores") pueden variar mucho dependiendo del grado de dominancia de las variables incluidas en el modelo. Si se parte de un modelo inicial y(x), x es la variable incumbente, presumiblemente dominante, pero esta situación puede tener resultados muy variados al momento de incluir la variable w, u ó v, sobre todo si estas últimas resultan variables dominantes también, en este caso, serían variables problemáticas respecto de x.


Comments

Popular posts from this blog

Endogeneidad y Exogeneidad en los Modelos Econométricos [MARTIN, JM.]

"De los modelos ARDL - Primera Parte" (Traducción)

¿Qué es un Proceso Generador de Datos ARIMA(1,1)? [J.M. MARTIN]