La Absorción: El verdadero problema de la Econometría [José M. Martin]
Msc José-Manuel Martin Coronado
Lima Econometric Institute
Lima, 11 noviembre de 2019
La Econometría permite identificar relaciones de causalidad entre dos o más variables. No obstante, la mente suele estar preparada sólo para el análisis bivariable, el cual es repetido k veces según el número de relaciones bivariables del modelo econométrico. En otras palabras, si un modelo econométrico tiene k variables explicativas, entonces tendrá k relaciones de causalidad bivariables, puestas en una ecuación multivariable (ó multivariante).
Basado en ello, y en el marco de un modelo lineal, el/la investigador puede cometer el error de pensar que un modelo multivariante expresado la suma de las variables ponderadas (Bk*Xk) más un sesgo/intercepto (Bo) es equivalente que a k ecuaciones bivariables, en cuanto al valor de los coeficientes (Ak).
Por ejemplo, en un modelo de dos variables explicativas: Y = Bo + B1*X1+B2*X2 + U. Se suele pensar que en las siguientes ecuaciones bivariables Y = Ao + A1*X1 + V1, Y = A'o + A2*X2 + V2, los coeficientes A1 y A2 son iguales a B1 y B2 respectivamente y los interceptos podrían tener las siguientes relaciones: Bo = Ao = A'o ó Bo = Ao+A'o .
Lamentablemente, la econometría no es tan simple y ello rara vez ocurre, debido a la absorción, un fenómeno previsible pero poco estudiado, la cual tiene que ver con la combinación entre la relación de la variable Y con las variables Xk, pero a su vez con la relación entre las propias variables Xk. Eso puede observarse claramente en la forma matricial del estimador MCO, la cual es: BMCO= (X'X)-1X'Y , donde en términos simplificados, (X'X) es una suerte de matriz de varianzas y covarianzas de la matriz de datos (Vx), la cual ingresa a la ecuación como un denominador.
En consecuencia, los coeficientes Bk dependen no sólo negativamente de la varianza de las variables explicativas (Vxi) y la covarianza de la endógena con cada una de las exógenas (Cy,xi), sino también negativamente de la covarianza entre las exógenas (Cxi,xj). Esto significa que a mayor covarianza de las variables explicativas, menor será el coeficiente beta. Ello representa un análisis adicional al bivariable, en el cual sólo bastaba observar el ratio de varianzas-covarianzas ( Cy,xk/Vxk ) para calcular Bk.
Por lo tanto como regla general se puede concluir que el coeficiente bivariable se verá modificado en menor o mayor medida según la covarianza entre las variables explicativas, la cual puede ser negativa, nula o positiva. Se dice entonces que dicho componente es un distorsionador de la relación entre Y y Xk en un modelo multivariante, la cual usualmente es descendente respecto a coeficientes bivariable. En otras palabras, se cumpliría que Ak ≥ Bk.
En términos prácticos ello implica que el coeficiente multivariante tendrá un menor valor al esperado. ¿Pero cuán diferente será? ¿Puede llegar a ser totalmente diferente, por ejemplo, con un signo negativo? ¿Cómo afecta ello a la significancia? La respuesta es positiva, en los casos más graves esta relación entre covarianzas puede afectar al coeficiente multivariante de tal manera que sea irreconocible respecto al coeficiente bivariable. Así mismo, puede generar que su nivel sea menor que dos veces su varianza (σBk) , por lo cual su valoración será no significativa, cuando tal vez debería serlo (Error Tipo II).
Siguiendo con esta exploración del impacto de la inclusión de un análisis multivariante, este coeficiente beta multivariante depende de la siguiente fórmula, que puede ser visualizada en cualquier libro de econometria básica, aunque sin el énfasis debido:
BM1 = (CYX1.VX2 - CYX2.CX1X2 )/(VX1.VX2 - [CX1X2]2)
BM1 = (CYX1 /VX2 - CYX2.CX1X2/VX2 /VX1)/(VX1 / VX1 - CX1X2*CX1X2/VX2 /VX1)
BM1 = (BB1 - BB2*CX1X2/VX1)/(1 - CX1X2/VX2 *CX1X2/VX1)
Lamentablemente, la econometría no es tan simple y ello rara vez ocurre, debido a la absorción, un fenómeno previsible pero poco estudiado, la cual tiene que ver con la combinación entre la relación de la variable Y con las variables Xk, pero a su vez con la relación entre las propias variables Xk. Eso puede observarse claramente en la forma matricial del estimador MCO, la cual es: BMCO= (X'X)-1X'Y , donde en términos simplificados, (X'X) es una suerte de matriz de varianzas y covarianzas de la matriz de datos (Vx), la cual ingresa a la ecuación como un denominador.
En consecuencia, los coeficientes Bk dependen no sólo negativamente de la varianza de las variables explicativas (Vxi) y la covarianza de la endógena con cada una de las exógenas (Cy,xi), sino también negativamente de la covarianza entre las exógenas (Cxi,xj). Esto significa que a mayor covarianza de las variables explicativas, menor será el coeficiente beta. Ello representa un análisis adicional al bivariable, en el cual sólo bastaba observar el ratio de varianzas-covarianzas ( Cy,xk/Vxk ) para calcular Bk.
Por lo tanto como regla general se puede concluir que el coeficiente bivariable se verá modificado en menor o mayor medida según la covarianza entre las variables explicativas, la cual puede ser negativa, nula o positiva. Se dice entonces que dicho componente es un distorsionador de la relación entre Y y Xk en un modelo multivariante, la cual usualmente es descendente respecto a coeficientes bivariable. En otras palabras, se cumpliría que Ak ≥ Bk.
En términos prácticos ello implica que el coeficiente multivariante tendrá un menor valor al esperado. ¿Pero cuán diferente será? ¿Puede llegar a ser totalmente diferente, por ejemplo, con un signo negativo? ¿Cómo afecta ello a la significancia? La respuesta es positiva, en los casos más graves esta relación entre covarianzas puede afectar al coeficiente multivariante de tal manera que sea irreconocible respecto al coeficiente bivariable. Así mismo, puede generar que su nivel sea menor que dos veces su varianza (σBk) , por lo cual su valoración será no significativa, cuando tal vez debería serlo (Error Tipo II).
Siguiendo con esta exploración del impacto de la inclusión de un análisis multivariante, este coeficiente beta multivariante depende de la siguiente fórmula, que puede ser visualizada en cualquier libro de econometria básica, aunque sin el énfasis debido:
BM1 = (CYX1.VX2 - CYX2.CX1X2 )/(VX1.VX2 - [CX1X2]2)
Donde es la covarianza entre las variables del subindice y V es la varianza entre dichas variables. Para ser exactos se trata de los momentos, cuyo ratio es una aproximación de las referidas magnitudes.
BM1 = (CYX1.VX2 /VX2 - CYX2.CX1X2/VX2 )/(VX1.VX2 /VX2 - [CX1X2]2/VX2)
BM1 = (CYX1 - CYX2.CX1X2/VX2 )/(VX1 - CX1X2*CX1X2/VX2)
BM1 = (CYX1 /VX2 - CYX2.CX1X2/VX2 /VX1)/(VX1 / VX1 - CX1X2*CX1X2/VX2 /VX1)
BM1 = (BB1 - BB2*CX1X2/VX1)/(1 - CX1X2/VX2 *CX1X2/VX1)
El lector se preguntará qué utilidad tendrá la covarianza entre las variables exógenas dividida entre la varianza de éstas. La respuesta es fundamental, dado que uno de los fuertes supuestos de los modelos básicos es que no exista una relación de codependencia entre las exógenas. En tal caso, la covarianza entre las exógenas debería ser cero y como se encuentra en el numerador, entonces dicho valor desaparecería.
En otras palabras, sólo en los casos que no exista codependencia (multicolinealidad) entre las exógenas, el coeficiente beta de las variables exógenas de una análisis bivariable, corresponderá a sus mismos coeficientes beta de un análisis multivariable. No obstante, ello rara vez es el caso, y el valor de CX1X2 suele ser distinto de cero. Por lo que, a nivel del numerador, el valor del coeficiente bivariable B1 se verá reducido en un factor de B2 bivariable.
La consulta consiste en verificar en primer lugar si dicho valor es mayor que la varianza de X1 o menor que la misma. En el primer caso el factor representará un multiplicador, es decir, incrementará el valor de BB2 a reducir del elemento BB1. Y en el otro caso, el factor reducirá dicho valor con lo cual el impacto sería menor.
Algo similar ocurrirá con el denominador. Es decir, si la covarianza al cuadrado entre las exógenas es mucho mayor que el producto de la varianza de éstas entonces se tendrá un valor muy bajo que reduzca el denominador. Sin embargo, si son variables con poca varianza y altamente correlacionadas entre sí, eso generará un impacto muy fuerte.
Ahora bien, el lector podrá notar que si los valores a restar son muy fuertes (BB2*CX1X2/VX1) [¿Y por qué no CX1X2/VX2 *CX1X2/VX1) ?] entonces esto puede generar que el signo de BM1 se vuelva negativo e significativo, a pesar de que BB1 era positivo , generando inconsistencias lógicas al momento de interpretar el modelo multivariante respecto al análisis preliminar de variables en parejas (pairwise PDA). No obstante, todo alumno de econometría del Instituto de Econometría de Lima, sabe que éste último análisis debe primar sobre el multivariante sospechoso.
En resumen, se puede establecer la siguiente función básica a notar para el caso simple (relaciones positivas): BM1 = f (+BB1, -BB2,-COV12, -Vx1, -r12). Esta sería entonces, la función de absorción de los modelos econométricos. La cual incluso puede escribirse de la siguiente manera: BM1 = (BB1 - BB2*C12/Vx1)/(1 - r212) = (BB1 - BB2*WB1)/(1 - r212) = (BB1 - BB2*WB1)/(1 - WB1*WB2), donde WBi son los coeficientes de regresión de las ecuaciones bivariables entre las exógenas.
No obstante, es necesario tener mucho cuidado porque el impacto favorable de la covarianza del denominador (ó la correlación entre las exógenas) en el denominador genera que el BM1 "recupere" la magnitud nominal perdida por el producto entre el BB2 y la covarianza en el denominador. Si se hiciera una derivada de dicha ecuación respecto a la covarianza, se trataría de una función más compleja que la inicial (debido a la potencia negativa). El análisis debe ser aún más minucioso en este punto.
Al mismo tiempo, se generan otras complicaciones: 1) ¿Qué ocurre si la covarianza entre las exógenas es negativa así como el BB2?, 2) ¿Y si el signo de éstas es opuesto? y 3) ¿Y si la varianza de X1 es tan alta que neutraliza la multicolinealdad? La casuística puede ser muy variada, pero lo seguro que es que lo mejor que las variables a ser agregadas tengan una varianza débil y una covarianza débil con la exógena incumbente para minimizar el impacto de la absorción.
Por lo tanto, se espera que este artículo permite eliminar el paradigma de que los coeficientes de regresión bivariables se mantienen casi iguales cuando se incorporan conjuntamente en una regresión multivariante. Esto no ocurre, dado que la variable ingresante absorbe parte de la explicatividad de la variable incumbente, de tal manera que se redistribuye la explicatividad, no necesariamente de manera equitativa. El principal culpable de la existencia de resultados inconsistente (y frustraciones al momento de presentar los trabajos econométricos) es la covarianza entre las exógenas, no sólo en grado sino también en signo.
En otras palabras, sólo en los casos que no exista codependencia (multicolinealidad) entre las exógenas, el coeficiente beta de las variables exógenas de una análisis bivariable, corresponderá a sus mismos coeficientes beta de un análisis multivariable. No obstante, ello rara vez es el caso, y el valor de CX1X2 suele ser distinto de cero. Por lo que, a nivel del numerador, el valor del coeficiente bivariable B1 se verá reducido en un factor de B2 bivariable.
La consulta consiste en verificar en primer lugar si dicho valor es mayor que la varianza de X1 o menor que la misma. En el primer caso el factor representará un multiplicador, es decir, incrementará el valor de BB2 a reducir del elemento BB1. Y en el otro caso, el factor reducirá dicho valor con lo cual el impacto sería menor.
Algo similar ocurrirá con el denominador. Es decir, si la covarianza al cuadrado entre las exógenas es mucho mayor que el producto de la varianza de éstas entonces se tendrá un valor muy bajo que reduzca el denominador. Sin embargo, si son variables con poca varianza y altamente correlacionadas entre sí, eso generará un impacto muy fuerte.
Ahora bien, el lector podrá notar que si los valores a restar son muy fuertes (BB2*CX1X2/VX1) [¿Y por qué no CX1X2/VX2 *CX1X2/VX1) ?] entonces esto puede generar que el signo de BM1 se vuelva negativo e significativo, a pesar de que BB1 era positivo , generando inconsistencias lógicas al momento de interpretar el modelo multivariante respecto al análisis preliminar de variables en parejas (pairwise PDA). No obstante, todo alumno de econometría del Instituto de Econometría de Lima, sabe que éste último análisis debe primar sobre el multivariante sospechoso.
En resumen, se puede establecer la siguiente función básica a notar para el caso simple (relaciones positivas): BM1 = f (+BB1, -BB2,-COV12, -Vx1, -r12). Esta sería entonces, la función de absorción de los modelos econométricos. La cual incluso puede escribirse de la siguiente manera: BM1 = (BB1 - BB2*C12/Vx1)/(1 - r212) = (BB1 - BB2*WB1)/(1 - r212) = (BB1 - BB2*WB1)/(1 - WB1*WB2), donde WBi son los coeficientes de regresión de las ecuaciones bivariables entre las exógenas.
No obstante, es necesario tener mucho cuidado porque el impacto favorable de la covarianza del denominador (ó la correlación entre las exógenas) en el denominador genera que el BM1 "recupere" la magnitud nominal perdida por el producto entre el BB2 y la covarianza en el denominador. Si se hiciera una derivada de dicha ecuación respecto a la covarianza, se trataría de una función más compleja que la inicial (debido a la potencia negativa). El análisis debe ser aún más minucioso en este punto.
Al mismo tiempo, se generan otras complicaciones: 1) ¿Qué ocurre si la covarianza entre las exógenas es negativa así como el BB2?, 2) ¿Y si el signo de éstas es opuesto? y 3) ¿Y si la varianza de X1 es tan alta que neutraliza la multicolinealdad? La casuística puede ser muy variada, pero lo seguro que es que lo mejor que las variables a ser agregadas tengan una varianza débil y una covarianza débil con la exógena incumbente para minimizar el impacto de la absorción.
Por lo tanto, se espera que este artículo permite eliminar el paradigma de que los coeficientes de regresión bivariables se mantienen casi iguales cuando se incorporan conjuntamente en una regresión multivariante. Esto no ocurre, dado que la variable ingresante absorbe parte de la explicatividad de la variable incumbente, de tal manera que se redistribuye la explicatividad, no necesariamente de manera equitativa. El principal culpable de la existencia de resultados inconsistente (y frustraciones al momento de presentar los trabajos econométricos) es la covarianza entre las exógenas, no sólo en grado sino también en signo.
Comments
Post a Comment