Una adicción logarítmica [Por: José-Manuel MARTIN CORONADO
José-Manuel Martin Coronado. Lima, 20 de abril de 2019.
El uso de logaritmos es una práctica automatizada por docente y sus alumnos. El argumento principal para su uso es la conveniencia estadística, vía una transformación monótona, que a veces mejora los indicadores. No obstante, como se verá más adelante, existen errores conceptuales graves en la aplicación de esta técnica, los cuales son subsanables; pero también existen aplicaciones provenientes de la proto-teoría, que el alumno en busca de un modelo válido, puede tomar por cierto.
Primera parte
Si se tiene un modelo inicial: Y = Bo + B1.X, pero se observa que las propiedades estadísticas no se cumple, se opta por "aplicar logaritmos a ambos lados", con lo cual la ecuación debería ser ln(Bo + B1.X) para que se mantenga la relación previamente concebida. Sin embargo, en la práctica lo que se suele hacer es transformar las variables solamente, y no el lado derecho de la ecuación, de la siguiente manera: lnBo + B1.lnX
En términos sencillos, no existe una equivalencia matemática entre las siguientes expresiones:
ln (Bo + B1.X) ≠ lnBo + B1.lnX (1)
Debe quedar claro que el modelo de la izquierda es un modelo no lineal en parámetros, mientras que el de la derecha sí. Mientras que el de la izquierda es consistente con la relación lineal inicialmente concebida, el de la derecha es una derivación de la siguiente ecuación:
Y = Bo.XB1 (2)
Este es un modelo muy distinto, es un modelo con exponentes. Es una relación que puede tener tres escenarios, si B1 < |1| ó B1 = 1 ó B1 > |1|. Según cada uno de esos escenarios, tendrá una pendiente creciente, constante (lineal) ó decreciente. Esto puede deducirse claramente si se toma la primera derivada, a saber:
Esto sugiere claramente que si B1 fuera igual a 1, entonces la pendiente constante sería igual a Bo, contrario al modelo original donde la pendiente constante es B1. Si por el contrario, B1 = 2, entonces la pendiente sería 2BoX. Entonces, se trata de modelos diferentes, con orígenes diferentes y efectos diferentes que no pueden ser confundidos.
Por tanto, para utilizar un modelo con variables logarítimas, es necesario verificar si la ecuación originaria corresponde a un modelo con exponentes, de lo contrario no corresponde aplicar logaritmos.
Cabe precisar que los coeficientes, sobre todo el B1, en econometría tienen un trasfondo teórico, promocionado por Charles Cobb y Paul Douglas, en el conocido modelo de producción, Cobb-Douglas, el cual es un modelo de exponentes, donde los valores de B1 mayores, menores o iguales que 1 implicarán rendimientos a escala crecientes, decrecientes o constantes.
Segunda parte
Por otro lado, asumiendo que el alumno hace caso omiso a lo indicado líneas arriba y poco o nada le interesa los fundamentos matemáticos, y prefiere un criterio puramente estadístico, es recomendable observar si realmente la función con logaritmos resulta "mejor" que la ecuación lineal.
En primer lugar, debe verificar si es numéricamente viable que utilice logaritmos, y esto se comprueba fácilmente si las variables X e Y tienen valores negativos o nulos. En tales casos, la variable transformada presentará valores omitidos (NaN, NA ó n.d., según el software utilizado). Esto generará la pérdida de datos. Si el alumno, como es usual, está al límite con los grados de libertad, entonces eso reducirá la inferenciabilidad de su modelo ó incluso su factibilidad matemática (Ej. Invertibilidad de la matriz X'X). Esta demás decir que este tipo de transformación son inviables si la variable X es una variable dummy (1 y 0).
En segundo lugar, debe recordarse que la varianza del regresor, ya no es la varianza del error ajustada por la varianza de X, sino por la varianza de lnX. No es que la varianza de X sea menor, sino que ¡Es la varianza de otra cosa! De modo similar, al momento de verificar la existencia de sesgo, no se está comparando la inexistencia de Cov(X,U), sino de Cov(lnX, u), los cuales tampoco son equivalentes, ni sus resultados son comparables por analogía.
Luego, bajo la premisa del trade-off entre eficiencia y sesgo, la mayor eficiencia del regresor (que ya no es X, sino lnX) puede tener como efecto un mayor sesgo. La pregunta es si este mayor sesgo es significativo o no. Un sesgo significativo podría hacer irrelevante y/o contraproducente la mayor eficiencia obtenida.
En cuarto lugar, se asume que la relación es bivariable, pero cuando se trata de una transformación en más de una variable regresora, entonces las Cov(lnX, lnZ), obtienen un rol especial, los cuales no necesariamente son consistentes con Cov(X,Z), lo cual podría empeorar las estimaciones de los Betas.
Para combatir estos sesgos, está de más decir que es necesario tener una muestra mayor aún, asumiendo que se aplica el teorema del límite central, para tratar de reducir el sesgo, asumiendo además, que es un sesgo por asimetría y no un sesgo por una distribución diferente del estimador. La regla básica es tratar de obtener más de 100 datos. Aunque nada impide que se exiga el tamaño de muestra óptimo según los cálculos estadísticos de muestreo.
Finalmente, la menor varianza puede generar una situación de leptocurtismo y, asumiendo que la distribución es simétrica, genera una distribución anormal de los errores. Si dichos errores en el modelo lineal original ya eral leptocúrticos, lo más probable es que se acentúe el mismo, afectando la búsqueda del ruido blanco.
Por lo expuesto, nada sugiere que la distribución de beta sea siquiera cercana a una t-student, y dado que el t-student calculado es una función de distribución de probabilidad también, también lo será el p-valor. Dicho de otro modo, los p-valores que también son variables aleatorias, podrán tener valores "aceptables" o no, condicionado a los valores y a la fdp que lo genera. Y si esta última es "imperfecta", también los serán dichos p-valores.
En conclusión
Existen muchas críticas más, pero puede concluirse que el uso de logaritmos tiene dos potenciales ventajas claras: 1) reducir las varianzas (con la posibilidad de mejorar algunos indicadores) y 2) mostrar las elasticidades en los coeficientes. A veces la segunda suele ser la única razón de su uso, porque es un coeficientes más "amigable" y más "sofísticado", aunque ya no tenga propiedades de transformación.
No obstante, puede ocurrir, y eso es algo más frecuente de lo que se piensa, que esta reducción de varianzas individuales, tenga consecuencias no deseadas en las demás propiedades de las variables e indicadores así como en las demás pruebas cuya "bondad" no dependen negativamente de dichas varianzas. Este es el costo que el alumno debe asumir al momento de aplicar los logaritmos de manera ateórica.
En buena cuenta, debemos recordar que el fin no justifica los medios, y la adición a la transformación logaritmica es un caso muy claro de ello.
dY/dX = Bo.B1.XB1-1 (3)
Esto sugiere claramente que si B1 fuera igual a 1, entonces la pendiente constante sería igual a Bo, contrario al modelo original donde la pendiente constante es B1. Si por el contrario, B1 = 2, entonces la pendiente sería 2BoX. Entonces, se trata de modelos diferentes, con orígenes diferentes y efectos diferentes que no pueden ser confundidos.
Por tanto, para utilizar un modelo con variables logarítimas, es necesario verificar si la ecuación originaria corresponde a un modelo con exponentes, de lo contrario no corresponde aplicar logaritmos.
Cabe precisar que los coeficientes, sobre todo el B1, en econometría tienen un trasfondo teórico, promocionado por Charles Cobb y Paul Douglas, en el conocido modelo de producción, Cobb-Douglas, el cual es un modelo de exponentes, donde los valores de B1 mayores, menores o iguales que 1 implicarán rendimientos a escala crecientes, decrecientes o constantes.
Segunda parte
Por otro lado, asumiendo que el alumno hace caso omiso a lo indicado líneas arriba y poco o nada le interesa los fundamentos matemáticos, y prefiere un criterio puramente estadístico, es recomendable observar si realmente la función con logaritmos resulta "mejor" que la ecuación lineal.
En primer lugar, debe verificar si es numéricamente viable que utilice logaritmos, y esto se comprueba fácilmente si las variables X e Y tienen valores negativos o nulos. En tales casos, la variable transformada presentará valores omitidos (NaN, NA ó n.d., según el software utilizado). Esto generará la pérdida de datos. Si el alumno, como es usual, está al límite con los grados de libertad, entonces eso reducirá la inferenciabilidad de su modelo ó incluso su factibilidad matemática (Ej. Invertibilidad de la matriz X'X). Esta demás decir que este tipo de transformación son inviables si la variable X es una variable dummy (1 y 0).
En segundo lugar, debe recordarse que la varianza del regresor, ya no es la varianza del error ajustada por la varianza de X, sino por la varianza de lnX. No es que la varianza de X sea menor, sino que ¡Es la varianza de otra cosa! De modo similar, al momento de verificar la existencia de sesgo, no se está comparando la inexistencia de Cov(X,U), sino de Cov(lnX, u), los cuales tampoco son equivalentes, ni sus resultados son comparables por analogía.
Luego, bajo la premisa del trade-off entre eficiencia y sesgo, la mayor eficiencia del regresor (que ya no es X, sino lnX) puede tener como efecto un mayor sesgo. La pregunta es si este mayor sesgo es significativo o no. Un sesgo significativo podría hacer irrelevante y/o contraproducente la mayor eficiencia obtenida.
En cuarto lugar, se asume que la relación es bivariable, pero cuando se trata de una transformación en más de una variable regresora, entonces las Cov(lnX, lnZ), obtienen un rol especial, los cuales no necesariamente son consistentes con Cov(X,Z), lo cual podría empeorar las estimaciones de los Betas.
Para combatir estos sesgos, está de más decir que es necesario tener una muestra mayor aún, asumiendo que se aplica el teorema del límite central, para tratar de reducir el sesgo, asumiendo además, que es un sesgo por asimetría y no un sesgo por una distribución diferente del estimador. La regla básica es tratar de obtener más de 100 datos. Aunque nada impide que se exiga el tamaño de muestra óptimo según los cálculos estadísticos de muestreo.
Finalmente, la menor varianza puede generar una situación de leptocurtismo y, asumiendo que la distribución es simétrica, genera una distribución anormal de los errores. Si dichos errores en el modelo lineal original ya eral leptocúrticos, lo más probable es que se acentúe el mismo, afectando la búsqueda del ruido blanco.
Por lo expuesto, nada sugiere que la distribución de beta sea siquiera cercana a una t-student, y dado que el t-student calculado es una función de distribución de probabilidad también, también lo será el p-valor. Dicho de otro modo, los p-valores que también son variables aleatorias, podrán tener valores "aceptables" o no, condicionado a los valores y a la fdp que lo genera. Y si esta última es "imperfecta", también los serán dichos p-valores.
En conclusión
Existen muchas críticas más, pero puede concluirse que el uso de logaritmos tiene dos potenciales ventajas claras: 1) reducir las varianzas (con la posibilidad de mejorar algunos indicadores) y 2) mostrar las elasticidades en los coeficientes. A veces la segunda suele ser la única razón de su uso, porque es un coeficientes más "amigable" y más "sofísticado", aunque ya no tenga propiedades de transformación.
No obstante, puede ocurrir, y eso es algo más frecuente de lo que se piensa, que esta reducción de varianzas individuales, tenga consecuencias no deseadas en las demás propiedades de las variables e indicadores así como en las demás pruebas cuya "bondad" no dependen negativamente de dichas varianzas. Este es el costo que el alumno debe asumir al momento de aplicar los logaritmos de manera ateórica.
En buena cuenta, debemos recordar que el fin no justifica los medios, y la adición a la transformación logaritmica es un caso muy claro de ello.
Comments
Post a Comment