MCO con Machine Learning: Simulaciones y Entrenamiento [MARTIN, J.M]
José-Manuel Martin Coronado
Instituto de Econometría de Lima
www.institutoeconometria.com
A veces se piensa que el Machine Learning requiere necesariamente el software, los paquetes, los modelos ó los algoritmos más complejos, en la idea que se trata de una técnica moderna muy alejada de las técnicas básicas enseñadas en la universidad, por ejemplo, el mínimos cuadrados ordinarios (MCO). Así, uno de los conceptos más esotéricos y que suele encontrarse dentro del concepto de la "caja negra" es el Entrenamiento de un modelo.
En términos sencillos, el entrenamiento no es otra cosa que la búsqueda de los coeficientes de los modelos que cumplen con los objetivos del/a investigador/a. Esta búsqueda puede entenderse como una tabulación y podría hacerse manualmente, aunque para que sea una búsqueda completa lo ideal es simular con muchos valores, usualmente más de 10 o 30. Adicionalmente, esta búsqueda suele ser ordenada o seguir un proceso determinado, llamado algoritmo.
Como puede observarse, no se trata de Rocket Science, sino de algo más concreto, pero que aveces se no muestra como tal, con la finalidad de generar un valor agregado que no siempre existe, sobre todo si los algoritmos más complejos comienzan a estar ocultos dentro de cajas negras, acorde con la tendencia oscurantista de algunos científicos de datos experimentados o aficionados en métodos cuantitativos.
Ahora bien, una de las técnicas más básicas por excelencia es el MCO, el cual usualmente encuentra un punto mínimo de la suma de los errores al cuadrado (SEC) a, siendo generalmente éste un único punto, es decir, que existe una única solución a un modelo lineal. No obstante, esta solución podría pensarse que no es la mínima, por lo es necesario confirmarlo. Ello también ocurrirá cuando el modelo sea polinómico o interativo, pues podría existir otro mínimo local.
A fin de buscar la solución a un problema simple, se realiza un estudio sobre el consumo privado, con las variables PBI e Importaciones como explicativas, eliminándose el elemento temporal a través de las variaciones porcentuales, susceptible de generar relaciones espurias. Se presentan los Gráficos 1 y 2, así como las tablas 1 y 2 con las regresiones respectivas.
Tabla N° 1
Tabla 2
Puede observarse que el modelo en variaciones porcentuales es menos preciso (tiene más error) que el modelo en niveles. Se utilizará como estadístico objetivo la raíz del error medio cuadrático (RMSE) al cual se le llamará función de pérdida, cuyo óptimo MCO es 1.84. Esto permitirá observar en mejor medida el impacto que pueden tener las simulaciones de los coeficientes (entrenamiento) sobre el error.
En primer lugar, se realiza simulaciones para el intercepto beta cero. Recuérdese que se trata del nivel de crecimiento del consumo privado cuando las demás variables son cero, es decir, una suerte de crecimiento tendencia. Los resultados del MCO sugieren que éste sería de 3.15 y significativo. No obstante este resultado resulta poco creíble a la luz de que dicha variable tiene una marcada tendencia negativa, por lo que se realizarán simulaciones para observar si algún valor es más razonable.
Nótese que este modelo de ejemplo, el error explica el 80% de la variable endógena, a pesar de que el RMSE es 1.84 y la media del crecimiento del consumo es 7.5, lo cual sugiere que el RMSE representa el 24% de "c". Si se reduce el intercepto en cuestión a cero, la RMSE aumenta hasta casi 50% de c (nótese que RMSE es necesariamente positivo). Con esta prueba se confirma que efectivamente, el valor de beta0 sería el menor en dicho punto (3.15) a pesar de no ser muy razonable, y su reducción a un valor menor (en la forma de restricción) incrementaría necesariamente el error.
En este caso especìfico el error ya es bastante elevado y un incremento del mismo no sería tolerable, sin embargo en modelos donde el RMSE relativo (como porcentaje de la media de la endógena) es mucho menor a 5%, podría permitirse una restricción con un límite superior de ese 5%.
Finalmente, en este ejemplo, puede observarse que no era necesario realizar una estimación MCO para darse cuenta que el coeficiente "óptimo" desde el punto de vista del RMSE era el de 3.15. Es decir, que se podía haber hecho la calibración con valores del coeficiente del PBI y de las importaciones y con ello determinar el intercepto. También se podía hacer algoritmos para los tres coeficientes de golpe, aunque la mecánica es la misma, la solución podría ser un poco más larga de hallar y será materia de un segundo artículo.
Por otra parte, ahora se buscará hacer una simulación con los valores de beta2, el coeficiente asociado a las importaciones. Se observa que la misma es muy cercana a cero (ligeramente negativa) y con desviación estándar que sugiere que no es significativa. La pregunta ahora es saber si existe algún valor que reduzca el RMSE de la ecuación. La respuesta es negativa, aunque observa que la función de pérdida (gráfico4) tendría un quiebre estructural.
No obstante, cuando se realiza un acercamiento a este gráfico (gráfico4a) se observa que no sería tan grave. Si se pusiera el RMSE Máximo en 2, habría dos betas2 que satisfacen esta condición, uno negativo y otro positivo. Si se espera que la relación entre ambas variables (consumo e importaciones) sea positiva, entonces se debería optar por la opción positiva, aproximadamente 0.075.
Tal como puede observarse, estos métodos permiten identificar otros resultados menos eficientes pero más realistas de las variables, con la posibilidad de fijar valor máximos tolerables del error, algo particularmente útil si se tienen funciones no biyectivas. De esta manera se dice que las simulaciones en cuestión representan entrenamiento del modelo, en el sentido que se busca un valor que cumple los requisitos, partiendo de un valor inicial (generalmente sesgado) y hasta un valor final (también sesgado), pero con un valor "ideal" en el medio. El entrenamiento consiste justamente en encontrar dicho valor. La secuencia de comandos sería sum X > di r(min)
Otra aplicación interesante de estas pruebas, es fijar uno de los coeficientes (bo) a un valor más realista y no necesariamente el óptimo sugerido por MCO, y luego, observar como varía en las simulaciones. En este caso, debido al efecto giratorio (trade-off) entre los valores del coeficiente, ante una reducción del intercepto (de 3.15 a 2), el mínimo del coeficiente no restringido debería incrementarse, tal cual se observa que es ligeramente positivo.
Y si se continuara con la restricción de b0 a un valor mucho menor (i.e. 1.5), entonces el beta2 debería ajustarse al alza, ahora a un valor al anterior, que representaría una sensibilidad de aproximadamente 15% respecto al crecimiento de las importaciones. Nótese que con esta restricción a b0 también se logra optimizar el RMSE.
En la práctica esto equivaldría realizar un MCO restringido con dos restricciones b0=1.5 y b1=0.70 (este último derivado de la ecuación inicial). En este caso, el coeficiente beta2 resultaría en 0.146. No obstante, este enfoque visual nos permite asegurar que existirá un valor óptimo en la estimación del beta2, y que existirán límites máximos y mínimos de tolerancia que se pueden implementar.
A fin de visualizar lo anterior de un modo más global, se presenta el siguiente gráfico. Se observa entonces como va aumentando el valor de b2 cuando se reduce el crecimiento del consumo de largo plazo, mínimo o estructural (conforme se desee interpretar). Claramente son resultados menos eficientes que el MCO, pero no dejan de ser óptimos dentro de sus respectivas funciones de pérdida.
Finalmente, si se hiciera el análisis en términos porcentuales [RMSE/E(c)] se tendría un indicador más fácil de visualizar, dado que esta en porcentajes, y se podría tener más realismo al momento de realizar las restricciones y mejorar el entrenamiento. Así mismo, cabe notar que en este caso, los pasos (steps) para la búsqueda de los betas óptimos han sido de 0.25 unidades del beta. Y en este caso, se ha tratado de un entrenamiento supervisado con tasa de aprendizaje constante (learning rate).
Obviamente, esto también podría optimizarse e incluso dejar que el propio programa aumente los espacios si está muy lejos del óptimo y los reduzca cuando se aleje del mismo, y que además deje de realizar los cálculos una vez que la función de perdida comience a incrementarse. Adicionalmente, podría buscar optimizar más de un parámetro a la vez.
En resumen, el MCO puede ser un interesante, aunque a veces inflexible, punto de referencia respecto a los valores paramétricos estimados que generen el "menor error mínimo" (mayor eficiencia), aunque ello no impide que otros estimadores también sean eficientes (óptimos), pero menos eficientes comparativamente que el MCO. No obstante, es necesario ponderar no sólo la eficiencia como criterio econométrico, sino también el realismo de los coeficientes, a la luz tanto de la teoría, como del razonamiento y/o los datos del análisis previo (diagrama de dispersión). Tomando en consideración, sí resultaría razonable sacrificar un poco de eficiencia global por mayor realismo.
Comments
Post a Comment