Data Mining, overfitting, patrones y leyes económicas [MARTIN, J.M.]

José-Manuel Martin Coronado
Instituto de Econometría de Lima | EMECEP Consultoría
Lima 08 de marzo de 2020

El Data Mining es un tema muy de moda: Lo ofrecen en diversos cursos, en diversos lugares, en diversos países. Y obviamente es atractivo como tema porque básicamente implica la exploración y el descubrimiento de nuevas cosas a través de la tecnología, computación, entre otros.  Pero lo que no se dice, y es algo muy curioso, es que el Data Mining lo puede hacer, al igual que la minería real, más que todo las máquinas. Es más, las máquinas en principio son más eficientes para hacer el Data Mining que los seres humanos, porque el Data Mining como tal en esencia se trata de encontrar patrones dentro de un cúmulo de datos. 

Ahora bien, no necesariamente estos datos pueden ser grandes, porque Data Mining no es lo mismo que Big Data. Este quiere decir que son datos grandes, datos inmensos, en cada segundo, por cada usuario de Facebook y las actividades que realizan. Así, Data Mining es simplemente explorar y extraer la data, encontrar "minerales". Y en este caso lo minerales son los patrones, por ejemplo si hay alguna relación estadística significativa entre dos variables o más variables. Si uno la encuentra, entonces va a estar contento por haber encontrado oro o plata, lo va a utilizar, lo va a identificar y lo voy a mostrar. 

Aún más, dependiendo del tamaño de esa mina se puede inferir diversas conclusiones. Pero si se ha realizado un Data Mining de una mina muy específica, pequeña ó de un mineral muy concreto, por ejemplo, una relación entre el gasto o consumo de una localidad muy pequeña, ello en principio no tiene relevancia, es decir, lo que se encuentre no tendrá mayor impacto en la ciencia. Ello hay que tener ello muy claro.

De otro lado, los topics ó outputs del Data Mining pueden ser cosas que no tengan nada que ver con la economía. En cambio, en el instituto de Econometría de lima, estamos muy relacionados con el tema económico por lo que siempre tenemos la economía de la mano. Eso no quiere decir, adorar a las leyes antiguas o a los teóricos antiguos. Simplemente quiere decir, darle un enfoque económico a las relaciones objeto de análisis. es decir, una lógica económica. Sin tratar de ser muy sesgados hacia una teoría u otra. Tratar de ser objetivos. Pero si tratar de darle una alma económica a los descubrimientos, dificultades o análisis que se hagan.

Pero el Data Mining no exige eso. Básicamente no se tiene que estudiar economía para hacer Data Mining, en el sentido crudo de la palabra. Y eso es bastante fuerte, porque ello significa que todas las teorías estudiadas no les sirven, en el sentido que para esta actividad no les sirve o no se les exige. Pero si ustedes utilizan la base económica, entonces puede ser mejor.  En efecto, ahí está el valor agregado que le pueden dar al Data Mining, ya que como tal es simplemente una actividad de extracción, al igual que la minería real una vez que se extrae ese mineral, es muy importante saber que se hace con él y que se hace con los daños que podría haber generado.

Es decir, lo que se hace después de haber sacado el mineral es lo importante, más que la propia extracción. Entonces, si se pueden hacer conjeturas más económicas que simplemente una relación estadística entre dos cosas, sería muchísimo mejor. Si se encuentran patrones, pero que tengan un significado económico, no simplemente dos variables económicas que puedan ser ingreso-gasto y ya, sino un mayor significado, un mayor trasfondo y, ergo una mayor utilidad. 

Así, lo indicado puede tener mayor valor, más aún si se logra que los patrones sea estables y susceptibles de ser generalizados, no por un tema meramente de tamaño muestral, sino realmente generalizados, realmente si a nivel de extramuestral se podría encontrar la misma relación ó si tendrá sentido? Y en ese caso se podría estar hablando de leyes económicas.

Empero en el camino, el Data Mining genera un pequeño problema: Al momento de elegir los patrones no hay una regla exacta, entonces el patrón puede ser una línea recta, una curva cuadrática, una curva cubica o un polinomio de grado cuatro a más, una inversa, logarítmica, es decir, puede ser muchas cosas. Y es que el propio investigador puede elegir cuál es el patrón que quiere que se descubra. Metafóricamente, se quiere descubrir un nivel de pureza de un mineral y no se encuentra; se quiere descubrir una línea recta, pero no se encuentra, sino sólo curvas. O al revés, se quiere descubrir curvas y sólo se encuentran líneas rectas.

Todo ello tiene una consecuencia, porque si uno le está exigiendo al "modelo patrón" que le encuentre cúbicas o la forma más compleja que haya (polinomio de mayor grado) se va a generar un problema de overfitting. Es decir, la relación entre las dos variables no va a ser una relación estable, las cuales generalmente son relaciones lineales, sino que va a ser una relación muy volátil o variable, por ejemplo una cúbica que tiene varias pendientes,estados o ciclos, o peor de grado cuatro o cinco. 

En consecuencia, se debe tener cuidado con el overfitting, que es exagerar en el patrón que se está buscando, el patrón objetivo que se quiere hallar; porque, claro está, un overfitting o un patrón muy específico relacionado con los datos, simplemente, no es por naturaleza susceptible de convertirse en una ley económica. O bien, podría serlo, en el mejor de los casos, un tiempo o en lugar, pero progresivamente va a dejar de ser. A pesar de los diversos esfuerzos que puedan hacer los economistas que lo descubrieron, progresivamente puede ir perdiendo valor.

Además de ello, cabe recordar recordar el famoso caso de la Curva de Phillips, la cual, en el fondo, fue un Data Mining. Y es una curva que hasta ahora se enseña en las universidades, nadie lo puede negar, pero que es una teoría que ya está en desuso, aunque en muchos casos intentan salvarla, tratando de decir que sí se cumple en tales casos específicos.

En realidad, eso ya desgeneraliza esa ley que en un momento comenzó como general y deja de ser una ley económica. Dicho de otro modo, cuando las excepciones son tan grandes y los casos donde se aplican son tan pocos. ya no puede ser considerado una ley económica, ya no puede ser una conclusión, hipótesis válida ni mucho menos una teoría. Si uno busca extraer patrones que solamente van a servir para esa base de datos específica o un caso concreto, pues en principio no se está haciendo economía.

Si bien muy tangencialmente se podría estar haciendo microeconomía, aunque de manera insuficiente, porque, en principio, la microeconomía también permite hacer generalizaciones a nivel de las personas, véase el consumidor racional, justamente todos tendrían un comportamiento de tal manera respecto a los bienes y una indiferencia respecto a una canasta de bienes, lo cual supuestamente es una ley.

Y se pierde teoría económica si sólo se puede decir que este grupo es así o en este otro es una manera distinta, ó que cada grupo, de "n" grupos tiene un un comportamiento distinto. Ahí no estamos hablando de microeconomía "clásica", sino que se estaría hablando de economía conductual, donde interesa mucho la individualidad de las personas en el sentido de que cada individuo, o pequeño grupos de individuos, puede tener un comportamiento muy diferente al otro. Entonces ya se pierde el patrón general. 

Esto no quiere decir que no se tenga un valor a nivel casuístico, para un análisis de un caso concreto, como un un estudio de mercado, algo muy específico, para una focalización, una segmentación muy micro. No obstante, al momento de hacerlo una ley económica, hacer afirmaciones académicas o científicas, como a veces pretenden los economistas (por ejemplo cuando aumenta el precio baja la cantidad demandada, cosas así genéricas y fuertes) no es posible hacerlo si es que el patrón identificado está sobre ajustado.

En efecto, a pesar de que sean técnicas de Data Mining muy sofisticadas, los investigadores son los únicos responsables de tratar de darle esta estabilidad a la relación y contenido económico al ejercicio del Data Mining. Así, en el Instituto de Econometría de Lima, consideramos que efectivamente ello es posible siempre que se guarden las pautas y siempre se enseñe bien esto en los cursos que abundan. Y en la medida que eso ocurra, pues tendremos mineros de datos con bastantes capacidades.

Lamentablemente la tendencia actual no es esa, pues ya se está viendo mineros de datos que son muy operativos y muy estadísticos y nada económicos, o con un fuertísimo sesgo de confirmación. Se enfocan en la técnica antes que en la razón. Y al parecer para ellos, el fin sí justificaría los medios. 

Comments

Popular posts from this blog

Endogeneidad y Exogeneidad en los Modelos Econométricos [MARTIN, JM.]

"De los modelos ARDL - Primera Parte" (Traducción)

¿Qué es un Proceso Generador de Datos ARIMA(1,1)? [J.M. MARTIN]