Posts

Coronavirus, Perú y Nearest Neighbor Search (NNS) [MARTIN C., J.M.]

Image
José-Manuel Martin Coronado Profesor-Investigador, Instituto de Econometría de Lima www.institutoeconometria.com Chief Economist, EMECEP Consultoría www.emecep-consultoria.com La técnica del Nearest Neighbor permite realizar comparaciones más adecuadas entre una gran base de dato, a fin de aislar características que permitan calificar una o más observaciones. En el reporte N° 009-2020-EMECEP/COVID se utilizó esta técnica la cual se explicará a continuación. Se parte de la siguiente data, de fuente extraoficial, sobre la base de datos oficiales: Gráfico 1 Fuente: Worldometers.info Se observa que si se analiza los vecinos más cercanos del Perú por el número de casos, los más cercanos al 29 de abril son Holanda, Bélgica y Canadá, con casos  superiores; y en el lado opuesto se tiene a India Suiza y Ecuador. Dado que estos países ya parecen tener un recorrido de varios del Coronavirus, no deberían tener cambios significativos en la aceleración del contagio.  P...

¿Puede predecirse la Autocorrelación? ¿Qué relación tiene la volatilidad con la autocorrelación? [MARTIN, JM]

Image
José-Manuel Martin Coronado https://www.linkedin.com/in/jmmartinc Docente principal del Instituto de Econometría de Lima www.institutoeconometria.com Chief Economist en EMECEP Consultoría Macroeconométrica www.emecep-consultoria.com La autocorrelación es uno de los problemas básicos principales de la econometría, después de la normalidad*. No sólo por las consecuencias en las propiedades del estimador MCO ó la estructura del modelo, sino también por el supuesto IID que debería tener toda variable aleatoria, para la aplicación de probabilidades conjuntas.  En términos sencillos la autocorrelación es un problema del modelo, en este caso, de los errores en materia específica, aunque es posible, mediante un análisis exploratorio preventivo, visualizar los factores de riesgo que podrían desencadernar que su modelo deba llevar un tratamiento por autocorrelación.  Cabe precisar que el elemento dinámico puede o no existir en un modelo, pero su presencia per se ,...

Data Mining, overfitting, patrones y leyes económicas [MARTIN, J.M.]

José-Manuel Martin Coronado Instituto de Econometría de Lima | EMECEP Consultoría www.institutoeconometria.com www.emecep-consultoria.com Lima 08 de marzo de 2020 El Data Mining es un tema muy de moda: Lo ofrecen en diversos cursos, en diversos lugares, en diversos países. Y obviamente es atractivo como tema porque básicamente implica la exploración y el descubrimiento de nuevas cosas a través de la tecnología, computación, entre otros.  Pero lo que no se dice, y es algo muy curioso, es que el Data Mining lo puede hacer, al igual que la minería real, más que todo las máquinas. Es más, las máquinas en principio son más eficientes para hacer el Data Mining que los seres humanos, porque el Data Mining como tal en esencia se trata de encontrar patrones dentro de un cúmulo de datos.  Ahora bien, no necesariamente estos datos pueden ser grandes, porque Data Mining no es lo mismo que Big Data . Este quiere decir que son datos grandes, datos inmensos, en cada segu...

La Maximización de la Normalidad y los coeficientes óptimos [MARTIN, J.M]

Image
José-Manuel Martin Coronado Chief Economist EMECEP Consultoría www.emecep-consultoria.com wp-0305-2020-emecep-normalidad La normalidad de los errores es un requisito indispensable para que funcione un modelo MCO, bajo los supuestos de Gauss-Markov. Así mismo, dicha característica permite la coincidencia con el estimador de Máximo Verosimilitud (MV), así como una correcta interpretabilidad de los coeficientes y las pruebas asociadas a éstos.  No obstante, en las clases de econometría básica no se hace mayor énfasis en lo que hay detrás de este requisito básico. Se presenta una prueba y se asume que el alumno es capaz de identificar si es normal o anormal. De ser anormal, tendrá que hacer transformaciones arbitrarias a las variables, usualmente las de tipo logarítmica, presumiendo que es una técnica válida per se .  Si bien los resultados de un modelo de regresión puede ser espurios y/o aleatorios respecto a la coeficientes, existen algunos indicios que pue...

La Réplica y la falsa validez de un modelo econométrico [Martin, JM]

Mg. José-Manuel Martin Coronado Profesor Principal Instituto de Econometría de Lima www.institutoeconometria.com Si bien en el instituto se trata de decir que no es recomendable que se haga réplicas de manera operativa, igual los alumnos/investigadores noveles lo hacen, como prueba de madurez investigativa, más allá de que a veces sus profesores universitarios se lo exijan.  Ya se sabe que las réplicas son una forma de fiscalización de las investigaciones hechas por terceros, en un momento anterior. Por ejemplo, un investigador que se interesa en un tema, alguien lo hizo antes, en otro contexto, en otro momento ó en otra realidad.  Sin embargo, existe el interés por hacer réplicas, bajo la premisa que realizarlo implica que el investigador está haciendo algo idóneo, que sabe las técnicas; y lo segundo, es que, lograrlo o conseguirlo, implica que el autor de la investigación originaria ha hecho algo correcto.  En realidad, lamentablemente no es eso...

Econometría y el Estimador de Interpolación [MARTIN, J.M.]

Prof. Mg. José-Manuel Martin Coronado Instituto de Econometría de Lima www.institutoeconometria.com En matemática se enseña religiosamente a resolver sistemas de ecuaciones lineales, donde X e Y son las incógnitas, que dependen de algunos coeficientes ya dados por el ejercicio, usualmente denominados a, b, c, d, e y f , es decir: (1a)    aX + bY = c (1b)   dX + eY = f Así mismo, existen dos formas tradicionales de desarrollar este problema, ya sea despejar en función de una de las incógnitas en una ecuación y luego reemplazar dicho resultado en la otra; o bien encontrar un factor k que permita eliminar una de las incógnitas a través de la suma o resta de las ecuaciones, para luego identificar una de las incógnitas y nuevamente reemplazarlas en la otra ecuación.  Lo que a veces no se enseña (o se enseña menos) es a resolver estos problemas de manera genérica o abstracta, es decir, no otorgarle valores reales a los coeficientes, sino manten...

MCO con Machine Learning: Simulaciones y Entrenamiento [MARTIN, J.M]

Image
José-Manuel Martin Coronado Instituto de Econometría de Lima www.institutoeconometria.com A veces se piensa que el Machine Learning requiere necesariamente el software, los paquetes, los modelos ó los algoritmos más complejos, en la idea que se trata de una técnica moderna muy alejada de las técnicas básicas enseñadas en la universidad, por ejemplo, el mínimos cuadrados ordinarios (MCO). Así, uno de los conceptos más esotéricos y que suele encontrarse dentro del concepto de la "caja negra" es el Entrenamiento de un modelo.  En términos sencillos, el entrenamiento no es otra cosa que la búsqueda de los coeficientes de los modelos que cumplen con los objetivos del/a investigador/a. Esta búsqueda puede entenderse como una tabulación y podría hacerse manualmente, aunque para que sea una búsqueda completa lo ideal es simular con muchos valores, usualmente más de 10 o 30. Adicionalmente, esta búsqueda suele ser ordenada o seguir un proceso determinado, llamado algor...

¿Qué es un Proceso Generador de Datos ARIMA(1,1)? [J.M. MARTIN]

José-Manuel Martin Coronado Instituto de Econometría de Lima www.institutoeconometria.com Existe un concepto muy utilizado en el análisis de series de tiempo y es el de Proceso Generador de Datos (PGD ó DGP en inglés). Si bien el nombre parece complejo, en principio es bastante sencillo: Es una fórmula matemática que representa una secuencia de datos. Y por definición, esa fórmula de una secuencia permite crear datos en serie, es decir, sucesivos en función a algún indicador, en este caso, el tiempo. No obstante, muchos estudiosos de la materia buscan confundir y asustar al lector novel en estos temas, afirmando que es algo muy complejo. Si bien algunas fórmulas de series de tiempo puede ser excesivamente complejas, esto a veces es arbitrario y no necesariamente representativo, particularmente si se tiene en cuenta que los modelos Naïve puede llegar a ser tan precisos como los modelos con PGD de alta complejidad.  Por ejemplo, un proceso generador de datos muy simpl...

La Absorción: El verdadero problema de la Econometría [José M. Martin]

Msc José-Manuel Martin Coronado Lima Econometric Institute www.josemanuelmartincoronado1.wordpress.com Lima, 11 noviembre de 2019 La Econometría permite identificar relaciones de causalidad entre dos o más variables. No obstante, la mente suele estar preparada sólo para el análisis bivariable, el cual es repetido k veces según el número de relaciones bivariables del modelo econométrico. En otras palabras, si un modelo econométrico tiene  k variables explicativas, entonces tendrá k relaciones de causalidad bivariables, puestas en una ecuación multivariable (ó multivariante). Basado en ello, y en el marco de un modelo lineal, el/la investigador puede cometer el error de pensar que un modelo multivariante expresado la suma de las variables ponderadas ( B k *X k ) más un sesgo/intercepto ( B o ) es equivalente que a k ecuaciones bivariables, en cuanto al valor de los coeficientes ( A k ).  Por ejemplo, en un modelo de dos variables explicativas: Y = B o + B 1...