Doxa 63

Cómo hacer mejores predicciones cuando no tienes suficientes datos

Por Kira Radinsky y Yoni Acriche
Harvard Business Revew
Analítica


Cuando Donald Trump primero declaró su candidatura para el presidente de los Estados Unidos, la mayoría de los analistas predijeron que tiene una posibilidad increíblemente pequeña de convertirse en el nominado republicano. Probablemente el más prominente de estos fue Nate Silver de FiveThirtyEight. Estimó que Trump tenía un 2% de posibilidades de ganar la nominación. Esta estimación se basó en múltiples puntos de datos históricos significativos sobre los candidatos anteriores, tales como los antecedentes de los que procedían, si eran ampliamente respaldados por el partido y sus éxitos y fracasos pasados. Este es un enfoque de predicción estándar basado en la suposición subyacente de que lo que está tratando de predecir (Trump) es comparable a sus antecedentes históricos (candidatos pasados ​​del GOP) y por lo tanto puede ser evaluado de acuerdo a su rendimiento. Sin embargo, como está claro para nosotros ahora, en algunos casos únicos como el fenómeno Trump, sólo podríamos aprender poco de la historia directa reciente.

Un problema similar surge en las encuestas. Los analistas políticos usan encuestas para estimar la probabilidad del éxito de un candidato. Sin embargo, las encuestas no son perfectas y, por lo general, sufren de múltiples tipos de prejuicios, como el efecto de los no respondedores, la compensación de los sondeos llamando a teléfonos fijos frente a los teléfonos celulares y los cambios en las tendencias de votación. Para superar estos obstáculos, los estadísticos políticos construyen modelos que tratan de corregir errores de encuesta utilizando datos de elecciones anteriores. Este método se basa en el supuesto subyacente de que las encuestas actuales e históricas sufren el mismo tipo de errores. Por ejemplo, los analistas podrían asumir que la población de no respondedores se distribuye de manera similar a través del tiempo - una suposición que puede o no ser verdadera.

Combinando ambos problemas, ya que las elecciones presidenciales son un acontecimiento relativamente raro, nuestros datos históricos son limitados; en otras palabras, el tamaño de la muestra es relativamente pequeño y anticuado.

Los estadísticos predictivos del sector privado enfrentan problemas similares cuando tratan de predecir eventos inesperados, o cuando trabajan a partir de datos defectuosos o incompletos. Simplemente pasar el trabajo a las máquinas no ayudará: la mayoría de las técnicas de aprendizaje automático y de minería estadística también sostienen que los datos históricos, que se usan para entrenar el modelo de aprendizaje automático, se comportan de manera similar a los datos de destino, aplicado posteriormente. Sin embargo, esta suposición a menudo no se mantiene como los datos son obsoletos, y a menudo es costoso o poco práctico para obtener los datos adicionales recientes que contiene esta suposición.


Así, para mantenerse relevantes, los estadísticos tendrán que salir de la posición purista de adaptar modelos basados ​​únicamente en datos históricos directos y enriquecer sus modelos con datos recientes de dominios similares que podrían captar mejor las tendencias actuales.

Esto se conoce como transferencia de aprendizaje, un campo que ayuda a resolver estos problemas, ofreciendo un conjunto de algoritmos que identifican las áreas de conocimiento que son "transferibles" al dominio de destino. Este conjunto más amplio de datos se puede utilizar para ayudar a "entrenar" el modelo. Estos algoritmos identifican los puntos en común entre la tarea de destino, las tareas recientes, las tareas anteriores y las tareas similares pero no las mismas. Por lo tanto, ayudan a guiar el algoritmo para aprender sólo de las partes pertinentes de los datos.

En el ejemplo de las elecciones presidenciales de Estados Unidos, podríamos utilizar este método para entender qué fenómenos económicos y sociales internacionales podrían predecir el surgimiento de un candidato inesperado como Trump. Por ejemplo, si bien el fenómeno Trump es nuevo en el reciente clima político estadounidense, a nivel mundial los estudiosos políticos han estado observando esta tendencia durante bastante tiempo. Ronald Inglehart y Pippa Norris examinan el reciente aumento del apoyo de los partidos populistas en muchas sociedades occidentales. "En Trump, Brexit, y el surgimiento del populismo: los negativos económicos y la reacción cultural". En Gran Bretaña, por ejemplo, mientras que el Partido de la Independencia del Reino Unido ganó sólo un escaño en las elecciones generales de mayo de 2015, su retórica populista estimuló el sentimiento anti-europeo y anti-inmigración, que más tarde los llevó a ganar el referéndum Brexit de la UE. Inglehart y Norris encuentran muchas similitudes entre el aumento populista en diferentes países; los mismos efectos de la inseguridad económica en las economías pos-industriales y una reacción negativa contra la diversificación de las sociedades han llevado a los mismos grupos de votantes a votar.

El pensamiento de aprendizaje de transferencia sugiere que el uso de los datos de votación Brexit de 2016 del Reino Unido podría haber permitido a los estadísticos comprender mejor las tendencias actuales de votación y votación global. Un modelo que consideraba datos de más allá de los Estados Unidos podría así haber predicho más apoyo para Trump, especialmente en demografía que comparten las mismas opiniones anti-inmigración como se vio recientemente en el Reino Unido.

La política ofrece sólo un estudio de caso que pone de relieve la creciente necesidad de nuevas técnicas estadísticas que se pueden ajustar a los datos que cambian con frecuencia. Los problemas que surgen del uso de datos históricos también son frecuentes en muchos otros sectores. Mientras que las empresas tienden a hacer inversiones estratégicas utilizando datos históricos, por ejemplo, a menudo ignoramos la posibilidad de que la realidad ya ha cambiado.

El problema de la pequeña muestra también se plantea en otros lugares. Considere una empresa con una operación exitosa en los EE.UU. que quiere expandirse al mercado alemán. ¿Cómo pueden traducir los conocimientos que han adquirido en el mercado estadounidense y aplicarlos a la expansión alemana? ¿Hay alguna forma de minimizar los costos o los riesgos? Los métodos de transferencia de aprendizaje pueden ayudar al modelo a sobreponderar las similitudes entre los mercados estadounidenses y alemanes, tales como grupos de población que comparten características demográficas y económicas similares, ya subestimar las diferencias. Desde una perspectiva empresarial, esto permitirá a los responsables de la toma de decisiones simular el desempeño de la empresa en un entorno similar al del mercado objetivo.

En lugar de las técnicas comunes de utilizar únicamente los datos históricos del mismo problema para hacer predicciones, los estadísticos políticos y los predictores empresariales también deberían comenzar a utilizar datos de problemas similares que ocurren más recientemente, aunque no estén conectados directamente. Para hacer la conexión entre los dos problemas, los algoritmos de aprendizaje de transferencia ayudan a enfocar el proceso de aprendizaje en las partes más relevantes de los datos históricos de entrenamiento.

Es cierto que los datos históricos son enormemente valiosos para hacer predicciones. Sin embargo, la capacidad de utilizar técnicas más avanzadas en la ciencia de datos ayudará a aprovechar la información de eventos comparables actualmente, lo cual es crucial para hacer predicciones más precisas, especialmente cuando los datos históricos son limitados o el ambiente es incierto. Para evitar errores críticos en la predicción, los analistas de datos necesitan adoptar nuevos métodos que les permitan traducir conocimientos de diferentes períodos de tiempo y dominios.

Kira Radinsky, Ph.D. Es el científico jefe y director de datos de eBay, co-fundó SalesPredict (adquirido por eBay en 2016) y es profesor invitado en el Technion, el principal instituto científico y tecnológico de Israel.

Yoni Acriche es científico líder en eBay y anteriormente director de datos en Salespredict (adquirido por eBay).

Este contenido fue publicado originalmente por Harvard Business Review.
Editores originales conservan todos los derechos.

No hay comentarios:

Publicar un comentario