Doxa 54

POR QUÉ NO OBTIENE EL VALOR DE SU CIENCIA DE LOS DATOS

Por Kalyan Veeramachaneni
Harvard Business Review
Analítica

Las empresas están generando constantemente enormes cantidades de datos, pero eso no siempre se traduce en información procesable. Durante los últimos años, mi grupo de investigación en el MIT y yo hemos buscado respuestas a una pregunta fundamental: ¿Qué se necesita para que las empresas puedan aprovechar todo el potencial de sus repositorios de datos con el aprendizaje automático?

A medida que trabajábamos para diseñar soluciones basadas en el aprendizaje de máquinas con una variedad de socios de la industria, nos sorprendió encontrar que las respuestas existentes a esta pregunta a menudo no se aplicaban. ¿Por qué?

En primer lugar, cada vez que hablábamos con expertos en aprendizaje de máquinas (científicos de datos centrados en el entrenamiento y la prueba de modelos predictivos) sobre la parte más difícil de su trabajo, dijeron una y otra vez, "los datos son un desastre". Inicialmente, nos imaginamos que se refería a problemas conocidos con datos - valores perdidos o falta de coherencia entre bases de datos. Pero a medida que profundizamos, nos dimos cuenta de que el problema era ligeramente diferente. En su forma más extrema, incluso los datos limpios son demasiado abrumadores y complejos para ser entendidos a primera vista, incluso por expertos. Tiene demasiadas tablas y campos y se recoge a menudo con una gran granularidad (por ejemplo, los clickstreams en línea generan nuevos datos con cada clic y los datos del sensor se recogen en 125 observaciones por segundo). Los expertos en aprendizaje automático están acostumbrados a trabajar con datos que ya han sido agregados en variables útiles, como el número de visitas a sitios web por parte de un usuario, en lugar de una tabla de todas las acciones que el usuario haya tomado en el sitio.

Al mismo tiempo, a menudo escuchamos a los expertos de negocios quejarse de que "tenemos muchos datos y no estamos haciendo nada con él". Investigaciones adicionales revelaron que esto tampoco era estrictamente correcto. En cambio, esta frustración se debe a dos problemas. Por un lado, debido al tiempo que se necesita para comprender, formular y procesar datos para un problema de aprendizaje automático, los expertos en aprendizaje de máquinas a menudo se centran en las partes posteriores de la tubería: probar diferentes modelos o ajustar los hiperparámetros del modelo una vez se formula un problema, en lugar de formular nuevas preguntas predictivas para diferentes problemas empresariales. Por lo tanto, mientras que los expertos de negocios están llegando con problemas, los expertos en aprendizaje de máquina no siempre puede mantenerse al día.

Por otro lado, los expertos en aprendizaje de máquinas a menudo no construyeron su trabajo en torno al objetivo final, derivando el valor del negocio. En la mayoría de los casos, los modelos predictivos tienen por objeto mejorar la eficiencia, aumentar los ingresos o reducir los costos. Pero la gente que trabaja en los modelos rara vez se pregunta "¿qué valor proporciona este modelo predictivo y cómo podemos medirlo?" Hacer esta pregunta sobre la propuesta de valor a menudo conduce a un cambio en la formulación del problema original, y hacer estas preguntas es a menudo más útil que ajustar las etapas posteriores del proceso. En un panel reciente lleno de entusiastas del aprendizaje automático, encuesté a la audiencia de unas 150 personas, preguntando "¿Cuántos de ustedes han construido un modelo de aprendizaje automático?" Aproximadamente un tercio levantó la mano. A continuación, le pregunté: "¿Cuántos de ustedes han desplegado y/o utilizado este modelo para generar valor, y lo han evaluado?" Nadie levantó la mano.

En otras palabras, los expertos en aprendizaje de máquinas querían pasar su tiempo construyendo modelos, no procesando conjuntos de datos masivos o traduciendo problemas de negocio en problemas de predicción. Del mismo modo, el panorama tecnológico actual, tanto comercial como académico, se centra en la habilitación de modelos más sofisticados (a través de modelos de variables latentes), el escalado de algoritmos de aprendizaje modelo (vía computación distribuida) o el ajuste fino (a través de la hiper optimización bayesiana) de la tubería de la ciencia de los datos. Sin embargo, en nuestra experiencia, encontramos este enfoque para ser equivocados.

Si las empresas desean obtener valor de sus datos, necesitan concentrarse en acelerar la comprensión humana de los datos, escalando el número de preguntas de modelado que pueden hacer de esos datos en un corto período de tiempo y evaluando sus implicaciones. En nuestro trabajo con las empresas, en última instancia, decidimos que la creación de un verdadero impacto a través de la máquina de aprendizaje vendrá de un enfoque en cuatro principios:

Barra con modelos simples: Decidimos que los modelos simples, como la regresión logística o los basados ​​en bosques al azar o árboles de decisión, son suficientes para los problemas a la mano. El enfoque debe estar en la reducción del tiempo entre la adquisición de datos y el desarrollo del primer modelo predictivo simple.

Explorar más problemas: Los científicos de datos necesitan la capacidad de definir y explorar rápidamente múltiples problemas de predicción, rápida y fácilmente. En lugar de explorar un problema de negocio con un modelo de aprendizaje de máquina increíblemente sofisticado, las empresas deben explorar docenas, construir un modelo predictivo simple para cada uno y evaluar su propuesta de valor.

Aprender de una muestra de datos, no de todos los datos: En lugar de centrarse en cómo aplicar la computación distribuida para permitir que cualquier módulo de procesamiento individual maneje grandes datos, invierta en técnicas que permitan derivar conclusiones similares de una submuestra de datos. Eludiendo el uso de recursos de computación masivos, permitirán explorar más hipótesis.

Enfoque en la automatización: Para lograr tanto tiempo reducido al primer modelo como mayor tasa de exploración, las empresas deben automatizar los procesos que normalmente se hacen manualmente. Una y otra vez a través de diferentes problemas de datos, nos encontramos aplicando técnicas de procesamiento de datos similares, ya sea para transformar los datos en agregados útiles, o para preparar los datos para el modelado predictivo - es el momento de racionalizar estos y desarrollar algoritmos y construir sistemas de software Que los hacen automáticamente.

Esta aguda comprensión de cómo los datos de los científicos interactúan con los datos y donde los cuellos de botella nos llevan a lanzar "El proyecto de interacción de datos humanos" en el MIT, centrándose en los objetivos enumerados anteriormente. Nuestro objetivo es la exploración rápida de los modelos predictivos, y para ponerlos realmente a utilizar mediante la solución de problemas reales en organizaciones reales. Estos modelos serán simples, y la automatización permitirá a los usuarios incluso ingenuos desarrollar cientos, si no miles de modelos predictivos en cuestión de horas-algo que, hoy en día, lleva a expertos meses enteros.

Kalyan Veeramachaneni es investigador principal del MIT en el Laboratorio de Sistemas de Información y Decisión (MIT), donde dirige un grupo de investigación llamado Data-to-AI. También es cofundador de PatternEx y Feature Labs. Su sitio web es http://www.kalyanv.org.

Este contenido fue publicado originalmente por Harvard Business Review.
Editores originales conservan todos los derechos.



No hay comentarios:

Publicar un comentario