Doxa 82

Los mejores científicos de datos salen y hablan con la gente

Por Thomas C. Redman
Harvard Business Review
Datos

Usted puede ser un buen científico de datos sentado en su computadora. Después de todo, la descripción del trabajo implica investigar grandes cantidades de datos a menudo dispares para encontrar ideas que pueden ser útiles en todos los aspectos de un negocio, incluyendo marketing, logística y recursos humanos. También incluye la limpieza de datos, el tratamiento de las lagunas, y el tamizado a través de definiciones pobres incompletas.

Pero los grandes científicos de los datos saben que deben hacer más. Reconocen que hay matices y problemas de calidad en los datos que no pueden entender mientras están sentados en sus escritorios. Reconocen que el mundo está lleno de "datos suaves", lugares de interés, sonidos, olores, sabores y texturas que aún no se han digitalizado - y por lo tanto no están disponibles para aquellos que trabajan en sus computadoras. (Piense en cosas como la electricidad en el aire en un mitin político y el miedo a los ojos de un ejecutivo frente a una amenaza inesperada). Saben que deben entender el contexto más amplio, los verdaderos problemas y oportunidades, cómo toman las decisiones, Y cómo se utilizarán sus predicciones.

Los grandes científicos de los datos saben que la única manera de adquirir esta cantidad de información es ir a buscarla. Así que pasan tiempo en el camino con los camioneros, los responsables de la toma de decisiones, vagar por la planta de la fábrica, pretender ser un cliente, pedir a expertos en otras disciplinas ayuda, y así sucesivamente. Ellos profundizan profundamente en los procesos de creación de datos y la complejidad de los equipos de medición. Piden a viejas manos cómo se usarán sus recomendaciones, cuáles son los resultados probables y qué puede salir mal.

Considere un ejemplo del negocio petrolero. Cuando el aceite es grueso, es difícil bombear fuera del suelo. Para facilitar este proceso, las empresas calientan primero el aceite con vapor. El vapor es caro y debe ser utilizado de acuerdo con estrictas directrices ecológicas, por lo que poner la cantidad correcta es crítica. Un buen científico de datos puede tener en cuenta muchos factores: la geología subyacente, la temperatura actual del petróleo, la historia de producción del pozo, para optimizar la cantidad de vapor.

Pero un gran científico de datos también pasaría algún tiempo en el campo petrolero. Allí, se daría cuenta de que la sonda utilizada para estimar la temperatura actual a veces se baja en el pozo limpio, mientras que en otras veces se cubre con barro. Como ocurre, el barro es un gran aislante, que conduce a una temperatura "demasiado baja" y, a su vez, demasiado vapor. Habiendo verificado esto a través de un experimento simple, el gran científico de datos abordará la raíz del problema, es decir, la falta de una instrucción de trabajo aconsejando al técnico para insertar una sonda limpia.

Los grandes científicos de los datos están profundamente curiosos acerca de los datos y todo lo que lo rodea. En este caso, la optimización de la cantidad de vapor es importante, pero erradicar la cuestión de la calidad de los datos (la sonda cubierta de barro) es más fundamental y ahorra millones de dólares.

No todos los científicos de los datos pasan el tiempo suficiente para comprender la realidad más profunda que estudian. Algunos se concentran demasiado en los números. Por ejemplo, al predecir las elecciones más recientes, el lugar para estar estaba en la mente del votante potencial. No se puede ir allí directamente, así que muchas personas y publicaciones, desde el New York Times hasta la Comisión Electoral de Princeton, usaron encuestas para predecir quién ganaría. Pero la mayoría estaba muy lejos.

Muchas personas han disecado cómo esto puede haber sucedido, pero yo diría que se trata de lo que hace un gran científico de datos que un menor no puede. Los grandes científicos de datos saben que tienen que entender las fortalezas y debilidades de los datos con gran detalle. El sondeo es grave, como advirtió Nate Silver, y los grandes científicos de los datos se preocupan más por el error del no muestreo que por los modelos de agregación de encuestas. Ellos estudian la exactitud de las encuestas pasadas, se preguntan qué pasaría si la gente miente a los encuestadores, y reflexionar sobre los prejuicios como si las personas que dicen que es probable que voten realmente lo hagan. Unos pocos en los medios de comunicación comentaron cómo sentían mucha más energía en los rallyes de Trump que en los mítines de Clinton, incluso sugiriendo que esto podría traducirse en una mayor participación de sus partidarios. Los grandes científicos de datos realizan esos análisis para desarrollar una perspectiva más amplia.

Es más, los grandes científicos de los datos lanzan una amplia red en busca de datos relevantes. ¿Podrían los estadounidenses desconfiar de la dinastía política, reduciendo las posibilidades de que una candidata busque la elección después de un presidente de dos períodos de su partido? ¿Podría el desempeño económico ayudar - o perjudicar - al partido en ejercicio? ¿Podría el ganador del Super Bowl correlacionarse con el ganador de la elección?

Por supuesto, una dosis saludable de escepticismo debe ir con cada uno de estos análisis (es difícil ver cualquier relación entre un partido de fútbol y una elección presidencial), pero para los grandes científicos de datos, este negocio de explorar el mundo desde tantos ángulos como sea posible, siendo profundamente curioso acerca de los datos, ya sean digitalizados o no, y preguntar cómo las piezas encajan nunca se detiene. Si usted no está haciendo activamente estas cosas, tome medidas para doblar esto en su trabajo diario.

En primer lugar, ver cómo se recopilan los datos. Tratar la Ley de Osborn - "las variables no; Constantes no son "- como su consigna. Los instrumentos de medición se atascan con arena, los encuestadores no siguen sus secuencias de comandos y los diseñadores de encuestas diseñan inadvertidamente sus instrumentos de manera que los resultados sean sesgados. No puede asumir que sus datos son imparciales y correctos. Tome una mirada dura, en persona.

En segundo lugar, conocer el contexto completo en el que trabaja. Mire el negocio que usted sirve, las ediciones críticas que usted hace frente, y así sucesivamente. Leer, estudiar e ir a conferencias. Construir y utilizar una extensa red con especial atención en personas fuera del campo de la ciencia de los datos. Busque veteranos y gerentes que harán tiempo para explicar el negocio. Pídales que le presenten a otros, y pedir a un par de ellos para servir como mentores informales. Es posible que tenga que empujarlos de vez en cuando, pero es muy probable que encuentre un montón de gente dispuesta a ayudar.

En tercer lugar, integrar estos esfuerzos en su día de trabajo. Participar en análisis importantes con aquellos que pueden ayudar a enmarcar y materializar el problema real y sugerir conjuntos de datos y teorías que usted no puede haber considerado. Conéctate con personas que tienen diferentes perspectivas. Pruebe sus resultados iniciales en otros y obtenga que le ayuden a trabajar a través de todo lo que podría salir mal. Asegúrese de informar - en las formas en que los tomadores de decisiones pueden entender - suposiciones, incertidumbres en sus resultados y preocupaciones.

Los grandes científicos de los datos saben que la meta es resolver problemas del mundo real. Ellos usan los datos para hacerlo, pero no se detienen ahí. Haz que tu misión sea aprender todo lo que puedas sobre tus datos, empezando desde donde fue creado por primera vez. Abrazar la realidad más amplia, con un énfasis especial en toda la información que aún está por almacenarse en la tecnología.

Thomas C. Redman, Ph.D, "el Data Doc", ayuda a las empresas, incluyendo muchas de las Fortune 100, a mejorar la calidad de los datos. Su libro más reciente Getting In Front en los datos: The Who Does What (Technics Publications, 2016) acaba de ser publicado.

Este contenido fue publicado originalmente por Harvard Business Review.
Editores originales conservan todos los derechos.

No hay comentarios:

Publicar un comentario