Científico de datos: el trabajo más sexy del siglo XXI
Por Thomas H. Davenport y D.J. Patil
Datos
Harvard Business Review
Cuando Jonathan Goldman llegó a trabajar en junio de 2006 en LinkedIn, el sitio de redes de negocios, el lugar todavía se sentía como una empresa nueva. La compañía tenía poco menos de 8 millones de cuentas y el número estaba creciendo rápidamente a medida que los miembros existentes invitaban a sus amigos y colegas a unirse. Pero los usuarios no estaban buscando conexiones con las personas que ya estaban en el sitio a la velocidad que los ejecutivos esperaban. Al parecer faltaba algo en la experiencia social. Como lo dijo un gerente de LinkedIn, "fue como llegar a una recepción de conferencia y darse cuenta de que no conoce a nadie. Así que solo te quedas en la esquina bebiendo tu bebida, y probablemente te vayas temprano".
Goldman, un doctorado en física de Stanford, estaba intrigado por la vinculación que vio y por la riqueza de los perfiles de usuario. Todo hecho para datos confusos y análisis difíciles de manejar, pero cuando comenzó a explorar las conexiones de las personas, comenzó a ver posibilidades. Comenzó a formar teorías, probando corazonadas y encontrando patrones que le permitían predecir en qué redes aterrizaría un perfil dado. Podía imaginar que las nuevas características que aprovechan las heurísticas que estaba desarrollando podrían proporcionar valor a los usuarios. Pero el equipo de ingeniería de LinkedIn, atrapado en los desafíos de escalar el sitio, no parecía estar interesado. Algunos colegas rechazaban abiertamente las ideas de Goldman. ¿Por qué los usuarios necesitarían LinkedIn para descubrir sus redes por ellos? El sitio ya tenía un importador de libreta de direcciones que podía atraer todas las conexiones de un miembro.
Por suerte, Reid Hoffman, el cofundador y CEO de LinkedIn en ese momento (ahora su presidente ejecutivo), tenía fe en el poder de los analíticos debido a su experiencia en PayPal, y le había otorgado a Goldman un alto grado de autonomía. Por un lado, le había dado a Goldman una manera de sortear el ciclo tradicional de lanzamiento de productos mediante la publicación de pequeños módulos en forma de anuncios en las páginas más populares del sitio.
A través de uno de estos módulos, Goldman comenzó a probar qué sucedería si le presentara a los usuarios los nombres de personas con las que aún no se habían conectado pero que probablemente sabían, por ejemplo, personas que habían compartido sus tenencias en escuelas y lugares de trabajo. Lo hizo mediante la creación de un anuncio personalizado que mostraba las tres mejores coincidencias para cada usuario en función del fondo ingresado en su perfil de LinkedIn. A los pocos días era obvio que algo extraordinario estaba ocurriendo. La tasa de clics en esos anuncios fue la más alta jamás vista. Goldman continuó refinando la forma en que se generaron las sugerencias, incorporando ideas de redes como el "cierre triangular", la noción de que si conoces a Larry y Sue, es muy probable que Larry y Sue se conozcan entre sí. Goldman y su equipo también obtuvieron la acción necesaria para responder a una sugerencia de un solo clic.
Una nueva raza
Goldman es un buen ejemplo de un nuevo jugador clave en las organizaciones: el "científico de datos". Es un profesional de alto rango con la capacitación y la curiosidad para hacer descubrimientos en el mundo del big data. El título ha existido por solo unos pocos años. (Fue acuñado en 2008 por uno de nosotros, DJ Patil y Jeff Hammerbacher, y luego los líderes respectivos de los esfuerzos de análisis y datos en LinkedIn y Facebook). Pero miles de científicos de datos ya están trabajando en empresas nuevas y bien establecidas compañías. Su aparición repentina en la escena empresarial refleja el hecho de que las empresas ahora están luchando con información que viene en variedades y volúmenes nunca antes encontrados. Si su organización almacena múltiples petabytes de datos, si la información más importante para su empresa reside en formas distintas a las filas y columnas de números, o si la respuesta a su pregunta más importante implicaría un "mashup" de varios esfuerzos analíticos, tendrá un Oportunidad de big data.
Gran parte del entusiasmo actual por el big data se centra en las tecnologías que lo hacen posible, incluyendo Hadoop (el marco más utilizado para el procesamiento de sistemas de archivos distribuidos) y herramientas de código abierto relacionadas, computación en la nube y visualización de datos. Si bien esos son avances importantes, al menos tan importantes son las personas con el conjunto de habilidades (y la mentalidad) para darles un buen uso. En este frente, la demanda se ha adelantado a la oferta. De hecho, la escasez de científicos de datos se está convirtiendo en una seria limitación en algunos sectores. Greylock Partners, una empresa de empresas en fase inicial que ha respaldado a empresas como Facebook, LinkedIn, Palo Alto Networks y Workday, está lo suficientemente preocupado por la escasez de mano de obra que ha creado su propio equipo de reclutamiento especializado para canalizar talento a las empresas en su portafolio. "Una vez que tienen datos", dice Dan Portillo, quien lidera ese equipo, "realmente necesitan personas que puedan manejarlo y encontrar información sobre él".
¿Quienes son esas personas?
Si la capitalización de big data depende de la contratación de científicos de datos escasos, entonces el desafío para los gerentes es aprender cómo identificar ese talento, atraerlo a una empresa y hacerlo productivo. Ninguna de esas tareas es tan sencilla como lo es con otras funciones organizativas establecidas. Comience con el hecho de que no hay programas universitarios que ofrezcan títulos en ciencia de datos. También hay poco consenso sobre dónde encaja el rol en una organización, cómo los científicos de datos pueden agregar el mayor valor y cómo se debe medir su desempeño.
El primer paso para satisfacer la necesidad de los científicos de datos, por lo tanto, es entender lo que hacen en las empresas. Luego pregunte: ¿Qué habilidades necesitan? ¿Y en qué campos se encuentran esas habilidades más fácilmente?
Más que nada, lo que hacen los científicos de datos es hacer descubrimientos al nadar en datos. Es su método preferido para navegar por el mundo que los rodea. A gusto en el ámbito digital, pueden estructurar grandes cantidades de datos sin forma y posibilitar el análisis. Identifican fuentes de datos ricas, las unen con otras fuentes de datos potencialmente incompletas y limpian el conjunto resultante. En un entorno competitivo donde los desafíos cambian y los datos nunca dejan de fluir, los científicos de datos ayudan a los tomadores de decisiones a pasar del análisis ad hoc a una conversación continua con datos.
Los científicos de datos se dan cuenta de que enfrentan limitaciones técnicas, pero no permiten que eso atasque su búsqueda de soluciones novedosas. A medida que hacen descubrimientos, comunican lo que han aprendido y sugieren sus implicaciones para nuevas direcciones de negocios. A menudo, son creativos para mostrar información visualmente y hacer que los patrones que ellos encuentran sean claros y atractivos. Asesoran a ejecutivos y gerentes de productos sobre las implicaciones de los datos para productos, procesos y decisiones.
Dado el estado incipiente de su oficio, a menudo los científicos de datos deben diseñar sus propias herramientas e incluso realizar investigaciones de estilo académico. Yahoo, una de las firmas que empleó a un grupo de científicos de datos desde el principio, fue instrumental en el desarrollo de Hadoop. El equipo de datos de Facebook creó el lenguaje Hive para la programación de proyectos Hadoop. Muchos otros científicos de datos, especialmente en compañías basadas en datos como Google, Amazon, Microsoft, Walmart, eBay, LinkedIn y Twitter, han agregado y refinado el kit de herramientas.
¿Qué clase de persona hace todo esto? ¿Qué habilidades hacen que un científico de datos tenga éxito? Piense en él o ella como un híbrido de hacker de datos, analista, comunicador y asesor de confianza. La combinación es extremadamente poderosa y rara.
La habilidad más básica y universal de los científicos de datos es la capacidad de escribir código. Esto puede ser menos cierto dentro de cinco años, cuando muchas más personas tendrán el título de "científico de datos" en sus tarjetas de negocios. Más persistente será la necesidad de que los científicos de datos se comuniquen en un lenguaje que todos los interesados comprendan y demuestren las habilidades especiales involucradas en la narración de historias con datos, ya sea verbalmente, visualmente o, idealmente, ambos.
Pero diríamos que el rasgo dominante entre los científicos de datos es una curiosidad intensa: el deseo de ir debajo de la superficie de un problema, encontrar las preguntas en su corazón y destilarlas en un conjunto muy claro de hipótesis que se pueden probar. Esto a menudo conlleva el pensamiento asociativo que caracteriza a los científicos más creativos en cualquier campo. Por ejemplo, conocemos a un científico de datos que estudia un problema de fraude y se dio cuenta de que era análogo a un tipo de problema de secuenciación de ADN. Al reunir a esos mundos dispares, él y su equipo pudieron crear una solución que redujo drásticamente las pérdidas por fraude.
Quizás se está volviendo claro por qué la palabra "científico" se ajusta a este rol emergente. Los físicos experimentales, por ejemplo, también tienen que diseñar equipos, recopilar datos, realizar múltiples experimentos y comunicar sus resultados. Por lo tanto, las empresas que buscan personas que pueden trabajar con datos complejos han tenido buena suerte en el reclutamiento entre personas con antecedentes educativos y laborales en las ciencias físicas o sociales. Algunos de los mejores y más brillantes científicos de datos son doctores en campos esotéricos como la ecología y la biología de sistemas. George Roumeliotis, jefe de un equipo de ciencia de datos en Intuit en Silicon Valley, tiene un doctorado en astrofísica. Un poco menos sorprendente, muchos de los científicos de datos que trabajan en negocios hoy en día fueron formalmente formados en ciencias de la computación, matemáticas o economía. Pueden surgir de cualquier campo que tenga un fuerte enfoque de datos y computación.
Es importante tener en mente la imagen del científico, ya que la palabra "datos" podría enviar fácilmente una búsqueda de talento por el camino equivocado. Como Portillo nos dijo: "Los antecedentes tradicionales de las personas que vio hace 10 a 15 años simplemente no lo cortan en estos días". Un analista cuantitativo puede ser excelente para analizar datos, pero no para someter una masa de datos no estructurados y para incluirlos. Una forma en la que se puede analizar. Un experto en gestión de datos puede ser excelente para generar y organizar datos en forma estructurada, pero no para convertir datos no estructurados en datos estructurados, y tampoco para analizar realmente los datos. Y mientras que las personas sin habilidades sociales fuertes pueden prosperar en las profesiones de datos tradicionales, los científicos de datos deben tener tales habilidades para ser efectivos.
Roumeliotis tuvo claro con nosotros que no contrata sobre la base de capacidades estadísticas o analíticas. Comienza su búsqueda de científicos de datos preguntando a los candidatos si pueden desarrollar prototipos en un lenguaje de programación convencional como Java. Roumeliotis busca un conjunto de habilidades, una base sólida en matemáticas, estadística, probabilidad y ciencias de la computación, y ciertos hábitos mentales. Quiere personas con una sensación de problemas de negocios y empatía por los clientes. Luego, dice, se basa en todo eso con entrenamiento en el trabajo y un curso ocasional en una tecnología particular.
Varias universidades están planeando lanzar programas de ciencia de datos, y los programas existentes en análisis, como el programa de Maestría en Ciencias en Análisis en el estado de Carolina del Norte, están ocupados agregando ejercicios de big data y cursos. Algunas compañías también están tratando de desarrollar sus propios científicos de datos. Después de adquirir la empresa de datos grandes Greenplum, EMC decidió que la disponibilidad de los científicos de datos sería un factor de activación en sí mismo, y la explotación de los datos de los clientes. Así que su división de Servicios Educativos lanzó un programa de capacitación y certificación de análisis de datos y big data. EMC pone el programa a disposición tanto de empleados como de clientes, y algunos de sus graduados ya están trabajando en iniciativas internas de big data.
¿Por qué un científico de datos quiere trabajar aquí?
Incluso a medida que se incrementan las filas de los científicos de datos, la competencia por los mejores talentos seguirá siendo feroz. Espere que los candidatos evalúen las oportunidades de empleo en función de lo interesantes que son los desafíos de big data. Como uno de ellos comentó: "Si quisiéramos trabajar con datos estructurados, estaríamos en Wall Street". Dado que los prospectos más calificados de hoy provienen de fondos no comerciales, los gerentes de contratación pueden necesitar descubrir cómo pintar una imagen emocionante de El potencial para los avances que ofrecen sus problemas.
La paga, por supuesto, será un factor. Un buen científico de datos tendrá muchas puertas abiertas para él o ella, y los salarios se subirán. Varios científicos de datos que trabajan en empresas de nueva creación comentaron que habían exigido y obtuvieron grandes paquetes de opciones sobre acciones. Incluso para alguien que acepta un puesto por otras razones, la compensación indica un nivel de respeto y el valor que se espera que el rol añada al negocio. Pero nuestra encuesta informal de las prioridades de los científicos de datos reveló algo más fundamentalmente importante. Quieren estar "en el puente". La referencia es al programa de televisión Star Trek de la década de 1960, en el que el capitán de la nave estelar James Kirk depende en gran medida de los datos proporcionados por el Sr. Spock. Los científicos de datos desean estar en el medio de una situación en desarrollo, con conciencia en tiempo real del conjunto evolutivo de opciones que presenta.
Teniendo en cuenta la dificultad de encontrar y mantener científicos de datos, uno pensaría que una buena estrategia implicaría contratarlos como consultores. La mayoría de las empresas de consultoría aún tienen que reunir muchos de ellos. Incluso las firmas más grandes, como Accenture, Deloitte e IBM Global Services, se encuentran en las primeras etapas de los principales proyectos de big data para sus clientes. Las habilidades de los científicos de datos que tienen en el personal se aplican principalmente a problemas de análisis cuantitativo más convencionales. Las empresas de servicios de análisis offshore, como Mu Sigma, podrían ser las primeras en hacer avances importantes con los científicos de datos.
Pero los científicos de datos con los que hemos hablado dicen que quieren construir cosas, no solo asesorar a quienes toman decisiones. Uno describió a un consultor como "la zona muerta; todo lo que tiene que hacer es decirle a otra persona lo que los análisis dicen que deberían hacer". Al crear soluciones que funcionen, pueden tener más impacto y dejar sus marcas como pioneros de su profesión.
Cuidado y alimentación
A los científicos de datos no les va bien con una correa corta. Deben tener la libertad de experimentar y explorar posibilidades. Dicho esto, necesitan relaciones cercanas con el resto de la empresa. Los lazos más importantes para forjar son los ejecutivos a cargo de productos y servicios en lugar de personas que supervisan las funciones comerciales. Como lo ilustra la historia de Jonathan Goldman, su mayor oportunidad de agregar valor no se encuentra en la creación de informes o presentaciones para ejecutivos senior, sino en la innovación con productos y procesos orientados al cliente.
LinkedIn no es la única empresa que utiliza científicos de datos para generar ideas para productos, características y servicios de valor agregado. En Intuit Data, se les pide a los científicos que desarrollen ideas para los clientes y consumidores de pequeñas empresas e informen a un nuevo vicepresidente senior de big data, diseño social y marketing. GE ya está utilizando la ciencia de datos para optimizar los contratos de servicio y los intervalos de mantenimiento para productos industriales. Google, por supuesto, utiliza científicos de datos para refinar sus algoritmos principales de búsqueda y publicación de anuncios. Zynga utiliza a los científicos de datos para optimizar la experiencia del juego tanto para el compromiso a largo plazo como para los ingresos. Netflix creó el conocido Premio Netflix, otorgado al equipo de ciencia de datos que desarrolló la mejor manera de mejorar el sistema de recomendación de películas de la compañía. La empresa de preparación de exámenes Kaplan utiliza sus científicos de datos para descubrir estrategias de aprendizaje efectivas.
Los científicos de datos tienden a estar más motivados, también, cuando se espera más de ellos. Los desafíos de acceder y estructurar big data a veces dejan poco tiempo o energía para análisis sofisticados que involucran predicción u optimización. Sin embargo, si los ejecutivos dejan en claro que los informes simples no son suficientes, los científicos de datos dedicarán más esfuerzo a los análisis avanzados. Big data no debería ser igual a "pequeña matemática".
El trabajo caliente de la década
Se sabe que Hal Varian, el economista jefe de Google, dijo: “El trabajo atractivo en los próximos 10 años será estadístico. La gente cree que estoy bromeando, pero ¿quién habría imaginado que los ingenieros informáticos habrían sido el trabajo sexy de los años 90? "
Si "sexy" significa tener cualidades raras que tienen mucha demanda, los científicos de datos ya están allí. Son difíciles y costosos de contratar y, dado el mercado muy competitivo para sus servicios, es difícil mantenerlos. Simplemente no hay mucha gente con su combinación de formación científica y habilidades computacionales y analíticas.
Los científicos de datos de hoy en día son similares a los "quants" de Wall Street de los años 80 y 90. En aquellos días, personas con antecedentes en física y matemáticas se transmitían a los bancos de inversión y fondos de cobertura, donde podían idear algoritmos y estrategias de datos completamente nuevos. Luego, una variedad de universidades desarrollaron programas de maestría en ingeniería financiera, que generaron una segunda generación de talento que era más accesible para las empresas principales. El patrón se repitió más tarde en la década de 1990 con ingenieros de búsqueda, cuyas habilidades enrarecidas pronto fueron enseñadas en programas informáticos.
Una pregunta planteada por esto es si algunas empresas deberían esperar hasta que emerja la segunda generación de científicos de datos, y si los candidatos son más numerosos, menos costosos y más fáciles de examinar y asimilar en un entorno empresarial. ¿Por qué no dejar el problema de la caza y la domesticación de talentos exóticos para las nuevas empresas de big data y para empresas como GE y Walmart, cuyas estrategias agresivas requieren que estén a la vanguardia?
El problema con ese razonamiento es que el avance del big data no muestra signos de desaceleración. Si las empresas se quedan al margen de esta tendencia por la falta de talento, corren el riesgo de quedarse atrás ya que los competidores y los socios del canal obtienen ventajas casi incuestionables. Piense en el big data como una ola épica que se está acumulando ahora, comenzando a crecer. Si quieres atraparlo, necesitas personas que puedan navegar.
Una versión de este artículo apareció en la edición de octubre de 2012 de Harvard Business Review.
Thomas H. Davenport es el Profesor Distinguido del Presidente en Gestión y Tecnología de la Información en Babson College, investigador de la Iniciativa MIT sobre la Economía Digital y asesor senior en Deloitte Analytics. Es autor de más de una docena de libros de administración, más recientemente, solo Humans Need Apply: Ganadores y Perdedores en la Era de las Máquinas Inteligentes y The AI Advantage.
DJ. Patil es el científico de datos residente en Greylock Partners, anteriormente fue el jefe de productos de datos en LinkedIn y es el autor de Data Jujitsu: El arte de convertir datos en productos (O’Reilly Media, 2012).
Datos
Harvard Business Review
Cuando Jonathan Goldman llegó a trabajar en junio de 2006 en LinkedIn, el sitio de redes de negocios, el lugar todavía se sentía como una empresa nueva. La compañía tenía poco menos de 8 millones de cuentas y el número estaba creciendo rápidamente a medida que los miembros existentes invitaban a sus amigos y colegas a unirse. Pero los usuarios no estaban buscando conexiones con las personas que ya estaban en el sitio a la velocidad que los ejecutivos esperaban. Al parecer faltaba algo en la experiencia social. Como lo dijo un gerente de LinkedIn, "fue como llegar a una recepción de conferencia y darse cuenta de que no conoce a nadie. Así que solo te quedas en la esquina bebiendo tu bebida, y probablemente te vayas temprano".
Goldman, un doctorado en física de Stanford, estaba intrigado por la vinculación que vio y por la riqueza de los perfiles de usuario. Todo hecho para datos confusos y análisis difíciles de manejar, pero cuando comenzó a explorar las conexiones de las personas, comenzó a ver posibilidades. Comenzó a formar teorías, probando corazonadas y encontrando patrones que le permitían predecir en qué redes aterrizaría un perfil dado. Podía imaginar que las nuevas características que aprovechan las heurísticas que estaba desarrollando podrían proporcionar valor a los usuarios. Pero el equipo de ingeniería de LinkedIn, atrapado en los desafíos de escalar el sitio, no parecía estar interesado. Algunos colegas rechazaban abiertamente las ideas de Goldman. ¿Por qué los usuarios necesitarían LinkedIn para descubrir sus redes por ellos? El sitio ya tenía un importador de libreta de direcciones que podía atraer todas las conexiones de un miembro.
Por suerte, Reid Hoffman, el cofundador y CEO de LinkedIn en ese momento (ahora su presidente ejecutivo), tenía fe en el poder de los analíticos debido a su experiencia en PayPal, y le había otorgado a Goldman un alto grado de autonomía. Por un lado, le había dado a Goldman una manera de sortear el ciclo tradicional de lanzamiento de productos mediante la publicación de pequeños módulos en forma de anuncios en las páginas más populares del sitio.
A través de uno de estos módulos, Goldman comenzó a probar qué sucedería si le presentara a los usuarios los nombres de personas con las que aún no se habían conectado pero que probablemente sabían, por ejemplo, personas que habían compartido sus tenencias en escuelas y lugares de trabajo. Lo hizo mediante la creación de un anuncio personalizado que mostraba las tres mejores coincidencias para cada usuario en función del fondo ingresado en su perfil de LinkedIn. A los pocos días era obvio que algo extraordinario estaba ocurriendo. La tasa de clics en esos anuncios fue la más alta jamás vista. Goldman continuó refinando la forma en que se generaron las sugerencias, incorporando ideas de redes como el "cierre triangular", la noción de que si conoces a Larry y Sue, es muy probable que Larry y Sue se conozcan entre sí. Goldman y su equipo también obtuvieron la acción necesaria para responder a una sugerencia de un solo clic.
- La escasez de científicos de datos se está convirtiendo en una seria limitación en algunos sectores.
Una nueva raza
Goldman es un buen ejemplo de un nuevo jugador clave en las organizaciones: el "científico de datos". Es un profesional de alto rango con la capacitación y la curiosidad para hacer descubrimientos en el mundo del big data. El título ha existido por solo unos pocos años. (Fue acuñado en 2008 por uno de nosotros, DJ Patil y Jeff Hammerbacher, y luego los líderes respectivos de los esfuerzos de análisis y datos en LinkedIn y Facebook). Pero miles de científicos de datos ya están trabajando en empresas nuevas y bien establecidas compañías. Su aparición repentina en la escena empresarial refleja el hecho de que las empresas ahora están luchando con información que viene en variedades y volúmenes nunca antes encontrados. Si su organización almacena múltiples petabytes de datos, si la información más importante para su empresa reside en formas distintas a las filas y columnas de números, o si la respuesta a su pregunta más importante implicaría un "mashup" de varios esfuerzos analíticos, tendrá un Oportunidad de big data.
Gran parte del entusiasmo actual por el big data se centra en las tecnologías que lo hacen posible, incluyendo Hadoop (el marco más utilizado para el procesamiento de sistemas de archivos distribuidos) y herramientas de código abierto relacionadas, computación en la nube y visualización de datos. Si bien esos son avances importantes, al menos tan importantes son las personas con el conjunto de habilidades (y la mentalidad) para darles un buen uso. En este frente, la demanda se ha adelantado a la oferta. De hecho, la escasez de científicos de datos se está convirtiendo en una seria limitación en algunos sectores. Greylock Partners, una empresa de empresas en fase inicial que ha respaldado a empresas como Facebook, LinkedIn, Palo Alto Networks y Workday, está lo suficientemente preocupado por la escasez de mano de obra que ha creado su propio equipo de reclutamiento especializado para canalizar talento a las empresas en su portafolio. "Una vez que tienen datos", dice Dan Portillo, quien lidera ese equipo, "realmente necesitan personas que puedan manejarlo y encontrar información sobre él".
¿Quienes son esas personas?
Si la capitalización de big data depende de la contratación de científicos de datos escasos, entonces el desafío para los gerentes es aprender cómo identificar ese talento, atraerlo a una empresa y hacerlo productivo. Ninguna de esas tareas es tan sencilla como lo es con otras funciones organizativas establecidas. Comience con el hecho de que no hay programas universitarios que ofrezcan títulos en ciencia de datos. También hay poco consenso sobre dónde encaja el rol en una organización, cómo los científicos de datos pueden agregar el mayor valor y cómo se debe medir su desempeño.
El primer paso para satisfacer la necesidad de los científicos de datos, por lo tanto, es entender lo que hacen en las empresas. Luego pregunte: ¿Qué habilidades necesitan? ¿Y en qué campos se encuentran esas habilidades más fácilmente?
Más que nada, lo que hacen los científicos de datos es hacer descubrimientos al nadar en datos. Es su método preferido para navegar por el mundo que los rodea. A gusto en el ámbito digital, pueden estructurar grandes cantidades de datos sin forma y posibilitar el análisis. Identifican fuentes de datos ricas, las unen con otras fuentes de datos potencialmente incompletas y limpian el conjunto resultante. En un entorno competitivo donde los desafíos cambian y los datos nunca dejan de fluir, los científicos de datos ayudan a los tomadores de decisiones a pasar del análisis ad hoc a una conversación continua con datos.
Los científicos de datos se dan cuenta de que enfrentan limitaciones técnicas, pero no permiten que eso atasque su búsqueda de soluciones novedosas. A medida que hacen descubrimientos, comunican lo que han aprendido y sugieren sus implicaciones para nuevas direcciones de negocios. A menudo, son creativos para mostrar información visualmente y hacer que los patrones que ellos encuentran sean claros y atractivos. Asesoran a ejecutivos y gerentes de productos sobre las implicaciones de los datos para productos, procesos y decisiones.
Dado el estado incipiente de su oficio, a menudo los científicos de datos deben diseñar sus propias herramientas e incluso realizar investigaciones de estilo académico. Yahoo, una de las firmas que empleó a un grupo de científicos de datos desde el principio, fue instrumental en el desarrollo de Hadoop. El equipo de datos de Facebook creó el lenguaje Hive para la programación de proyectos Hadoop. Muchos otros científicos de datos, especialmente en compañías basadas en datos como Google, Amazon, Microsoft, Walmart, eBay, LinkedIn y Twitter, han agregado y refinado el kit de herramientas.
¿Qué clase de persona hace todo esto? ¿Qué habilidades hacen que un científico de datos tenga éxito? Piense en él o ella como un híbrido de hacker de datos, analista, comunicador y asesor de confianza. La combinación es extremadamente poderosa y rara.
La habilidad más básica y universal de los científicos de datos es la capacidad de escribir código. Esto puede ser menos cierto dentro de cinco años, cuando muchas más personas tendrán el título de "científico de datos" en sus tarjetas de negocios. Más persistente será la necesidad de que los científicos de datos se comuniquen en un lenguaje que todos los interesados comprendan y demuestren las habilidades especiales involucradas en la narración de historias con datos, ya sea verbalmente, visualmente o, idealmente, ambos.
Pero diríamos que el rasgo dominante entre los científicos de datos es una curiosidad intensa: el deseo de ir debajo de la superficie de un problema, encontrar las preguntas en su corazón y destilarlas en un conjunto muy claro de hipótesis que se pueden probar. Esto a menudo conlleva el pensamiento asociativo que caracteriza a los científicos más creativos en cualquier campo. Por ejemplo, conocemos a un científico de datos que estudia un problema de fraude y se dio cuenta de que era análogo a un tipo de problema de secuenciación de ADN. Al reunir a esos mundos dispares, él y su equipo pudieron crear una solución que redujo drásticamente las pérdidas por fraude.
Quizás se está volviendo claro por qué la palabra "científico" se ajusta a este rol emergente. Los físicos experimentales, por ejemplo, también tienen que diseñar equipos, recopilar datos, realizar múltiples experimentos y comunicar sus resultados. Por lo tanto, las empresas que buscan personas que pueden trabajar con datos complejos han tenido buena suerte en el reclutamiento entre personas con antecedentes educativos y laborales en las ciencias físicas o sociales. Algunos de los mejores y más brillantes científicos de datos son doctores en campos esotéricos como la ecología y la biología de sistemas. George Roumeliotis, jefe de un equipo de ciencia de datos en Intuit en Silicon Valley, tiene un doctorado en astrofísica. Un poco menos sorprendente, muchos de los científicos de datos que trabajan en negocios hoy en día fueron formalmente formados en ciencias de la computación, matemáticas o economía. Pueden surgir de cualquier campo que tenga un fuerte enfoque de datos y computación.
Es importante tener en mente la imagen del científico, ya que la palabra "datos" podría enviar fácilmente una búsqueda de talento por el camino equivocado. Como Portillo nos dijo: "Los antecedentes tradicionales de las personas que vio hace 10 a 15 años simplemente no lo cortan en estos días". Un analista cuantitativo puede ser excelente para analizar datos, pero no para someter una masa de datos no estructurados y para incluirlos. Una forma en la que se puede analizar. Un experto en gestión de datos puede ser excelente para generar y organizar datos en forma estructurada, pero no para convertir datos no estructurados en datos estructurados, y tampoco para analizar realmente los datos. Y mientras que las personas sin habilidades sociales fuertes pueden prosperar en las profesiones de datos tradicionales, los científicos de datos deben tener tales habilidades para ser efectivos.
Roumeliotis tuvo claro con nosotros que no contrata sobre la base de capacidades estadísticas o analíticas. Comienza su búsqueda de científicos de datos preguntando a los candidatos si pueden desarrollar prototipos en un lenguaje de programación convencional como Java. Roumeliotis busca un conjunto de habilidades, una base sólida en matemáticas, estadística, probabilidad y ciencias de la computación, y ciertos hábitos mentales. Quiere personas con una sensación de problemas de negocios y empatía por los clientes. Luego, dice, se basa en todo eso con entrenamiento en el trabajo y un curso ocasional en una tecnología particular.
Varias universidades están planeando lanzar programas de ciencia de datos, y los programas existentes en análisis, como el programa de Maestría en Ciencias en Análisis en el estado de Carolina del Norte, están ocupados agregando ejercicios de big data y cursos. Algunas compañías también están tratando de desarrollar sus propios científicos de datos. Después de adquirir la empresa de datos grandes Greenplum, EMC decidió que la disponibilidad de los científicos de datos sería un factor de activación en sí mismo, y la explotación de los datos de los clientes. Así que su división de Servicios Educativos lanzó un programa de capacitación y certificación de análisis de datos y big data. EMC pone el programa a disposición tanto de empleados como de clientes, y algunos de sus graduados ya están trabajando en iniciativas internas de big data.
- Los científicos de datos quieren construir cosas, no solo dar consejos. Uno describe ser un consultor como "la zona muerta".
¿Por qué un científico de datos quiere trabajar aquí?
Incluso a medida que se incrementan las filas de los científicos de datos, la competencia por los mejores talentos seguirá siendo feroz. Espere que los candidatos evalúen las oportunidades de empleo en función de lo interesantes que son los desafíos de big data. Como uno de ellos comentó: "Si quisiéramos trabajar con datos estructurados, estaríamos en Wall Street". Dado que los prospectos más calificados de hoy provienen de fondos no comerciales, los gerentes de contratación pueden necesitar descubrir cómo pintar una imagen emocionante de El potencial para los avances que ofrecen sus problemas.
La paga, por supuesto, será un factor. Un buen científico de datos tendrá muchas puertas abiertas para él o ella, y los salarios se subirán. Varios científicos de datos que trabajan en empresas de nueva creación comentaron que habían exigido y obtuvieron grandes paquetes de opciones sobre acciones. Incluso para alguien que acepta un puesto por otras razones, la compensación indica un nivel de respeto y el valor que se espera que el rol añada al negocio. Pero nuestra encuesta informal de las prioridades de los científicos de datos reveló algo más fundamentalmente importante. Quieren estar "en el puente". La referencia es al programa de televisión Star Trek de la década de 1960, en el que el capitán de la nave estelar James Kirk depende en gran medida de los datos proporcionados por el Sr. Spock. Los científicos de datos desean estar en el medio de una situación en desarrollo, con conciencia en tiempo real del conjunto evolutivo de opciones que presenta.
Teniendo en cuenta la dificultad de encontrar y mantener científicos de datos, uno pensaría que una buena estrategia implicaría contratarlos como consultores. La mayoría de las empresas de consultoría aún tienen que reunir muchos de ellos. Incluso las firmas más grandes, como Accenture, Deloitte e IBM Global Services, se encuentran en las primeras etapas de los principales proyectos de big data para sus clientes. Las habilidades de los científicos de datos que tienen en el personal se aplican principalmente a problemas de análisis cuantitativo más convencionales. Las empresas de servicios de análisis offshore, como Mu Sigma, podrían ser las primeras en hacer avances importantes con los científicos de datos.
Pero los científicos de datos con los que hemos hablado dicen que quieren construir cosas, no solo asesorar a quienes toman decisiones. Uno describió a un consultor como "la zona muerta; todo lo que tiene que hacer es decirle a otra persona lo que los análisis dicen que deberían hacer". Al crear soluciones que funcionen, pueden tener más impacto y dejar sus marcas como pioneros de su profesión.
Cuidado y alimentación
A los científicos de datos no les va bien con una correa corta. Deben tener la libertad de experimentar y explorar posibilidades. Dicho esto, necesitan relaciones cercanas con el resto de la empresa. Los lazos más importantes para forjar son los ejecutivos a cargo de productos y servicios en lugar de personas que supervisan las funciones comerciales. Como lo ilustra la historia de Jonathan Goldman, su mayor oportunidad de agregar valor no se encuentra en la creación de informes o presentaciones para ejecutivos senior, sino en la innovación con productos y procesos orientados al cliente.
LinkedIn no es la única empresa que utiliza científicos de datos para generar ideas para productos, características y servicios de valor agregado. En Intuit Data, se les pide a los científicos que desarrollen ideas para los clientes y consumidores de pequeñas empresas e informen a un nuevo vicepresidente senior de big data, diseño social y marketing. GE ya está utilizando la ciencia de datos para optimizar los contratos de servicio y los intervalos de mantenimiento para productos industriales. Google, por supuesto, utiliza científicos de datos para refinar sus algoritmos principales de búsqueda y publicación de anuncios. Zynga utiliza a los científicos de datos para optimizar la experiencia del juego tanto para el compromiso a largo plazo como para los ingresos. Netflix creó el conocido Premio Netflix, otorgado al equipo de ciencia de datos que desarrolló la mejor manera de mejorar el sistema de recomendación de películas de la compañía. La empresa de preparación de exámenes Kaplan utiliza sus científicos de datos para descubrir estrategias de aprendizaje efectivas.
- Los científicos de datos de hoy en día son similares a los "quants" de Wall Street de los años 80 y 90.
Los científicos de datos tienden a estar más motivados, también, cuando se espera más de ellos. Los desafíos de acceder y estructurar big data a veces dejan poco tiempo o energía para análisis sofisticados que involucran predicción u optimización. Sin embargo, si los ejecutivos dejan en claro que los informes simples no son suficientes, los científicos de datos dedicarán más esfuerzo a los análisis avanzados. Big data no debería ser igual a "pequeña matemática".
El trabajo caliente de la década
Se sabe que Hal Varian, el economista jefe de Google, dijo: “El trabajo atractivo en los próximos 10 años será estadístico. La gente cree que estoy bromeando, pero ¿quién habría imaginado que los ingenieros informáticos habrían sido el trabajo sexy de los años 90? "
Si "sexy" significa tener cualidades raras que tienen mucha demanda, los científicos de datos ya están allí. Son difíciles y costosos de contratar y, dado el mercado muy competitivo para sus servicios, es difícil mantenerlos. Simplemente no hay mucha gente con su combinación de formación científica y habilidades computacionales y analíticas.
Los científicos de datos de hoy en día son similares a los "quants" de Wall Street de los años 80 y 90. En aquellos días, personas con antecedentes en física y matemáticas se transmitían a los bancos de inversión y fondos de cobertura, donde podían idear algoritmos y estrategias de datos completamente nuevos. Luego, una variedad de universidades desarrollaron programas de maestría en ingeniería financiera, que generaron una segunda generación de talento que era más accesible para las empresas principales. El patrón se repitió más tarde en la década de 1990 con ingenieros de búsqueda, cuyas habilidades enrarecidas pronto fueron enseñadas en programas informáticos.
Una pregunta planteada por esto es si algunas empresas deberían esperar hasta que emerja la segunda generación de científicos de datos, y si los candidatos son más numerosos, menos costosos y más fáciles de examinar y asimilar en un entorno empresarial. ¿Por qué no dejar el problema de la caza y la domesticación de talentos exóticos para las nuevas empresas de big data y para empresas como GE y Walmart, cuyas estrategias agresivas requieren que estén a la vanguardia?
El problema con ese razonamiento es que el avance del big data no muestra signos de desaceleración. Si las empresas se quedan al margen de esta tendencia por la falta de talento, corren el riesgo de quedarse atrás ya que los competidores y los socios del canal obtienen ventajas casi incuestionables. Piense en el big data como una ola épica que se está acumulando ahora, comenzando a crecer. Si quieres atraparlo, necesitas personas que puedan navegar.
Una versión de este artículo apareció en la edición de octubre de 2012 de Harvard Business Review.
Thomas H. Davenport es el Profesor Distinguido del Presidente en Gestión y Tecnología de la Información en Babson College, investigador de la Iniciativa MIT sobre la Economía Digital y asesor senior en Deloitte Analytics. Es autor de más de una docena de libros de administración, más recientemente, solo Humans Need Apply: Ganadores y Perdedores en la Era de las Máquinas Inteligentes y The AI Advantage.
DJ. Patil es el científico de datos residente en Greylock Partners, anteriormente fue el jefe de productos de datos en LinkedIn y es el autor de Data Jujitsu: El arte de convertir datos en productos (O’Reilly Media, 2012).
No hay comentarios:
Publicar un comentario