Ciencia de datos impulsada por la curiosidad
Por Eric Colson
Tecnología
Harvard Business Review
La ciencia de datos puede habilitar capacidades totalmente nuevas e innovadoras que pueden diferenciar completamente una empresa. Pero esas capacidades innovadoras no están tan diseñadas o imaginadas, sino que son descubiertas y reveladas por los científicos de datos por medio de la curiosidad. Por lo tanto, antes de subirse al carro de la ciencia de datos, piense menos en cómo la ciencia de datos apoyará y ejecutará sus planes y piense más en cómo crear un entorno para capacitar a sus científicos de datos para idear cosas con las que nunca soñó.
Primero, algún contexto. Soy el Director de Algoritmos en Stitch Fix, un servicio de estilo personalizado en línea con 2,7 millones de clientes en los EE. UU. Y planeo ingresar a los EE. UU. El próximo año. La novedad de nuestro servicio nos brinda datos exclusivos y sin precedentes con condiciones casi ideales para aprender de ellos. Tenemos más de 100 científicos de datos que potencian las capacidades algorítmicas utilizadas en toda la empresa. Tenemos algoritmos para sistemas de recomendación, compra de mercancías, gestión de inventario, gestión de relaciones, logística, operaciones. ¡Incluso tenemos algoritmos para diseñar ropa! Cada uno proporciona retornos materiales y medibles, lo que nos permite servir mejor a nuestros clientes y, al mismo tiempo, ofrecer una barrera protectora contra la competencia. Sin embargo, virtualmente ninguna de estas capacidades fue solicitada por ejecutivos, gerentes de productos o expertos en dominios, ni siquiera por un gerente de ciencia de datos (y ciertamente no por mí). En su lugar, nacieron de la curiosidad y los retoques extracurriculares por los científicos de datos.
Los científicos de datos son un grupo curioso, especialmente los buenos. Trabajan para alcanzar objetivos claros, y están enfocados y son responsables de alcanzar ciertas métricas de desempeño. Pero también se distraen fácilmente, de una buena manera. En el curso de su trabajo, se topan con diversos patrones, fenómenos y anomalías que se descubren durante su investigación de datos. Esto incita a la curiosidad del científico de datos: "¿Hay una mejor manera de caracterizar el estilo de un cliente?" "Si modelamos el ajuste de la ropa como una medida de la distancia, ¿podríamos mejorar la retroalimentación del cliente?" "¿Se pueden volver a combinar las características exitosas de los estilos existentes? ¿Para crear mejores? ”Para responder a estas preguntas, el científico de datos recurre a los datos históricos y comienza a hacer pequeños retoques. No piden permiso. En algunos casos, las explicaciones se pueden encontrar rápidamente, en unas pocas horas aproximadamente. Otras veces, toma más tiempo porque cada respuesta evoca nuevas preguntas e hipótesis, lo que lleva a más pruebas y aprendizaje.
¿Están perdiendo el tiempo? No. La ciencia de datos no solo permite una exploración rápida, sino que es relativamente más fácil medir el valor de esa exploración, en comparación con otros dominios. Las medidas estadísticas como AUC, RMSE y R-cuadrado cuantifican la cantidad de poder predictivo que la exploración del científico de datos está agregando. La combinación de estas medidas y el conocimiento del contexto empresarial le permite al científico de datos evaluar la viabilidad y el impacto potencial de una solución que aprovecha sus nuevos conocimientos. Si no hay "allí" allí, se detienen. Pero cuando existe evidencia convincente y un gran potencial, el científico de datos pasa a métodos más rigurosos como los ensayos controlados aleatorios o las pruebas A / B, que pueden proporcionar evidencia del impacto causal. Quieren ver cómo se desempeña su nuevo algoritmo en la vida real, por lo que lo exponen a una pequeña muestra de clientes en un experimento. Ya están seguros de que mejorará la experiencia del cliente y las métricas de negocios, pero necesitan saber cuánto. Si el experimento produce una ganancia lo suficientemente grande, lo distribuirán a todos los clientes. En algunos casos, puede requerir un trabajo adicional para desarrollar una capacidad sólida en torno a las nuevas perspectivas. Seguramente, esto irá más allá de lo que se puede considerar un "trabajo paralelo" y deberán colaborar con otros para los cambios de ingeniería y procesos.
La clave aquí es que nadie le pidió al científico de datos que propusiera estas innovaciones. Vieron un fenómeno inexplicable, tuvieron una corazonada y comenzaron a hacer pequeños retoques. No tuvieron que pedir permiso para explorar porque es relativamente barato permitirles hacerlo. Si hubieran pedido permiso, los gerentes y las partes interesadas probablemente habrían dicho "no".
Estas dos cosas, la exploración a bajo costo y la capacidad de medir los resultados, diferencian a la ciencia de datos de otras funciones comerciales. Claro, otros departamentos también tienen curiosidad: "Me pregunto si los clientes responderían mejor a este tipo de creatividad", podría preguntarse un profesional de marketing. "¿Una nueva interfaz de usuario sería más intuitiva?", Pregunta un gerente de producto. Pero esas preguntas no pueden ser respondidas con datos históricos. Explorar esas ideas requiere realmente construir algo, lo cual será costoso. Y justificar el costo es a menudo difícil ya que no hay evidencia que sugiera que las ideas funcionarán. Con su exploración de bajo costo y la evidencia de reducción de riesgos, la ciencia de datos hace posible probar más cosas, lo que lleva a más innovación.
Suena genial, ¿verdad? ¡Es! Pero no puedes simplemente declarar como organización que "haremos esto también". Esta es una manera muy diferente de hacer las cosas. Necesita crear un entorno en el que pueda prosperar.
Primero, tienes que posicionar la ciencia de datos como su propia entidad. No lo entierre bajo otro departamento como marketing, productos, finanzas, etc. En su lugar, conviértalo en su propio departamento, informando al CEO. En algunos casos, el equipo de ciencia de datos necesitará colaborar con otros departamentos para proporcionar soluciones. Pero lo hará como socios iguales, no como personal de apoyo que simplemente se ejecuta en lo que se les pide. En lugar de posicionar la ciencia de datos como un equipo de apoyo en servicio a otros departamentos, hágalo responsable de los objetivos comerciales. Luego, hágalo responsable de alcanzar esos objetivos, pero deje que los científicos de datos encuentren las soluciones.
A continuación, debe equipar a los científicos de datos con todos los recursos técnicos que necesitan para ser autónomos. Necesitarán acceso completo a los datos, así como a los recursos informáticos para procesar sus exploraciones. Requerirles pedir permiso o solicitar recursos impondrá un costo y se producirá menos exploración. Mi recomendación es aprovechar una arquitectura de nube donde los recursos de cómputo son elásticos y casi infinitos.
Los científicos de datos necesitarán tener las habilidades para aprovisionar sus propios procesadores y realizar su propia exploración. Tendrán que ser grandes generalistas. La mayoría de las compañías dividen a sus científicos de datos en equipos de especialistas (por ejemplo, Modeladores, Ingenieros de Aprendizaje Automático, Ingenieros de Datos, Analistas de Inferencia Causal, etc.) para obtener un mayor enfoque. Pero esto requerirá la participación de más personas para realizar cualquier exploración. Coordinar varias personas se encarece rápidamente. En su lugar, aproveche los "científicos de datos de pila completa" con las habilidades para realizar todas las funciones. Esto reduce el costo de probar cosas, ya que una sola iniciativa de retoques puede requerir cada una de las funciones de ciencia de datos que mencioné. Por supuesto, los científicos de datos no pueden ser expertos en todo. Por lo tanto, deberá proporcionar una plataforma de datos que pueda ayudar a abstraerlos de las complejidades del procesamiento distribuido, el escalado automático, etc. De esta manera, el científico de datos se enfoca más en impulsar el valor empresarial a través de pruebas y aprendizaje, y menos en tecnología.
Finalmente, necesita una cultura que apoye un proceso constante de aprendizaje y experimentación. Esto significa que toda la compañía debe tener valores comunes para cosas como aprender haciendo, sentirse cómodo con la ambigüedad, equilibrar los rendimientos a largo y corto plazo. Estos valores deben compartirse en toda la organización, ya que no pueden sobrevivir de forma aislada.
Pero antes de incorporarse e implementar esto en su compañía, tenga en cuenta que será difícil, si no imposible, implementarlo en una compañía más antigua. No estoy seguro de que podría haber funcionado, incluso en Stitch Fix, si no hubiéramos permitido que la ciencia de datos fuera autónoma desde el principio. He estado en Stitch Fix por seis años y medio y, con un asiento en la mesa ejecutiva, la ciencia de los datos nunca tuvo que ser "insertada" en la organización. Más bien, la ciencia de los datos fue nativa para nosotros en los años formativos y, por lo tanto, las formas de trabajo necesarias son más naturales para nosotros.
Esto no quiere decir que la ciencia de los datos esté destinada al fracaso en compañías más antiguas y maduras, aunque ciertamente es más difícil que empezar de cero. Algunas compañías han sido capaces de lograr cambios milagrosos. Y es muy importante no intentarlo. Los beneficios de este modelo son sustanciales, y para cualquier empresa que quiera que la ciencia de datos sea una ventaja competitiva, vale la pena considerar si este enfoque puede funcionar para usted.
Eric Colson es el Director de Algoritmos de Stitch Fix. Anteriormente, fue vicepresidente de ciencia de datos e ingeniería en Netflix. @ericcolson
Tecnología
Harvard Business Review
La ciencia de datos puede habilitar capacidades totalmente nuevas e innovadoras que pueden diferenciar completamente una empresa. Pero esas capacidades innovadoras no están tan diseñadas o imaginadas, sino que son descubiertas y reveladas por los científicos de datos por medio de la curiosidad. Por lo tanto, antes de subirse al carro de la ciencia de datos, piense menos en cómo la ciencia de datos apoyará y ejecutará sus planes y piense más en cómo crear un entorno para capacitar a sus científicos de datos para idear cosas con las que nunca soñó.
Primero, algún contexto. Soy el Director de Algoritmos en Stitch Fix, un servicio de estilo personalizado en línea con 2,7 millones de clientes en los EE. UU. Y planeo ingresar a los EE. UU. El próximo año. La novedad de nuestro servicio nos brinda datos exclusivos y sin precedentes con condiciones casi ideales para aprender de ellos. Tenemos más de 100 científicos de datos que potencian las capacidades algorítmicas utilizadas en toda la empresa. Tenemos algoritmos para sistemas de recomendación, compra de mercancías, gestión de inventario, gestión de relaciones, logística, operaciones. ¡Incluso tenemos algoritmos para diseñar ropa! Cada uno proporciona retornos materiales y medibles, lo que nos permite servir mejor a nuestros clientes y, al mismo tiempo, ofrecer una barrera protectora contra la competencia. Sin embargo, virtualmente ninguna de estas capacidades fue solicitada por ejecutivos, gerentes de productos o expertos en dominios, ni siquiera por un gerente de ciencia de datos (y ciertamente no por mí). En su lugar, nacieron de la curiosidad y los retoques extracurriculares por los científicos de datos.
Los científicos de datos son un grupo curioso, especialmente los buenos. Trabajan para alcanzar objetivos claros, y están enfocados y son responsables de alcanzar ciertas métricas de desempeño. Pero también se distraen fácilmente, de una buena manera. En el curso de su trabajo, se topan con diversos patrones, fenómenos y anomalías que se descubren durante su investigación de datos. Esto incita a la curiosidad del científico de datos: "¿Hay una mejor manera de caracterizar el estilo de un cliente?" "Si modelamos el ajuste de la ropa como una medida de la distancia, ¿podríamos mejorar la retroalimentación del cliente?" "¿Se pueden volver a combinar las características exitosas de los estilos existentes? ¿Para crear mejores? ”Para responder a estas preguntas, el científico de datos recurre a los datos históricos y comienza a hacer pequeños retoques. No piden permiso. En algunos casos, las explicaciones se pueden encontrar rápidamente, en unas pocas horas aproximadamente. Otras veces, toma más tiempo porque cada respuesta evoca nuevas preguntas e hipótesis, lo que lleva a más pruebas y aprendizaje.
¿Están perdiendo el tiempo? No. La ciencia de datos no solo permite una exploración rápida, sino que es relativamente más fácil medir el valor de esa exploración, en comparación con otros dominios. Las medidas estadísticas como AUC, RMSE y R-cuadrado cuantifican la cantidad de poder predictivo que la exploración del científico de datos está agregando. La combinación de estas medidas y el conocimiento del contexto empresarial le permite al científico de datos evaluar la viabilidad y el impacto potencial de una solución que aprovecha sus nuevos conocimientos. Si no hay "allí" allí, se detienen. Pero cuando existe evidencia convincente y un gran potencial, el científico de datos pasa a métodos más rigurosos como los ensayos controlados aleatorios o las pruebas A / B, que pueden proporcionar evidencia del impacto causal. Quieren ver cómo se desempeña su nuevo algoritmo en la vida real, por lo que lo exponen a una pequeña muestra de clientes en un experimento. Ya están seguros de que mejorará la experiencia del cliente y las métricas de negocios, pero necesitan saber cuánto. Si el experimento produce una ganancia lo suficientemente grande, lo distribuirán a todos los clientes. En algunos casos, puede requerir un trabajo adicional para desarrollar una capacidad sólida en torno a las nuevas perspectivas. Seguramente, esto irá más allá de lo que se puede considerar un "trabajo paralelo" y deberán colaborar con otros para los cambios de ingeniería y procesos.
La clave aquí es que nadie le pidió al científico de datos que propusiera estas innovaciones. Vieron un fenómeno inexplicable, tuvieron una corazonada y comenzaron a hacer pequeños retoques. No tuvieron que pedir permiso para explorar porque es relativamente barato permitirles hacerlo. Si hubieran pedido permiso, los gerentes y las partes interesadas probablemente habrían dicho "no".
Estas dos cosas, la exploración a bajo costo y la capacidad de medir los resultados, diferencian a la ciencia de datos de otras funciones comerciales. Claro, otros departamentos también tienen curiosidad: "Me pregunto si los clientes responderían mejor a este tipo de creatividad", podría preguntarse un profesional de marketing. "¿Una nueva interfaz de usuario sería más intuitiva?", Pregunta un gerente de producto. Pero esas preguntas no pueden ser respondidas con datos históricos. Explorar esas ideas requiere realmente construir algo, lo cual será costoso. Y justificar el costo es a menudo difícil ya que no hay evidencia que sugiera que las ideas funcionarán. Con su exploración de bajo costo y la evidencia de reducción de riesgos, la ciencia de datos hace posible probar más cosas, lo que lleva a más innovación.
Suena genial, ¿verdad? ¡Es! Pero no puedes simplemente declarar como organización que "haremos esto también". Esta es una manera muy diferente de hacer las cosas. Necesita crear un entorno en el que pueda prosperar.
Primero, tienes que posicionar la ciencia de datos como su propia entidad. No lo entierre bajo otro departamento como marketing, productos, finanzas, etc. En su lugar, conviértalo en su propio departamento, informando al CEO. En algunos casos, el equipo de ciencia de datos necesitará colaborar con otros departamentos para proporcionar soluciones. Pero lo hará como socios iguales, no como personal de apoyo que simplemente se ejecuta en lo que se les pide. En lugar de posicionar la ciencia de datos como un equipo de apoyo en servicio a otros departamentos, hágalo responsable de los objetivos comerciales. Luego, hágalo responsable de alcanzar esos objetivos, pero deje que los científicos de datos encuentren las soluciones.
A continuación, debe equipar a los científicos de datos con todos los recursos técnicos que necesitan para ser autónomos. Necesitarán acceso completo a los datos, así como a los recursos informáticos para procesar sus exploraciones. Requerirles pedir permiso o solicitar recursos impondrá un costo y se producirá menos exploración. Mi recomendación es aprovechar una arquitectura de nube donde los recursos de cómputo son elásticos y casi infinitos.
Los científicos de datos necesitarán tener las habilidades para aprovisionar sus propios procesadores y realizar su propia exploración. Tendrán que ser grandes generalistas. La mayoría de las compañías dividen a sus científicos de datos en equipos de especialistas (por ejemplo, Modeladores, Ingenieros de Aprendizaje Automático, Ingenieros de Datos, Analistas de Inferencia Causal, etc.) para obtener un mayor enfoque. Pero esto requerirá la participación de más personas para realizar cualquier exploración. Coordinar varias personas se encarece rápidamente. En su lugar, aproveche los "científicos de datos de pila completa" con las habilidades para realizar todas las funciones. Esto reduce el costo de probar cosas, ya que una sola iniciativa de retoques puede requerir cada una de las funciones de ciencia de datos que mencioné. Por supuesto, los científicos de datos no pueden ser expertos en todo. Por lo tanto, deberá proporcionar una plataforma de datos que pueda ayudar a abstraerlos de las complejidades del procesamiento distribuido, el escalado automático, etc. De esta manera, el científico de datos se enfoca más en impulsar el valor empresarial a través de pruebas y aprendizaje, y menos en tecnología.
Finalmente, necesita una cultura que apoye un proceso constante de aprendizaje y experimentación. Esto significa que toda la compañía debe tener valores comunes para cosas como aprender haciendo, sentirse cómodo con la ambigüedad, equilibrar los rendimientos a largo y corto plazo. Estos valores deben compartirse en toda la organización, ya que no pueden sobrevivir de forma aislada.
Pero antes de incorporarse e implementar esto en su compañía, tenga en cuenta que será difícil, si no imposible, implementarlo en una compañía más antigua. No estoy seguro de que podría haber funcionado, incluso en Stitch Fix, si no hubiéramos permitido que la ciencia de datos fuera autónoma desde el principio. He estado en Stitch Fix por seis años y medio y, con un asiento en la mesa ejecutiva, la ciencia de los datos nunca tuvo que ser "insertada" en la organización. Más bien, la ciencia de los datos fue nativa para nosotros en los años formativos y, por lo tanto, las formas de trabajo necesarias son más naturales para nosotros.
Esto no quiere decir que la ciencia de los datos esté destinada al fracaso en compañías más antiguas y maduras, aunque ciertamente es más difícil que empezar de cero. Algunas compañías han sido capaces de lograr cambios milagrosos. Y es muy importante no intentarlo. Los beneficios de este modelo son sustanciales, y para cualquier empresa que quiera que la ciencia de datos sea una ventaja competitiva, vale la pena considerar si este enfoque puede funcionar para usted.
Eric Colson es el Director de Algoritmos de Stitch Fix. Anteriormente, fue vicepresidente de ciencia de datos e ingeniería en Netflix. @ericcolson
No hay comentarios:
Publicar un comentario