¿Es exagerado el impacto de la GenAI en la productividad?
Por Ben Waber y Natanael J. Rápido
IA Y Aprendizaje Automático
Harvard Business Review
#Doxa #IA #GenAI #productividad #aprendizaje #automático #error #LLM #empresa #efectos
Resumen. La IA generativa, como los LLM, se ha promocionado como una gran ayuda para la productividad colectiva. Pero los autores sostienen que confiar demasiado en las exageraciones podría ser un error. Las evaluaciones de productividad generalmente se centran en el nivel de tarea y en cómo las personas podrían usar y beneficiarse de los LLM. Utilizar estos hallazgos para sacar conclusiones amplias sobre el desempeño a nivel de empresa podría resultar costoso. Los autores sostienen que los líderes deben comprender dos problemas centrales de los LLM antes de adoptarlos en toda la empresa: 1) su capacidad persistente para producir falsedades convincentes y 2) los probables efectos negativos a largo plazo del uso de LLM en los empleados y los procesos internos. Los autores describen una perspectiva a largo plazo sobre los LLM, así como qué tipos de tareas pueden realizar los LLM de manera confiable.
Los modelos de lenguajes grandes (LLM) han sido anunciados como una bendición para la productividad colectiva. McKinsey proclamó audazmente que los LLM y otras formas de IA generativa podrían aumentar las ganancias corporativas a nivel mundial en 4,4 billones de dólares al año, y Nielsen pregonó un aumento del 66% en la productividad de los empleados mediante el uso de estas mismas herramientas. Proyecciones como estas han hecho que encontrar formas de utilizar estas herramientas (y acelerar la productividad) sea una prioridad para muchas empresas durante el año pasado. Si bien estamos intrigados e impresionados por esta nueva tecnología, recomendamos una experimentación cautelosa en lugar de una adopción generalizada en toda la empresa.
En medio de todo el revuelo, hay motivos para preguntarse si estas herramientas tendrán los efectos transformadores sobre la productividad de toda la empresa que algunos predicen. Una razón para adoptar un enfoque más lento es que las evaluaciones de productividad generalmente se centran en el nivel de la tarea (resumir un documento, completar una presentación de diapositivas o responder la llamada de un cliente, por ejemplo) y en cómo las personas podrían usar y beneficiarse de los LLM. Utilizar estos hallazgos para sacar conclusiones amplias sobre el desempeño a nivel de empresa podría resultar costoso.
Considere una investigación reciente sobre el impacto de la IA generativa en un entorno de centro de llamadas, donde se entrenó una plataforma de aprendizaje automático con una interfaz LLM en chat y datos de resultados. Los investigadores observaron el tiempo promedio de finalización del chat para medir la productividad y, en promedio, observaron una mejora del 14 % en el tiempo de finalización del chat con la nueva herramienta.
Sin embargo, una mirada más cercana revela algunos signos preocupantes. Según el estudio del centro de llamadas al que nos vinculamos, el desempeño de los mejores empleados en realidad disminuyó con este sistema, lo que presenta problemas potenciales para la innovación, la motivación y la retención de los mejores empleados de una empresa. En otro estudio, los investigadores encontraron más ganancias de productividad al usar IA generativa para tareas que estaban bien cubiertas por los modelos actuales, pero la productividad disminuyó cuando esta tecnología se usó en tareas donde los LLM tenían una cobertura de datos deficiente o requerían un razonamiento que era poco probable que se representara. en texto en línea. Con el tiempo, las condiciones externas (por ejemplo, valores culturales, mejores prácticas conocidas) pueden cambiar materialmente, haciendo que los beneficios desaparezcan o incluso conduzcan a disminuciones significativas de la productividad.
No se han examinado las consecuencias de la introducción de nuevos productos, incluida la posibilidad de rotación entre los expertos cuyos resultados se utilizan para entrenar estos sistemas. Sostenemos que, en ausencia de un análisis más completo y de largo plazo, observar los datos de tareas específicas revela poco sobre el verdadero efecto de una nueva tecnología como los LLM en el desempeño general de la empresa.
Como tal, sugerimos que las organizaciones deben adoptar un enfoque matizado y basado en datos para adoptar LLM. Los líderes deben considerar dónde ayuda realmente esta tecnología y resistir la tentación de integrarla en cada trabajo y tarea de toda la organización. Para hacer esto, necesitan comprender dos problemas centrales de los LLM que son críticos para sus implicaciones comerciales a mediano y largo plazo: 1) su capacidad persistente para producir falsedades convincentes y 2) los probables efectos negativos a largo plazo del uso de LLM en empleados y procesos internos.
En cuanto al primero, es importante apreciar que los avances en fluidez sintáctica de los LLM no se traducen en una mejor capacidad para buscar hechos automáticamente, un problema que ha enfrentado a la informática durante décadas con un progreso incremental. En segundo lugar, los efectos de productividad de los LLM a menudo se limitan al desempeño en una tarea autónoma en la que ya se ha entrenado un modelo, un hecho que puede distorsionar los incentivos para los mejores e introducir riesgos sistémicos en flujos de trabajo complejos. Cuando se combinan, estos problemas crean condiciones organizacionales propicias para fallas sistémicas difíciles de identificar que pueden degradar fácilmente la efectividad organizacional si los casos de uso de la IA generativa no tienen un alcance limitado y no se monitorean continuamente.
Fabricación plausible
Los LLM y el aprendizaje automático en general, por su naturaleza, predicen patrones futuros en función de lo que funcionó (o, más exactamente, lo que ocurrió persistentemente) en el pasado. Una explicación completa de cómo funcionan los LLM está más allá del alcance de este artículo (una buena explicación está aquí ), pero en un nivel básico, estos modelos extremadamente grandes ocupan grandes cantidades de texto (en este punto, casi todo el texto en la web). y construir un modelo estadístico de predicción de la siguiente palabra. Después de la capacitación inicial, la mayoría de las empresas pagan a anotadores para que brinden comentarios sobre las indicaciones para reducir la probabilidad de resultados tóxicos.
Es importante destacar que este modelo no tiene ningún concepto de verdad o hecho (después de todo, fue entrenado en Internet). Los LLM brindan respuestas que estadísticamente es probable que aparezcan en texto público. En la medida en que es más probable que haya ocurrido la verdad en los datos de capacitación, es más probable que los LLM proporcionen resultados fácticos. Una lectura rápida de artículos de noticias recientes proporciona amplios ejemplos de cuándo estos modelos proporcionan con confianza falsedades flagrantes. Mi ejemplo favorito (Ben) en este momento es preguntar a cualquiera de estos modelos qué países africanos comienzan con la letra “k”. Y mi favorito (Nate) es la tendencia de la herramienta de correo electrónico de Google Bard a fabricar correos electrónicos completos que nunca se enviaron ; Totalmente coherente con el funcionamiento de los LLM, pero no tan útil como herramienta.
Desafortunadamente, este no es un problema que se pueda solucionar fácilmente. Los investigadores del aprendizaje automático han estado trabajando durante décadas para mapear preguntas en bases de datos factuales, y si bien los LLM brindan una interfaz mucho más coherente, el problema central de recuperar hechos basados en el lenguaje natural sigue sin resolver. La innovación fundamental de los LLM (crear un modelo lo suficientemente grande con suficientes datos para aprender las propiedades estadísticas de la sintaxis) no está relacionada con la recuperación de hechos.
La gente se engaña a sí misma pensando que pueden incitar a los LLM a que solo les proporcionen resultados fácticos, pero simplemente no es así como funciona la tecnología. Ingresar algo como "solo dame resultados donde puedas encontrar una fuente" no cambia el modelo fundamentalmente, solo significa que completará el texto que se parece a lo que viene después cuando alguien solicita una fuente. A veces eso funcionará, en la medida en que un segmento particular de texto aparezca con frecuencia en los datos, y otras veces no. Una descripción humorística de los LLM que encontramos es " mansplaining como servicio ". A veces está bien, a veces está mal, pero siempre suena autoritario.
Atrapado en el pasado
El hecho de que este lenguaje también aparezca en el pasado es una consideración importante cuando se considera en un contexto organizacional. Tomemos el ejemplo del centro de llamadas de antes. Si una empresa lanza un nuevo producto, no hay registros de chat relacionados con ese producto para capacitarse. Incluso suponiendo que el resultado fuera correcto en el pasado, podría ser completamente incorrecto en el futuro.
Se podría decir “bien, tendremos que volver a capacitarnos”, pero el reciclaje también plantea una serie de cuestiones. Primero, supone que la gente sabe lo suficiente sobre los cambios en el desempeño como para comprender que hay un problema. El lanzamiento de un nuevo producto puede ser bastante fácil, pero ¿qué pasa con un cambio en la estrategia de marketing? ¿Qué pasa con un cambio en una API que un programador usa en un LLM de finalización de código? Las empresas necesitarán implementar procesos nuevos y extensos para monitorear estos conflictos potenciales de manera efectiva, probablemente a un gran costo. Además, si bien los cambios en la velocidad de finalización de las tareas son fáciles de medir, los cambios en la precisión son menos detectables. Si un empleado completa un informe en cinco minutos en lugar de 10, pero es menos preciso que antes, ¿cómo lo sabríamos y cuánto tiempo tomaría reconocer esta inexactitud?
En segundo lugar, los incentivos para que los empleados de alto desempeño contribuyan al reciclaje de estas herramientas han cambiado. Recuerde, reproducir el comportamiento de los mejores no ayuda a su desempeño; en el estudio anterior, lo obstaculizó. Si a ellos se les paga menos y a todos los demás se les paga más, será mucho menos probable que adopten el comportamiento exploratorio que exhibían anteriormente para encontrar soluciones innovadoras. También es más probable que abandonen la empresa, lo que degrada el rendimiento del sistema en general.
Colapso del modelo
A medida que estos sistemas comiencen a entrenarse en su propia producción, las organizaciones que dependen de ellos enfrentarán el problemático problema del colapso del modelo . Si bien originalmente se capacitaron en textos generados por humanos, los LLM que se capacitan en el resultado de los LLM se degradan rápidamente en calidad. Dado que estos sistemas necesitarán ser reentrenados continuamente por humanos en un entorno real, y que el texto en el que se entrenan se generará al menos parcialmente a partir de resultados anteriores de LLM, esto indica que los sistemas entregarán un valor bajo o incluso negativo en unos pocos. ciclos de entrenamiento.
Este es sólo uno de los obstáculos para quienes afirman que estos modelos seguirán mejorando a un ritmo vertiginoso. Simplemente no existe otro texto en Internet para entrenar, y una de las principales innovaciones de los LLM fue la capacidad de ingerir cantidades masivas de texto. Incluso si lo hubiera, ese texto ahora está contaminado por resultados de LLM que degradarán la calidad del modelo. Ya existe cierta evidencia de que el rendimiento del modelo en el paradigma actual ha alcanzado su punto máximo.
Una perspectiva a largo plazo sobre los efectos del LLM
Para apreciar plenamente el problema de la producción incompleta, es necesario adoptar una perspectiva a largo plazo. El “abogado de ChatGPT” es particularmente instructivo. En este caso, un abogado utilizó ChatGPT para redactar un escrito legal. Cuando los detalles del escrito resultaron ser incorrectos, se creó un escándalo y una cascada de trabajo para el tribunal y estos abogados.
Visto a través de una vista de desempeño de tareas, el uso de ChatGPT en este caso fue un éxito. En lugar de tomarse días para escribir un informe legal, estos abogados vieron cómo su productividad individual se disparó al usar ChatGPT para escribir uno en minutos. Desde el punto de vista del sistema, esto fue un fracaso colosal. Debido a que los resultados de ChatGPT parecen autoritarios (llegando incluso a utilizar trucos psicológicos para fomentar la confianza, como responder con "yo"), incluso las personas que saben que deben verificar los resultados son mucho menos propensas a hacerlo. El uso de ChatGPT aquí disminuyó drásticamente la productividad del sistema judicial en general.
Este fue un caso en el que fue fácil señalar a ChatGPT como el culpable. Pero ahora imaginemos empresas que utilizan un LLM para, por ejemplo, escribir un manual para empleados . Si bien los empleados deben consultar todo el manual detenidamente, después de leer algunas páginas de texto coherente y que suena autorizado, probablemente hojearán el resto. Si se introduce un error en el manual, es posible que no aparezca durante años. Imagine que un manual para empleados generado automáticamente omitiera detalles importantes sobre las sanciones por acoso sexual. Más adelante, si se produce acoso sexual en el lugar de trabajo y la empresa no puede despedir al perpetrador, será extremadamente difícil atribuirlo al uso de un LLM para el manual. Este tipo de riesgos no se pueden cuantificar adecuadamente a nivel de tarea o en el corto plazo. Se necesita una evaluación holística, organizativa y longitudinal.
Con prejuicios
Es fundamental abordar el papel de los LLM en el refuerzo y amplificación de los sesgos, que ha sido validado en muchos estudios . Si bien diríamos que es suficiente argumentar que esto es éticamente incorrecto y que las organizaciones deben ser cautelosas al utilizar estos sistemas, también puede ser útil centrarse en los efectos económicos.
Las investigaciones han demostrado con tanta frecuencia los beneficios de una fuerza laboral diversa e inclusiva que los administradores de activos ahora están utilizando estas métricas para impulsar las decisiones de inversión y remuneración de los ejecutivos. La tecnología como los LLM que borra los tipos de lenguaje que usan las comunidades marginadas o minimiza su contribución a través de un resumen deficiente podría hacer que estas comunidades se sientan invisibles o no bienvenidas. Para los hablantes nativos de idiomas que no tienen suficiente texto en línea para formar LLM, estos tendrán menos datos de los que extraer para proporcionar traducciones precisas, lo que reforzará aún más su exclusión.
Dado que es desproporcionadamente probable que la IA generativa muestre resultados que refuercen el status quo social, las empresas que hacen un mayor uso de esta tecnología corren el riesgo de alienar a sus empleados marginados. Un mayor desgaste de esos grupos será costoso en sí mismo, además de limitar la generación de ideas.
Negocio riesgoso
En conjunto, estos puntos indican grandes clases de trabajo donde el uso de LLM es riesgoso. Para proyectos y flujos de trabajo donde la verdad importa, cualquier afirmación de mejoras de productividad a partir de esta clase de tecnología conlleva una alta carga de prueba que debe abordar muchas de las cuestiones planteadas anteriormente (y probablemente más, como el costo ambiental de la capacitación y el uso de estos modelos), riesgos de ciberseguridad, etc.) de forma longitudinal y holística. Los experimentos a nivel de tareas no son suficientes.
Cuando el trabajo implica resumir y sintetizar evidencia, los LLM podrían resultar poco confiables. Para el desarrollo o implementación de políticas y procesos, resolución de disputas, generación de informes y más, la evidencia existente indica que los LLM en realidad pueden reducir el desempeño general en lugar de respaldarlo. Las primeras investigaciones también indican que cuando se sabe que se están utilizando herramientas de IA generativa para la generación de contenido en la comunicación interpersonal, la confianza puede reducirse significativamente . Esto tiene profundas implicaciones para la capacidad de los equipos de mantener discusiones difíciles, participar en lluvias de ideas y llevar a cabo otros procesos de misión crítica.
Es importante señalar que existen otras cuestiones éticas importantes con esta clase de tecnología que no abordamos aquí. Estos problemas incluyen de todo, desde la expansión y osificación de los prejuicios sociales hasta problemas de infracción de derechos de autor, ya que estos modelos tienden a memorizar puntos de datos particularmente únicos. Estas cuestiones son importantes y su impacto en la permisibilidad legal de los LLM crea riesgos adicionales, pero es mejor examinarlas con un tratamiento más exhaustivo .
¿A dónde vamos desde aquí?
En este artículo hemos expresado escepticismo sobre el revuelo que rodea a los LLM y abogamos por un enfoque más cauteloso. Hacer afirmaciones grandilocuentes sobre los LLM puede ayudar a las personas a vender software o libros en el corto plazo, pero en el largo plazo, la aplicación irreflexiva de estos modelos en toda la organización podría conducir a pérdidas significativas de productividad. Sin embargo, estas pérdidas de productividad serán difíciles de medir y el peligro es que este obstáculo difícil de cuantificar en el rendimiento continúe sin respuesta debido a la profunda integración de estas herramientas en flujos de trabajo inapropiados.
Esto no quiere decir que la tecnología no sea útil para ciertas clases de trabajo, sino que los usuarios y desarrolladores deben tener claro cuándo podemos usar los LLM de manera efectiva y segura. Cuando las personas escriben en un idioma extranjero, por ejemplo, utilizar un LLM para limpiar el texto existente para que suene más natural y más fácil de entender para otros tiene el potencial de nivelar el campo de juego entre hablantes nativos y no nativos. La IA también es prometedora para tareas en las que resulta útil generar rápidamente muchas ideas no objetivas. Es fácil imaginar productos tecnológicos que se centren en estos casos de uso de una manera que facilite a las organizaciones experimentar con aplicaciones específicas a pequeña escala. Los líderes deben estar atentos a los contextos en los que la adopción de LLM resulte útil, sin adoptar ni rechazar ciegamente la tecnología.
Para terminar, no todas las nuevas tecnologías laborales conducen a mejoras en la productividad a nivel empresarial, aunque el revuelo en torno a la IA podría permitir a las empresas racionalizar la sustitución de trabajadores bien remunerados por trabajadores mal remunerados, aumentando así las ganancias a corto plazo incluso a expensas de la productividad . Con la IA generativa, tenemos el potencial de evitar esta trampa, pero sólo si la canalizamos, la probamos y la utilizamos de forma inteligente.
Lea más sobre IA y aprendizaje automático o temas relacionados Tecnología, análisis y estrategia
Ben Waber es presidente y cofundador de la empresa de análisis del lugar de trabajo Humanyze y autor de People Analytics: How Social Sensing Technology Will Transform Business and What It Tells Us About the Future of Work .
Nathanael J. Fast es titular de la Cátedra Jorge Paulo y Susanna Lemann de Emprendimiento y profesor asociado de gestión en la Marshall School of Business de la Universidad del Sur de California. Dirige el Centro Neely de Liderazgo Ético y Toma de Decisiones de la USC y codirige el Instituto de Psicología de la Tecnología. Su investigación examina el liderazgo responsable en la era de la IA.
No hay comentarios:
Publicar un comentario