Los riesgos de las botshit
No permita que el contenido inexacto del chatbot dañe su negocio.
Por Ian P. McCarthy, Timothy R. Hannigan y André Spicer
Inteligencia artificial y aprendizaje automático
Harvard Business Review
#Doxa #riesgos #botshit #chatbot #negocio #tarea #negocio #decisión #responsabilidad #legal #beneficios #herramienta #mitigar #IA #aprendizaje
Resumen. Los chatbots (contenido inventado, inexacto y falso de los chatbots que los humanos usan acríticamente para realizar tareas) pueden representar riesgos importantes para su negocio en forma de daño a la reputación, decisiones incorrectas, responsabilidad legal, pérdidas económicas e incluso seguridad humana. Sin embargo, es poco probable que los chatbots desaparezcan. ¿Cómo puede gestionar estos riesgos y, al mismo tiempo, aprovechar los beneficios de las nuevas y prometedoras herramientas? Los autores sugieren plantearse dos preguntas clave basadas en su investigación: ¿Qué importancia tiene la veracidad de la respuesta del chatbot para una tarea? ¿Y qué tan difícil es verificar la veracidad de la respuesta del chatbot? Según sus respuestas a estas preguntas, puede identificar mejor los riesgos asociados con una tarea determinada y mitigarlos con éxito.
Inmediatamente después de que OpenAI lanzara al público su chatbot GenAI ChatGPT en noviembre de 2022, Google lanzó su propio chatbot llamado Bard (ahora Gemini). Durante la primera demostración pública de Bard, generó un importante error factual en respuesta a una pregunta sobre los descubrimientos realizados por el telescopio espacial James Webb . Esta respuesta incorrecta del chatbot provocó una caída del 9% en el precio de las acciones de Alphabet , la empresa matriz de Google, que en ese momento tenía un valor de mercado de 100.000 millones de dólares.
También se están produciendo incidentes que demuestran los riesgos de los chatbots en diferentes profesiones. En 2023, el Tribunal Federal de Distrito de Nueva York multó a dos abogados por presentar escritos jurídicos que contenían casos ficticios y citas legales generadas por el chatbot ChatGPT. Y en el ámbito del periodismo, varias publicaciones conocidas se han visto en apuros tras utilizar contenido generado por chatbots. Por ejemplo, Sports Illustrated presentó varios artículos publicados por autores con nombres falsos con fotos de rostro generadas por IA .
En ambos casos, los profesionales y las empresas han utilizado el contenido de los chatbots de forma acrítica, y estos son solo la punta del iceberg. En la prisa por lanzar al público chatbots con modelos de lenguaje extenso (LLM), han surgido numerosos problemas con estas herramientas que generan falsedades y desinformación. Como resultado, los gerentes y las organizaciones están comenzando a ver una serie cada vez mayor de nuevos riesgos basados en las expectativas y los estándares profesionales en torno a la precisión de la información.
En este artículo, analizamos la naturaleza de estos riesgos y ofrecemos orientación informada basada en nuestra investigación sobre cómo gestionarlos.
Nuevas herramientas, nuevos riesgos
En medio de la genuina promesa y el entusiasmo por las posibles aplicaciones de los chatbots se encuentra lo que llamamos los “riesgos epistémicos de los botshit”. Los botshit, según nuestra definición, son contenidos inventados, inexactos y falsos de chatbots que los humanos usan acríticamente para realizar tareas.
No gestionar eficazmente los riesgos de los robots maliciosos podría tener grandes consecuencias para los profesionales y los líderes, así como para sus organizaciones. Algunos de estos riesgos incluyen daños a la reputación, decisiones incorrectas, responsabilidad legal, pérdidas económicas e incluso seguridad humana.
Un ejemplo de ello es el sector sanitario. Si es fiable, introducir un chatbot en contextos médicos de cara al consumidor, como las farmacias, ofrece claros beneficios. Los chatbots podrían estar disponibles las 24 horas del día, los 7 días de la semana, para dar una respuesta inmediata a preguntas sobre recetas y servicios de farmacia de manera eficiente. Sin embargo, los investigadores que se presentaron en la reunión anual de 2023 de la Sociedad Estadounidense de Farmacéuticos de Sistemas de Salud descubrieron que, en la actualidad, alrededor de tres cuartas partes de las respuestas generadas por ChatGPT sobre preguntas relacionadas con medicamentos eran inexactas o incompletas. Peor aún, cuando los investigadores pidieron a la herramienta referencias para respaldar las respuestas, generó citas falsas como una especie de alucinación. Si un médico siguiera ciegamente (o subcontratara sus funciones) las sugerencias de ChatGPT, estaría poniendo en peligro la vida de sus pacientes. Una revisión sistemática reciente realizada sobre la investigación en torno a ChatGPT en el ámbito de la atención médica descubrió que la herramienta se ha estudiado como útil tanto para tareas orientadas a aplicaciones (es decir, flujo de trabajo clínico) como para tareas orientadas al usuario, pero se encontraron sus limitaciones al proporcionar información potencialmente engañosa y peligrosa y transmitirla en un tono persuasivo.
Este peligro hipotético se convirtió en realidad en una empresa emergente llamada Babylon Health, que desarrolló una aplicación impulsada por IA llamada GP at Hand . La aplicación prometía hacer que el proceso de clasificación de atención médica fuera más eficiente y mucho más barato. Los pacientes escribían sus síntomas y la aplicación les daba consejos sobre qué tipo de profesional de la salud necesitaban ver (si es que necesitaban ver a alguno). Después del lanzamiento de la aplicación, varios médicos en el Reino Unido descubrieron que la aplicación estaba dando consejos incorrectos. Por ejemplo, Newsnight de la BBC presentó una historia en la que un médico demostraba cómo la aplicación sugería dos afecciones que no requerían tratamiento de emergencia, cuando en realidad los síntomas podrían haber sido indicadores de un ataque cardíaco. El consejo correcto habría sido visitar un departamento de emergencias de inmediato. Cuando quedó claro que las promesas de la aplicación eran exageradas e incluso peligrosas, perdió su brillo y la empresa detrás de ella finalmente cerró .
Gestión del riesgo de botshit
A pesar de casos como el de GP at Hand, es poco probable que el uso de chatbots en organizaciones y entornos profesionales desaparezca. Por el contrario, creemos que la tecnología de IA generativa presenta nuevas oportunidades, siempre que se comprendan y mitiguen los riesgos epistémicos relacionados.
Para abordar este problema, nuestra investigación describe los riesgos epistémicos que presentan los chatbots en dos dimensiones clave: ¿Qué importancia tiene la veracidad de la respuesta del chatbot para una tarea? ¿Y qué tan difícil es verificar la veracidad de la respuesta del chatbot? Algunas tareas laborales requieren altos niveles de veracidad: es importante que las respuestas del chatbot sean precisas y verdaderas. Por ejemplo, las tareas que tratan el bienestar de las personas en contextos de seguridad, atención médica y educación. Alternativamente, también hay otras tareas en las que es menos importante que la respuesta sea perfectamente precisa y verdadera, como la generación de ideas para un nuevo producto o servicio, la creación de historias para el trabajo de entretenimiento o el trabajo creativo para nombrar marcas y logotipos de productos.
La otra dimensión importante del riesgo epistémico es la dificultad de verificar el contenido que se crea. Para algunas tareas, es relativamente fácil verificar una respuesta de las herramientas de IA generativa. Por ejemplo, no es difícil para un comerciante verificar el valor cotizado de una empresa que cotiza en bolsa en un momento determinado. Sin embargo, hay otras tareas en las que es mucho más difícil verificar una afirmación en particular. Esto podría incluir a un vendedor que intenta verificar rumores sobre un nuevo producto de un competidor o un creativo publicitario que busca verificar la viabilidad de una nueva idea para una campaña publicitaria.
Al combinar estas dos dimensiones obtenemos cuatro tipos diferentes de tareas en las que los chatbots generativos pueden ayudar, cada una con diferentes riesgos que deben gestionarse de diferentes maneras.
Comprender los riesgos de las diferentes tareas asistidas por chatbots. Comprender los riesgos de las diferentes tareas asistidas por chatbots. Para comprender los riesgos de las diferentes tareas asistidas por chatbots, plantéese dos preguntas: ¿Qué importancia tiene la veracidad de la respuesta de un chatbot cuando se trata de una tarea? ¿Y qué tan difícil es verificar la veracidad de la respuesta? Esta matriz de 2 por 2 clasifica las posibles respuestas a estas preguntas en cuatro cuadrantes: Las tareas para las que la veracidad es importante y es difícil de verificar, se autentican. Las tareas en las que la veracidad no es importante y es difícil de verificar, se amplían. Las tareas en las que la veracidad es importante y es fácil de verificar, se automatizan. Y las tareas en las que la veracidad no es importante pero es fácil de verificar, son autónomas. Fuente: Ian P. MickCarthy, Timothy R. Hannigan y André Spicer
Vea más gráficos de HBR en Datos y elementos visuales
Tareas autenticadas.
En el caso de las tareas autenticadas, la veracidad de la declaración de un chatbot es crucial, pero a menudo es difícil de verificar. Algunos ejemplos incluyen tareas presupuestarias complejas, verificación de procedimientos de seguridad (como un flujo de trabajo clínico de diagnóstico para radiólogos que examinan imágenes de pacientes) o sentencias legales. En estos contextos, el mayor riesgo al que se enfrentan los usuarios de chatbots es la calibración incorrecta, en la que no existe un vínculo preciso entre los resultados y los hechos o la información cruciales. Esto es lo que sucedió cuando los dos abogados de Nueva York que mencionamos al principio de este artículo presentaron un caso legal generado por ChatGPT, que contenía referencias legales inventadas.
Sin embargo, este riesgo se puede gestionar mediante una comprobación y calibración cuidadosas del modelo LLM del chatbot y de los resultados que genera. De acuerdo con la naturaleza de la tarea de trabajo, esto implica que el modelo se entrene y se pruebe para comprobar su veracidad, y que se identifiquen y solucionen las limitaciones del modelo. Esta calibración puede implicar que un experto humano bien formado compruebe los resultados creados por un chatbot comparándolos con hechos aceptados, por ejemplo. Esto habla del valor de los chatbots específicos para la práctica en lugar de los de propósito general (como ChatGPT). Entre las direcciones prometedoras para los chatbots específicos para la práctica se incluyen los que emplean tecnologías LLM emergentes, como la generación aumentada de recuperación (RAG) , así como el desarrollo por parte de los usuarios de un conjunto de prácticas de ingeniería de indicaciones. Cuando se utilizan indicaciones de forma eficaz en una secuencia eficaz, el usuario y el chatbot pueden construir conjuntamente información y corregir posibles errores.
Tareas aumentadas.
El segundo contexto involucra tareas aumentadas donde la veracidad o precisión del resultado no es particularmente importante, y es difícil verificar la veracidad o idoneidad del resultado de una IA. Esto sucede en tareas que requieren pensamiento exploratorio o creativo, como la lluvia de ideas o la generación de ideas. Con este tipo de tareas, el mayor riesgo es la ignorancia, donde se pasan por alto información o ideas importantes, o tal vez se incluye erróneamente información inapropiada. Por ejemplo, en concursos de crowdsourcing de ideas , los expertos en innovación juzgaron que las ideas generadas por chatbots eran más factibles, más impactantes, pero menos novedosas que las ideas generadas por humanos. Esto resalta la importancia de tener expertos humanos apropiados que aumenten las respuestas aparentemente creativas que estas máquinas basadas en la lógica pueden producir.
Tareas automatizadas.
Una tercera forma de utilizar la IA generativa es en contextos automatizados, donde la precisión de la respuesta es vital y la información es relativamente fácil de verificar. Ejemplos de este tipo de tareas incluyen la evaluación de solicitudes de préstamos o la comprobación de la funcionalidad de un fragmento de código informático. En estos casos, el mayor riesgo es la rutinización. Esto sucede cuando las personas confían demasiado en el resultado de una IA y no comprueban o evalúan periódicamente la razonabilidad de las respuestas. Esto sucedió cuando un pasajero de Air Canada cuya abuela acababa de morir se conectó al sitio web de la aerolínea para preguntar cuáles eran las políticas de la aerolínea para los viajes por duelo. El chatbot dio una respuesta incorrecta, lo que más tarde significó que el pasajero no pudo obtener un reembolso. Este error administrativo automatizado se convirtió en una noticia internacional cuando el cliente logró obtener un reembolso al llevar a la aerolínea a los tribunales.
El riesgo que conlleva la automatización se puede gestionar exigiendo que los procesos automatizados sean piloteados periódicamente por un usuario humano que controle las evaluaciones y las decisiones. De esta manera, se garantiza que los usuarios humanos puedan detectar errores y que no se queden “dormidos al volante”.
Tareas autónomas.
Una última forma en la que la IA generativa puede utilizarse para el trabajo es en un contexto autónomo. Esto sucede cuando la precisión o veracidad de la respuesta de un chatbot es menos importante y es relativamente fácil verificar el resultado. Algunos ejemplos de este tipo de tareas incluyen el procesamiento de consultas administrativas o de atención al cliente de rutina. En estos contextos, el mayor riesgo que crea la IA es el de la caja negra, por el cual resulta difícil o imposible comprender cómo funciona una tecnología de IA en particular. Esto es lo que sucedió cuando la empresa de mensajería francesa DPD lanzó un chatbot para responder las preguntas de los clientes. Hubo al menos un caso en el que el chatbot insultó y escribió haikus que criticaban a la empresa. Dado lo complejos que pueden ser los chatbots, puede ser difícil determinar de dónde provienen esos errores y cómo detenerlos.
En estos contextos, este riesgo se puede gestionar mediante el entrenamiento y la limitación del rango de respuestas y el vocabulario del modelo LLM del chatbot. Para garantizar la confiabilidad y evitar riesgos de bots, el alcance del uso del chatbot debe ser más limitado y las barreras de protección (es decir, reglas, pautas o limitaciones para el uso del chatbot) más restrictivas.
. . .
Los chatbots y otras herramientas que se basan en la IA generativa tienen un gran potencial para mejorar significativamente muchos procesos de trabajo. Sin embargo, como cualquier nueva tecnología importante, también conllevan riesgos. Como ilustran los ejemplos que ofrecemos, si los riesgos epistémicos del uso de bots no se gestionan adecuadamente, las consecuencias para las personas, las empresas y las profesiones pueden ser potencialmente muy costosas. Sin embargo, con una gestión cuidadosa, estos riesgos se pueden contener y, al mismo tiempo, aprovechar los beneficios.
Lea más sobre IA y aprendizaje automático o temas relacionados Tecnología y análisis y Gestión de calidad
Ian P. McCarthy es profesor WJ VanDusen de Innovación y Gestión de Operaciones en la Universidad Simon Fraser y profesor en el Centro de Liderazgo, Innovación y Organización (CLIO) de Luiss.
Timothy R. Hannigan es profesor asociado de Teoría de la Organización y Emprendimiento en la Escuela de Negocios de Alberta, Universidad de Alberta. A partir de septiembre, será profesor asociado de Estrategia y Organización y titular de la Cátedra Thivierge de Negocios Canadienses en la Escuela de Administración Telfer, Universidad de Ottawa.
André Spicer es decano y profesor de Comportamiento Organizacional en la Bayes Business School, City, University of London.
No hay comentarios:
Publicar un comentario