Doxa 2305

Abordar el problema del control de calidad de la IA general

Lo que Amazon aprendió cuando automatizó la creación de páginas de productos.

Por Stefan Thomke, Philipp Eisenhauer y Puneet Sahni
Tecnología y análisis
Harvard Business Review

#Doxa #problema #control #calidad #IA #Amazon #aprender #automatizó #creación #producto #tecnología #análisis #obstáculo #empresa #posibilidad #empresa #humana #herramienta #catálogo #sistema #control #experimento
Resumen. A pesar de todo el entusiasmo en torno a la IA generativa, hay un obstáculo que limita su adopción: la tendencia de la tecnología a inventar cosas, omitir cosas y crear tantas posibilidades que la gran mayoría de las empresas emplean revisiones humanas y herramientas de prueba independientes, pero estos métodos de control de calidad son costosos y solo pueden gestionar una fracción de la producción total de gen AI. Amazon ha desarrollado un enfoque más eficaz para su enorme catálogo de productos: un sistema basado en gen AI llamado Catalog AI, que puede detectar y bloquear automáticamente datos poco fiables, generar ideas para nuevas páginas de productos y comprobar su eficacia, y mejorarse a sí mismo con la retroalimentación de los controles de calidad y los experimentos. En este artículo, Stefan Thomke, de la Harvard Business School, y Philipp Eisenhauer y Puneet Sahni, de Amazon, describen el sistema de Amazon para realizar el control de calidad del contenido generado por IA a escala. Aunque Amazon considera que Catalog AI es un proyecto en desarrollo, los autores creen que está lo suficientemente avanzado como para que los directivos de otras organizaciones puedan beneficiarse de conocerlo ahora.
A pesar del entusiasmo generado por la IA generativa, existe un obstáculo que limita su adopción: la tendencia de esta tecnología a inventar, omitir y crear tantas posibilidades que es difícil determinar cuáles serán efectivas. Por ello, la gran mayoría de las empresas emplean revisiones humanas y herramientas o servicios de prueba independientes para abordar las deficiencias de la IA generativa. Sin embargo, ambos métodos de control de calidad son costosos y solo pueden procesar una fracción de la producción total de la IA generativa.

Amazon ha desarrollado un enfoque mejorado para su enorme catálogo de productos: un sistema generativo basado en IA, denominado Catalog AI, que detecta y bloquea datos poco fiables; genera ideas para nuevas páginas de productos y comprueba su eficacia; y se mejora automáticamente gracias a la retroalimentación de los controles de calidad y los experimentos. Puede crear y probar decenas de millones de hipótesis al año, frente a las miles que pueden generar la mayoría de los sistemas humanos.

Aunque muchas organizaciones tienen dificultades para obtener un retorno financiero de sus inversiones en IA, el proyecto Catalog AI de Amazon ya está generando un valor medible. Al momento de escribir este artículo, el 8% de sus sugerencias han tenido un impacto positivo en los ingresos por ventas. Uno de nosotros (Stefan) conoce otras empresas cuyos experimentos en línea han tenido tasas de éxito más altas (entre el 10% y el 20%). Sin embargo, estas empresas dependían de personas para generar hipótesis, y sus sistemas para probarlas no estaban tan automatizados, lo que significa que generaron y probaron muchas menos hipótesis que Amazon. Además, la capacidad del sistema de Amazon para mejorar automáticamente garantiza que su tasa de rendimiento aumentará con el tiempo. Si bien Amazon considera el sistema, lanzado en 2023, un proyecto en desarrollo, creemos que está lo suficientemente avanzado como para que los gerentes de otras organizaciones puedan beneficiarse al aprender cómo Amazon realiza el control de calidad del contenido generado por IA a gran escala.

Las deficiencias del enfoque tradicional
El catálogo en línea de Amazon contiene cientos de millones de productos que se venden a clientes de todo el mundo. Diariamente se añaden y editan millones de listados de productos. Los datos (imágenes, títulos, descripciones y recomendaciones) deben ser completos, precisos y atractivos para que los compradores puedan encontrar rápidamente los productos que buscan. Además, los compradores recurrentes esperan ver un diseño familiar con imágenes, títulos de productos, descripciones y botones de compra que se encuentren fácilmente y carguen rápidamente. Hay mucho en juego: cuando la información del producto está incompleta, es irrelevante o simplemente errónea, los clientes no completan las transacciones o devuelven productos que no cumplieron con sus expectativas. En cualquier caso, Amazon pierde dinero y la confianza de los clientes.

Para garantizar la calidad de los datos, Amazon tradicionalmente ha recurrido a la experiencia de miles de empleados especializados en la gestión de listados de productos. También operaba cientos de modelos de aprendizaje automático (ML), cada uno optimizado para una categoría de producto (como camisetas o televisores) y un componente de diseño (como títulos o descripciones de productos). Los especialistas trabajaban con los modelos para añadir o eliminar información, identificar imprecisiones, consolidarla, traducir texto a diferentes idiomas e incorporar datos de terceros. Estos modelos de ML tradicionales tienen limitaciones: son más adecuados para conjuntos de datos más pequeños y estructurados, y escalarlos entre categorías de productos resulta costoso. Un modelo de ML entrenado con, por ejemplo, camisetas, no puede utilizarse de forma rentable para televisores ni ningún otro producto que no sea una camiseta. Por el contrario, los modelos de lenguaje extenso (LLM) se entrenan con grandes conjuntos de datos y funcionan en todas las categorías de productos. Al sustituir los modelos de ML por LLM, Amazon simplificó su infraestructura tecnológica (menos modelos) y su organización (menos especialistas funcionales) y redujo costes.

Garantizar la fiabilidad del nuevo enfoque
Durante las primeras semanas tras el lanzamiento de Catalog AI, cerca del 80% de sus resultados no eran fiables. El sistema inventaba información, omitía información o daba consejos que no interesaban a los clientes. Por ejemplo, indicaba que una bomba eléctrica tenía 15 caballos de fuerza cuando esa información no estaba disponible. De igual manera, al preguntarle sobre el material de un sofá, el modelo proporcionaba información sobre el material de la estructura en lugar del de los asientos, que era lo que interesaba a la mayoría de los clientes. Para solucionar estos problemas de calidad y comprobar la eficacia de los posibles cambios, Amazon adoptó las siguientes cuatro medidas.

1. Realizar una auditoría
Para monitorear el progreso, una organización necesita conocer el rendimiento base de su sistema. En manufactura, esto se logra evaluando un proceso durante un período estable y utilizando esa información para determinar los límites de control. Amazon encargó al LLM la generación de miles de páginas de productos ya conocidas. Auditores humanos compararon las páginas del LLM con la información conocida, evaluaron su fiabilidad y analizaron las causas raíz de cualquier rendimiento deficiente. Esto condujo a una serie de mejoras rápidas, que describiremos a continuación.

2. Implementar barandillas
Una "alucinación" (un resultado falso o inexacto presentado como si fuera verdadero) suele ocurrir cuando un modelo llega a una conclusión que no se basa en los datos de entrada. Una forma de mejorar la fiabilidad y evitar las alucinaciones es restringir el LLM para que produzca resultados derivados únicamente de datos específicos del negocio, no de información general de la web ni de fuentes de datos ajenas al negocio. Sin embargo, existe una contrapartida: cuanta más libertad tenga el LLM para acceder a datos externos e internos, más ideas nuevas podrá explorar, modificar y probar el sistema. Por ejemplo, al extraer información de la web, el LLM podría sugerir que los platos de papel no son aptos para lavavajillas. Imponer demasiadas restricciones a las entradas de un LLM reduce su capacidad para realizar tales inferencias. Por esa razón, en lugar de limitar las entradas de su LLM, Amazon decidió instalar otros tres tipos de restricciones.

Reglas simples. Un enfoque para garantizar la fiabilidad es indicar al sistema que rechace el contenido que no cumple las reglas. Una regla podría ser que un número que describe el peso deba ir seguido de unidades, como kilogramos o libras. Amazon creó una regla que obliga a la IA del Catálogo a rechazar sugerencias que realicen cambios insignificantes en el anuncio actual (por ejemplo, cambiar el estilo del producto de "contemporáneo" a "moderno"). Unas reglas sencillas también determinan el diseño de la página para que los clientes tengan una experiencia consistente en todo el sitio.

Perfiles estadísticos. Las barreras de seguridad funcionan como los límites del control estadístico de procesos (CEP) en las fábricas. Cuando las variables del proceso exceden estos límites, se activa una alarma y se investiga la causa raíz del problema. Para crear estas barreras de seguridad para los modelos de IA generativa, las empresas pueden usar datos de los productos actuales para determinar si el resultado se encuentra dentro del rango esperado. Por ejemplo, un LLM podría generar información de producto sobre una mesa vendida por un proveedor externo. La información sobre las mesas típicas que se venden en la tienda en línea de Amazon se utiliza para generar las barreras de seguridad. Cuando la información del producto creada por el LLM excede los límites de control, otro LLM lo cuestiona. En algunos casos, el primer LLM puede reconocer sus propios errores cuando se le pide que explique el motivo de su información.

IA comprobando IA. Un ejemplo es lo que acabamos de describir. Sin embargo, no es posible tener reglas ni límites que cubran todos los resultados posibles de la IA. El segundo sistema de IA generativa puede gestionarlos. Amazon utiliza la IA generativa para identificar los problemas que esta generó. El primer LLM, el generador de contenido, está capacitado para generar hipótesis; el segundo, el revisor de contenido, está capacitado para verificar los resultados del primero. Están conectados y participan automáticamente en conversaciones basadas en sus diferentes conocimientos previos.

Por ejemplo, Amazon usa un LLM para detectar inconsistencias en las páginas de productos, como asegurar que el color del título del producto coincida con el color de la imagen. Si se identifica una discrepancia, los cambios en la información de un producto se bloquean automáticamente. El revisor de contenido puede hacerle preguntas al sistema de IA generativa, como "¿Por qué la nueva página de producto es mejor que la página existente?". Eso obliga al generador de contenido a analizar el resultado y posiblemente abandonar su sugerencia anterior. Para aumentar el rigor de las comprobaciones de fiabilidad, Catalog AI puede conectarse a LLM internos y externos que se entrenan con diferentes datos. Debido a que los LLM se entrenan con diferente información, encuentran diferentes problemas. Por ejemplo, si el LLM generador comete un error de razonamiento y calcula mal el volumen del producto, es probable que el LLM revisor, entrenado con un conjunto de datos diferente, detecte el error y pueda bloquearlo.

Una vez que una hipótesis de IA generativa ha pasado todos los controles de calidad, se envía a una plataforma de experimentación, donde se puede evaluar su eficacia: ¿el cambio propuesto aumentará los ingresos por ventas o las unidades vendidas?

3. Pruebe la eficacia
Las empresas necesitan encontrar formas eficientes de evaluar cuáles de las muchas ideas generadas por la IA generativa son efectivas. Anteriormente, los especialistas en catálogos de Amazon creaban reglas y algoritmos que aprobaban, diseñaban y mejoraban automáticamente los diseños de página que consideraban más efectivos. Ese enfoque tenía varias limitaciones: al crear dichas reglas y algoritmos, los especialistas incluyeron algunas suposiciones no probadas y utilizaron pruebas que no siempre eran rentables ni automatizadas. Además, la investigación de mercado tradicional (por ejemplo, grupos focales y encuestas) podía ser engañosa, ya que lo que los clientes decían no siempre coincidía con lo que hacían. Esto dificultaba enormemente predecir las preferencias de los clientes. Un ejecutivo de Booking.com le comentó a uno de nosotros (Stefan): «Vemos evidencia todos los días de que a la gente se le da fatal adivinar. Nuestras predicciones sobre el comportamiento de los clientes se equivocan nueve de cada diez veces».

Para comprender qué cambios impactan a los clientes, el equipo de Catalog AI integró pruebas A/B en el flujo de trabajo del sistema. Probar científicamente el altísimo volumen de resultados de la IA generativa requiere una infraestructura de experimentación: instrumentación (para registrar datos como clics, desplazamientos del ratón y tiempos de eventos), canales de datos y científicos de datos. Diversas herramientas y servicios de terceros facilitan la experimentación, pero para escalar, una empresa debe integrar esta capacidad en su flujo de trabajo. En Amazon, la infraestructura está completamente automatizada: todos los cambios propuestos por Catalog AI en las páginas de producto se someten a pruebas A/B.

Se ejecuta un experimento controlado que compara dos (o más) posibilidades: "A" (el control o campeón) es la lista de productos actual, y "B" (el retador) es una modificación de esa información generada por IA para un propósito específico; por ejemplo, mejorar las tasas de conversión de clientes. Los usuarios se asignan aleatoriamente a estas experiencias, y se calculan y comparan métricas compuestas. Las métricas deben estar alineadas con los objetivos estratégicos; las mejores métricas a corto plazo también predicen resultados a largo plazo. (Véase " El sorprendente poder de los experimentos en línea ", HBR, septiembre-octubre de 2017).

En un experimento reciente con un producto para el cuidado de la piel, Catalog AI generó una descripción para el competidor que se centraba en los beneficios clave; la descripción del campeón, en cambio, contenía una larga lista de características y sus beneficios. Mientras que el campeón profundizaba en los detalles de cómo las características producían beneficios como la desobstrucción de poros, la mejora de la textura de la piel y la reducción del enrojecimiento, la versión mucho más corta propuesta por la IA simplemente enumeraba los principales beneficios del producto: piel más suave e hidratada y reducción de arrugas. Esta versión más corta incrementó significativamente las ventas entre un grupo de clientes seleccionado aleatoriamente.
El sistema generativo basado en inteligencia artificial de Amazon puede crear y probar decenas de millones de hipótesis al año, frente a los miles que pueden crear la mayoría de los sistemas basados en humanos.
Otros experimentos revelaron que el LLM omitía algunos beneficios en los títulos de los productos. Por ejemplo, la eliminación de las palabras "piel radiante" por parte de IA del título del producto —cambiando "Gel de baño espumoso con manteca de mango para una piel radiante, 350 ml (paquete de 4)" por "Gel de baño espumoso con manteca de mango, 350 ml, paquete de 4"— tuvo un impacto negativo en las ventas.

En general, los experimentos han demostrado que aproximadamente el 40 % del contenido generado por IA que supera las pruebas de fiabilidad de Amazon mejora las métricas de rendimiento principales, como la conversión de compradores en ventas, o no tiene ningún impacto, ni positivo ni negativo. Sin embargo, el 60 % restante arroja resultados significativamente negativos. Este contenido no suele publicarse en el catálogo de la empresa.

4. Crear un sistema de aprendizaje
Un sistema de calidad ideal debería ser un sistema de aprendizaje que mejore continuamente con poca o ninguna intervención humana. El sistema de Amazon genera datos que mejoran el rendimiento de su LLM, haciéndolo más eficaz para cuestionar las suposiciones sobre lo que les gusta o no a los clientes. Sin embargo, los científicos de la compañía descubrieron que aún vale la pena involucrar ocasionalmente a los humanos para generar mejores datos de aprendizaje. Por ejemplo, las investigaciones humanas de experimentos negativos a veces encuentran y corrigen fallas en el LLM. En una investigación, un equipo descubrió que el LLM escribía erróneamente "sin garantía" como opción predeterminada cuando no se proporcionaba información. Sin embargo, a medida que Catalog AI mejora, la participación humana se limitará al diseño del sistema y a las decisiones de infraestructura. Estos son los componentes necesarios para construir un sistema de aprendizaje.

Modelo de cliente. Para acelerar la retroalimentación, las empresas pueden desarrollar una métrica compuesta que modele las preferencias de los clientes. Si bien, en sentido estricto, un modelo de cliente no es un requisito para construir un sistema de aprendizaje, este se ejecuta con mayor rapidez, siempre que sea preciso. Un modelo permite a una empresa obtener retroalimentación casi instantánea mediante experimentos virtuales. De forma similar a realizar simulaciones de accidentes automovilísticos en un ordenador en lugar de destruir prototipos físicos, las pruebas de los resultados de la IA pueden realizarse con mayor rapidez porque ya no se involucran clientes reales.

Diseñar una métrica que responda de la misma manera que un cliente típico requiere una reflexión minuciosa. La empresa debe determinar qué datos incluir y debe validarlos mediante numerosos experimentos con clientes. Catalog AI utiliza un modelo de cliente junto con pruebas en vivo: la métrica Calidad de Datos del Catálogo (CDQ). Esta incluye información de reglas, perfiles estadísticos y comprobaciones de fiabilidad. Con el tiempo, la CDQ sustituirá la mayoría de las pruebas con clientes reales, lo que acelerará el aprendizaje del sistema.

Experimentos multivariados. Junto con las pruebas A/B, el sistema de Amazon emplea experimentos multivariados: experimentos más elaborados que proporcionan una visión más profunda de cómo interactúan múltiples variables (por ejemplo, texto, color e imágenes) o determinan las mejores opciones de diseño. Los algoritmos de Amazon encuentran patrones y los investigan mediante experimentos multivariados en productos cuyas páginas web disfrutan de un alto nivel de tráfico de clientes y cuyo impacto en las métricas de rendimiento principales es estadísticamente significativo. Los experimentos que producen los resultados más significativos (aquellos que tienen más de un 1% de impacto positivo en algunas métricas principales y menos del 1% de impacto negativo en otras) son revisados por científicos de datos para detectar patrones y errores. Dado el volumen de tráfico de clientes y transacciones en el mercado de Amazon, incluso pequeños cambios en millones de listados de productos pueden traducirse en miles de millones de dólares en ingresos adicionales. Las empresas con mucho menos tráfico web tendrán diferentes umbrales para implementar un cambio que Amazon.
Aunque el objetivo es que Catalog AI se autoaprendizaje, ahora las personas contribuyen a su proceso de aprendizaje. Algunos experimentos aíslan los efectos y generan anécdotas que pueden compartirse entre el equipo que gestiona Catalog AI y los científicos de datos. Por ejemplo, el equipo de Títulos de Catalog AI puede pedir al LLM que genere títulos de productos con diferentes longitudes y contenido informativo.
  • Proteína vegetal en polvo Brand X, vainilla, 22 g de proteína, 20 porciones (75 caracteres)
  • Proteína vegetal en polvo Brand X, vainilla, 22 g de proteína, sin OGM, vegana, sin gluten, lácteos ni soja, 20 porciones (120 caracteres)
  • Proteína vegetal Brand X Vainilla 22 g de proteína, sin OGM, vegana, sin gluten, lácteos ni soja, sin sabores artificiales, colorantes sintéticos, conservantes ni aditivos, 20 porciones (180 caracteres).
Los experimentos determinan cuál de los tres títulos de producto es más eficaz y se utiliza para entrenar el LLM. Al generar mejores datos de entrenamiento en todas las categorías de productos, la calidad de los resultados de Catalog AI ha mejorado significativamente: ahora el 80 % de los resultados de Catalog AI superan las comprobaciones de calidad iniciales.

Pruebas de concepto. Cuando se lanzó Catalog AI, generó millones de cambios en los listados que debían probarse con los clientes. Idealmente, cada cambio se habría probado en un experimento independiente, pero muchos listados de productos no generan suficiente tráfico de clientes para alcanzar los tamaños de muestra críticos necesarios. (Para lograr la confianza estadística, cuanto menor sea el efecto esperado de un cambio, mayor será el número de observaciones necesarias para diferenciarlo del ruido de fondo).

Cuando el tráfico de clientes no es lo suficientemente robusto (menos de un millón de visualizaciones), la plataforma de experimentación prueba automáticamente el contenido generado por IA agrupando listados de productos similares en pruebas monoconceptuales para obtener información valiosa. Un algoritmo especial agrupa el contenido, a veces de miles de listados generados por IA, por categorías de producto. (Para los productos que reciben más de un millón de visualizaciones, se ejecuta un experimento independiente). Los lotes son lo más pequeños posible, cumpliendo con los requisitos de tamaño de muestra estadística. La IA genera miles de variantes para mejorar la descripción de, por ejemplo, cafeteras, que se combinan en un experimento monoconceptual. Los experimentos pueden cuestionar suposiciones sobre las preferencias de los clientes que nunca se han probado.

Por ejemplo, un experimento cuestionó una suposición sostenida durante mucho tiempo por especialistas, incorporada en los modelos de aprendizaje automático: que los compradores preferían un contraste marcado entre un fondo blanco y el producto mostrado. La prueba de concepto exploró cómo las imágenes mejoradas con IA impactarían la interacción con el cliente. Miles de páginas generadas con IA contenían sugerencias de fondos que mostraban productos en el entorno del comprador. Estas sugerencias se agruparon en una prueba de concepto, que contó con un grupo de control con fondo blanco y una modelo con una camiseta térmica negra. La imagen en prueba añadió un fondo enriquecido, colocando a la modelo con la camiseta en un entorno interior para ayudar a los clientes a visualizar el producto en su uso diario. El experimento reveló que añadir el fondo enriquecido aumentaba las ventas, y el cambio se implementó en cientos de productos básicos de moda.

Aumentar la eficacia de los proyectos de IA
Una vez implementados los sistemas de calidad, estos pueden hacer más que gestionar la calidad de los resultados generados por la IA; también pueden ayudar a dirigir recursos a los proyectos de IA en curso con el mayor retorno de la inversión (ROI). Normalmente, los grupos empresariales que llevan a cabo estas iniciativas presentan estimaciones demasiado optimistas de sus retornos financieros previstos, lo que, a su vez, determina la asignación de especialistas y recursos informáticos. (De hecho, el 41 % de los 2770 líderes empresariales de seis sectores encuestados por Deloitte en 2024 afirmaron que sus organizaciones tienen dificultades para definir y medir el impacto de sus iniciativas de IA generativa). Cuando, en cambio, el sistema de calidad evalúa la eficacia de los nuevos proyectos con los clientes, los líderes pueden basarse en pruebas contundentes para decidir la mejor manera de asignar recursos. También les permite revisar la asignación con mayor frecuencia en respuesta a las pruebas en curso.

Por ejemplo, un sistema de este tipo permite a una empresa aprender de los prototipos (para cuantificar el impacto del esfuerzo de un proyecto en subconjuntos de clientes) antes de avanzar con una implementación más amplia. Las mejoras en la IA de Catálogo suelen comenzar como prototipos, y en ocasiones compiten entre sí. Los equipos realizan experimentos y utilizan los resultados para promover recursos adicionales que permitan escalar sus prototipos, y los ganadores finalmente se implementan. El Proyecto Amelia de Amazon, su asistente de IA generativa para vendedores, se está poniendo gradualmente a disposición de más vendedores mientras se monitoriza el rendimiento del modelo y se incorporan las opiniones de los clientes.

La experimentación también puede ayudar a gestionar las compensaciones en la infraestructura de IA, como la que existe entre el rendimiento del modelo y el coste computacional. Aumentar el tamaño de los LLM puede ofrecer solo beneficios marginales, y su entrenamiento puede requerir mucho tiempo. Mediante experimentos, Amazon ha descubierto que algunos modelos más pequeños superan a los más grandes porque requieren menos recursos, pueden reentrenarse con mayor frecuencia y ofrecen tiempos de respuesta más rápidos a las consultas de los clientes. Otras empresas pueden realizar experimentos similares para decidir la mejor estrategia a seguir en cuestiones como desarrollar LLM internos o utilizar modelos de terceros.
...
Hace décadas, el profesor David Garvin de la Escuela de Negocios de Harvard escribió sobre la ventaja sostenible que los sistemas de calidad brindaban a las empresas (véase “ Calidad en la cuerda floja ”, HBR, septiembre-octubre de 1983). En su estudio sobre los fabricantes de aires acondicionados, descubrió que las tasas de fallos de los productos fabricados por los fabricantes de mayor calidad eran entre 500 y 1000 veces menores que las de los de menor calidad. Concluyó que lograr una alta calidad se reducía a contar con un sistema integral de control de calidad. La lección de Garvin sigue vigente en la era de la IA.

Lea más sobre Tecnología y análisis o temas relacionados IA y aprendizaje automático, IA generativa, Gestión de datos, Automatización, Gestión de la información y Gestión de la calidad.

Una versión de este artículo apareció en la  edición de septiembre-octubre de 2025  de Harvard Business Review.

Stefan Thomke es profesor de Administración de Empresas William Barclay Harding en la Escuela de Negocios de Harvard. Es una autoridad líder en la gestión de la experimentación y la innovación empresarial y ha colaborado con numerosas empresas globales en el desarrollo de productos, procesos y tecnología. Es autor de Experimentation Works: The Surprising Power of Business Experiments (HBR Press, 2020).

Philipp Eisenhauer es economista senior en Amazon.

Puneet Sahni es un ingeniero principal senior en Amazon.


No hay comentarios:

Publicar un comentario