Doxa 1551

Cómo la IA generativa está cambiando el trabajo creativo.

Pronto puede ser una práctica estándar para las herramientas de IA, como GPT-3 y DALL-E, proporcionar los primeros borradores de correos electrónicos, artículos, informes, publicaciones de blog, presentaciones, videos y más.

Por homas H. Davenport y Nitin Mittal
IA
Harvard Business Review

#Doxa #IA #trabajo #creativo #práctica #herramientas #GTP-3 #DALL-E #correo #empresa #marketing #software #comunicación #modelo #blog #software
Resumen. Los modelos generativos de IA para las empresas amenazan con revolucionar el mundo de la creación de contenido, con impactos sustanciales en el marketing, el software, el diseño, el entretenimiento y las comunicaciones interpersonales. Estos modelos pueden producir texto e imágenes: publicaciones de blog, código de programa, poesía y obras de arte. El software utiliza modelos complejos de aprendizaje automático para predecir la siguiente palabra en función de secuencias de palabras anteriores, o la siguiente imagen en función de palabras que describen imágenes anteriores. Las empresas deben comprender cómo funcionan estas herramientas y cómo pueden agregar valor.
Los modelos de IA de gran lenguaje e imagen, a veces llamados IA generativa o modelos básicos, han creado un nuevo conjunto de oportunidades para las empresas y los profesionales que realizan la creación de contenido. Algunas de estas oportunidades incluyen:
  1. Generación automatizada de contenido: los modelos de IA de imágenes y lenguajes grandes se pueden usar para generar contenido automáticamente, como artículos, publicaciones de blog o publicaciones en redes sociales. Esta puede ser una valiosa herramienta de ahorro de tiempo para empresas y profesionales que crean contenido de forma regular.
  2. Calidad de contenido mejorada: el contenido generado por IA puede ser de mayor calidad que el contenido creado por humanos, debido al hecho de que los modelos de IA pueden aprender de una gran cantidad de datos e identificar patrones que los humanos no pueden ver. Esto puede dar como resultado un contenido más preciso e informativo.
  3. Mayor variedad de contenido: los modelos de IA pueden generar una variedad de tipos de contenido, incluidos texto, imágenes y video. Esto puede ayudar a las empresas y profesionales a crear contenido más diverso e interesante que atraiga a una gama más amplia de personas.
  4. Contenido personalizado: los modelos de IA pueden generar contenido personalizado en función de las preferencias de los usuarios individuales. Esto puede ayudar a las empresas y profesionales a crear contenido que tenga más probabilidades de ser de interés para su público objetivo y, por lo tanto, más probabilidades de ser leído o compartido.
¿Qué tan hábil es esta tecnología para imitar los esfuerzos humanos en el trabajo creativo? Bueno, por ejemplo, el texto en cursiva anterior fue escrito por GPT-3, un "modelo de lenguaje grande" (LLM) creado por OpenAI, en respuesta a la primera oración que escribimos. El texto de GPT-3 refleja las fortalezas y debilidades de la mayoría del contenido generado por IA. En primer lugar, es sensible a las indicaciones que recibe; probamos varias indicaciones alternativas antes de decidirnos por esa oración. Segundo, el sistema escribe razonablemente bien; no hay errores gramaticales y la elección de palabras es adecuada. Tercero, se beneficiaría de la edición; normalmente no comenzaríamos un artículo como este con una lista numerada, por ejemplo. Finalmente, se le ocurrieron ideas en las que no habíamos pensado. El último punto sobre el contenido personalizado, por ejemplo, no lo habríamos considerado.

En general, proporciona una buena ilustración del valor potencial de estos modelos de IA para las empresas. Amenazan con revolucionar el mundo de la creación de contenido, con impactos sustanciales en el marketing, el software, el diseño, el entretenimiento y las comunicaciones interpersonales. Esta no es la "inteligencia general artificial" con la que los humanos han soñado y temido durante mucho tiempo, pero puede parecer así para los observadores casuales.

¿Qué es la IA generativa?

La IA generativa ya puede hacer mucho. Es capaz de producir texto e imágenes, que abarcan publicaciones de blog, código de programa, poesía y obras de arte (e incluso ganar concursos, de manera controvertida).). El software utiliza modelos complejos de aprendizaje automático para predecir la siguiente palabra en función de secuencias de palabras anteriores, o la siguiente imagen en función de palabras que describen imágenes anteriores. Los LLM comenzaron en Google Brain en 2017, donde inicialmente se usaron para traducir palabras conservando el contexto. Desde entonces, los modelos de texto a imagen y lenguaje extenso han proliferado en empresas tecnológicas líderes como Google (BERT y LaMDA), Facebook (OPT-175B, BlenderBot) y OpenAI, una organización sin fines de lucro en la que Microsoft es el inversor dominante (GPT- 3 para texto, DALL-E2 para imágenes y Whisper para voz). Comunidades en línea como Midjourney (que ayudó a ganar el concurso de arte) y proveedores de código abierto como HuggingFace también han creado modelos generativos.

Estos modelos se han limitado en gran medida a las principales empresas tecnológicas porque entrenarlos requiere cantidades masivas de datos y potencia informática. GPT-3, por ejemplo, se entrenó inicialmente en 45 terabytes de datos y emplea 175 mil millones de parámetros o coeficientes para hacer sus predicciones; una sola carrera de entrenamiento para GPT-3 costó $ 12 millones. Wu Dao 2.0, un modelo chino, tiene 1,75 billones de parámetros. La mayoría de las empresas no tienen las capacidades del centro de datos o los presupuestos de computación en la nube para entrenar sus propios modelos de este tipo desde cero.

Pero una vez que se entrena un modelo generativo, se puede "afinar" para un dominio de contenido particular con muchos menos datos. Esto ha llevado a modelos especializados de BERT, para contenido biomédico ( BioBERT ), contenido legal ( Legal-BERT ) y texto en francés ( CamemBERT ), y GPT-3 para una amplia variedad de propósitos específicos. BioNeMo de NVIDIA es un marco para entrenar, construir e implementar grandes modelos de lenguaje a escala de supercomputación para química generativa, proteómica y ADN/ARN. OpenAI descubrió que tan solo 100 ejemplos específicos de datos específicos del dominio pueden mejorar sustancialmente la precisión y la relevancia. de las salidas de GPT-3.

Para usar la IA generativa de manera efectiva, aún necesita la participación humana tanto al principio como al final del proceso.

Para empezar, un humano debe ingresar un aviso en un modelo generativo para que cree contenido. En términos generales, las indicaciones creativas producen resultados creativos. Es probable que el "ingeniero rápido" se convierta en una profesión establecida, al menos hasta que surja la próxima generación de IA aún más inteligente. El campo ya ha dado lugar a un libro de 82 páginas de avisos de imagen DALL-E 2 y un mercado de avisos en el que por una pequeña tarifa uno puede comprar avisos de otros usuarios. La mayoría de los usuarios de estos sistemas deberán probar varias indicaciones diferentes antes de lograr el resultado deseado.

Luego, una vez que un modelo genera contenido, deberá ser evaluado y editado cuidadosamente por un ser humano. Las salidas de solicitud alternativas se pueden combinar en un solo documento. La generación de imágenes puede requerir una manipulación sustancial. Jason Allen, quien ganó el concurso de “fotografía manipulada digitalmente” de Colorado con la ayuda de Midjourney, le dijo a un reportero que pasó más de 80 horas creando más de 900 versiones del arte y afinando sus sugerencias una y otra vez. Luego mejoró el resultado con Adobe Photoshop, aumentó la calidad y la nitidez de la imagen con otra herramienta de inteligencia artificial e imprimió tres piezas en lienzo.

Los modelos de IA generativa son increíblemente diversos. Pueden aceptar contenido como imágenes, formatos de texto más largos, correos electrónicos, contenido de redes sociales, grabaciones de voz, código de programa y datos estructurados. Pueden generar contenido nuevo, traducciones, respuestas a preguntas, análisis de sentimientos, resúmenes e incluso videos. Estas máquinas de contenido universal tienen muchas aplicaciones potenciales en los negocios, varias de las cuales describimos a continuación.

Aplicaciones de marketing

Estos modelos generativos son potencialmente valiosos en una serie de funciones comerciales, pero las aplicaciones de marketing son quizás las más comunes. Jasper, por ejemplo, una versión de GPT-3 centrada en el marketing, puede producir blogs, publicaciones en redes sociales, copia web, correos electrónicos de ventas, anuncios y otros tipos de contenido orientado al cliente. Sostiene que prueba con frecuencia sus resultados con pruebas A/B y que su contenido está optimizado para la ubicación en los motores de búsqueda. Jasper también ajusta los modelos GPT-3 con los mejores resultados de sus clientes, lo que según los ejecutivos de Jasper ha llevado a mejoras sustanciales. La mayoría de los clientes de Jasper son particulares y pequeñas empresas, pero algunos grupos dentro de empresas más grandes también hacen uso de sus capacidades. En la empresa de computación en la nube VMWare, por ejemplo, los escritores usan Jasper cuando generan contenido original para marketing, desde correos electrónicos hasta campañas de productos y copias en redes sociales. Rosa Lear, directora de crecimiento impulsado por productos, dijo que Jasper ayudó a la compañía a mejorar nuestra estrategia de contenido y que los escritores ahora tienen tiempo para hacer una mejor investigación, ideación y estrategia.

Kris Ruby, propietario de la agencia de relaciones públicas y redes sociales Ruby Media Group, ahora utiliza la generación de texto e imágenes a partir de modelos generativos. Ella dice que son efectivos para maximizar la optimización de motores de búsqueda (SEO) y en relaciones públicas, para presentaciones personalizadas a escritores. Ella cree que estas nuevas herramientas abren una nueva frontera en los desafíos de los derechos de autor y ayuda a crear políticas de IA para sus clientes. Cuando usa las herramientas, dice: "La IA es el 10 %, yo soy el 90 %" porque hay muchas indicaciones, edición e iteración involucradas. Ella siente que estas herramientas hacen que la escritura sea mejor y más completa para el descubrimiento del motor de búsqueda, y que las herramientas de generación de imágenes pueden reemplazar el mercado de fotos de archivo y conducir a un renacimiento del trabajo creativo.

DALL-E 2 y otras herramientas de generación de imágenes ya se están utilizando para publicidad. Heinz, por ejemplo, usó una imagen de una botella de ketchup con una etiqueta similar a la de Heinz para argumentar que "Así es como se ve 'ketchup' para la IA". Por supuesto, solo significaba que el modelo fue entrenado en una cantidad relativamente grande de fotos de botellas de ketchup de Heinz. Nestlé usó una versión mejorada con IA de una pintura de Vermeer para ayudar a vender una de sus marcas de yogur. Stitch Fix, la empresa de ropa que ya usa IA para recomendar ropa específica a los clientes, está experimentando con DALL-E 2 para crear visualizaciones de ropa basadas en las preferencias de color, tela y estilo solicitadas por el cliente. Mattelestá utilizando la tecnología para generar imágenes para el diseño y marketing de juguetes.

Aplicaciones de generación de código

GPT-3 en particular también ha demostrado ser un generador efectivo, si no perfecto, de código de programa de computadora. Dada una descripción de un "fragmento" o función de programa pequeño, el programa Codex de GPT-3, específicamente capacitado para la generación de código, puede producir código en una variedad de lenguajes diferentes. Github de Microsoft también tiene una versión de GPT-3 para la generación de código llamada CoPilot. Las versiones más recientes de Codex ahora pueden identificar errores y corregir errores en su propio código, e incluso explicar lo que hace el código, al menos algunas veces. El objetivo expreso de Microsoft no es eliminar a los programadores humanos, sino hacer que herramientas como Codex o CoPilot “participen programadores” con humanos para mejorar su velocidad y eficacia.

El consenso sobre la generación de código basada en LLM es que funciona bien para dichos fragmentos, aunque la integración de ellos en un programa más grande y la integración del programa en un entorno técnico particular aún requieren capacidades de programación humana. Deloitte ha experimentado extensamente con Codex durante los últimos meses y ha descubierto que aumenta la productividad para los desarrolladores experimentados y crea algunas capacidades de programación para aquellos sin experiencia.

En una prueba piloto de seis semanas en Deloitte con 55 desarrolladores durante 6 semanas, la mayoría de los usuarios calificaron la precisión del código resultante en un 65 % o más, y la mayoría del código provino de Codex. En general, el experimento de Deloitte encontró una mejora del 20 % en la velocidad de desarrollo de código para proyectos relevantes. Deloitte también ha utilizado Codex para traducir código de un idioma a otro. La conclusión de la empresa fue que aún necesitaría desarrolladores profesionales en el futuro previsible, pero el aumento de la productividad podría requerir menos de ellos. Al igual que con otros tipos de herramientas de IA generativa, encontraron que cuanto mejor era el indicador, mejor era el código de salida.

Aplicaciones conversacionales

Los LLM se utilizan cada vez más en el núcleo de la IA conversacional o los chatbots. Ofrecen potencialmente mayores niveles de comprensión de la conversación y conciencia del contexto que las tecnologías conversacionales actuales. BlenderBot de Facebook, por ejemplo, que fue diseñado para el diálogo, puede mantener largas conversaciones con humanos mientras mantiene el contexto. El BERT de Google se utiliza para comprender las consultas de búsqueda y también es un componente del motor de chatbot DialogFlow de la empresa. LaMBA de Google, otro LLM, también fue diseñado para el diálogo, y las conversaciones con él convencieron a uno de los ingenieros de la compañía de que era un ser consciente, una hazaña impresionante, dado que simplemente predice las palabras utilizadas en una conversación basada en conversaciones pasadas.

Ninguno de estos LLM es un conversador perfecto. Están capacitados en contenido humano pasado y tienen una tendencia a replicar cualquier lenguaje racista, sexista o sesgado al que estuvieron expuestos en el entrenamiento. Aunque las empresas que crearon estos sistemas están trabajando para filtrar el discurso de odio, aún no han tenido un éxito total.

Aplicaciones de gestión del conocimiento

Una aplicación emergente de los LLM es emplearlos como un medio para administrar el conocimiento basado en texto (o potencialmente basado en imágenes o videos) dentro de una organización. La intensidad de mano de obra involucrada en la creación de bases de conocimiento estructuradas ha dificultado la gestión del conocimiento a gran escala para muchas empresas grandes. Sin embargo, algunas investigaciones han sugerido que los LLM pueden ser efectivos en la gestión del conocimiento de una organización cuando la capacitación del modelo se ajusta a un cuerpo específico de conocimiento basado en texto dentro de la organización. Se puede acceder al conocimiento dentro de un LLM mediante preguntas emitidas como indicaciones.

Algunas empresas están explorando la idea de la gestión del conocimiento basada en LLM junto con los principales proveedores de LLM comerciales. Morgan Stanley, por ejemplo, está trabajando con GPT-3 de OpenAI para afinar la capacitación en contenido de gestión de patrimonio, de modo que los asesores financieros puedan buscar el conocimiento existente dentro de la empresa y crear fácilmente contenido personalizado para los clientes. Parece probable que los usuarios de dichos sistemas necesiten capacitación o asistencia para crear avisos efectivos, y que los resultados de conocimiento de los LLM aún necesiten edición o revisión antes de ser aplicados. Sin embargo, suponiendo que se aborden estos problemas, los LLM podrían reavivar el campo de la gestión del conocimiento y permitir que se escale de manera mucho más efectiva.

Deepfakes y otras preocupaciones legales/éticas

Ya hemos visto que estos sistemas generativos de IA conducen rápidamente a una serie de problemas legales y éticos. Los "deepfakes", o imágenes y videos que son creados por IA y pretenden ser realistas pero no lo son, ya han surgido en los medios, el entretenimiento y la política. Sin embargo, hasta ahora, la creación de deepfakes requería una cantidad considerable de habilidades informáticas. Ahora, sin embargo, casi cualquiera podrá crearlos. OpenAI ha intentado controlar las imágenes falsas mediante la "marca de agua" de cada imagen DALL-E 2 con un símbolo distintivo. Sin embargo, es probable que se requieran más controles en el futuro, particularmente a medida que la creación de videos generativos se generalice.

La IA generativa también plantea numerosas preguntas sobre qué constituye contenido original y propietario. Dado que el texto y las imágenes creados no son exactamente como cualquier contenido anterior, los proveedores de estos sistemas argumentan que pertenecen a sus creadores puntuales. Pero son claramente derivados del texto y las imágenes anteriores utilizados para entrenar a los modelos. No hace falta decir que estas tecnologías proporcionarán un trabajo sustancial para los abogados de propiedad intelectual en los próximos años.

A partir de estos pocos ejemplos de aplicaciones comerciales, debe quedar claro que ahora solo estamos rascando la superficie de lo que la IA generativa puede hacer por las organizaciones y las personas dentro de ellas. Es posible que pronto sea una práctica estándar, por ejemplo, que dichos sistemas elaboren la mayor parte o la totalidad de nuestro contenido escrito o basado en imágenes, para proporcionar primeros borradores de correos electrónicos, cartas, artículos, programas de computadora, informes, publicaciones de blog, presentaciones, videos, Etcétera. No hay duda de que el desarrollo de tales capacidades tendría implicaciones dramáticas e imprevistas para la propiedad del contenido y la protección de la propiedad intelectual, pero también es probable que revolucionen el conocimiento y el trabajo creativo. Suponiendo que estos modelos de IA continúen progresando como lo han hecho en el poco tiempo que han existido,

Thomas H. Davenport es el distinguido profesor de gestión y tecnología de la información del presidente en Babson College, profesor invitado en la Saïd School of Business de Oxford, investigador en la Iniciativa del MIT sobre la economía digital y asesor principal de la práctica de inteligencia artificial de Deloitte.

Nitin Mittal es director de Deloitte Consulting LLP. Actualmente se desempeña como líder de consultoría de oferta de crecimiento estratégico de inteligencia artificial (IA) de EE. UU. Se especializa en asesorar a los clientes para lograr una ventaja competitiva a través de datos y transformaciones cognitivas que promuevan la inteligencia amplificada y permitan a nuestros clientes tomar decisiones estratégicas y transformarse antes de la disrupción.


No hay comentarios:

Publicar un comentario