Cómo las plataformas de colaboración de datos pueden ayudar a las empresas a desarrollar una mejor IA
Por José Parra Moyano, Karl Schmedders, y Alex "Sandy" Pentland
Tecnología y Análitica
Harvard Business Review
#Doxa #plataformas #colaboración #empresa #IA #tecnología #análitica
Resumen. Hay tres desafíos inmediatos para las empresas que desean entrenar modelos de IA perfeccionados: 1) requieren datos extensos y de alta calidad, un recurso escaso para muchas empresas, 2) los modelos de IA de terceros pueden incluir sesgos problemáticos y 3) entrenar modelos ajustados con los datos personales de los usuarios puede dar lugar a violaciones de la privacidad. Sin embargo, las plataformas de colaboración de datos pueden ayudar a abordar estos desafíos. Pueden proporcionar un espacio de capacitación para preservar la privacidad sobre datos abundantes y de alta calidad, garantizando el cumplimiento de las leyes de privacidad y liberando todo el potencial de los modelos optimizados.
Los modelos de lenguajes grandes (LLM) como GPT-4 han cautivado a los líderes empresariales con la promesa de una mejor toma de decisiones, operaciones optimizadas y nueva innovación. Empresas como Zendesk y Slack han comenzado a utilizar LLM para mejorar la atención al cliente, mejorar la satisfacción y reducir los costos. Mientras tanto, Goldman Sachs y GitHub están empleando una IA similar para ayudar a los desarrolladores a escribir código. Asimismo, la empresa Unilever está utilizando LLM para ayudarle a responder a los mensajes de los clientes, generar listas de productos e incluso minimizar el desperdicio de alimentos. Sin embargo, los LLM no ofrecen la solución plug-and-play que las empresas podrían estar esperando. Cuando se enfrentan al contexto único de una organización, a menudo su desempeño es inferior.
Para superar este desafío, los líderes empresariales han recurrido a LLM perfeccionados que luego se capacitan con datos específicos de la organización, lo que les permite dominar los matices y peculiaridades únicas de una organización. Equipados con un mayor contexto y adaptados a las necesidades de la organización, los modelos optimizados ofrecen una experiencia de IA poderosa y personalizada que eleva drásticamente el desempeño organizacional. BloombergGPT de Bloomberg, un modelo de IA construido sobre GPT-3 y ajustado con datos patentados de Bloomberg para automatizar tareas de contabilidad y auditoría, ejemplifica cómo los modelos ajustados ayudan a las empresas a obtener una ventaja estratégica al adaptar los modelos de IA con datos específicos de la industria.
Sin embargo, existen tres desafíos inmediatos para las empresas que desean entrenar modelos perfeccionados. En primer lugar, los modelos perfeccionados requieren datos extensos y de alta calidad, un recurso escaso para muchas empresas. En segundo lugar, los LLM se capacitan con datos disponibles públicamente en Internet y, por lo tanto, es posible que no tengan en cuenta los matices de comunidades o usuarios específicos, lo que da como resultado respuestas sesgadas y una falta de diversidad y pluralismo en el contenido generado. En tercer lugar, entrenar modelos ajustados con los datos personales de los usuarios puede dar lugar a violaciones de la privacidad, ya que los datos personales se recopilaron originalmente con un propósito diferente.
Afortunadamente, estos desafíos se pueden superar. Están surgiendo plataformas que brindan un espacio de capacitación para preservar la privacidad sobre datos abundantes y de alta calidad, garantizar el cumplimiento de las leyes de privacidad y liberar todo el potencial de los modelos optimizados. Estas plataformas seleccionan y almacenan datos de muchos agentes y, condicionalmente, pueden permitir que terceros obtengan nuevos conocimientos a partir de los datos personales que administran. La formación de modelos ajustados a partir de los datos puestos a disposición por dichas plataformas aumenta las posibilidades de descubrir conocimientos de diversas subcomunidades, lo que da como resultado una IA más diversa, pluralista y universal.
Los desafíos de los datos para perfeccionar la IA
Esto es lo que los líderes necesitan saber sobre esos tres desafíos que mencionamos:
En primer lugar, los modelos perfeccionados prosperan en conjuntos de datos amplios y diversos, pero muchas organizaciones no tienen datos suficientes para hacerlo lo suficientemente bien como para que su modelo pueda superar a una alternativa genérica. Esto puede ser especialmente cierto cuando se dirige a dominios especializados o altamente especializados. Y el problema se agrava cuando los datos disponibles no están estructurados o son de mala calidad, lo que dificulta extraer información significativa. El desafío no está solo en el volumen de datos sino también en garantizar su relevancia, precisión y representación de diversas perspectivas.
En segundo lugar, los modelos genéricos de IA reflejan principalmente la Internet en general y no tienen en cuenta de manera inherente los matices de las comunidades que, por razones como edad, género, orientación sexual, opiniones políticas, etc., no generan contenido en línea legible y accesible públicamente. Por lo tanto, los modelos genéricos de IA a menudo reflejan las narrativas y perspectivas dominantes presentes en Internet en general, marginando u omitiendo las experiencias y puntos de vista de comunidades específicas. Esto puede dar lugar a resultados sesgados, sesgados o culturalmente insensibles. El desafío para las organizaciones es enriquecer estos modelos con datos que representen con precisión el tejido diverso de la sociedad, asegurando que las respuestas de la IA sean inclusivas, equitativas y culturalmente conscientes. Más allá de las consecuencias éticas negativas de tener una IA que ignora a una parte de la sociedad, los líderes empresariales podrían pagar un alto precio por basar sus decisiones en modelos que no logran captar los matices de la realidad.
Finalmente, en el frente de la privacidad, el uso de datos personales para entrenar modelos perfeccionados sin consentimiento explícito puede revelar información privada y oculta sobre las personas cuyos datos se analizan, y esto puede entrar en conflicto con las regulaciones de privacidad. Por ejemplo, la Autoridad Italiana de Protección de Datos (Garante) prohibió temporalmente el uso de ChatGPT por haber utilizado los datos de las personas de formas que no habían aceptado. Las organizaciones deben actuar con cuidado, asegurándose de tener consentimiento explícito para el uso de datos y de que sus prácticas cumplan con los estándares de privacidad regionales e internacionales, y de que puedan mantener la confidencialidad e integridad de los datos durante todo su ciclo de vida, desde su recopilación hasta su procesamiento y almacenamiento.
Estos problemas, aislados o combinados, pueden (por decirlo suavemente) obstaculizar significativamente el valor de los modelos de IA.
Enviar el algoritmo a los datos, y no al revés
Para superar estos tres desafíos, los líderes empresariales pueden beneficiarse de las colaboraciones de datos. Las colaboraciones de datos son posibles gracias a plataformas que permiten a terceros obtener condicionalmente nuevos conocimientos a partir de datos personales, pero preservando la privacidad de aquellos cuyos datos se analizan. Dado que estas colaboraciones de datos implementan la noción de enviar el algoritmo a los datos (en lugar de enviar los datos al algoritmo), los datos personales nunca se extraen de la fuente original donde se almacenan, sino que se analizan dentro de ella.
Ejemplos de plataformas que permiten colaboraciones de datos incluyen Snowflake, Sherpa.ai, Tune Insight, TripleBlind, DSpark, Data Republic, Ocean Protocol, Gaia-X, Dawex, Enigma y Transformers, solo por nombrar algunas. Algunas de estas plataformas son empresas privadas (por ejemplo, Snowflake, Tune Insight, TripleBlind, DSpark, Data Republic, Dawex, Sherpa.ai) que ofrecen sus servicios mediante una tarifa. Los otros son sistemas de código abierto o asociaciones que ofrecen sistemas que pueden ser adoptados por una organización o un consorcio de organizaciones de forma cooperativa (ya sea mediante una tarifa o de forma gratuita). La proliferación de empresas que permiten colaboraciones de datos en diversas formas es una señal positiva para su adopción, ya que indica un reconocimiento creciente del valor y el potencial de los datos compartidos. Este desarrollo es beneficioso porque fomenta un entorno de colaboración e innovación, donde diversas entidades pueden tener suficiente variedad en los servicios ofrecidos por dichas plataformas para aprovechar los datos compartidos.
Estas plataformas de colaboración de datos pueden resolver la falta de datos para ajustar los modelos de IA. Por ejemplo, las empresas Sherpa.ai y TripleBlind brindan a las organizaciones el beneficio de compartir datos para el entrenamiento o ajuste del modelo de IA, pero sin la necesidad real de que las empresas compartan los datos. Esto permite a las organizaciones ajustar colectivamente modelos de IA que todas pueden usar, sin mover, compartir o almacenar datos sin procesar de otras organizaciones, lo que permite, por ejemplo, a hospitales y compañías farmacéuticas abordar la falta de datos y entrenar colectivamente algoritmos que sirvan. para un mejor diagnóstico y tratamiento.
Consideremos Gaia-X, una asociación establecida en Bruselas y financiada en parte por el gobierno alemán, que está construyendo una infraestructura de datos federada que permite a los propietarios de datos (licenciantes) otorgar derechos específicos y revocables a las organizaciones para usar sus datos para el entrenamiento de modelos.. Un proyecto lanzado por el Instituto Alemán de Sistemas de Transporte ejemplifica los beneficios que aportan las colaboraciones de datos al entrenamiento colectivo de modelos de IA, en este caso, para conducir y guiar automóviles autónomos y conectados. Utilizando la infraestructura Gaia-X, los automóviles pueden, en tiempo real, enviar datos sobre anomalías encontradas en la carretera (como obstáculos temporales, sitios de construcción, etc.) a la plataforma que permite la colaboración de datos. Gracias a esos datos actualizados (que dan como resultado una anotación mejorada de los mapas), el modelo central de IA puede optimizar la conducción de todos los demás coches, evitando obstáculos, ahorrando tiempo y, a su vez, mejorando la experiencia de los conductores. Empresas como Palantir, BMW, Bosch, Deutsche Telekom, SAP, Orange y Siemens están trabajando con Gaia-X.
En contextos B2B donde las limitaciones regulatorias o de privacidad significan que las empresas no pueden entrenar modelos de IA con datos reales de los clientes (por ejemplo, a las empresas de ciberseguridad no se les concede acceso para ver los datos de sus clientes para entrenar algoritmos para luchar contra los ciberataques), estos intercambios pueden permitirles entrenar. modelos con datos reales del cliente, sin necesidad de acceder a estos datos. Este es uno de los casos de uso de Sherpa.ai, una plataforma lanzada por la empresa española del mismo nombre, que permite a las empresas desarrollar modelos de IA más robustos manteniendo la privacidad y la seguridad.
Las colaboraciones de datos también ofrecen nuevas formas de colaborar dentro y más allá de la propia industria de una organización. Un ejemplo de esto es Dawex, que permite a los clubes deportivos (como tenis, baloncesto y otros deportes) que ya están generando y almacenando datos para su análisis aprovechar colectivamente sus datos para utilizar análisis para construir nuevas asociaciones de datos, para mejorar los fanáticos. ' y la experiencia de los consumidores, para construir asociaciones de datos con otras industrias como las de seguros y el turismo, o para mejorar la gestión interna del equipo y la salud de los jugadores.
Finalmente, considere Transformers, una iniciativa lanzada por la alianza MIT Connection Science, cuyo objetivo es permitir que las comunidades agreguen datos locales de forma segura y privada, permitiendo que los modelos de IA ofrezcan respuestas contextualmente relevantes adaptadas a los requisitos específicos de la comunidad pero sin revelar aspectos privados de eso. comunidad. Transformers ha sido concebido especialmente para abordar las limitaciones de los LLM que surgen de su dependencia de datos públicos históricos y la falta de contextualización segura y, por lo tanto, representa el primer intento específico de adaptar los LLM a las necesidades específicas de comunidades sensibles.
Transformers utiliza una combinación de transformaciones de privacidad convencionales, entornos de ejecución confiables, custodia de datos y opciones de privacidad basadas en el consentimiento para facilitar la actualización continua de los datos de la comunidad dentro de modelos de IA alojados de forma privada, lo que lleva a una herramienta de preguntas y respuestas personalizada que refleja los valores de la comunidad y las situaciones individuales. Este método no solo mejora la utilidad de los modelos de IA, sino que también protege la información personal y comunitaria sensible, abordando así las limitaciones de los modelos de IA que surgen de su dependencia de datos públicos históricos y la ausencia de una contextualización segura.
Próximos pasos para los líderes empresariales
Al adoptar colaboraciones de datos, los líderes empresariales pueden acceder de forma segura a datos de alta calidad, evitar problemas legales, obtener una visión diversa, pluralista y, por lo tanto, más amplia del mundo, liberando todo el potencial de los modelos optimizados.
Por lo tanto, los líderes empresariales deberían considerar estos pasos cuando se trata del uso de IA generativa para cumplir el propósito de sus respectivas organizaciones:
1. Reconocer las limitaciones de los modelos genéricos de IA.
Reconocer las limitaciones de los modelos genéricos de IA es crucial para los líderes empresariales. Las herramientas disponibles en el mercado, aunque avanzadas, a menudo carecen de una comprensión especializada del contexto, la cultura y los matices operativos de una empresa específica, lo que puede provocar un rendimiento deficiente en las aplicaciones del mundo real. La personalización es clave para alinear estas herramientas con el entorno y los requisitos únicos de una organización. Adaptar los modelos de IA para reflejar el lenguaje, los procesos y las interacciones con los clientes específicos de una empresa puede mejorar significativamente su relevancia y eficacia, garantizando que las soluciones de IA entreguen valor e impulsen resultados significativos.
2. Priorizar la calidad y diversidad de los datos.
Los conjuntos de datos diversos y de alta calidad son esenciales para entrenar modelos de IA. Permiten que los modelos brinden respuestas más precisas, imparciales y culturalmente sensibles, reflejando la verdadera diversidad de los clientes y sus preferencias. Aprovechar las colaboraciones de datos para garantizar una diversidad de datos que dé como resultado una IA que sirva por igual a todos aquellos que se verán afectados por esa IA puede mejorar significativamente el rendimiento del modelo. En ese sentido, un proyecto como Transformers, que permite una herramienta de preguntas y respuestas personalizada y que preserva la privacidad y que refleja los valores de la comunidad y las situaciones individuales, puede ser fundamental para garantizar la diversidad de los datos.
3. Atrévete a explorar nuevas colaboraciones con clientes, socios e incluso competidores.
Dadas las posibilidades que ofrecen las colaboraciones de datos, los líderes empresariales pueden beneficiarse si adoptan la colaboración, no sólo con socios (como lo hace TripleBlind) o con clientes (como lo hace Sherpa.ai), sino incluso con competidores (como en el caso de Dawex). Las organizaciones de la misma industria pueden colaborar para abordar los desafíos que sufre toda la industria; Al aunar recursos y conocimientos, las empresas pueden mejorar colectivamente los modelos de IA, generando innovaciones y eficiencias que tal vez no se puedan lograr de forma independiente. Esta estrategia puede desbloquear nuevas oportunidades de crecimiento y resolución de problemas, ofreciendo reducciones de costos y ganancias de eficiencia en un panorama empresarial cada vez más basado en datos.
4. Recuerda que los datos son perecederos.
Dado que los datos son solo un reflejo de la realidad, y la realidad puede cambiar rápidamente, es importante ajustar los modelos de IA con los datos más recientes que reflejen el estado actual del mundo. Como en el caso Gaia-X, donde los coches autónomos pueden informar cambios u obstáculos en la carretera, los líderes empresariales deberían intentar encontrar fuentes de datos que reflejen el último estado del problema que la IA necesita resolver (ya sea la transitabilidad de las carreteras)., preferencias de los clientes, valores de vida del cliente o cualquier otra variable de ese tipo). Siempre que esos datos existan fuera de los límites de la organización, las colaboraciones de datos ofrecen una manera.
...
Los líderes empresariales que consideren estos pasos estarán en mejor posición para desarrollar herramientas útiles de IA que capturen la diversidad de la sociedad y así lograr la excelencia empresarial de una manera responsable y exitosa.
Lea más sobre Tecnología y análisis o temas relacionados IA y aprendizaje automático y Ciberseguridad y privacidad digital
José Parra-Moyano es profesor de Estrategia Digital en el Instituto Internacional para el Desarrollo Gerencial (IMD Business School) en Suiza. Su investigación se centra en la gestión y la economía de los datos y la privacidad, con especial atención en cómo las organizaciones pueden utilizar técnicas de análisis de datos e inteligencia artificial para aumentar su competitividad. Es un docente galardonado cuyas investigaciones han sido publicadas en revistas académicas de primer nivel.
Karl Schmedders es profesor de Finanzas en el Instituto Internacional para el Desarrollo Gerencial (IMD Business School) en Suiza, donde enseña e investiga sobre temas relevantes de estrategia, finanzas, toma de decisiones y teoría de juegos. Tiene un doctorado. en Investigación de Operaciones de la Universidad de Stanford. Su investigación se centra en métodos cuantitativos en economía y finanzas. Ha publicado numerosos artículos de investigación en revistas académicas internacionales de primer nivel.
Alex (Sandy) Pentland es profesor Toshiba de Artes y Ciencias de los Medios en el Media Lab, la Sloan School of Management y la Facultad de Computación del MIT. Sandy dirige los laboratorios de investigación Connection Science y Human Dynamics del MIT, asesora a la OCDE, la ONU y, anteriormente, a AT&T, Google y la American Bar Association, y codirigió las iniciativas de datos personales del Foro Económico Mundial.
No hay comentarios:
Publicar un comentario