Por qué la IA no estuvo a la altura de su potencial durante la pandemia.
Los conjuntos de datos incorrectos, el sesgo incrustado, el error humano y un contexto global complejo hicieron que se quedara corto en los momentos críticos.
Por Bhaskar Chakravorti
Analítica y ciencia de datos
Harvard Business Review
#doxa #pandemia #datos #error #IA #sesgo #discriminación #equipo #sistemas #tecnología #análisis #aprendizaje #automático #Covid
Resumen. La pandemia podría haber sido el momento en que la IA cumplió con su prometedor potencial. Hubo una convergencia sin precedentes de la necesidad de decisiones rápidas basadas en evidencia y resolución de problemas a gran escala con conjuntos de datos que se extendieron desde todos los países del mundo. En cambio, la IA falló en innumerables formas específicas que subrayan dónde esta tecnología aún es débil: conjuntos de datos incorrectos, sesgo y discriminación integrados, susceptibilidad al error humano y un contexto global complejo y desigual, todos causaron fallas críticas. Pero estos fracasos también ofrecen lecciones sobre cómo podemos mejorar la IA: 1) necesitamos encontrar nuevas formas de ensamblar conjuntos de datos completos y fusionar datos de múltiples fuentes, 2) debe haber más diversidad en las fuentes de datos, 3) los incentivos deben estar alineados para garantizar una mayor cooperación entre equipos y sistemas, y 4) necesitamos reglas internacionales para compartir datos.
La pandemia de Covid-19 fue el momento perfecto para que la IA, literalmente, salvara el mundo. Hubo una convergencia sin precedentes de la necesidad de decisiones rápidas basadas en evidencia y resolución de problemas a gran escala con conjuntos de datos que se extendieron desde todos los países del mundo. Para los sistemas de atención médica que enfrentan una enfermedad nueva y de rápida propagación, la IA era, en teoría, la herramienta ideal. La IA podría implementarse para hacer predicciones, mejorar la eficiencia y liberar personal a través de la automatización; podría ayudar a procesar rápidamente grandes cantidades de información y tomar decisiones que salvan vidas.
O, al menos esa era la idea. Pero lo que realmente sucedió es que la IA falló en su mayoría.
Hubo éxitos dispersos, sin duda. Adopción de automatización recogida en almacenes minoristas y aeropuertos; los chatbots se hicieron cargo del servicio al cliente cuando los trabajadores estaban encerrados; Las decisiones asistidas por IA ayudaron a reducir las selecciones de sitios para los ensayos de vacunas o ayudaron a acelerar los cruces fronterizos en Grecia.
Sin embargo, en general, en el diagnóstico de Covid, la predicción de su curso a través de una población y la gestión de la atención de las personas con síntomas, las herramientas de decisión basadas en IA no cumplieron. Ahora que se ha resuelto parte de la confusión de los primeros días de la pandemia, es hora de reflexionar sobre cómo se desempeñó la IA en su propia "prueba de covid". Si bien esta fue una oportunidad perdida, la experiencia proporciona pistas sobre cómo deben evolucionar los sistemas de IA para cumplir con las elevadas expectativas de lo que fue la tecnología más comentada del año pasado.
Donde falló la IA
Al principio, las cosas parecían prometedoras. Las máquinas vencen a los humanos al generar la alerta temprana sobre un nuevo y misterioso virus procedente de Wuhan, China. El sistema HealthMap del Boston Children's Hospital, que rastrea las noticias en línea y las redes sociales en busca de señales tempranas de enfermedades, junto con un rastreador de noticias de salud canadiense, BlueDot, detectó señales de advertencia. El algoritmo de BlueDot incluso predijo las ciudades con mayor riesgo si las personas infectadas viajaran, todos los días antes de que la OMS y semanas antes de que el resto del mundo se pusiera al día.
Cuando el mundo entró oficialmente en confinamiento en 2020, quedó claro que la contribución revolucionaria de la IA estaría en la predicción rápida: diagnóstico, pronóstico y previsión de la propagación de una enfermedad desconocida emergente, sin una manera fácil de probarla en el momento oportuno. manera.
Numerosos equipos habilitados para IA se movilizaron para aprovechar la oportunidad. En el hospital Mount Sinai de Nueva York, por ejemplo, un equipo diseñó un sistema de inteligencia artificial para diagnosticar rápidamente el covid-19 utilizando algoritmos entrenados en datos de tomografías computarizadas de pulmón de China. Otro grupo del MIT creó un diagnóstico usando algoritmos entrenados en sonidos de tos. Un tercer equipo, una colaboración entre la NYU y China, utilizó herramientas de inteligencia artificial para predecir qué pacientes con covid-19 desarrollarían una enfermedad respiratoria grave. Habíamos escuchado durante años sobre el potencial transformador de la IA y, de repente, surgió la oportunidad de verlo en acción.
Entonces, ¿cómo funcionaron estos predictores de covid impulsados por IA? Dicho sin rodeos, aterrizaron con un ruido sordo. Una revisión sistemática en The BMJ de herramientas para el diagnóstico y pronóstico de Covid-19 encontró que el rendimiento predictivo era débil en entornos clínicos del mundo real. Otro estudio en la Universidad de Cambridge de más de 400 herramientas que utilizan modelos de aprendizaje profundo para diagnosticar Covid-19 aplicado a radiografías de tórax y datos de tomografías computarizadas los encontró completamente inutilizables. Un tercer estudio, publicado en la revista Nature, consideró una amplia gama de aplicaciones, incluidas predicciones, detección de brotes, seguimiento en tiempo real del cumplimiento de las recomendaciones de salud pública y respuesta a los tratamientos, y descubrió que tenían poca utilidad práctica.
Sin embargo, podemos aprender de estas decepciones a medida que nos preparamos para reconstruir una IA mejor. Hay cuatro lugares donde aparecieron las fallas: conjuntos de datos incorrectos, discriminación automatizada, fallas humanas y un contexto global complejo. Si bien se relacionan con las decisiones de Covid-19, las lecciones son ampliamente aplicables.
El peligro de los malos conjuntos de datos
Las herramientas de toma de decisiones de IA son tan buenas como los datos utilizados para entrenar los algoritmos subyacentes. Si los conjuntos de datos son malos, los algoritmos toman malas decisiones. En el contexto de Covid, existen muchas barreras para ensamblar conjuntos de datos "buenos".
Primero, la amplitud de los síntomas de Covid subrayó el desafío de ensamblar conjuntos de datos completos. Los datos tenían que extraerse de múltiples registros de salud electrónicos dispares, que normalmente estaban encerrados dentro de diferentes sistemas institucionales y sus silos correspondientes. Cada sistema no solo estaba separado, sino que también tenían diferentes estándares de gobierno de datos con políticas de consentimiento y confidencialidad incompatibles. Estos problemas se vieron amplificados por los sistemas de atención médica que abarcan diferentes países, con reglas incompatibles de privacidad del paciente, gobernanza de datos y localización que limitaban la combinación total de dichos conjuntos de datos.
El impacto final de estos datos incompletos y de mala calidad fue que dieron como resultado predicciones deficientes, lo que hizo que las herramientas de decisión de IA fueran poco confiables y poco confiables.
Un segundo problema surgió de la forma en que se recopilaron y almacenaron los datos en entornos clínicos. Los recuentos de casos agregados son más fáciles de reunir, pero pueden omitir detalles clave sobre el historial de un paciente y otros atributos demográficos, personales y sociales. Incluso los detalles más finos sobre cuándo estuvo expuesto el paciente, mostró síntomas y se hizo la prueba y la naturaleza de los síntomas, con qué variante se había infectado, las intervenciones médicas y sus resultados, etc., son todos importantes para predecir cómo el virus podría propagar. Para agravar los problemas, se empalmaron algunos conjuntos de datos de múltiples fuentes, lo que introdujo inconsistencias y redundancias.
En tercer lugar, un conjunto de datos completo con pistas sobre los síntomas de Covid, cómo se podría propagar la enfermedad, quién es más o menos susceptible y cómo manejar la enfermedad debe extraerse de múltiples fuentes, dada su novedad. Además de los datos de los entornos formales de atención médica, existen otras fuentes de información crítica, conjuntos de datos y análisis relevantes para predecir las vías de una enfermedad nueva y emergente. Dichos datos adicionales pueden extraerse de múltiples repositorios, aprovechando de manera efectiva las experiencias de las personas que luchan contra la enfermedad. Dichos repositorios podrían incluir Twitter, tableros de mensajes profesionales, análisis realizados por profesionales y aficionados en plataformas de "código abierto", revistas médicas, blogs y medios de comunicación. Por supuesto, una vez que tenga en cuenta tantas fuentes dispares de datos relevantes, el proceso de integración,
Discriminación automatizada
Incluso cuando había datos disponibles, las predicciones y decisiones recomendadas por los algoritmos de gestión de la atención médica llevaron a decisiones potencialmente altamente discriminatorias, y preocupaciones de que algunos pacientes recibieron una atención peor. Esto se debe a que los conjuntos de datos utilizados para entrenar los algoritmos reflejaron un registro de anomalías e inequidades históricas: menores niveles de acceso a atención médica de calidad; registros incorrectos e incompletos; y una profunda desconfianza en el sistema de salud que llevó a algunos grupos a evitarlo.
Existen amplias preocupaciones sobre los impactos negativos del sesgo de la IA, pero durante la pandemia, las consecuencias de dicho sesgo fueron graves. Por ejemplo, considere un estudio anterior a Covid en Science que encontró que un algoritmo asignó a los pacientes negros el mismo nivel de riesgo que a los pacientes blancos, a pesar de que estos últimos no estaban tan enfermos, lo que llevó a una atención médica inadecuada para los pacientes negros. De cara al futuro, dado que los pacientes negros e hispanos con covid-19 sufrieron tasas de mortalidad más altas que los pacientes blancos, los algoritmos entrenados con dichos datos podrían recomendar que los hospitales redirijan sus escasos recursos lejos de los pacientes negros e hispanos.
El impacto final de tal discriminación automatizada es aún más distorsionador cuando consideramos que estos grupos desfavorecidos también se han visto afectados de manera desproporcionada por los casos más graves de Covid-19: en los EE. UU., los negros, hispanos y nativos americanos tenían aproximadamente el doble de probabilidades de mueren de la enfermedad como pacientes blancos.
Error humano
La calidad de cualquier sistema de IA no puede desvincularse de las personas y las organizaciones. Los comportamientos, desde elegir qué aplicaciones y conjuntos de datos se utilizan hasta interpretar las decisiones, están determinados por incentivos y contextos organizacionales.
Los incentivos equivocados pueden ser un gran problema. Los gerentes que supervisan los sistemas de atención médica a menudo tenían pocos incentivos para compartir datos sobre los pacientes: los datos pueden haber estado vinculados a los ingresos, o compartirlos puede generar preocupaciones sobre la confidencialidad del paciente. Para los investigadores, las recompensas a menudo estaban alineadas con el intercambio de datos con algunas partes seleccionadas, pero no con todos. Además, hubo pocos incentivos profesionales para validar los resultados existentes, ya que es más glorioso producir nuevos hallazgos que replicar o validar otros estudios. Esto significa que es posible que los resultados del estudio no se hayan aplicado en una variedad de entornos lo suficientemente amplia, lo que los hace poco confiables o inutilizables y hace que los cuidadores duden en usar herramientas que no se han probado en múltiples entornos. Es particularmente arriesgado experimentar con la salud humana.
Luego, está el problema de los errores de entrada de datos. Gran parte de los datos acumulados sobre el Covid-19 involucraban entornos en los que los trabajadores de la salud operaban bajo presión y con un número de casos extraordinariamente pesado. Esto puede haber contribuido a conjuntos de datos mal etiquetados e incompletos, con errores que aparecen incluso en los certificados de defunción. En muchos países, los sistemas de atención médica no informaron los casos de covid -19, ya sea porque las autoridades los alentaron a hacerlo, debido a pautas poco claras o simplemente porque el personal estaba abrumado.
Incluso con las herramientas de IA disponibles, los humanos responsables de tomar decisiones a menudo carecían de capacidades interpretativas críticas, desde el lenguaje hasta la conciencia del contexto o la capacidad de detectar sesgos y errores. Todavía no existe un código de ética aceptado de manera uniforme, o una lista de verificación, que les brinde a los cuidadores una idea de cuándo aplicar las herramientas de IA en lugar de mitigar los daños mediante el juicio. Esto podría dar lugar a un uso incoherente o indebido de las herramientas de IA y, finalmente, socavar la confianza en ellas.
Contexto global complejo y desigual
Una pandemia, por definición, atraviesa diferentes sistemas políticos, económicos y socioculturales. Esto complica el proceso de ensamblar un conjunto de datos completo que se agrega a través de diferentes países con lecciones ampliamente aplicables. La pandemia subrayó el desafío de derivar herramientas de decisión universalmente aplicables para gestionar la salud humana en todos los entornos de atención médica, independientemente de la ubicación geográfica. Las intervenciones médicas apropiadas dependen de muchos factores, desde la biología hasta las fuerzas institucionales, sociopolíticas y culturales del entorno local. Incluso si muchas facetas de la biología humana son comunes en todo el mundo, los otros factores varían ampliamente.
Por un lado, existen diferencias entre los países en términos de sus políticas con respecto al gobierno de datos. Muchos países tienen leyes de localización de datos que impiden que los datos se transporten a través de las fronteras. No existe un consenso internacional sobre cómo se deben compartir los datos de atención médica. Si bien la red internacional preexistente para el intercambio de datos de secuencias del genoma de la influenza se amplió al intercambio de secuencias para Covid-19, colaboraciones más profundas de intercambio de datos entre países podrían haber ayudado con el manejo continuo de la enfermedad. La ausencia de acuerdos de distribución y gobernanza más amplios fue una barrera crítica.
En segundo lugar, hubo diferencias entre los países desarrollados y en desarrollo con respecto al intercambio de datos de atención médica. Algunos investigadores argumentan que las secuencias del genoma deberían compartirse en bases de datos abiertas para permitir análisis a gran escala. Otros se preocupan por la explotación; les preocupa que los investigadores y las instituciones de los países más pobres no hayan recibido el crédito adecuado y que los beneficios del intercambio de datos se limiten a los países ricos.
En tercer lugar, la historia y los contextos sociopolíticos de los países y sus marcos éticos para el intercambio de datos, incluso dentro de su propia ciudadanía, son diferentes, lo que da lugar a diferencias en la disposición a recopilar, analizar y compartir datos personales para uso público. Considere las variadas experiencias con la identificación de exposición asistida por IA y las aplicaciones de rastreo de contactos.
Corea del Sur presentó un ejemplo extremo de recopilación intrusiva de datos. El país implementó tecnología de rastreo de contactos junto con pruebas generalizadas. Sus aplicaciones de seguimiento se combinaron con imágenes de CCTV, registros médicos y de viajes e información de transacciones de tarjetas de crédito. La voluntad de los coreanos de tolerar este nivel de intrusión se remonta a la historia del país. La administración anterior había estropeado su respuesta al brote de MERS de 2015, cuando no compartió información sobre los hospitales visitados por ciudadanos infectados. Esto llevó al apoyo público a la legislación que otorga a las autoridades sanitarias acceso a los datos. sobre los ciudadanos infectados y el derecho a emitir alertas. En contraste, la aplicación de rastreo de contactos del gobierno alemán fue rechazada por el público una vez que una carta abierta muy crítica de expertos generó temores de vigilancia estatal. Como resultado, Alemania abandonó el modelo centralizado por una alternativa descentralizada. Una vez más, la historia proporciona una explicación. Los alemanes han vivido dos regímenes de vigilancia notorios: la Gestapo durante la era nazi y la Stasi durante la Guerra Fría. La recopilación de datos estatales controlada centralmente no estaba destinada a ser popular.
Finalmente, los datos sobre pacientes de un país pueden no ser buenos predictores en otros países. Una variedad de otros factores como la raza, la demografía, las circunstancias socioeconómicas, la calidad de la atención médica, los niveles de inmunidad, las comorbilidades, etc., marcan la diferencia.
Qué hacer ahora
Se pueden extraer varias lecciones que pueden ayudar a mejorar los futuros sistemas de IA que deben estar listos para la próxima pandemia.
1) Encuentre mejores formas de ensamblar conjuntos de datos completos y fusionar datos de múltiples fuentes.
Sería útil tener conjuntos de datos de atención médica en formatos estandarizados combinados con mecanismos para crear depósitos centralizados de datos. También se deben considerar nuevas técnicas de procesamiento de datos. Los ejemplos incluyen la concesión de privacidad diferencial o el uso de datos sintéticos en lugar de datos reales a medida que mejoran las tecnologías para facilitar tales innovaciones. Además, el problema no es solo de datos fragmentados o incompletos; es también uno de demasiados datos. La transmisibilidad del virus, el hecho de que muta constantemente, el movimiento de personas a través de las fronteras y el uso generalizado de la secuenciación genómica significa que los sistemas de IA deben lidiar con una avalancha de datos. Deben existir sistemas que puedan manejar conjuntos de datos tan grandes y etiquetarlos y organizarlos adecuadamente.
2) Tiene que haber una diversidad de fuentes de datos.
Se pueden aprender algunas lecciones del ejemplo de Nightingale Open Science, que ha acumulado 40 terabytes de imágenes médicas en una amplia gama de condiciones y tratamientos junto con una diversidad de datos y resultados de pacientes. Estos se utilizarán para entrenar algoritmos para predecir condiciones médicas antes, realizar triaje y salvar vidas de manera imparcial. Intentan trabajar con los sistemas de salud de todo el mundo, incluidos específicamente los de escasos recursos, para mitigar las posibilidades de subrepresentación y evitar la discriminación automatizada.
3) Los incentivos deben estar alineados para garantizar una mayor cooperación entre equipos y sistemas.
Los equipos de IA también deben tener las oportunidades y los incentivos para colaborar con los médicos y otras personas que conocen los problemas prácticos. También es esencial planificar para una diversidad de grupos de partes interesadas involucrados en el establecimiento de marcos éticos y listas de verificación para profesionales que utilizan IA en entornos de misión crítica, junto con procesos claros para la gobernanza y la responsabilidad. Dichos grupos deben incluir ingenieros y tecnólogos, expertos en áreas funcionales clave, así como especialistas en ética que puedan guiar el uso de los sistemas de IA y su alineación con los juicios de valor.
Apelar a las comunidades de código abierto es otra forma de reunir datos de múltiples fuentes de manera cooperativa. El Grupo de Trabajo de Datos Abiertos de COVID-19, la Red MIDAS y otros esfuerzos colaborativos locales brindan modelos que otros pueden replicar. Permitir formas de colaboración interdisciplinaria puede ser clave para los avances. Por ejemplo, BioNTech, la empresa de biotecnología alemana que fue pionera en la tecnología de ARN mensajero detrás de la vacuna Pfizer Covid-19, se ha asociado con la empresa de inteligencia artificial con sede en Londres InstaDeep para crear un "sistema de alerta temprana" para detectar nuevas variantes de coronavirus.
4) Redactar reglas internacionales para el intercambio de datos.
Para que los datos de salud se compartan entre países, necesitamos convenios internacionales que faciliten la puesta en común de dicha información crítica y acuerdos sobre el intercambio de datos, preservando al mismo tiempo la privacidad y la confidencialidad. Los equipos de IA deben estar capacitados para reconocer las diferencias en los entornos de atención médica global, de modo que puedan colocar los datos de diferentes partes del mundo en el contexto apropiado.
A medida que esta pandemia se vuelve endémica y nos preparamos para la próxima, existen muchas oportunidades para que la IA deje su huella. Después de que las muy publicitadas Tendencias de la gripe de Google no alcanzaron la magnitud de la temporada de gripe de 2013, Covid ofreció una oportunidad dramática de redención para la IA como herramienta predictiva. Pero dentro de las fallas actuales se encuentran las semillas de los sistemas de IA que pueden florecer en el futuro.
Bhaskar Chakravorti es el Decano de Negocios Globales en The Fletcher School en la Universidad de Tufts y Director Ejecutivo fundador del Instituto Fletcher para Negocios en el Contexto Global. Es el autor de El ritmo lento del cambio rápido.
No hay comentarios:
Publicar un comentario