Doxa 457

Hacer que la "equidad por diseño" sea parte del aprendizaje automático

Por Ahmed Abbasi, Jingjing Li, Gari Clifford y Herman Taylor
Harvard Business Review
Analítica

El aprendizaje automático se utiliza cada vez más para predecir las actitudes, los comportamientos y las preferencias de las personas en una variedad de aplicaciones, desde marketing personalizado hasta medicina de precisión. Como era de esperar, dada la velocidad del cambio y la complejidad cada vez mayor, ha habido varios ejemplos recientes de alto perfil de "el aprendizaje automático salió mal".

Un chatbot entrenado usando Twitter fue cerrado después de solo un día debido a sus tweets obscenos e inflamatorios. Los modelos de aprendizaje automático utilizados en un motor de búsqueda popular luchan por diferenciar las imágenes humanas de las de los gorilas, y muestran los anuncios de búsqueda femenina para trabajos peor remunerados en comparación con los usuarios masculinos. Más recientemente, un estudio comparó la herramienta COMPAS de análisis de riesgo de crimen comúnmente utilizada contra las predicciones de reincidencia de 400 trabajadores no capacitados reclutados a través de Amazon Mechanical Turk. Los resultados sugieren que COMPAS ha aprendido sesgos raciales implícitos, haciendo que sea menos preciso que los predictores humanos novatos.

Cuando los modelos no funcionan según lo previsto, las personas y los procesos suelen ser los culpables. El sesgo puede manifestarse en muchas formas a lo largo de varias etapas del proceso de aprendizaje automático, incluida la recopilación de datos, la preparación de datos, el modelado, la evaluación y la implementación. El sesgo de muestreo puede producir modelos entrenados en datos que no son completamente representativos de casos futuros. El sesgo de rendimiento puede exagerar las percepciones de poder predictivo, generalización y homogeneidad del rendimiento en los segmentos de datos. El sesgo de confirmación puede hacer que la información sea buscada, interpretada, enfatizada y recordada de una manera que confirme las preconcepciones. El sesgo de anclaje puede conducir a una dependencia excesiva en la primera pieza de información examinada. Entonces, ¿cómo podemos mitigar el sesgo en el aprendizaje automático?

En nuestro proyecto financiado con fondos federales (con Rick Netemeyer, David Dobolyi e Indranil Bardhan), estamos desarrollando una plataforma móvil / IoT centrada en el paciente para aquellos en riesgo temprano de enfermedad cardiovascular en el Stroke Belt, una región que abarca el sureste de los Estados Unidos. , donde las tasas de accidentes cerebrovasculares son del 25% al ​​40% más altas que el promedio nacional. Como parte del proyecto, creamos modelos de aprendizaje automático basados ​​en varios tipos de entradas no estructuradas, incluyendo texto generado por el usuario y datos telemétricos y basados ​​en sensores. Un componente crítico del proyecto consistió en desarrollar modelos de análisis de texto de aprendizaje profundo para inferir dimensiones psicométricas, como medidas de aritmética, alfabetización, confianza y ansiedad, que han demostrado tener un profundo impacto en los resultados de salud, incluido el bienestar, futuras visitas al médico, y adherencia a los regímenes de tratamiento. La idea es que si un médico puede saber que un paciente es, por ejemplo, escéptico de la profesión de la salud, podría adaptar su atención para superar esa falta de confianza. Nuestros modelos predicen estas dimensiones psicométricas en función de los datos que recopilamos.

Dado que las enfermedades cardiovasculares son desproporcionadamente más propensas a afectar la salud de poblaciones dispares, sabíamos que aliviar los sesgos raciales, de género y socio-económicos de nuestros modelos de análisis de texto sería de vital importancia. Tomando como base el concepto de "privacidad por diseño" popularizado por el Reglamento General de Protección de Datos (GDPR) de la Unión Europea, empleamos una estrategia de "equidad por diseño" que abarca algunas facetas clave. Las empresas y los científicos de datos que buscan diseñar de manera similar para la equidad pueden seguir los siguientes pasos:

1. Asociar científicos de datos con un científico social. Los científicos de datos y los científicos sociales hablan idiomas algo diferentes. Para un científico de datos, "sesgo" tiene un significado técnico particular: se refiere al nivel de segmentación en un modelo de clasificación. De forma similar, el término "potencial discriminatorio" se refiere a la medida en que un modelo puede diferenciar con precisión clases de datos (por ejemplo, pacientes con un riesgo alto versus bajo de enfermedad cardiovascular). En ciencia de datos, un mayor "potencial discriminatorio" es un objetivo principal. Por el contrario, cuando los científicos sociales hablan de prejuicios o discriminación, es más probable que se estén refiriendo a cuestiones de equidad. Los científicos sociales en general están mejor equipados para proporcionar una perspectiva humanista sobre la imparcialidad y el sesgo.

En nuestro proyecto Stroke Belt, desde el principio, nos aseguramos de incluir psicólogos, psicometristas, epidemiólogos y personas especializadas en el tratamiento de poblaciones con problemas de salud. Esto nos permitió tener una mejor conciencia de los sesgos demográficos que podrían introducirse en el proceso de aprendizaje automático.

2. Anotar con precaución. Datos no estructurados como texto e imágenes a menudo son generados por anotadores humanos que proporcionan etiquetas de categorías estructuradas que luego se usan para entrenar modelos de aprendizaje automático. Por ejemplo, los anotadores pueden etiquetar imágenes que contienen personas, o marcar qué textos contienen sentimientos positivos versus negativos.

Los servicios de anotación humana se han convertido en un importante modelo de negocio, con numerosas plataformas emergentes en la intersección del crowd-sourcing y la economía de concierto. Aunque la calidad de la anotación es adecuada para muchas tareas, la anotación humana es intrínsecamente propensa a una plétora de sesgos culturalmente arraigados.

En nuestro proyecto, anticipamos que esto podría introducir un sesgo en nuestros modelos. Por ejemplo, dado dos individuos con niveles similares de aritmética de la salud, uno de ellos es mucho más probable que los anotadores lo anoten más bajo si su escritura contiene errores ortográficos o gramaticales. Esto puede hacer que los sesgos se filtren en los modelos entrenados, como sobre enfatizar la importancia de los errores ortográficos en relación con las claves más sustantivas cuando se predicen los conocimientos básicos de aritmética.

Un enfoque efectivo que hemos encontrado es incluir posibles casos de sesgo en los módulos de capacitación de anotadores para aumentar la conciencia. Sin embargo, en el proyecto Stroke Belt, eludimos la anotación por completo, en lugar de confiar en datos autoinformados. Si bien este enfoque no siempre es factible y puede llegar con su cantidad de problemas, nos permitió evitar los sesgos raciales relacionados con las anotaciones.

3. Combine las métricas tradicionales de aprendizaje automático con medidas de equidad. El rendimiento de los modelos de clasificación de aprendizaje automático se mide generalmente utilizando un pequeño conjunto de métricas bien establecidas que se centran en el rendimiento general, el rendimiento a nivel de clase y la generalización general del modelo. Sin embargo, estos pueden ser aumentados con medidas de equidad diseñadas para cuantificar el sesgo de aprendizaje automático. Tales indicadores clave de rendimiento son esenciales para obtener conciencia situacional, como dice el refrán, "si no se puede medir, no se puede mejorar". Al utilizar medidas de equidad, en el estudio de predicción de la reincidencia mencionado anteriormente, los investigadores notaron que los modelos existentes estaban muy sesgados en sus evaluaciones de riesgo para ciertos grupos.

En nuestro proyecto, examinamos el rendimiento del modelo en varios segmentos demográficos, así como los supuestos del modelo subyacente, para identificar segmentos demográficos con mayor susceptibilidad al sesgo en nuestro contexto. Las importantes medidas de equidad incorporadas fueron las tasas positivas / falsas dentro / entre segmentos, positivas / negativas y el nivel de confianza en las variables demográficas. Los segmentos con tasas de falsos positivos o falsos negativos desproporcionadamente más altas pueden ser propensas a generalizaciones excesivas. En el caso de segmentos con resultados aparentemente equitativos en la actualidad, si las variables demográficas pesan mucho en relación con otras y actúan como impulsores primarios de las predicciones, podría existir la posibilidad de sesgo en los datos futuros.

4. Al tomar muestras, equilibre la representatividad con las restricciones de masa críticas. Para el muestreo de datos, el mantra ancestral ha sido garantizar que las muestras sean estadísticamente representativas de los casos futuros que un modelo dado pueda encontrar. Esta es generalmente una buena práctica. El único problema con la representatividad es que subestima los casos minoritarios, aquellos que son estadísticamente menos comunes. Mientras que en la superficie esto parece intuitivo y aceptable, siempre habrá casos más comunes y menos comunes, los problemas surgen cuando ciertos grupos demográficos son minorías estadísticas en su conjunto de datos. Esencialmente, los modelos de aprendizaje automático se incentivan para aprender patrones que se aplican a grupos grandes, para ser más precisos, lo que significa que si un grupo particular no está bien representado en sus datos, el modelo no priorizará el aprendizaje al respecto. En nuestro proyecto, tuvimos que sobremuestrear significativamente los casos relacionados con ciertos grupos demográficos con el fin de garantizar que tuviéramos una masa crítica de muestras de capacitación necesarias para cumplir con nuestras medidas de equidad.

5. Al construir un modelo, tenga en cuenta la despersonalización. Incluso con los pasos mencionados anteriormente, a menudo es necesario eliminar el sesgo durante la fase de creación y capacitación del modelo. Varias tácticas han sido propuestas. Un enfoque es quitar por completo los datos de entrenamiento de cualquier señal demográfica, explícita e implícita. En el estudio de predicción de la reincidencia discutido anteriormente, los predictores humanos novatos no recibieron información de raza. Otro enfoque es construir medidas de equidad en los objetivos de capacitación del modelo, por ejemplo, "impulsando" la importancia de ciertos casos minoritarios o de primera línea.

En nuestro proyecto, descubrimos que era útil capacitar a nuestros modelos en segmentos demográficos identificados algorítmicamente como altamente susceptibles al sesgo. Por ejemplo, si los segmentos A y B son propensos a generalizaciones superfluas (cuantificadas por nuestras medidas de equidad), los patrones de aprendizaje dentro de estos segmentos proporcionan cierta similitud demográfica y alivian los problemas de muestreo mayoritario / minoritario, lo que obliga a los modelos a aprender patrones alternativos. En nuestro caso, este enfoque no solo mejoró notablemente las medidas de equidad (entre un 5% y un 10% para algunos segmentos), sino que también aumentó la precisión general en un par de puntos porcentuales.

Hace unos meses, estábamos en una conferencia en la que el CEO de una gran multinacional se lamentaba por "el principio de precaución que eclipsa el principio de innovación". Esta es una preocupación expresada en C-suites y grupos de aprendizaje automático en todo el mundo privacidad y parcialidad. Pero la imparcialidad por diseño no se trata de priorizar la corrección política por encima de la precisión del modelo. Con una consideración cuidadosa, puede permitirnos desarrollar modelos de alto rendimiento que sean precisos y confiables. Adquirir la idea de equidad mediante el diseño implica examinar diferentes partes del proceso de aprendizaje automático desde puntos de vista alternativos, utilizando lentes teóricos que compiten entre sí. En nuestro proyecto Stroke Belt, pudimos desarrollar modelos con mayor rendimiento general, mayor generalización en varios segmentos demográficos y una mayor estabilidad del modelo, lo que hace que sea más fácil para el sistema de atención médica hacer coincidir a la persona adecuada con la intervención adecuada de manera oportuna. manera.

Al hacer que la imparcialidad sea un principio rector en los proyectos de aprendizaje automático, no solo construimos modelos más justos, también construimos mejores.

Ahmed Abbasi es decano asociado, profesor de investigación de Murray Research y director del Centro de Análisis Empresarial en la Escuela de Comercio McIntire de la Universidad de Virginia.

Jingjing Li es profesor asistente de tecnología de la información en la Escuela de Comercio McIntire en la Universidad de Virginia, y anteriormente fue científico de datos en Microsoft.

Gari Clifford es presidente del Departamento de Informática Biomédica de la Universidad de Emory, profesor asociado de Ingeniería Biomédica en Georgia Tech y profesor honorario de la Universidad de Oxford.

Herman Taylor es Profesor de Medicina Dotado y Director del Instituto de Investigación Cardiovascular de la Facultad de Medicina de Morehouse. Fue Director del Jackson Heart Study.

No hay comentarios:

Publicar un comentario