Cómo el aprendizaje automático nos empuja a definir la equidad
Por David Weinberger
Analítica
Harvard Business Review
El sesgo es el pecado original del aprendizaje automático. Está incrustado en la esencia del aprendizaje automático: el sistema aprende de los datos y, por lo tanto, es propenso a detectar los prejuicios humanos que representan los datos. Por ejemplo, es probable que un sistema de contratación de ML capacitado en empleo estadounidense existente "aprenda" que ser mujer se correlaciona mal con ser CEO.
Limpiar los datos tan a fondo que el sistema no descubrirá correlaciones ocultas y perniciosas puede ser extraordinariamente difícil. Incluso con el mayor cuidado, un sistema ML puede encontrar patrones sesgados tan sutiles y complejos que se esconden de la atención humana mejor intencionada. De ahí el necesario enfoque actual entre los informáticos, los encargados de formular políticas y cualquier persona interesada en la justicia social sobre cómo mantener el sesgo fuera de la IA.
Sin embargo, la naturaleza misma del aprendizaje automático también puede llevarnos a pensar en la equidad de formas nuevas y productivas. Nuestros encuentros con el aprendizaje automático (ML) están comenzando a darnos conceptos, un vocabulario y herramientas que nos permiten abordar cuestiones de parcialidad y equidad de manera más directa y precisa que antes.
Durante mucho tiempo hemos tomado la justicia como una primitiva moral. Si le pide a alguien un ejemplo de injusticia, las probabilidades son sorprendentemente altas de que hablen de dos niños que reciben diferentes cantidades de cookies. Eso es claramente injusto, a menos que haya alguna diferencia relevante entre ellos que justifique la disparidad: uno de los niños es mayor y más grande, o acordó hacer tareas adicionales a cambio de una galleta, etc. En esta formulación simple, la justicia se define como la igualdad de trato de las personas a menos que exista alguna distinción relevante que justifique un trato desigual.
Pero, ¿qué constituye una "distinción relevante"? El hecho es que acordamos mucho más fácilmente lo que es injusto que lo que es justo. Todos podemos estar de acuerdo en que la discriminación racial está mal, pero sesenta años después todavía estamos discutiendo si la Acción Afirmativa es un remedio justo.
Por ejemplo, todos podemos estar de acuerdo en que en la década de 1970, era injusto que las mujeres músicas representaran tan solo el 5% de las cinco principales orquestas sinfónicas. En este caso, podríamos estar de acuerdo en que el remedio real del instituto de orquestas parece mucho más justo: al hacer que los solicitantes audicionen detrás de una cortina para enmascarar su género, el porcentaje de mujeres en las cinco principales orquestas sinfónicas aumentó al 25% en 1997 y al 30% ahora.
¿Pero es un proceso con perspectiva de género suficiente para que el resultado sea realmente justo? Quizás los prejuicios culturales confieren ventajas no biológicas a los músicos masculinos: si se aceptara a más hombres en los conservatorios superiores, por ejemplo, podrían haber recibido una mejor educación musical. Quizás los estándares de actuación en la música se han formado a lo largo de los siglos en torno a rasgos o preferencias típicamente masculinas, como el tamaño de las palmas o la agresividad de la interpretación. ¿Y es un 30% suficiente para que declaremos que las orquestas ahora son justas en su trato a las mujeres? ¿Quizás el desglose por género de los músicos debería ser del 51% para reflejar la demografía general de género nacional? ¿O tal vez debería reflejar el porcentaje de solicitantes masculinos y femeninos para asientos en la orquesta? ¿O tal vez más que eso para corregir parcialmente los siglos de prejuicios históricos que han llevado a la sobrerrepresentación de los hombres en las orquestas? (Sin mencionar que toda esta discusión supone que el género es binario, y no lo es).
El aprendizaje automático puede ayudarnos con este tipo de debates porque requiere que lo instruyamos de manera muy precisa sobre qué tipo de resultados encontraremos éticamente aceptables. Nos da las herramientas para tener estas discusiones, a menudo argumentos, de manera más clara y productiva.
Esas herramientas incluyen un vocabulario que surge de la tarea más común del aprendizaje automático: decidir en qué contenedor colocar una entrada determinada. Si la entrada es una imagen en tiempo real de un tomate en una cinta transportadora en una fábrica de salsa de espagueti, los recipientes pueden etiquetarse como "Aceptable" o "Desechar". Cada entrada se asignará a la papelera con un nivel de confianza adjunto: un 72 % de certeza de que este tomate es comestible, por ejemplo.
Si clasificar los tomates es la tarea básica de su sistema, entonces le importará cuántos tomates se ordenan incorrectamente: cuántos tomates buenos está poniendo el ML en la pila de descarte y cuántos tomates malos está poniendo en el contenedor Aceptable - aprobaciones erróneas y oportunidades perdidas. Y debido a que las asignaciones a los contenedores siempre se basan en un nivel de confianza, ML ofrece a sus diseñadores controles deslizantes con los que jugar para ajustar los resultados para reflejar diferentes definiciones de equidad.
Por ejemplo, si es su fábrica de tomates, es posible que le importe más la precisión general de su nueva aplicación de clasificación de tomates ML. Pero un regulador puede estar más preocupado por los tomates malos que se introducen en el contenedor aprobado que por los tomates buenos que se arrojan al contenedor de descarte. O, si usted es propietario de una fábrica de tomates de mala calidad, puede estar más molesto al tirar buenos tomates que al incluir algunos tomates podridos en su salsa.
ML requiere que seamos completamente claros sobre lo que queremos. Si le preocupa que los tomates malos se conviertan en su salsa, tendrá que decidir con qué porcentaje de tomates malos puede vivir usted (y sus clientes y probablemente sus abogados). Puede controlar este porcentaje ajustando el nivel de confianza requerido para poner un tomate en el contenedor aprobado: ¿desea establecer el umbral de nivel de confianza en 98% o reducirlo a solo 60%? A medida que mueva el control deslizante hacia la izquierda o hacia la derecha, enviará más tomates buenos al contenedor de descarte o colocará más tomates malos en el contenedor aprobado.
En el lenguaje de ML, los tomates buenos pasados por alto que se encuentran en el contenedor de descarte son falsos negativos, y los tomates malos puestos en el contenedor aprobado son falsos positivos.
Estos términos se vuelven útiles cuando hablamos de procesos como clasificar las solicitudes de préstamos en contenedores aprobados o rechazados. (Para el propósito de esta hipótesis, estamos ignorando las regulaciones que rigen los procesos de aprobación de préstamos). Digamos que el 30% de los solicitantes son mujeres, pero solo el 10% de las solicitudes en el contenedor Aprobado provienen de mujeres. Pero en lugar de mirar el porcentaje de aprobaciones que se otorgan a las mujeres, o el porcentaje de hombres y mujeres que no pagan sus préstamos, tal vez deberíamos considerar si el porcentaje de falsos positivos en el contenedor de Mujeres Rechazadas es mayor que el porcentaje de falsos positivos en el contenedor Rejected Men.
Los tipos de equidad que hemos discutido aquí, y más, también han recibido definiciones precisas de investigadores en el campo de LD, con nombres como "Paridad demográfica", "Paridad de tasa predictiva" y "Equidad contrafactual". Tenerlos disponibles cuando hablar sobre estos temas con expertos puede hacer que esas discusiones sean más fáciles, con una mayor comprensión de todos los lados del argumento. No nos dicen qué tipo de equidad debemos adoptar en ninguna situación, pero nos facilitan tener argumentos productivos sobre la cuestión.
Esto también es cierto en un nivel superior de abstracción, ya que podemos decidir qué cuenta como éxito para un sistema ML. Por ejemplo, podríamos capacitar a nuestro clasificador de solicitudes de préstamos ML para que se optimice y obtenga el mayor beneficio para nuestro negocio. O por los mayores ingresos. O para el número máximo de clientes. Incluso podríamos decidir, por razones de justicia económica, que queremos otorgar algunos préstamos a las personas más pobres, en lugar de ir siempre a por las personas más ricas. Nuestro sistema ML debe permitirnos juzgar el riesgo, ajustar el porcentaje de personas de bajos ingresos que queremos en el contenedor Aprobado o establecer un nivel mínimo de rentabilidad para los préstamos que otorgamos.
ML también deja en claro que no siempre podemos, o incluso usualmente, optimizar nuestros resultados para cada valor que podamos tener. Por ejemplo, la compañía de préstamos puede encontrar, en este caso hipotético, que admitir más solicitantes de bajos ingresos en el contenedor Aprobado afecta el porcentaje de mujeres en ese contenedor. Es concebible que no pueda optimizar simultáneamente el sistema para ambos. En tal caso, es posible que desee encontrar otro valor que esté dispuesto a modificar para crear resultados más justos tanto para las personas de bajos ingresos como para las mujeres. Quizás si aumenta el riesgo de su empresa en una cantidad aceptable, puede lograr ambos objetivos. Los sistemas de aprendizaje automático nos dan las palancas para hacer tales ajustes y anticipar sus resultados.
A medida que observamos niveles más altos de abstracción, desde el uso de controles deslizantes para ajustar las mezclas en los contenedores, hasta preguntas sobre la optimización de valores posiblemente inconsistentes, ML nos está enseñando que la equidad no es simple sino compleja, y que no es un absoluto sino un asunto de compensaciones.
Las decisiones que la impotencia literal de ML requiere de nosotros, naturalmente, pueden conducir a discusiones que suenan menos como argumentos de alta mentalidad sobre moralidad, o argumentos cargados de jerga sobre tecnología, y más como argumentos políticos entre personas con diferentes valores: gran salsa de tomate o barato. salsa que maximiza nuestro beneficio? ¿Aumentar el porcentaje de músicas en la orquesta o mantener la configuración actual de los instrumentos? ¿Conceder préstamos a personas de bajos ingresos pero tal vez reducir el porcentaje de mujeres en la mezcla?
Si el aprendizaje automático plantea estas preguntas con una nueva precisión, nos da un vocabulario para hablar sobre ellas y nos permite probar ajustes para ver las mejores formas de optimizar el sistema para los valores que nos interesan, entonces eso es un paso adelante. Y si el aprendizaje automático nos lleva a hablar sobre remedios para situaciones injustas en términos de los valores que nos interesan, listos para hacer compromisos realistas, entonces ese tampoco es un mal modelo para muchos argumentos morales.
David Weinberger (david@weinberger.org) es investigador principal en el Centro Berkman Klein para Internet y Sociedad de Harvard, y el autor, más recientemente, de Everyday Chaos (Harvard Business Review Press, 2019). Visite su blog en www.JohoTheBlog.com.
Analítica
Harvard Business Review
El sesgo es el pecado original del aprendizaje automático. Está incrustado en la esencia del aprendizaje automático: el sistema aprende de los datos y, por lo tanto, es propenso a detectar los prejuicios humanos que representan los datos. Por ejemplo, es probable que un sistema de contratación de ML capacitado en empleo estadounidense existente "aprenda" que ser mujer se correlaciona mal con ser CEO.
Limpiar los datos tan a fondo que el sistema no descubrirá correlaciones ocultas y perniciosas puede ser extraordinariamente difícil. Incluso con el mayor cuidado, un sistema ML puede encontrar patrones sesgados tan sutiles y complejos que se esconden de la atención humana mejor intencionada. De ahí el necesario enfoque actual entre los informáticos, los encargados de formular políticas y cualquier persona interesada en la justicia social sobre cómo mantener el sesgo fuera de la IA.
Sin embargo, la naturaleza misma del aprendizaje automático también puede llevarnos a pensar en la equidad de formas nuevas y productivas. Nuestros encuentros con el aprendizaje automático (ML) están comenzando a darnos conceptos, un vocabulario y herramientas que nos permiten abordar cuestiones de parcialidad y equidad de manera más directa y precisa que antes.
Durante mucho tiempo hemos tomado la justicia como una primitiva moral. Si le pide a alguien un ejemplo de injusticia, las probabilidades son sorprendentemente altas de que hablen de dos niños que reciben diferentes cantidades de cookies. Eso es claramente injusto, a menos que haya alguna diferencia relevante entre ellos que justifique la disparidad: uno de los niños es mayor y más grande, o acordó hacer tareas adicionales a cambio de una galleta, etc. En esta formulación simple, la justicia se define como la igualdad de trato de las personas a menos que exista alguna distinción relevante que justifique un trato desigual.
Pero, ¿qué constituye una "distinción relevante"? El hecho es que acordamos mucho más fácilmente lo que es injusto que lo que es justo. Todos podemos estar de acuerdo en que la discriminación racial está mal, pero sesenta años después todavía estamos discutiendo si la Acción Afirmativa es un remedio justo.
Por ejemplo, todos podemos estar de acuerdo en que en la década de 1970, era injusto que las mujeres músicas representaran tan solo el 5% de las cinco principales orquestas sinfónicas. En este caso, podríamos estar de acuerdo en que el remedio real del instituto de orquestas parece mucho más justo: al hacer que los solicitantes audicionen detrás de una cortina para enmascarar su género, el porcentaje de mujeres en las cinco principales orquestas sinfónicas aumentó al 25% en 1997 y al 30% ahora.
¿Pero es un proceso con perspectiva de género suficiente para que el resultado sea realmente justo? Quizás los prejuicios culturales confieren ventajas no biológicas a los músicos masculinos: si se aceptara a más hombres en los conservatorios superiores, por ejemplo, podrían haber recibido una mejor educación musical. Quizás los estándares de actuación en la música se han formado a lo largo de los siglos en torno a rasgos o preferencias típicamente masculinas, como el tamaño de las palmas o la agresividad de la interpretación. ¿Y es un 30% suficiente para que declaremos que las orquestas ahora son justas en su trato a las mujeres? ¿Quizás el desglose por género de los músicos debería ser del 51% para reflejar la demografía general de género nacional? ¿O tal vez debería reflejar el porcentaje de solicitantes masculinos y femeninos para asientos en la orquesta? ¿O tal vez más que eso para corregir parcialmente los siglos de prejuicios históricos que han llevado a la sobrerrepresentación de los hombres en las orquestas? (Sin mencionar que toda esta discusión supone que el género es binario, y no lo es).
El aprendizaje automático puede ayudarnos con este tipo de debates porque requiere que lo instruyamos de manera muy precisa sobre qué tipo de resultados encontraremos éticamente aceptables. Nos da las herramientas para tener estas discusiones, a menudo argumentos, de manera más clara y productiva.
Esas herramientas incluyen un vocabulario que surge de la tarea más común del aprendizaje automático: decidir en qué contenedor colocar una entrada determinada. Si la entrada es una imagen en tiempo real de un tomate en una cinta transportadora en una fábrica de salsa de espagueti, los recipientes pueden etiquetarse como "Aceptable" o "Desechar". Cada entrada se asignará a la papelera con un nivel de confianza adjunto: un 72 % de certeza de que este tomate es comestible, por ejemplo.
Si clasificar los tomates es la tarea básica de su sistema, entonces le importará cuántos tomates se ordenan incorrectamente: cuántos tomates buenos está poniendo el ML en la pila de descarte y cuántos tomates malos está poniendo en el contenedor Aceptable - aprobaciones erróneas y oportunidades perdidas. Y debido a que las asignaciones a los contenedores siempre se basan en un nivel de confianza, ML ofrece a sus diseñadores controles deslizantes con los que jugar para ajustar los resultados para reflejar diferentes definiciones de equidad.
Por ejemplo, si es su fábrica de tomates, es posible que le importe más la precisión general de su nueva aplicación de clasificación de tomates ML. Pero un regulador puede estar más preocupado por los tomates malos que se introducen en el contenedor aprobado que por los tomates buenos que se arrojan al contenedor de descarte. O, si usted es propietario de una fábrica de tomates de mala calidad, puede estar más molesto al tirar buenos tomates que al incluir algunos tomates podridos en su salsa.
ML requiere que seamos completamente claros sobre lo que queremos. Si le preocupa que los tomates malos se conviertan en su salsa, tendrá que decidir con qué porcentaje de tomates malos puede vivir usted (y sus clientes y probablemente sus abogados). Puede controlar este porcentaje ajustando el nivel de confianza requerido para poner un tomate en el contenedor aprobado: ¿desea establecer el umbral de nivel de confianza en 98% o reducirlo a solo 60%? A medida que mueva el control deslizante hacia la izquierda o hacia la derecha, enviará más tomates buenos al contenedor de descarte o colocará más tomates malos en el contenedor aprobado.
En el lenguaje de ML, los tomates buenos pasados por alto que se encuentran en el contenedor de descarte son falsos negativos, y los tomates malos puestos en el contenedor aprobado son falsos positivos.
Estos términos se vuelven útiles cuando hablamos de procesos como clasificar las solicitudes de préstamos en contenedores aprobados o rechazados. (Para el propósito de esta hipótesis, estamos ignorando las regulaciones que rigen los procesos de aprobación de préstamos). Digamos que el 30% de los solicitantes son mujeres, pero solo el 10% de las solicitudes en el contenedor Aprobado provienen de mujeres. Pero en lugar de mirar el porcentaje de aprobaciones que se otorgan a las mujeres, o el porcentaje de hombres y mujeres que no pagan sus préstamos, tal vez deberíamos considerar si el porcentaje de falsos positivos en el contenedor de Mujeres Rechazadas es mayor que el porcentaje de falsos positivos en el contenedor Rejected Men.
Los tipos de equidad que hemos discutido aquí, y más, también han recibido definiciones precisas de investigadores en el campo de LD, con nombres como "Paridad demográfica", "Paridad de tasa predictiva" y "Equidad contrafactual". Tenerlos disponibles cuando hablar sobre estos temas con expertos puede hacer que esas discusiones sean más fáciles, con una mayor comprensión de todos los lados del argumento. No nos dicen qué tipo de equidad debemos adoptar en ninguna situación, pero nos facilitan tener argumentos productivos sobre la cuestión.
Esto también es cierto en un nivel superior de abstracción, ya que podemos decidir qué cuenta como éxito para un sistema ML. Por ejemplo, podríamos capacitar a nuestro clasificador de solicitudes de préstamos ML para que se optimice y obtenga el mayor beneficio para nuestro negocio. O por los mayores ingresos. O para el número máximo de clientes. Incluso podríamos decidir, por razones de justicia económica, que queremos otorgar algunos préstamos a las personas más pobres, en lugar de ir siempre a por las personas más ricas. Nuestro sistema ML debe permitirnos juzgar el riesgo, ajustar el porcentaje de personas de bajos ingresos que queremos en el contenedor Aprobado o establecer un nivel mínimo de rentabilidad para los préstamos que otorgamos.
ML también deja en claro que no siempre podemos, o incluso usualmente, optimizar nuestros resultados para cada valor que podamos tener. Por ejemplo, la compañía de préstamos puede encontrar, en este caso hipotético, que admitir más solicitantes de bajos ingresos en el contenedor Aprobado afecta el porcentaje de mujeres en ese contenedor. Es concebible que no pueda optimizar simultáneamente el sistema para ambos. En tal caso, es posible que desee encontrar otro valor que esté dispuesto a modificar para crear resultados más justos tanto para las personas de bajos ingresos como para las mujeres. Quizás si aumenta el riesgo de su empresa en una cantidad aceptable, puede lograr ambos objetivos. Los sistemas de aprendizaje automático nos dan las palancas para hacer tales ajustes y anticipar sus resultados.
A medida que observamos niveles más altos de abstracción, desde el uso de controles deslizantes para ajustar las mezclas en los contenedores, hasta preguntas sobre la optimización de valores posiblemente inconsistentes, ML nos está enseñando que la equidad no es simple sino compleja, y que no es un absoluto sino un asunto de compensaciones.
Las decisiones que la impotencia literal de ML requiere de nosotros, naturalmente, pueden conducir a discusiones que suenan menos como argumentos de alta mentalidad sobre moralidad, o argumentos cargados de jerga sobre tecnología, y más como argumentos políticos entre personas con diferentes valores: gran salsa de tomate o barato. salsa que maximiza nuestro beneficio? ¿Aumentar el porcentaje de músicas en la orquesta o mantener la configuración actual de los instrumentos? ¿Conceder préstamos a personas de bajos ingresos pero tal vez reducir el porcentaje de mujeres en la mezcla?
Si el aprendizaje automático plantea estas preguntas con una nueva precisión, nos da un vocabulario para hablar sobre ellas y nos permite probar ajustes para ver las mejores formas de optimizar el sistema para los valores que nos interesan, entonces eso es un paso adelante. Y si el aprendizaje automático nos lleva a hablar sobre remedios para situaciones injustas en términos de los valores que nos interesan, listos para hacer compromisos realistas, entonces ese tampoco es un mal modelo para muchos argumentos morales.
David Weinberger (david@weinberger.org) es investigador principal en el Centro Berkman Klein para Internet y Sociedad de Harvard, y el autor, más recientemente, de Everyday Chaos (Harvard Business Review Press, 2019). Visite su blog en www.JohoTheBlog.com.
No hay comentarios:
Publicar un comentario