Doxa 47

UNA GUÍA PARA RESOLVER PROBLEMAS SOCIALES CON EL APRENDIZAJE AUTOMÁTICO

Por Jon Kleinberg, Jens Ludwig y Sendhil Mullainathan
ANALÍTICA
Harvard Business Review


Es domingo por la noche. Eres el teniente de alcalde de una gran ciudad. Te sientas a ver una película y le pides ayuda a Netflix. El algoritmo de recomendación de Netflix predice qué película te gustaría extraer datos de millones de observadores de películas anteriores usando sofisticadas herramientas de aprendizaje de máquinas (por ejemplo, "¿Me gusta Birdemic? Ishtar? Zoolander 2?"). Y luego al día siguiente usted va a trabajar y cada una de sus agencias tomarán decisiones de contratación con pocas ideas de qué candidatos serían buenos trabajadores; los estudiantes universitarios comunitarios se dejarán en gran parte a sus propios recursos para decidir qué cursos son demasiado difíciles o demasiado fáciles para ellos; y su sistema de servicio social implementará un enfoque reactivo en lugar de preventivo a la falta de vivienda porque no creen que sea posible pronosticar qué familias terminarán en las calles.

Le encantaría mover el uso de su ciudad de la analítica predictiva en el siglo XXI, o al menos en el siglo XX. ¿Pero cómo? Acaba de contratar a un par de programadores de 24 años para dirigir su equipo de ciencias de la información. Son geniales con los datos. ¿Pero son ellos quienes deben decidir qué problemas son susceptibles a estas herramientas? ¿O para decidir qué éxito tienen? Tampoco te tranquilizan los vendedores con los que la ciudad interactúa. Siempre están tratando de venderle la última herramienta de predicción. Las decisiones sobre cómo se usan estas herramientas que parecen demasiado importantes para que usted pueda externalizar, pero plantean una serie de nuevos problemas que son difíciles de entender.

Esta mezcla de entusiasmo y de temor sobre el impacto social potencial del aprendizaje automático no es exclusivo del gobierno local o incluso del gobierno: las organizaciones sin fines de lucro y los empresarios sociales también lo comparten. El entusiasmo está bien situado. Para el tipo correcto de problema, hay enormes ganancias que se harán con el uso de estas herramientas. Pero también lo es la inquietud: como con todos los nuevos "productos", existe un potencial de uso indebido. ¿Cómo podemos maximizar los beneficios y minimizar el daño?

Al aplicar estas herramientas en los últimos años, nos hemos centrado exactamente en esta cuestión. Hemos aprendido que algunos de los desafíos más importantes caen dentro de las grietas entre la disciplina que construye los algoritmos (informática) y las disciplinas que trabajan típicamente en resolver problemas de la política (tales como la economía y la estadística). Como resultado, pocos de estos retos claves son incluso en la pantalla de radar de nadie. La buena noticia es que muchos de estos desafíos, una vez reconocidos, son bastante sencillos de resolver.

Hemos destilado lo que hemos aprendido en una "guía del comprador". Está dirigido a cualquiera que quiera usar la ciencia de datos para crear un bien social, pero no está seguro de cómo proceder.



Cómo el aprendizaje de máquinas puede mejorar las políticas públicas

Lo primero es lo primero: Siempre hay una nueva "cosa nueva". Especialmente en el sector social. ¿Son estas herramientas de aprendizaje mecánico realmente dignas de atención?

Sí. Eso es lo que hemos concluido con nuestro propio proyecto de prueba de concepto, aplicando el aprendizaje de máquinas a un conjunto de datos de más de un millón de casos de tribunales de bonos (en colaboración con Himabindu Lakkaraju y Jure Leskovec de la Universidad de Stanford). Poco después de la detención, un juez tiene que decidir: ¿el acusado espera su destino legal en casa? ¿O deben esperar en la cárcel? Esta no es una pequeña pregunta. Una estancia típica de la cárcel es entre dos y tres meses. Al hacer esta decisión que cambia la vida, por ley, el juez tiene que hacer una predicción: si es liberado, el acusado regresará para su aparición en la corte, o saltará a la corte? ¿Y potencialmente podrían cometer más crímenes?

Encontramos que hay mucho espacio para mejorar las predicciones de los jueces. Nuestras estimaciones muestran que si tomamos decisiones de liberación antes del juicio usando las predicciones de riesgo de nuestro algoritmo en lugar de confiar en la intuición del juez, podríamos reducir los crímenes cometidos por los acusados ​​liberados hasta en un 25% sin tener que encarcelar a más personas. O, sin aumentar la tasa de criminalidad en absoluto, podríamos encarcelar hasta un 42% menos de personas. Con 12 millones de personas arrestadas cada año en los Estados Unidos, este tipo de herramientas podría permitirnos reducir las poblaciones de cárceles de hasta varios cientos de miles de personas. Y este tipo de intervención es relativamente barato. En comparación con invertir millones (o miles de millones) de dólares en más programas sociales o en la policía, el costo de analizar estadísticamente los conjuntos de datos administrativos que ya existen es prácticamente nada. Además, a diferencia de muchas otras propuestas para mejorar la sociedad, las herramientas de aprendizaje automático son fácilmente escalables.

A estas alturas, los encargados de formular políticas están acostumbrados a oír demandas como ésta en los lanzamientos de ventas, y deberían elevar apropiadamente cierto escepticismo. Una razón por la que es difícil ser un buen comprador de soluciones de aprendizaje de la máquina es que hay muchas afirmaciones exageradas. No es que la gente esté intencionadamente equivocando los resultados de sus algoritmos. De hecho, la aplicación de un conocido algoritmo de aprendizaje de la máquina a un conjunto de datos es a menudo la parte más directa de estos proyectos. La parte que es mucho más difícil, y la razón por la que luchamos con nuestro propio proyecto de fianza durante varios años, está evaluando con precisión el impacto potencial de cualquier nuevo algoritmo en los resultados de las políticas. Esperamos que el resto de este artículo, que se basa en nuestra propia experiencia aplicando el aprendizaje de la máquina a los problemas de política, le ayudará a evaluar mejor estos lanzamientos de ventas y hacer de usted un comprador crítico también.

Busque problemas de política que dependen de la predicción


Nuestra experiencia de libertad bajo fianza sugiere que la aplicación reflexiva del aprendizaje de máquina a la política puede crear ganancias muy grandes. Pero a veces estas herramientas se venden como el aceite de serpiente, como si pudieran resolver todos los problemas.

Aprendizaje de la máquina sobresale en la predicción de las cosas. Puede informar las decisiones que dependen de una predicción, y donde la cosa que se predice es clara y mensurable.

Para Netflix, la decisión es qué película ver. Netflix extrae datos de un gran número de usuarios para tratar de averiguar qué personas tienen historias de visualización anteriores que son similares a las suyas, y luego le recomienda películas que a estas personas les han gustado. Para nuestra aplicación a las decisiones cautelares previo al juicio, el algoritmo trata de encontrar a los acusados ​​del pasado que son como el que actualmente se encuentra en el tribunal, y luego utiliza las tasas de criminalidad de estos acusados ​​similares como base para su predicción.

Si se toma una decisión que ya depende de una predicción, ¿por qué no ayudan a informar esta decisión con predicciones más precisas? La ley ya requiere que los jueces de los tribunales de bonos tomen decisiones de liberación previa al juicio basadas en sus predicciones de riesgo del acusado. Décadas de economía conductual y psicología social nos enseñan que la gente tendrá problemas para hacer predicciones precisas sobre este riesgo, porque requiere cosas en las que no siempre somos buenos, como pensar probabilísticamente, hacer atribuciones e inferencias. El algoritmo hace las mismas predicciones que los jueces ya están haciendo, pero mejor.

Pero muchas decisiones del sector social no dependen de una predicción. A veces nos preguntamos si alguna nueva política o programa funciona, es decir, preguntas que dependen de la comprensión del efecto causal de algo en el mundo. La forma de responder a esas preguntas no es a través de métodos de predicción de aprendizaje automático. En cambio, necesitamos herramientas para la causalidad, como los experimentos aleatorios. Además, sólo porque algo es predecible, eso no significa que estemos cómodos teniendo que nuestra decisión dependa de esa predicción. Por ejemplo, podríamos razonablemente sentirnos incómodos negando el bienestar a alguien que era elegible en el momento en que aplicaron sólo porque predecimos que tienen una alta probabilidad de no cumplir con los requisitos de búsqueda de empleo del programa o fallar una prueba de drogas en el futuro.

Asegúrese de estar cómodo con el resultado que está prediciendo

Los algoritmos son más útiles cuando se aplican a problemas en los que no sólo hay una gran historia de casos pasados ​​para aprender, sino también un resultado claro que se puede medir, ya que medir el resultado concretamente es un requisito previo necesario para predecir. Pero un algoritmo de predicción, por sí solo, se centrará sin descanso en la predicción de los resultados que proporcionan lo más exactamente posible a expensas de todo lo demás. Esto crea un peligro: si se preocupan por otros resultados también, serán ignorados. Así que incluso si el algoritmo hace bien en el resultado que le dijo que se centran en, que puede hacer peor en los demás resultados que le importa, pero no decirle que predecir.

Esta preocupación surgió repetidamente en nuestro propio trabajo sobre las decisiones de fianza. Hemos entrenado nuestros algoritmos para predecir la tasa de delincuencia en general para los acusados ​​con derecho a fianza. Tal algoritmo trata cada crimen como igual. Pero ¿qué pasa si los jueces (no sin razón) ponen un peso desproporcionado sobre si un acusado comete un crimen violento muy grave como asesinato, violación o robo? Podría parecer que las predicciones del algoritmo conducen a "mejores resultados" cuando observamos las tasas generales de delincuencia. Pero la regla de liberación del algoritmo en realidad podría estar haciendo peor que los jueces con respecto a los crímenes violentos graves específicamente. La posibilidad de que esto suceda no significa que los algoritmos no pueden seguir siendo útiles. En la fianza, resulta que las diferentes formas de delincuencia están lo suficientemente correlacionadas para que un algoritmo entrenado en un solo tipo de delito ventile hacia fuera-predecir jueces en casi cada medida de criminalidad que podríamos construir, incluyendo el crimen violento. El punto es que el resultado que seleccione para su algoritmo lo definirá. Así que usted necesita pensar cuidadosamente acerca de lo que es ese resultado y qué más podría estar dejando de lado.

Compruebe si hay sesgo

Otro ejemplo serio de este principio es el papel de la raza en los algoritmos. Existe la posibilidad de que cualquier nuevo sistema para hacer predicciones y decisiones pueda exacerbar las disparidades raciales, especialmente en ámbitos políticos como la justicia penal. Se debe tener cuidado: los datos subyacentes utilizados para formar un algoritmo pueden estar sesgados, lo que refleja un historial de discriminación. Y los científicos de datos pueden a veces inadvertidamente reportar medidas de rendimiento engañosas para sus algoritmos. Debemos tomar en serio la preocupación acerca de si los algoritmos pueden perpetuar la desventaja, no importando los beneficios de otros.

En última instancia, sin embargo, esta es una cuestión empírica. En nuestro proyecto de fianza, encontramos que el algoritmo realmente puede reducir las disparidades raciales en la población de la cárcel. En otras palabras, podemos reducir la delincuencia, las poblaciones carcelarias y los prejuicios raciales, todos al mismo tiempo, con la ayuda de algoritmos.

Esto no es un suceso afortunado. Un primer punto de referencia apropiado para evaluar el efecto del uso de algoritmos es el sistema existente - las predicciones y decisiones que ya están siendo hechas por los seres humanos. En el caso de la fianza, sabemos de décadas de investigación que esas predicciones humanas pueden ser sesgadas. Los algoritmos tienen una forma de neutralidad que la mente humana se esfuerza por obtener, al menos dentro de su estrecho área de enfoque. Es enteramente posible, como vimos, que los algoritmos sirvan de fuerza para la equidad. Debemos parear nuestra precaución con esperanza.

La lección aquí es que si el resultado final que se preocupa es difícil de medir, o implica definir una difícil combinación de resultados, entonces el problema probablemente no es un buen ajuste para el aprendizaje de la máquina. Considere un problema que parece una fianza: sentencia. Al igual que la fianza, la condena de las personas que han sido declaradas culpables depende en parte del riesgo de reincidencia. Pero la sentencia también depende de cosas como el sentido de retribución, misericordia y redención de la sociedad, que no pueden medirse directamente. Enfocamos intencionalmente nuestro trabajo en la libertad bajo fianza en lugar de en la sentencia porque representa un punto en el sistema de justicia criminal donde la ley pide explícitamente una predicción. Incluso si hay un resultado único medible, usted querrá pensar en los otros factores importantes que no están encapsulados en ese resultado - como lo hicimos con la raza en el caso de la fianza - y trabajar con sus científicos de datos para crear un plan Para probar su algoritmo de sesgo potencial a lo largo de esas dimensiones.


Verifique su algoritmo en un experimento sobre datos que no ha visto

Una vez que hemos seleccionado el resultado correcto, una trampa potencial final se deriva de la forma en que se mide el éxito. Para que el aprendizaje automático sea útil para las políticas, debe predecir con exactitud "fuera de la muestra". Esto significa que debe ser entrenado en un conjunto de datos y probado en un conjunto de datos que no ha visto antes. Así que cuando usted da datos a un proveedor para construir una herramienta, retenga un subconjunto de ella. Entonces cuando el vendedor vuelve con un algoritmo terminado, usted puede realizar una prueba independiente usando su "espera" la muestra.

Un problema aún más fundamental es que los enfoques actuales en el campo suelen centrarse en medidas de rendimiento que, para muchas aplicaciones, son inherentemente deficientes. La práctica actual es informar de lo bien que el algoritmo de uno sólo predice entre los casos en los que podemos observar el resultado. En la solicitud de fianza esto significa que nuestro algoritmo sólo puede usar datos sobre los acusados ​​que fueron puestos en libertad por los jueces, porque sólo tenemos una etiqueta que proporciona la respuesta correcta a si el acusado comete un crimen o no para los acusados ​​jueces decidieron liberar. ¿Qué pasa con los acusados ​​que los jueces decidieron no liberar? Los datos disponibles no pueden decirnos si habrían reincidido o no.

Esto hace difícil evaluar si cualquier nueva herramienta de aprendizaje mecánico puede realmente mejorar los resultados relativos al sistema de toma de decisiones existente - en este caso, los jueces. Si alguna nueva regla de liberación basada en el aprendizaje de máquinas quiere liberar a alguien a los jueces encarcelados, no podemos observar su "etiqueta", así que ¿cómo sabemos qué pasaría si los lanzamos?

Esto no es meramente un problema de interés académico. Imagine que los jueces tienen acceso a la información sobre los acusados ​​que el algoritmo no, como si los miembros de la familia se presentan en la corte para apoyarlos. Para tomar un ejemplo simplificado y extremo, supongamos que el juez es particularmente preciso al usar esta información adicional y puede aplicarla para predecir perfectamente si los jóvenes acusados ​​re-ofenden o no. Por lo tanto, los jueces liberan sólo a aquellos jóvenes que están en riesgo cero de reincidir. El algoritmo sólo llega a ver los datos de los jóvenes que fueron puestos en libertad - los que nunca re-ofender. Tal algoritmo concluiría esencialmente que el juez está cometiendo un grave error al encarcelar a tantos jóvenes acusados ​​(ya que ninguno de los miembros de su conjunto de datos comete crímenes). El algoritmo recomendaría que liberemos a muchos más acusados ​​jóvenes. El algoritmo sería incorrecto. Podría inadvertidamente empeorar el mundo como resultado.

En resumen, el hecho de que un algoritmo prediga bien en la parte de los datos de la prueba donde podemos observar las etiquetas no significa necesariamente que hará buenas predicciones en el mundo real. La mejor manera de resolver este problema es hacer un ensayo controlado aleatorio del tipo que es común en la medicina. Entonces podríamos comparar directamente si las decisiones de libertad bajo fianza tomadas usando el aprendizaje automático conducen a mejores resultados que los hechos en casos comparables usando el sistema actual de toma de decisiones judiciales. Pero incluso antes de que lleguemos a esa etapa, debemos asegurarnos de que la herramienta es lo suficientemente prometedora como para justificar éticamente la prueba en el campo. En nuestra fianza, gran parte del esfuerzo se dedicó a encontrar un "experimento natural" para evaluar la herramienta.

Nuestro experimento natural se basó en dos ideas. Primero, dentro de los límites jurisdiccionales, es esencialmente aleatorio que los jueces oigan qué casos. En segundo lugar, los jueces son muy diferentes en lo indulgentes que son. Esto nos permite medir cuán buenos son los jueces al seleccionar a los acusados​​adicionales a la cárcel. ¿Cuánta reducción de la delincuencia produce un juez con una tasa de liberación del 70% en comparación con un juez con una tasa de liberación del 80%? También podemos usar estos datos para preguntar qué tan bueno sería un algoritmo para seleccionar a los acusados ​​adicionales a la cárcel. Si tomamos el número de casos de un juez de tasa de liberación del 80% y usamos nuestro algoritmo para recoger un 10% adicional de los acusados ​​a la cárcel, ¿podríamos lograr una tasa de criminalidad más baja que la que obtiene el juez de tasa de liberación del 70%? Esa comparación "hombre versus máquina" no se dispara por falta de etiquetas para los acusados ​​los jueces encarcelados, pero el algoritmo quiere liberar, porque sólo estamos pidiendo el algoritmo para recomendar detenciones adicionales (no las liberaciones). Es una comparación que se basa sólo en las etiquetas que ya tenemos en los datos, y confirma que las predicciones del algoritmo de hecho conducir a mejores resultados que los de los jueces.

Puede ser erróneo, ya veces directamente perjudicial, adoptar y ampliar nuevas herramientas predictivas cuando sólo se han evaluado en casos de datos históricos con etiquetas, en lugar de evaluarse en función de su efecto en la decisión de política clave de interés. Los usuarios inteligentes pueden ir tan lejos como para rehusarse a utilizar cualquier herramienta de predicción que no tome este reto de evaluación más en serio.

Recuerde que todavía hay mucho que no sabemos

Aunque el aprendizaje automático es ahora ampliamente utilizado en aplicaciones comerciales, el uso de estas herramientas para resolver problemas de política es relativamente nuevo. Todavía hay mucho que aún no sabemos, pero tendrá que averiguar avanzar.

Quizás el ejemplo más importante de esto es cómo combinar el juicio humano y el juicio algorítmico para tomar las mejores decisiones políticas posibles. En el ámbito de la política, es difícil imaginar moverse hacia un mundo en el que los algoritmos tomen realmente las decisiones; Esperamos que en su lugar se utilicen como ayudas de decisión.

Para que los algoritmos agreguen valor, necesitamos que las personas los utilicen; Es decir, prestarles atención en al menos algunos casos. A menudo se afirma que para que las personas estén dispuestas a utilizar un algoritmo, deben ser capaces de realmente entender cómo funciona. Tal vez. ¿Pero cuántos de nosotros sabemos cómo funcionan nuestros coches, o nuestros iPhones, o marcapasos? ¿Cuántos de nosotros intercambiaríamos el rendimiento por la comprensibilidad en nuestras propias vidas por, digamos, renunciar a nuestro actual automóvil con su motor de combustión interna desconcertante para el coche de Fred Flintstone?

La otra cara es que las autoridades necesitan saber cuándo deben anular el algoritmo. Para que las personas sepan cuándo anularlas, necesitan comprender su ventaja comparativa sobre el algoritmo y viceversa. El algoritmo puede mirar millones de casos del pasado y decirnos lo que sucede, en promedio. Pero a menudo es sólo el humano el que puede ver la circunstancia atenuante en un caso dado, ya que puede estar basado en factores no capturados en los datos en los que el algoritmo fue entrenado. Como con cualquier nueva tarea, la gente será mala en esto al principio. Si bien deberían mejorar con el tiempo, sería de gran valor social comprender mejor cómo acelerar esta curva de aprendizaje.

Cuidado con la esperanza

Un viajero del tiempo que se remonta a los albores del siglo XX llegaría con advertencias terribles. Una invención estaba a punto de hacer mucho daño. Se convertiría en una de las mayores causas de muerte-y para algunos grupos de edad la mayor causa de muerte. Exacerbaría las desigualdades, porque aquellos que podrían pagarla podrían acceder a más empleos y vivir más cómodamente. Cambiaría la faz del planeta en que vivimos, afectando el paisaje físico, contaminando el medio ambiente y contribuyendo al cambio climático.

El viajero del tiempo no quiere que estas advertencias para crear un pánico precipitado que impide completamente el desarrollo del transporte de automóviles. En lugar de eso, desea que estas advertencias ayuden a la gente a saltar unos cuantos pasos y seguir un camino más seguro: concentrarse en inventos que hacen que los automóviles sean menos peligrosos, construir ciudades que permitan el transporte público fácil y centrarse en vehículos de bajas emisiones.

Un viajero del tiempo del futuro que nos habla hoy puede llegar con advertencias similares sobre el aprendizaje de la máquina y animar un acercamiento similar. Podría fomentar la difusión del aprendizaje automático para ayudar a resolver los problemas sociales más difíciles con el fin de mejorar la vida de muchos. Ella también nos recordaría a ser conscientes, y llevar nuestro cinturón de seguridad.

Jon Kleinberg es profesor de ciencias de la computación en la Universidad de Cornell y coautor de los libros de texto Algorithm Design (con Éva Tardos) y Networks, Crowds y Markets (con David Easley).
Jens Ludwig es el Profesor de la Fundación McCormick de Administración de Servicios Sociales, Derecho y Políticas Públicas de la Universidad de Chicago.

Sendhil Mullainathan es profesor de economía en la Universidad de Harvard y el coautor (con Eldar Shafir) de la escasez: ¿Por qué tener demasiado poco significa tanto.

Este contenido fue publicado originalmente por Harvard Business Review.
Editores originales conservan todos los derechos.

No hay comentarios:

Publicar un comentario