Doxa 977

¿Qué sucede cuando se usa la inteligencia artificial para establecer calificaciones?

Por Theodoros Evgeniou, David R. Hardoon y Anton Ovchinnikov
Tecnología
Harvard Business Review

¿Cómo se sentiría si un algoritmo determinara a qué universidad asistirá su hijo?

Este año, Covid-19 encerró a millones de estudiantes de último año de secundaria y los gobiernos de todo el mundo cancelaron los exámenes de graduación de fin de año, lo que obligó a las juntas examinadoras de todo el mundo a considerar otras formas de establecer las calificaciones finales que determinarían en gran medida el futuro de la clase de 2020. Uno de estos Consejos, la Organización del Bachillerato Internacional (IBO), optó por usar inteligencia artificial (IA) para ayudar a establecer puntajes generales para los graduados de secundaria en función del trabajo anterior de los estudiantes y otros datos históricos. (Usamos el término IA en sentido amplio para referirnos a un programa de computadora que usa datos para ejecutar una tarea que los humanos suelen realizar, en este caso, procesar las calificaciones de los estudiantes).

El experimento no fue un éxito, y desde entonces miles de estudiantes y padres descontentos han lanzado una furiosa campaña de protesta. Entonces, ¿qué salió mal y qué nos dice la experiencia sobre los desafíos que vienen con las soluciones habilitadas para IA?

¿Qué es el Bachillerato Internacional?
El IB es un programa de diploma y certificado de escuela secundaria riguroso y prestigioso que se imparte en algunas de las mejores escuelas del mundo. Abre las puertas a las principales universidades del mundo para estudiantes talentosos y trabajadores en más de 150 países.

En un año normal, las calificaciones finales se determinan mediante el trabajo de curso elaborado por los estudiantes y un examen final administrado y corregido por IBO directamente. El trabajo del curso representa alrededor del 20-30% de la calificación final general y el examen representa el resto. Antes del examen, los profesores proporcionan calificaciones "previstas", que permiten a las universidades ofrecer plazas condicionadas a que las calificaciones finales de los candidatos cumplan con las predicciones. IBO también organizará la calificación independiente de muestras de los trabajos de curso de cada estudiante para desalentar la inflación de calificaciones por parte de las escuelas.

El proceso generalmente se considera un protocolo de evaluación riguroso y bien considerado. IBO ha recopilado una cantidad sustancial de datos sobre cada materia y colegio: cientos de miles de puntos de datos, en algunos casos que se remontan a más de 50 años. Significativamente, la relación entre las calificaciones pronosticadas y finales ha sido estrecha. En los principales colegios del IB, más del 90% de las calificaciones han sido iguales a las previstas, y más del 95% de las puntuaciones totales han estado dentro de un punto de las previstas (las puntuaciones totales se establecen en una escala del uno al 45).

Y luego vino Covid-19.
En la primavera de 2020, IBO tuvo que decidir si permitir que los exámenes continuaran o cancelarlos y otorgar calificaciones de alguna otra manera. Permitir exámenes ponía en riesgo la seguridad de estudiantes y profesores y podía crear problemas de equidad, si, por ejemplo, en algunos países se permitía a los estudiantes hacer los exámenes en casa, mientras que en otros tenían que presentarse en la escuela.

La cancelación de los exámenes planteó la cuestión de cómo asignar calificaciones, y fue entonces cuando IBO recurrió a AI. Utilizando su tesoro de datos históricos sobre el trabajo de curso de los estudiantes y las calificaciones pronosticadas, así como los datos sobre la calificación real obtenida en los exámenes de años anteriores, IBO decidió construir un modelo para calcular una puntuación general para cada alumno, en cierto sentido prediciendo lo que los estudiantes de 2020 habrían obtenido en los exámenes. La construcción del modelo se subcontrató a un subcontratista no revelado en el momento de publicar este artículo.

Estalló una crisis cuando se dieron a conocer los resultados a principios de julio de 2020. Decenas de miles de estudiantes de todo el mundo recibieron calificaciones que no solo se desviaron sustancialmente de sus calificaciones previstas, sino que lo hicieron de manera inexplicable. Aproximadamente 24.000, o más del 15% de todos los beneficiarios del diploma IB 2020, han firmado la protesta desde entonces. Las páginas de redes sociales de IBO están inundadas de comentarios furiosos. Varios gobiernos también han iniciado investigaciones formales y se están preparando numerosas demandas, algunas por abuso de datos en virtud del RGPD de la UE. Es más, las escuelas, los estudiantes y las familias que participan en otros programas de la escuela secundaria que también han adoptado soluciones de IA están planteando preocupaciones muy similares, especialmente en el Reino Unido, donde los resultados de nivel A se publicarán el 13 de agosto de 2020.

Alcance limitado de apelación
A medida que la indignación se ha extendido, los estudiantes y padres frustrados han planteado constantemente una pregunta crítica y muy práctica: ¿Cómo pueden apelar las calificaciones?

En años normales, el proceso de apelación estaba bien definido y constaba de varios niveles, desde la nueva calificación del examen de un estudiante individual hasta la revisión de las calificaciones de los trabajos de curso por materia en una escuela determinada. Lo primero significa echar otro vistazo al trabajo de un estudiante, un primer paso natural cuando las calificaciones se basan en ese trabajo. Esto último se refiere a un ajuste que IBO puede aplicar a la calificación del trabajo del curso de un colegio si una muestra de trabajo evaluado independientemente por IBO arroja calificaciones sustancialmente diferentes, en promedio, de las otorgadas por el colegio. El proceso de apelación se entendió bien y produjo resultados consistentes, pero no se usó con frecuencia, en gran parte porque, como se señaló, hubo pocas sorpresas cuando salieron las calificaciones finales.

Este año, los colegios del IB trataron inicialmente las apelaciones como solicitudes de reevaluación del trabajo de los alumnos. Pero esto plantea un desafío fundamental: los trabajos calificados no estaban en disputa, fue la evaluación de AI la que se cuestionó. La IA en realidad no corrigió ningún documento; solo produjo calificaciones finales en función de los datos que se le proporcionaron, que incluían trabajos de curso corregidos por el maestro y las calificaciones previstas. Dado que no se dan a conocer los detalles del programa, todo lo que la gente puede ver son los resultados, muchos de los cuales fueron muy anómalos, con puntajes finales en algunos casos muy por debajo de las calificaciones de los cursos calificados por el maestro de los estudiantes involucrados. Como era de esperar, el enfoque de apelaciones de IBO no ha tenido éxito; de ninguna manera está alineado con la forma en que la IA creó las calificaciones.

¿Qué podemos aprender?
La principal lección que se desprende de esta experiencia es que cualquier organización que decida utilizar una IA para producir un resultado tan crítico y sensible como un grado de secundaria que marque 12 años de trabajo del estudiante, debe tener muy claro cómo son los resultados. producidos y cómo se pueden apelar en caso de que parezcan anómalos o inesperados. Desde fuera, parece que el IBO simplemente conectó la IA al sistema del IB para reemplazar los exámenes y luego asumió que el resto del sistema, en particular el proceso de apelaciones, podría funcionar como antes.

Entonces, ¿qué tipo de proceso de apelación debería haber diseñado IBO? En primer lugar, el proceso general de puntuación y, lo que es más importante, la apelación de la decisión debe ser fácil de explicar, para que la gente entienda cuál será cada paso siguiente. Tenga en cuenta que no se trata de explicar la "caja negra" de la IA, como hacen los reguladores actuales cuando discuten sobre la necesidad de una "IA explicable". Eso sería casi imposible en muchos casos, ya que comprender la programación utilizada en una IA generalmente requiere un alto nivel de sofisticación técnica. Más bien, se trata de asegurarse de que las personas comprendan qué información se utiliza para evaluar las calificaciones y cuáles son los pasos en el proceso de apelación en sí. Entonces, lo que IBO podría haber hecho en su lugar fue ofrecer a los apelantes el derecho a una reevaluación dirigida por humanos de las calificaciones anómalas, especificar en qué datos de entrada se enfocaría el comité de apelación para volver a analizar el caso y explicar cómo se solucionaría el problema.

La forma en que se solucionaría el problema dependería de si el problema resultó ser específico del estudiante, específico de la escuela o específico del tema; la apelación de un solo estudiante bien podría afectar a otros estudiantes dependiendo de los componentes de la IA con los que se pueda relacionar la apelación.

Si, por ejemplo, un problema con la calificación de un estudiante individual parece estar impulsado por los datos del nivel de la escuela (posiblemente una cantidad de estudiantes que estudian en esa misma escuela han tenido calificaciones finales que difieren notablemente de las calificaciones previstas), entonces el proceso de apelación se vería en los grados de todos los estudiantes de esa escuela. Si es necesario, el algoritmo de IA en sí se ajustará para la escuela en cuestión, sin afectar a otras escuelas, asegurándose de que los nuevos puntajes proporcionados por la IA sean consistentes en todas las escuelas y permanezcan iguales para todas menos una. Por el contrario, si el problema está vinculado a factores específicos del estudiante, entonces el análisis se centraría en identificar por qué la IA produjo un resultado anómalo para ese estudiante y, si es necesario, volver a calificar a ese estudiante y a cualquier otro estudiante cuyas calificaciones se vieron afectadas. del mismo modo.

Por supuesto, gran parte de esto sería cierto para cualquier proceso de calificación: la anomalía de un estudiante podría indicar una falla más sistemática en cualquier proceso de calificación, ya sea que una IA esté involucrada o no. Pero la forma en que se diseña el proceso de apelación debe reflejar las diferentes formas en que los humanos y las máquinas toman decisiones y el diseño específico de la IA utilizada, así como cómo se pueden corregir las decisiones.

Por ejemplo, dado que AI otorga calificaciones sobre la base de su modelo de relaciones entre varios datos de entrada, por lo general no debería ser necesario observar el trabajo real de los estudiantes en cuestión, y se podrían hacer correcciones a todos los estudiantes afectados (aquellos con similares características de los datos de entrada) todo a la vez. De hecho, en muchos sentidos, apelar una calificación de IA podría ser un proceso más fácil que apelar una calificación tradicional basada en un examen.

Es más, con un sistema de inteligencia artificial, un proceso de apelación en el sentido descrito permitiría una mejora continua de la inteligencia artificial. Si IBO hubiera implementado un sistema de este tipo, los resultados de las apelaciones habrían producido datos de retroalimentación que podrían haber actualizado el modelo para usos futuros, en el caso, digamos, de que los exámenes se cancelen nuevamente el próximo año.

La experiencia del IBO obviamente tiene lecciones para implementar la IA en muchos contextos, desde la aprobación de créditos hasta la búsqueda de empleo o la vigilancia. Las decisiones en todos estos casos pueden, como en el caso del IB, tener consecuencias que alteren la vida de las personas involucradas. Es inevitable que se produzcan disputas sobre los resultados, dado lo que está en juego. Incluir la IA en el proceso de toma de decisiones sin pensar detenidamente en un proceso de apelación y vincular el proceso de apelación al diseño del algoritmo en sí probablemente terminará no solo con nuevas crisis sino potencialmente con un rechazo de las soluciones habilitadas por IA en general. Y eso nos priva a todos del potencial de la IA, cuando se combina con los humanos, para mejorar drásticamente la calidad de la toma de decisiones.

Divulgación: Uno de los autores de este artículo es el padre de un estudiante que completó el programa IB este año.

Theodoros Evgeniou es profesor de ciencias de la decisión y gestión tecnológica en INSEAD.

David R. Hardoon es Asesor Senior de Datos e Inteligencia Artificial en UnionBank Filipinas y ex Director de Datos de la Autoridad Monetaria de Singapur. Es miembro de la facultad visitante en la Singapore Management University, la National University of Singapore y la University College London.

Anton Ovchinnikov es profesor distinguido y becario de análisis de clientes de Scotiabank en la Smith School of Business, Queen's University, Canadá, y profesor invitado en INSEAD.

No hay comentarios:

Publicar un comentario