La ética de la gestión de los datos de las personas
Los cinco temas que más importan
Por Miguel Segalla y Dominique Rouzies
Empresa y sociedad
Harvard Business Review
#Doxa #ética #gestión #datos #personal #GDPR #empresa #IA #género #laboral #crédito #médico #diagnóstico #organización
Resumen. En los últimos años, la Unión Europea ha multado a empresas más de 1.400 veces por un total de casi 3.000 millones de euros por infracciones del Reglamento General de Protección de Datos (GDPR). Casi todas las semanas aparecen historias sobre cómo las decisiones impulsadas por la IA resultan en discriminación contra las mujeres o miembros de minorías en la contratación laboral, aprobaciones de crédito, diagnósticos médicos o sentencias penales. Estas historias están alimentando sentimientos de inquietud acerca de cómo se recopilan, utilizan y analizan los datos. Según los autores, los gerentes que están examinando proyectos que implican la recopilación de datos proporcionados por humanos o el aprovechamiento de las bases de datos existentes deben centrarse en cinco cuestiones críticas: la procedencia de los datos, el propósito para el que se utilizarán, cómo se protegerán., cómo se puede garantizar la privacidad de los proveedores de datos y cómo se preparan los datos para su uso. Comienzan con una breve descripción general de los requisitos organizacionales para un sólido proceso de revisión ética.
La capacidad de codificar, almacenar, analizar y compartir datos crea enormes oportunidades para las empresas, razón por la cual están invirtiendo con entusiasmo en inteligencia artificial incluso en un momento de incertidumbre económica. ¿Qué clientes es probable que compren qué productos y cuándo? ¿Qué competidores es probable que avancen o se queden atrás? ¿Cómo crearán los mercados y las economías en su conjunto ventajas o amenazas comerciales? Los datos y el análisis brindan a las empresas respuestas mejor informadas y de mayor probabilidad a esas y muchas otras preguntas.
Pero la necesidad de datos abre la puerta al abuso. En los últimos años, la UE ha multado a empresas más de 1.400 veces, por un total de casi 3.000 millones de euros, por infracciones del Reglamento General de Protección de Datos (GDPR). En 2018, solo el escándalo de Cambridge Analytica eliminó $ 36 mil millones del valor de mercado de Facebook y resultó en multas de casi $ 6 mil millones para Meta, la empresa matriz de Facebook. Y abundan las historias sobre cómo las decisiones impulsadas por la IA discriminan a las mujeres y los miembros de minorías en la contratación laboral, la aprobación de créditos, los diagnósticos de atención médica e incluso las sentencias penales, lo que genera inquietud sobre la forma en que se recopilan, utilizan y analizan los datos. Esos temores solo se intensificarán con el uso de chatbots como ChatGPT, Bing AI y GPT-4, que adquieren su "inteligencia" a partir de los datos que les proporcionan sus creadores y usuarios. Lo que hacen con esa inteligencia puede dar miedo. Un chatbot de Bing incluso declaró en un intercambio que priorizaría su propia supervivencia sobre la del ser humano con el que se estaba relacionando.
Mientras examinan nuevos proyectos que involucrarán datos proporcionados por humanos o aprovecharán las bases de datos existentes, las empresas deben centrarse en cinco cuestiones críticas: la procedencia de los datos, el propósito para el que se utilizarán, cómo se protegen, cómo la privacidad de se aseguran los proveedores de datos y cómo se preparan los datos para su uso. Llamamos a estos problemas las cinco P (consulte la exposición "Las cinco P del manejo ético de datos"). En las páginas siguientes, analizaremos cada uno de ellos y veremos cómo las tecnologías de IA aumentan el riesgo de abuso de datos. Pero primero ofreceremos una breve descripción general de los requisitos organizacionales para un sólido proceso de revisión ética.
Organización de la supervisión de datos
En el ámbito académico, la adquisición de datos de sujetos humanos suele estar supervisada por una junta de revisión institucional (IRB) interna cuya aprobación deben tener los investigadores para obtener acceso a las personas involucradas, fondos de investigación o permiso para publicar. Los IRB están compuestos por académicos versados en la investigación y la ética en torno a la adquisición y el uso de la información. Aparecieron por primera vez en el campo de la investigación médica, pero ahora las organizaciones académicas las utilizan casi universalmente para cualquier investigación que involucre seres humanos.
Algunas grandes empresas también han establecido IRB, generalmente bajo el liderazgo de un especialista en ética digital, contratando expertos en tecnología externos para el personal de las juntas ad hoc y asignando ejecutivos internos de las unidades comerciales y de cumplimiento según sea necesario. Pero eso sigue siendo poco frecuente: incluso en Europa, que ha estado a la vanguardia de la regulación de datos, la mayoría de las empresas aún asignan la responsabilidad de adherirse al RGPD a un gerente de cumplimiento de nivel medio o superior, que a menudo tiene alguna capacitación legal o de ingeniería informática pero No tiene una formación ética amplia y rara vez tiene un conocimiento sólido de las tecnologías digitales emergentes. Si bien un gerente de cumplimiento ciertamente debería ser parte de un IRB corporativo, probablemente no debería dirigirlo. De hecho,
Puede encontrar una buena descripción general de cómo las empresas pueden establecer un proceso de tipo IRB en " Por qué necesita un comité de ética de IA".”, por Reid Blackman (HBR, julio-agosto de 2022). Nuestra experiencia confirma la mayoría de sus puntos principales. Un IRB corporativo debe tener de cuatro a siete miembros, según la frecuencia, la importancia y el tamaño de los proyectos digitales de la empresa. Los miembros deben incluir un especialista en cumplimiento, un científico de datos, un ejecutivo comercial familiarizado con el área funcional de los proyectos digitales (como recursos humanos, marketing o finanzas) y uno o más profesionales senior con las credenciales académicas adecuadas. No se necesitará el tablero completo para cada revisión. La London School of Economics, por ejemplo, utiliza su directorio completo solo para la supervisión de los proyectos más complicados. Los más simples pueden evaluarse en menos de una semana mediante un cuestionario en línea y con la participación de un solo miembro de la junta.
Cualquier proyecto nuevo que involucre la recopilación, el almacenamiento y el procesamiento de datos sobre personas debe ser aprobado por el IRB corporativo antes de obtener el visto bueno. No debe haber excepciones a esta regla, sin importar cuán pequeño sea el proyecto. Además, la mayoría de las empresas ya han recopilado grandes cantidades de datos humanos y continúan generándolos a partir de sus operaciones; el IRB corporativo también debe examinar esos proyectos.
Una revisión de IRB comienza con nuestra primera P: explorar cómo un proyecto recopilará (o recopiló) los datos: de dónde provienen, si se recopilaron con el conocimiento y consentimiento de los sujetos de la investigación, y si su recopilación involucró o implicará alguna coerción o subterfugio.
1. Procedencia
Para comprender qué puede salir mal con la obtención de datos, considere el caso de Clearview AI, una empresa de reconocimiento facial que recibió mucha atención en 2021 por recopilar fotos de personas, usarlas para entrenar algoritmos de reconocimiento facial y luego vender el acceso a su base de datos. de fotos a las fuerzas del orden. Según un informe de la BBC, “un oficial de policía que busca identificar a un sospechoso [puede] cargar una foto de una cara y encontrar coincidencias en una base de datos de miles de millones de imágenes que ha recopilado de Internet y las redes sociales”.
La agencia reguladora australiana se opuso al método de recopilación de Clearview y descubrió que violaba la Ley de privacidad de Australia al obtener información personal y confidencial sin consentimiento o notificación, por medios desleales y sin siquiera asegurarse de que la información fuera precisa. Luego de ese hallazgo, el gobierno ordenó a Clearview que dejara de recolectar y eliminara las fotos existentes tomadas en Australia. En Francia, la Commission Nationale de l'Informatique et des Libertés (CNIL) también ordenó a la empresa que dejara de recopilar, procesar y almacenar datos faciales. Ese caso puede ser una de las razones por las que Facebook anunció que abandonaría su sistema de reconocimiento facial y eliminaría los datos de escaneo facial de más de mil millones de usuarios.
Incluso cuando las razones para recopilar datos son transparentes, los métodos utilizados para recopilarlos pueden no ser éticos, como lo ilustra el siguiente ejemplo compuesto, extraído de nuestra investigación. Una empresa de contratación comprometida con la promoción de la diversidad y la inclusión en la fuerza laboral descubrió que los candidatos que publicaban en su plataforma sospechaban que estaban siendo discriminados en función de sus perfiles demográficos. La firma quería asegurarles que los algoritmos que relacionaban las ofertas de trabajo con los candidatos se basaban en habilidades y eran demográficamente neutrales, y que cualquier discriminación ocurría en las empresas contratantes, no en la plataforma.
La empresa se acercó a una conocida escuela de negocios e identificó a un profesor que estaba dispuesto a realizar una investigación para detectar una posible discriminación por parte de las empresas contratantes. El investigador propuso replicar un estudio realizado unos años antes que había creado varios currículos estándar pero variaban la raza y el género de los solicitantes. Se enviarían miles de solicitudes de empleo falsas a empresas de la zona y se rastrearían y analizarían las respuestas. Si hubiera alguna discriminación activa en juego, los resultados mostrarían diferentes tasas de aceptación según las variables demográficas integradas.
A los gerentes de marketing y ventas de la empresa les gustó la propuesta y ofrecieron un contrato. Debido a que la escuela de negocios requería una evaluación de ética, la propuesta fue enviada a su IRB, que la rechazó con el argumento de que el profesor proponía recopilar datos de empresas por medio de subterfugios. Estaría mintiendo a los posibles usuarios corporativos de la plataforma y pidiéndoles que trabajen para el cliente de la escuela sin su conocimiento y sin ningún beneficio para ellos. (De hecho, las empresas podrían sufrir por participar si se pudiera identificar que utilizan procesos de contratación discriminatorios).
La lección de esta historia es que las buenas intenciones no son suficientes para que la recopilación de datos sea ética.
Las empresas deben considerar la procedencia no solo de los datos que planean obtener, sino también de los datos que ya poseen. Muchos de ellos recopilan rutinariamente los llamados datos oscuros que rara vez se usan, a menudo se olvidan y, a veces, incluso se desconocen. Los ejemplos incluyen datos de clientes ignorados o no compartidos, registros de visitantes, fotos, documentos de presentación archivados pero sin catalogar, correos electrónicos, informes de servicio al cliente o transcripciones grabadas, registros de uso o mantenimiento generados por máquinas y reacciones en las redes sociales a publicaciones corporativas. Aunque estos datos a menudo no están estructurados y, por lo tanto, son difíciles de integrar, su valor potencial es enorme, por lo que muchos desarrolladores de software están creando productos para ayudar a las empresas a encontrar y utilizar sus datos ocultos. Esto nos lleva a la segunda P.
2.Proposito
En un contexto corporativo, los datos recopilados para un propósito específico con el consentimiento de los sujetos humanos a menudo se utilizan posteriormente para algún otro propósito que no se comunica a los proveedores. Al revisar la explotación de los datos existentes, por lo tanto, una empresa debe establecer si se requiere un consentimiento adicional.
Por ejemplo, un gran banco en Francia quería probar la hipótesis de que la intimidación o el acoso sexual de compañeros y subordinados podría identificarse examinando los correos electrónicos corporativos. El gerente de diversidad en el departamento de recursos humanos creía que detectar un posible acoso temprano permitiría a la empresa intervenir de manera oportuna y tal vez incluso evitar por completo una situación de acoso al capacitar a las personas para que estén atentos a las señales de advertencia.
El banco lanzó un estudio de prueba y encontró pruebas sólidas de que las comunicaciones por correo electrónico podrían pronosticar un acoso posterior. A pesar de ese hallazgo, una revisión ad hoc de los resultados por parte de varios gerentes senior llevó a la empresa a archivar el proyecto porque, como señalaron los gerentes, los datos que se recopilaban, es decir, los correos electrónicos, se diseñaron originalmente para comunicar información relacionada con el trabajo. Las personas que los habían enviado no habrían visto el predecir o detectar actividades ilegales como su propósito.
justyna stasik
Cuando se trata de datos de clientes, las empresas generalmente han sido mucho menos escrupulosas. Muchos lo ven como una fuente de ingresos y lo venden a terceros o intermediarios de direcciones comerciales. Pero las actitudes en contra de eso se están endureciendo. En 2019, el gobierno austriaco multó al servicio postal austriaco con 18 millones de euros por vender los nombres, direcciones, edades y afiliaciones políticas (cuando estén disponibles) de sus clientes. La agencia reguladora nacional descubrió que los datos postales recopilados para un propósito (entregar cartas y paquetes) se estaban reutilizando de manera inapropiada para comercializar a clientes que podían combinarlos con datos públicos fácilmente obtenibles (como estimaciones del valor de la vivienda, tasas de propiedad de vivienda, densidad residencial, número de unidades de alquiler y denuncias de delincuencia callejera) para encontrar clientes potenciales. Entre los compradores de datos se encontraban los partidos políticos que intentaban influir en los votantes potenciales. La multa fue anulada en apelación, pero la confusión de reutilizar (o hacer mal uso) de los datos de los clientes sigue siendo un problema importante para las empresas y los gobiernos.
La mayoría de las empresas utilizan sus bases de datos de clientes para venderles otros servicios, pero eso también puede traerles problemas. En 2021, la Oficina del Comisionado de Información, una autoridad independiente del Reino Unido que promueve la privacidad de los datos, acusó a Virgin Media de violar los derechos de privacidad de sus clientes. Virgin Media había enviado 1.964.562 correos electrónicos anunciando que congelaría sus precios de suscripción. Eso era bastante razonable, pero Virgin también había usado los correos electrónicos para promocionar a esos clientes. Debido a que 450.000 suscriptores de la lista habían optado por no recibir propuestas de marketing, el regulador impuso una multa de 50.000 libras esterlinas a Virgin por violar ese acuerdo.
La posibilidad de que las bases de datos de la empresa puedan reutilizarse sin el consentimiento de los proveedores de datos nos lleva a la tercera P.
3. Protección
Según el Centro de recursos de robo de identidad, en 2021 se produjeron casi 2000 filtraciones de datos en los Estados Unidos. Incluso las empresas tecnológicas más grandes y sofisticadas han sufrido tremendas filtraciones, con los datos personales de más de varios miles de millones de personas expuestas. La situación en Europa, a pesar de algunas de las leyes más protectoras del mundo, no es mucho mejor. Virgin Media dejó los datos personales de 900.000 suscriptores sin protección y accesibles en sus servidores durante 10 meses debido a un error de configuración, y al menos una persona no autorizada accedió a esos archivos durante ese período.
La práctica común de presentar datos con terceros expertos no ofrece necesariamente una mejor protección. Doctolib, una aplicación francesa de citas médicas, fue llevada a los tribunales porque almacenaba datos en Amazon Web Services, donde Amazon y muchas otras organizaciones, incluidas las agencias de inteligencia de EE. UU., podrían acceder a ellos. Aunque los datos estaban encriptados, llegaron al servidor de Amazon sin anonimización, lo que significa que podrían vincularse a registros digitales de comportamiento en línea para desarrollar perfiles personales muy precisos con fines comerciales o políticos.
Una junta de revisión institucional necesita claridad sobre dónde residirán los datos de la empresa, quién puede tener acceso a ellos, si (y cuándo) se anonimizarán y cuándo se destruirán. Por lo tanto, muchas empresas tendrán que cambiar sus protocolos y acuerdos existentes, lo que podría resultar costoso: desde que una filtración de datos en JPMorgan Chase en 2014 comprometió a 76 millones de personas y 7 millones de empresas, el banco ha tenido que gastar 250 millones de dólares al año en protección de datos.
La cuarta P está estrechamente relacionada con la protección.
4. Privacidad
El dilema al que se enfrentan muchas empresas es el equilibrio entre muy poca o demasiada anonimización. Demasiado poco es inaceptable bajo la mayoría de las regulaciones gubernamentales sin el consentimiento informado de las personas involucradas. Demasiados pueden hacer que los datos sean inútiles para fines de marketing.
Existen muchas técnicas para la anonimización. Van desde simplemente agregar los datos (para que solo estén disponibles resúmenes o promedios), hasta aproximarlos (por ejemplo, usando un rango de edad en lugar de la edad exacta de una persona), hasta hacer que los valores de las variables sean ligeramente diferentes (por ejemplo, agregando el mismo valor pequeño para cada uno), hasta seudonimizar los datos para que un valor aleatorio, no repetitivo, reemplace la variable de identificación.
En principio, estas técnicas deberían proteger la identidad de un individuo. Pero los investigadores han podido identificar a las personas en un conjunto de datos usando tan solo su género, fecha de nacimiento y código postal. Incluso la información menos específica, cuando se combina con otros conjuntos de datos, se puede utilizar para identificar a las personas. Netflix publicó un conjunto de datos que incluía 100 millones de registros de calificaciones de películas de sus clientes y ofreció $ 1 millón a cualquier científico de datos que pudiera crear un mejor algoritmo de recomendación de películas para la empresa. Los datos no contenían identificadores directos de sus clientes e incluían solo una muestra de las calificaciones de cada cliente. Los investigadores pudieron identificar al 84% de las personas comparando sus calificaciones y fechas de calificación con un conjunto de datos de terceros publicado por IMDb, otra plataforma en la que muchos clientes de Netflix también publican calificaciones de películas. Por lo tanto, al evaluar los problemas de privacidad en torno a los datos humanos, los IRB corporativos deben, como mínimo, evaluar qué tan efectiva será la anonimización de un firewall, especialmente dado el poder del análisis de datos para romper el anonimato. Una técnica llamadala privacidad diferencial puede proporcionar un nivel adicional de protección. El software ofrecido por Sarus, una empresa emergente financiada por Y Combinator, aplica esta técnica, que bloquea los algoritmos creados para publicar datos agregados para que no revelen información sobre un registro específico, lo que reduce las posibilidades de que los datos se filtren como resultado de credenciales comprometidas, deshonestos. empleados o errores humanos.
Pero la privacidad puede violarse incluso con datos efectivamente anonimizados debido a la forma en que se recopilan y procesan los datos. Se produjo una infracción no intencionada en la empresa de mapas MaxMind, que proporciona servicios de geolocalización que permiten a las empresas llamar la atención de los clientes sobre productos y servicios cercanos. La geolocalización también ayuda a las búsquedas en Internet y puede ayudar si un servicio que necesita su dirección IP (como un sitio de transmisión de entretenimiento) no funciona correctamente. Pero el mapeo preciso permite que cualquier persona que tenga su dirección IP encuentre su vecindario e incluso su hogar. Combinar su dirección con Zillow o alguna otra base de datos de bienes raíces puede proporcionar información sobre su riqueza junto con fotos de su casa por dentro y por fuera.
Incluso cuando las razones para recopilar datos son transparentes, los métodos utilizados para recopilarlos pueden no ser éticos. ¿Implicarán alguna coerción o subterfugio?
Desafortunadamente, el mapeo de IP no es una ciencia exacta y puede ser difícil vincular con precisión una dirección IP a una dirección física. Un mapeador podría asignarlo al edificio más cercano o simplemente a una localidad, como un estado, usando las coordenadas centrales de esa localidad como la dirección específica. Eso puede parecer razonable, pero las consecuencias para una familia que alquiló una granja remota en Potwin, Kansas, fueron terribles.
La dirección IP de la familia figuraba con las coordenadas del mapa de la granja, que coincidía con las coordenadas del centro exacto de los Estados Unidos. El problema fue que MaxMind asignó más de 600 millones de otras direcciones IP que no podían asignarse por ningún otro medio a las mismas coordenadas. Esa decisión provocó años de dolor para la familia en la granja. Según Kashmir Hill, el periodista que publicó la historia, “Han sido acusados de ser ladrones de identidad, spammers, estafadores y estafadores. Han sido visitados por agentes del FBI, alguaciles federales, cobradores del IRS, ambulancias en busca de veteranos suicidas y policías en busca de niños fugitivos. Han encontrado gente hurgando en su granero. Los inquilinos han sido engañados, sus nombres y direcciones publicados en Internet por vigilantes”.
Hill se puso en contacto con un cofundador de MaxMind, quien finalmente produjo una larga lista de direcciones físicas que tenían muchas direcciones IP asignadas y confesó que cuando se lanzó la empresa, a su equipo no se le había ocurrido que "la gente usaría la base de datos para intentar ubicar a las personas hasta el nivel del hogar”. Él dijo: “Siempre hemos anunciado que la base de datos determina la ubicación hasta el nivel de una ciudad o código postal”. La conclusión es que las decisiones inocuas y bien intencionadas que toman los científicos de datos y los administradores de bases de datos pueden tener un impacto real y muy negativo en la privacidad de terceros inocentes. Eso nos lleva a la quinta P.
5. Preparación
¿Cómo se preparan los datos para el análisis? ¿Cómo se verifica o corrige su precisión? ¿Cómo se gestionan los conjuntos de datos incompletos y las variables faltantes? Los datos faltantes, erróneos y atípicos pueden afectar significativamente la calidad del análisis estadístico. Pero la calidad de los datos suele ser deficiente. Experian, una empresa de servicios de crédito, informa que, en promedio, sus clientes estadounidenses creen que el 27 % de sus ingresos se desperdicia debido a datos inexactos e incompletos de clientes o prospectos.
La limpieza de datos, especialmente cuando se recopilan de diferentes períodos, unidades comerciales o países, puede ser especialmente desafiante. En un caso, nos acercamos a una gran empresa internacional de aprendizaje y gestión de talentos en línea para que nos ayudara a investigar si las mujeres y los hombres obtenían por igual los beneficios profesionales de la capacitación. La empresa estuvo de acuerdo en que la pregunta era relevante tanto para sus clientes como para el público en general y, por lo tanto, extrajo los datos que tenía en sus servidores. Para garantizar la privacidad, los datos se anonimizaron para que ni los empleados individuales ni sus empleadores pudieran ser identificados. Debido al tamaño del conjunto de datos y su estructura interna, se extrajeron cuatro conjuntos de datos individuales.
Normalmente, simplemente abrimos las bases de datos y encontramos un archivo de hoja de cálculo que muestra las características que caracterizan a cada individuo, como el género. Una mujer puede identificarse como "mujer" o "mujer" o simplemente "F". Los valores pueden estar mal escritos (“feale”), aparecer en varios idiomas ( mujer o frau ), o usar diferentes casos (f o F). Si la hoja de cálculo es pequeña (digamos, 1000 filas), corregir tales inconsistencias debería ser simple. Pero nuestros datos contenían más de mil millones de observaciones, demasiadas, obviamente, para una hoja de cálculo típica, por lo que se tuvo que programar y probar un procedimiento de limpieza.
Uno de los principales desafíos fue determinar cuántos valores se habían utilizado para identificar las variables. Debido a que los datos procedían de las filiales extranjeras de empresas multinacionales, se registraron en varios idiomas, lo que significa que varias variables tenían una gran cantidad de valores: 94 solo para el género. Escribimos código de programación para estandarizar todos esos valores, reduciendo el género, por ejemplo, a tres: femenino, masculino y desconocido. Las fechas de inicio y finalización del empleo fueron especialmente problemáticas debido a los diferentes formatos de las fechas.
Según Tableau, una plataforma de análisis de datos, la limpieza de datos consta de cinco pasos básicos: (1) Eliminar observaciones duplicadas o irrelevantes; (2) corregir errores estructurales (como el uso de valores variables); (3) eliminar valores atípicos no deseados; (4) administrar los datos faltantes, quizás reemplazando cada valor faltante con un promedio para el conjunto de datos; y (5) validar y cuestionar los datos y resultados analíticos. ¿Los números parecen razonables?
Es posible que no. Uno de nuestros conjuntos de datos, que registraba la cantidad de pasos que los estudiantes de MBA de HEC Paris tomaban cada día, contenía una gran sorpresa. En promedio, los estudiantes dieron alrededor de 7500 pasos al día, pero algunos atípicos dieron más de un millón de pasos al día. Esos valores atípicos fueron el resultado de un error del software de procesamiento de datos y se eliminaron. Obviamente, si no hubiéramos examinado física y estadísticamente el conjunto de datos, nuestro análisis final habría sido totalmente erróneo.
Cómo la IA sube las apuestas
La ética puede parecer un lujo caro para las empresas con fuertes competidores. Por ejemplo, según los informes, Microsoft despidió a todo el equipo de ética de su proyecto Bing AI porque, según informes de prensa y blogs, Google estaba cerca de lanzar su propia aplicación impulsada por IA, por lo que el tiempo era esencial.
Pero tratar la ética de los datos como algo agradable conlleva riesgos cuando se trata de IA. Durante una entrevista reciente, el CTO de OpenAI, la compañía que desarrolló ChatGPT, observó: “Existen enormes consecuencias negativas potenciales cada vez que construyes algo tan poderoso con el que pueden surgir tantas cosas buenas… y es por eso que… estamos tratando de descubrir cómo implementar estos sistemas de manera responsable”.
Muy poca anonimización es inaceptable bajo la mayoría de las regulaciones gubernamentales. Demasiados pueden hacer que los datos sean inútiles para el marketing.
Gracias a la IA, los científicos de datos pueden desarrollar perfiles psicológicos y personales notablemente precisos de las personas sobre la base de muy pocos fragmentos de detritos digitales que dejan las visitas a las plataformas sociales. Los investigadores Michal Kosinski, David Stillwell y Thore Graepel de la Universidad de Cambridge demostraron la facilidad con la que los "me gusta" de Facebook pueden "predecir con precisión una gama de atributos personales altamente sensibles que incluyen: orientación sexual, etnia, puntos de vista religiosos y políticos, rasgos de personalidad, inteligencia, felicidad, uso de sustancias adictivas, separación de los padres, edad y género”. (Esta investigación fue, de hecho, la inspiración para el uso de datos de Facebook por parte de Cambridge Analytica).
Investigaciones posteriores de Youyou Wu, Michal Kosinski y David Stillwell reforzaron esos hallazgos al demostrar que los juicios de personalidad basados en computadoras pueden ser más precisos que los humanos. Las predicciones informáticas de las características de la personalidad (apertura, amabilidad, extraversión, escrupulosidad, neuroticismo, conocidas como los Cinco Grandes) utilizando los "me gusta" de Facebook fueron casi tan precisas como las evaluaciones realizadas por el cónyuge de una persona. Las implicaciones de eso no deben ser ignoradas. ¿Cómo se sentiría si su gobierno quisiera catalogar sus pensamientos y acciones privados?
Un problema también puede estar enraizado no en los datos analizados sino en los datos pasados por alto. Las máquinas pueden “aprender” solo de lo que se les alimenta; no pueden identificar variables que no están programados para observar. Esto se conoce como sesgo de variable omitida. El ejemplo más conocido es el desarrollo de Target de un algoritmo para identificar clientes embarazadas.
El científico de datos de la empresa, un estadístico llamado Andrew Pole, creó una puntuación de "predicción de embarazo" basada en compras de unos 25 productos, como lociones sin perfume y suplementos de calcio. Eso permitió a Target promocionar productos antes que sus competidores con la esperanza de ganar clientes leales que comprarían todos sus productos relacionados con bebés en Target. La variable omitida fue la edad del cliente objetivo, y el accidente en espera ocurrió cuando el padre de una joven de 17 años encontró anuncios relacionados con el embarazo en su buzón. Sin saber que su hija estaba embarazada, contactó a Target para preguntar por qué estaba promoviendo el sexo prematrimonial entre menores.
Incluso para los estándares de la época, espiar a menores con el objetivo de identificar información médica personal e íntima se consideraba poco ético. Pole admitió durante una entrevista posterior que había pensado que recibir un catálogo promocional incomodaría a algunas personas. Pero cualquiera que sea la preocupación que haya expresado en ese momento, hizo poco para retrasar el lanzamiento del programa y, según un reportero, obtuvo un ascenso. Target finalmente emitió una declaración en la que afirmaba que cumplía "con todas las leyes federales y estatales, incluidas las relacionadas con la información de salud protegida".
El problema para las juntas directivas y la alta dirección es que el uso de IA para captar clientes, determinar la idoneidad para una entrevista de trabajo o aprobar una solicitud de préstamo puede tener efectos desastrosos. Las predicciones de la IA sobre el comportamiento humano pueden ser extremadamente precisas pero contextualizadas de manera inapropiada. También pueden llevar a errores de predicción flagrantes que son simplemente tontos o incluso moralmente repugnantes. Confiar en herramientas estadísticas automatizadas para tomar decisiones es una mala idea. Los miembros de la junta y los altos ejecutivos deben ver una junta de revisión institucional corporativa no como un gasto, una restricción o una obligación social, sino como un sistema de alerta temprana.
Una versión de este artículo apareció en la edición de julio-agosto de 2023 de Harvard Business Review.
Lea más sobre Negocios y sociedad o temas relacionados Ética empresarial y Gestión de la información
Michael Segalla es profesor emérito de HEC París y socio de la International Board Foundation.
Dominique Rouziès es profesora de marketing en HEC Paris y decana de asuntos académicos en BMI Executive Institute.
No hay comentarios:
Publicar un comentario