La ética de los dispositivos inteligentes que analizan cómo hablamos
Por Trevor Cox
Seguridad y Privacidad
Harvard Business Review
A medida que los asistentes inteligentes y las interfaces de voz se vuelven más comunes, estamos regalando una nueva forma de datos personales: nuestro discurso. Esto va mucho más allá de las palabras que decimos en voz alta.
El habla está en el corazón de nuestras interacciones sociales y, sin saberlo, revelamos mucho sobre nosotros mismos cuando hablamos. Cuando alguien escucha una voz, inmediatamente comienza a captar el acento y la entonación y hace suposiciones sobre la edad, la educación, la personalidad del hablante, etc. Los seres humanos hacen esto para que podamos adivinar cuál es la mejor manera de responder a la persona que está hablando.
¿Pero qué pasa cuando las máquinas comienzan a analizar cómo hablamos? Las grandes empresas tecnológicas son tímidas acerca de lo que planean detectar en nuestras voces y por qué, pero Amazon tiene una patente que enumera una serie de rasgos que podrían recopilar, incluida la identidad ("género, edad, origen étnico, etc.") , salud ("dolor de garganta, enfermedad, etc."), y sentimientos ("feliz, triste, cansado, somnoliento, emocionado, etc.").
Esto me preocupa, y también debería preocuparle, porque los algoritmos son imperfectos. Y la voz es particularmente difícil de analizar porque las señales que emitimos son inconsistentes y ambiguas. Además, las inferencias que hacen incluso los humanos están distorsionadas por los estereotipos. Vamos a usar el ejemplo de tratar de identificar la orientación sexual. Hay un estilo de hablar con tonos elevados y entonaciones swooping que algunas personas suponen que son señales de un hombre gay. Pero la confusión a menudo surge porque algunos heterosexuales hablan de esta manera, y muchos homosexuales no lo hacen. Los experimentos científicos muestran que el "gaydar" aural humano solo tiene razón en aproximadamente el 60% del tiempo. Los estudios de máquinas que intentan detectar la orientación sexual a partir de imágenes faciales han mostrado una tasa de éxito de alrededor del 70%. ¿Suena impresionante? No para mí, porque eso significa que esas máquinas están equivocadas el 30% del tiempo. Y anticiparía que las tasas de éxito serán aún más bajas para las voces, porque la forma en que hablamos cambia dependiendo de con quién estemos hablando. Nuestra anatomía vocal es muy flexible, lo que nos permite ser camaleones orales, cambiando inconscientemente nuestras voces para encajar mejor con la persona con la que estamos hablando.
También debemos preocuparnos por las compañías que recopilan información imperfecta sobre los otros rasgos mencionados en la patente de Amazon, incluidos el género y el origen étnico. Los ejemplos de habla utilizados para entrenar aplicaciones de aprendizaje automático aprenderán sesgos sociales. Ya se ha visto en otras tecnologías similares. Escriba el turco “O bir hemşire. O bir doctor "en Google Translate y encontrará" Ella es una enfermera "y" Él es un médico ". A pesar de que" o "es un pronombre de tercera persona neutral al género en turco, la presunción de que un médico es un hombre y un La enfermera es mujer, porque los datos utilizados para entrenar el algoritmo de traducción están sesgados por el sesgo de género en los trabajos médicos. Tales problemas también se extienden a la raza, con un estudio que muestra que en los datos típicos utilizados para el aprendizaje automático, los nombres afroamericanos se usan más a menudo junto con palabras desagradables como "odio", "pobreza", "feo" que los nombres europeos estadounidenses. que solía usarse más a menudo con palabras agradables como "amor", "suerte", "feliz".
Las grandes empresas de tecnología quieren que los dispositivos de voz funcionen mejor, y esto significa comprender cómo se dicen las cosas. Después de todo, el significado de una frase simple como "Estoy bien" cambia por completo si cambia su voz de neutral a enojada. Pero, ¿dónde van a trazar la línea? Por ejemplo, un asistente inteligente que detecta la ira podría comenzar a comprender mucho sobre cómo se lleva con su cónyuge al escuchar el tono de su voz. ¿Comenzará Google a mostrar anuncios de asesoramiento matrimonial cuando detecte una relación problemática? No estoy sugiriendo que alguien vaya a hacer esto deliberadamente. Lo que pasa con estos complejos sistemas de aprendizaje automático es que este tipo de problemas generalmente surgen de formas imprevistas e inesperadas. Otros errores que la AI podría cometer incluyen detectar un fuerte acento e inferir que esto significa que el hablante tiene menos educación, porque los datos de capacitación han sido distorsionados por los estereotipos sociales. Esto podría llevar a un orador inteligente a responder las respuestas de aquellos con acentos fuertes. Las empresas de tecnología deben ser más inteligentes sobre cómo evitar tales prejuicios en sus sistemas. Ya hay ejemplos preocupantes de que se está utilizando el análisis de voz en las líneas telefónicas para que los reclamantes de beneficios detecten posibles reclamaciones falsas. El gobierno del Reino Unido gastó £ 2.4M en un sistema de detección de mentiras que era científicamente incapaz de funcionar.
Un último problema es que muchas personas parecen ser más descuidadas cerca de estos dispositivos. Amazon ya ha notado que muchas personas tienen conversaciones reales con Alexa, y con frecuencia le dicen al dispositivo cómo se sienten, incluso yendo tan lejos como para profesar el amor por la tecnología: "Alexa, te amo". Agencia, por lo que es más probable que antropomorficemos la tecnología y nos sintamos seguros al revelar información confidencial. Probablemente sea solo una cuestión de tiempo antes de que haya una violación importante de seguridad de los datos de voz. Por esa razón, los investigadores están empezando a desarrollar algoritmos para tratar de filtrar información confidencial. Por ejemplo, puede configurar el dispositivo para silenciar el micrófono del altavoz inteligente cuando menciona el nombre de su banco para evitar que revele información de acceso accidentalmente, o si menciona palabras de naturaleza sexual.
¿Cuáles son las actitudes de los consumidores sobre la privacidad cuando se trata de asistentes inteligentes? El único estudio publicado que pude encontrar sobre esto es de la Universidad de Michigan. Mostró que los propietarios de la tecnología no están tan preocupados por dar más datos a los guardianes como Google y Amazon. "Me parece realmente preocupante", explicó uno de los autores del estudio, Florian Schaub. "Estas tecnologías están destruyendo lentamente las expectativas de privacidad de las personas. Los controles de privacidad actuales simplemente no satisfacen las necesidades de la gente ". La mayoría de las personas en el estudio ni siquiera se dieron cuenta de que los datos se estaban analizando para mostrarles anuncios específicos, y cuando se enteraron, no les gustaba que se usaran sus comandos de voz. camino.
Pero los consumidores también pueden subvertir la tecnología para sus propios fines. En el estudio de la Universidad de Michigan, una persona revisó los registros de audio de su Amazon Echo para verificar qué hacían los cuidadores de la casa con la tecnología. Estos dispositivos también pueden abrir nuevos canales de persuasión en el futuro. Si cree que su lavadora necesita ser reemplazada, pero su pareja no está de acuerdo, haga una búsqueda por voz de posibles modelos cerca del altavoz inteligente, y su cónyuge puede ser bombardeado por interminables anuncios de nuevos.
En los negocios, nos hemos acostumbrado a ser cuidadosos con lo que escribimos en los correos electrónicos, en caso de que la información se desvíe. Necesitamos desarrollar una actitud cautelosa similar para tener conversaciones sensibles cerca de los dispositivos conectados. El único dispositivo verdaderamente seguro para hablar frente a uno es el que está apagado.
Trevor Cox es profesor de ingeniería acústica en la Universidad de Salford. Es el autor de Ahora estás hablando: conversación humana de los neandertales a la inteligencia artificial. Puedes seguirlo en Twitter @trevor_cox.
Seguridad y Privacidad
Harvard Business Review
A medida que los asistentes inteligentes y las interfaces de voz se vuelven más comunes, estamos regalando una nueva forma de datos personales: nuestro discurso. Esto va mucho más allá de las palabras que decimos en voz alta.
El habla está en el corazón de nuestras interacciones sociales y, sin saberlo, revelamos mucho sobre nosotros mismos cuando hablamos. Cuando alguien escucha una voz, inmediatamente comienza a captar el acento y la entonación y hace suposiciones sobre la edad, la educación, la personalidad del hablante, etc. Los seres humanos hacen esto para que podamos adivinar cuál es la mejor manera de responder a la persona que está hablando.
¿Pero qué pasa cuando las máquinas comienzan a analizar cómo hablamos? Las grandes empresas tecnológicas son tímidas acerca de lo que planean detectar en nuestras voces y por qué, pero Amazon tiene una patente que enumera una serie de rasgos que podrían recopilar, incluida la identidad ("género, edad, origen étnico, etc.") , salud ("dolor de garganta, enfermedad, etc."), y sentimientos ("feliz, triste, cansado, somnoliento, emocionado, etc.").
Esto me preocupa, y también debería preocuparle, porque los algoritmos son imperfectos. Y la voz es particularmente difícil de analizar porque las señales que emitimos son inconsistentes y ambiguas. Además, las inferencias que hacen incluso los humanos están distorsionadas por los estereotipos. Vamos a usar el ejemplo de tratar de identificar la orientación sexual. Hay un estilo de hablar con tonos elevados y entonaciones swooping que algunas personas suponen que son señales de un hombre gay. Pero la confusión a menudo surge porque algunos heterosexuales hablan de esta manera, y muchos homosexuales no lo hacen. Los experimentos científicos muestran que el "gaydar" aural humano solo tiene razón en aproximadamente el 60% del tiempo. Los estudios de máquinas que intentan detectar la orientación sexual a partir de imágenes faciales han mostrado una tasa de éxito de alrededor del 70%. ¿Suena impresionante? No para mí, porque eso significa que esas máquinas están equivocadas el 30% del tiempo. Y anticiparía que las tasas de éxito serán aún más bajas para las voces, porque la forma en que hablamos cambia dependiendo de con quién estemos hablando. Nuestra anatomía vocal es muy flexible, lo que nos permite ser camaleones orales, cambiando inconscientemente nuestras voces para encajar mejor con la persona con la que estamos hablando.
También debemos preocuparnos por las compañías que recopilan información imperfecta sobre los otros rasgos mencionados en la patente de Amazon, incluidos el género y el origen étnico. Los ejemplos de habla utilizados para entrenar aplicaciones de aprendizaje automático aprenderán sesgos sociales. Ya se ha visto en otras tecnologías similares. Escriba el turco “O bir hemşire. O bir doctor "en Google Translate y encontrará" Ella es una enfermera "y" Él es un médico ". A pesar de que" o "es un pronombre de tercera persona neutral al género en turco, la presunción de que un médico es un hombre y un La enfermera es mujer, porque los datos utilizados para entrenar el algoritmo de traducción están sesgados por el sesgo de género en los trabajos médicos. Tales problemas también se extienden a la raza, con un estudio que muestra que en los datos típicos utilizados para el aprendizaje automático, los nombres afroamericanos se usan más a menudo junto con palabras desagradables como "odio", "pobreza", "feo" que los nombres europeos estadounidenses. que solía usarse más a menudo con palabras agradables como "amor", "suerte", "feliz".
Las grandes empresas de tecnología quieren que los dispositivos de voz funcionen mejor, y esto significa comprender cómo se dicen las cosas. Después de todo, el significado de una frase simple como "Estoy bien" cambia por completo si cambia su voz de neutral a enojada. Pero, ¿dónde van a trazar la línea? Por ejemplo, un asistente inteligente que detecta la ira podría comenzar a comprender mucho sobre cómo se lleva con su cónyuge al escuchar el tono de su voz. ¿Comenzará Google a mostrar anuncios de asesoramiento matrimonial cuando detecte una relación problemática? No estoy sugiriendo que alguien vaya a hacer esto deliberadamente. Lo que pasa con estos complejos sistemas de aprendizaje automático es que este tipo de problemas generalmente surgen de formas imprevistas e inesperadas. Otros errores que la AI podría cometer incluyen detectar un fuerte acento e inferir que esto significa que el hablante tiene menos educación, porque los datos de capacitación han sido distorsionados por los estereotipos sociales. Esto podría llevar a un orador inteligente a responder las respuestas de aquellos con acentos fuertes. Las empresas de tecnología deben ser más inteligentes sobre cómo evitar tales prejuicios en sus sistemas. Ya hay ejemplos preocupantes de que se está utilizando el análisis de voz en las líneas telefónicas para que los reclamantes de beneficios detecten posibles reclamaciones falsas. El gobierno del Reino Unido gastó £ 2.4M en un sistema de detección de mentiras que era científicamente incapaz de funcionar.
Un último problema es que muchas personas parecen ser más descuidadas cerca de estos dispositivos. Amazon ya ha notado que muchas personas tienen conversaciones reales con Alexa, y con frecuencia le dicen al dispositivo cómo se sienten, incluso yendo tan lejos como para profesar el amor por la tecnología: "Alexa, te amo". Agencia, por lo que es más probable que antropomorficemos la tecnología y nos sintamos seguros al revelar información confidencial. Probablemente sea solo una cuestión de tiempo antes de que haya una violación importante de seguridad de los datos de voz. Por esa razón, los investigadores están empezando a desarrollar algoritmos para tratar de filtrar información confidencial. Por ejemplo, puede configurar el dispositivo para silenciar el micrófono del altavoz inteligente cuando menciona el nombre de su banco para evitar que revele información de acceso accidentalmente, o si menciona palabras de naturaleza sexual.
¿Cuáles son las actitudes de los consumidores sobre la privacidad cuando se trata de asistentes inteligentes? El único estudio publicado que pude encontrar sobre esto es de la Universidad de Michigan. Mostró que los propietarios de la tecnología no están tan preocupados por dar más datos a los guardianes como Google y Amazon. "Me parece realmente preocupante", explicó uno de los autores del estudio, Florian Schaub. "Estas tecnologías están destruyendo lentamente las expectativas de privacidad de las personas. Los controles de privacidad actuales simplemente no satisfacen las necesidades de la gente ". La mayoría de las personas en el estudio ni siquiera se dieron cuenta de que los datos se estaban analizando para mostrarles anuncios específicos, y cuando se enteraron, no les gustaba que se usaran sus comandos de voz. camino.
Pero los consumidores también pueden subvertir la tecnología para sus propios fines. En el estudio de la Universidad de Michigan, una persona revisó los registros de audio de su Amazon Echo para verificar qué hacían los cuidadores de la casa con la tecnología. Estos dispositivos también pueden abrir nuevos canales de persuasión en el futuro. Si cree que su lavadora necesita ser reemplazada, pero su pareja no está de acuerdo, haga una búsqueda por voz de posibles modelos cerca del altavoz inteligente, y su cónyuge puede ser bombardeado por interminables anuncios de nuevos.
En los negocios, nos hemos acostumbrado a ser cuidadosos con lo que escribimos en los correos electrónicos, en caso de que la información se desvíe. Necesitamos desarrollar una actitud cautelosa similar para tener conversaciones sensibles cerca de los dispositivos conectados. El único dispositivo verdaderamente seguro para hablar frente a uno es el que está apagado.
Trevor Cox es profesor de ingeniería acústica en la Universidad de Salford. Es el autor de Ahora estás hablando: conversación humana de los neandertales a la inteligencia artificial. Puedes seguirlo en Twitter @trevor_cox.
No hay comentarios:
Publicar un comentario