Doxa 1199

Para proteger los datos del consumidor, no haga todo en la nube

La computación perimetral a menudo puede ofrecer los mismos resultados con menos riesgo.

Por Sachin Gupta, Panos Moutafis y Matthew J. Schneider 
Liderazgo y gestión de personal
Harvard Business Review

#doxa #liderazgo #rrhh #gestión #datos #consumidor #nube #computación #riesgo
Resumen. A medida que las empresas almacenan cada vez más datos de los consumidores, corren cada vez más el riesgo de infracciones vergonzosas e incluso profundamente dañinas por parte de los piratas informáticos. Pero, ¿qué pasaría si pudieran obtener información útil sin acumular cada fragmento de datos? La computación perimetral, en la que los datos se procesan localmente en hardware en lugar de en la nube, puede ayudarlos a lograrlo mediante la implementación de tres opciones de diseño críticas. Las opciones de diseño comienzan con cómo pensar en la recopilación de datos y se extienden al procesamiento de datos real. Estos son: 1) suficiencia, o un enfoque en solo datos imprescindibles; 2) agregación o agrupación de datos para producir conocimientos grupales; y 3) alteración o cambios menores en los datos para ocultar la identidad de una persona y, al mismo tiempo, afectar mínimamente la precisión de la información.
Al recopilar datos del consumidor, casi siempre existe un riesgo para la privacidad del consumidor. La información confidencial podría filtrarse involuntariamente o ser violada por malos actores. Por ejemplo, la violación de datos de Equifax de 2017 comprometió la información personal de 143 millones de consumidores estadounidenses. Las infracciones más pequeñas, de las que puede que se entere o no, ocurren todo el tiempo. A medida que las empresas recopilen más datos y dependan más de sus conocimientos, es probable que aumente el potencial de que los datos se vean comprometidos.

Sin embargo, con la arquitectura y los procesos de datos adecuados, estos riesgos se pueden mitigar sustancialmente al garantizar que los datos privados se toquen en el menor número posible de puntos. Específicamente, las empresas deben considerar el potencial de lo que se conoce como informática de punta. Bajo este paradigma, los cálculos no se realizan en la nube, sino en dispositivos que están en el borde de la red, cerca de donde se generan los datos. Por ejemplo, los cálculos que hacen que el Face ID de Apple funcione suceden directamente en su iPhone. Como investigadores que estudian la privacidad en el contexto de los negocios, la informática y las estadísticas, creemos que este enfoque es sensato, y debería usarse más, porque la informática de borde minimiza la transmisión y retención de información sensible a la nube, lo que reduce el riesgo de que se produzca. podría aterrizar en las manos equivocadas.

Pero, ¿cómo funciona realmente esta tecnología y cómo pueden implementarla las empresas que no tienen recursos del tamaño de Apple?

Considere una tienda de vinos hipotética que quiere capturar las caras de los consumidores que prueban un vino nuevo para medir cómo les gusta. Los propietarios de la tienda están eligiendo entre dos tecnologías de video de la competencia: el primer sistema captura horas de video, envía los datos a servidores de terceros, guarda el contenido en una base de datos, procesa el metraje utilizando algoritmos de análisis facial e informa la información que el 80% de los consumidores parecían felices al probar el vino nuevo. El segundo sistema ejecuta algoritmos de análisis facial en la propia cámara, no almacena ni transmite ninguna secuencia de video e informa el mismo 80% de información agregada al minorista de vinos.

El segundo sistema utiliza la computación en el borde para restringir el número de puntos en los que los humanos, servidores, bases de datos o interfaces tocan datos privados. Por lo tanto, reduce las posibilidades de una violación de datos o un uso no autorizado en el futuro. Solo recopila datos suficientes para tomar una decisión comercial: ¿Debería el minorista de vinos invertir en la publicidad del vino nuevo?

A medida que las empresas trabajan para proteger la privacidad de sus clientes, se enfrentarán a situaciones similares a la anterior. Y en muchos casos, habrá una solución informática de vanguardia. Esto es lo que necesitan saber.

Privacidad por diseño

En 1980, la Organización para la Cooperación y el Desarrollo Económicos, un foro internacional de 38 países, estableció directrices para la protección de la privacidad y los flujos transfronterizos de datos personales para sus países miembros con el objetivo de armonizar la legislación nacional sobre privacidad. Estas pautas, que se basaron en principios como la limitación del propósito y la minimización de datos, evolucionaron hasta convertirse en una legislación reciente sobre privacidad de datos, como el Reglamento general de protección de datos (GDPR) en Europa y la Ley de privacidad del consumidor de California (CCPA), ambas introducidas en 2018.

El auge de la informática de borde ayuda a las organizaciones a cumplir con las pautas de privacidad mencionadas anteriormente mediante la implementación de tres opciones de diseño críticas. Las opciones de diseño comienzan con cómo pensar en la recopilación de datos y se extienden al procesamiento de datos real. Ellos son:

Suficiencia Una arquitectura de datos consciente debe recopilar y retener solo la información imprescindible. Los enfoques de recopilación de datos deben diseñarse e implementarse en torno a los conocimientos deseados (en otras palabras, su propósito debe ser limitado), reduciendo así la cantidad de variables y personas rastreadas, lo que significa que se recopila la cantidad mínima de datos.

En cierto modo, esta es una vieja idea: en 1922, el innovador estadístico británico RA Fisher desarrolló la teoría estadística de una "estadística suficiente", que proporciona toda la información necesaria sobre la percepción deseada. (Por ejemplo, el 80% de los consumidores parecían felices al probar el vino nuevo). La suficiencia mínima va un paso más allá al capturar de manera más eficiente la información suficiente requerida para obtener una perspectiva. Traducido en términos generales, el minorista de vinos puede usar un dispositivo de borde para realizar análisis faciales en menos consumidores, una muestra más pequeña, para alcanzar la misma información del 80%.

Agregación Para muchas decisiones comerciales, no necesitamos conocimientos a nivel individual. Resumir la información a nivel de grupo conserva la mayor parte de la información necesaria al tiempo que minimiza el riesgo de comprometer los datos privados. Estos datos no personales a menudo no están sujetos a la legislación de protección de datos, como el RGPD o la CCPA. 

Modificación Cuando es fundamental obtener información a nivel personal, los datos pueden modificarse para ocultar la identidad de la persona y, al mismo tiempo, tener un impacto mínimo en la precisión de la información. Por ejemplo, Apple usa una técnica llamada privacidad diferencial local para agregar ruido estadístico a cualquier información que sea compartida por el dispositivo de un usuario, por lo que Apple no puede reproducir los datos verdaderos. En algunas situaciones, la alteración de los datos individuales es un mandato legal, como en los estudios clínicos. Las técnicas pueden incluir la pseudoanonimización y llegar hasta la generación de datos sintéticos.

Saber cuándo aplicar las herramientas de procesamiento de datos es tan fundamental como utilizar las herramientas adecuadas. Aplicar suficiencia, agregación y alteración durante la recopilación de datos maximiza la protección al tiempo que retiene la información más útil. Este enfoque también puede reducir los costos del seguro cibernético, el cumplimiento de las regulaciones de protección de datos y una infraestructura más escalable.

La compensación de la privacidad de la información

Restringir la recopilación y el procesamiento de datos privados al límite no está exento de inconvenientes. Las empresas no tendrán todos los datos de sus consumidores disponibles para volver atrás y volver a ejecutar nuevos tipos de análisis cuando cambien los objetivos comerciales. Sin embargo, esta es la situación exacta que defendemos para proteger la privacidad del consumidor.

La información y la privacidad operan en una compensación, es decir, un aumento unitario en la privacidad requiere cierta pérdida de información. Al priorizar la utilidad de datos con conocimientos útiles, la informática de punta reduce la cantidad de información de un "lago de datos" a los datos suficientes necesarios para tomar la misma decisión comercial. Este énfasis en encontrar los datos más útiles en lugar de mantener un montón de información sin procesar aumenta la privacidad del consumidor.

Las opciones de diseño que respaldan este enfoque (suficiencia, agregación y alteración) se aplican a datos estructurados, como nombres, correos electrónicos o cantidad de unidades vendidas, y datos no estructurados, como imágenes, videos, audio y texto. Para ilustrar, supongamos que el minorista en nuestro ejemplo de cata de vinos recibe información del consumidor a través de video, audio y texto.

Video Si el objetivo del minorista de vinos es comprender las reacciones de los consumidores desglosadas por grupos demográficos, no es necesario identificar a los consumidores individuales mediante el reconocimiento facial o mantener una base de datos biométrica. Uno podría preguntarse: ¿no son las imágenes que contienen los rostros de las personas datos privados? De hecho ellos son. Y aquí es donde la computación de borde permite que la transmisión de video se analice localmente (es decir, en la cámara) sin que nunca se almacene de forma permanente ni se transmita a ningún lugar. Los modelos de IA están entrenados para extraer en tiempo real la información requerida, como el sentimiento positivo y la demografía, y descartar todo lo demás. Ese es un ejemplo de suficiencia y agregación empleadas durante la recopilación de datos. 

Audio En nuestro entorno de degustación de vinos, un análisis de audio puede distinguir entre cuándo se habla y el silencio o la música de fondo. También puede revelar la edad de la persona que habla, sus emociones y niveles de energía. ¿La gente está más emocionada después de probar el vino nuevo? Los modelos de IA pueden comprender la energía general del hablante sin saber lo que se dijo. Analizan las inflexiones y entonaciones de la voz para revelar el estado mental de un individuo. La suficiencia está incorporada en las clasificaciones (es decir, la salida) de la tecnología de IA de forma predeterminada. Ejecutar estos modelos en el borde y resumir los resultados por grupo demográfico también logra la agregación de datos. 

Texto Nuestro minorista de vinos puede utilizar los comentarios textuales de los consumidores sobre el vino nuevo no solo para comprender si los consumidores están satisfechos sino, lo que es igualmente importante, aprender las palabras que los consumidores usan para describir el sabor y la sensación del vino nuevo. Esta información es un aporte invaluable para el desarrollo de la publicidad. En este análisis, los datos no necesitan estar vinculados a consumidores específicos. En cambio, los comentarios textuales se agregan a los consumidores y las frecuencias relativas de las palabras clave de sabor y sentimiento para cada tipo de vino se envían al minorista de vinos. Alternativamente, si se desean conocimientos a nivel personal, la retroalimentación textual se puede alterar sintéticamente utilizando modelos de generación de lenguaje natural (NLG).

En los ejemplos anteriores, las opciones de diseño de Suficiencia-Agregación-Alteración mejoran la privacidad. Estas ideas también son relevantes para las aplicaciones y los tipos de datos que van desde desbloquear su teléfono, evaluar su salud con dispositivos inteligentes y crear mejores experiencias. Paradójicamente, el uso consciente de la informática de punta y la inteligencia artificial, que a menudo asusta a la gente, es fundamental para maximizar la protección de la privacidad. Los defensores de la privacidad también promueven la idea de que los consumidores posean y controlen sus datos personales a través de una plataforma de datos del cliente (CDP). Una arquitectura de datos que vincule el CDP a un dispositivo periférico (piense en asistentes domésticos activados por voz) puede aumentar aún más la confianza del consumidor al brindarles un control total y transparencia sobre sus datos.

Este marco es solo una solución parcial a las preocupaciones sobre la privacidad, sin embargo, se implementará junto con otras prácticas beneficiosas como el cifrado de datos, la minimización de los privilegios de acceso y la retención de datos. El cifrado se emplea cuando los datos se almacenan de forma permanente y en tránsito. Ese es un primer paso esencial para minimizar el acceso no autorizado porque convierte el conjunto de datos en una caja negra. Sin llave, la caja negra no tiene valor. Del mismo modo, limitar el acceso a los datos según la necesidad de conocerlos, tener políticas claras para la retención de datos y proporcionar mecanismos de exclusión voluntaria reduce el riesgo de fugas de datos. Aunque los pasos anteriores son una práctica estándar, no todos los emplean, lo que crea muchos más puntos de contacto donde pueden ocurrir violaciones de datos privados. Sea un buen administrador y consulte con su equipo de TI y proveedores externos.

***

La privacidad es una opción social y los equipos de liderazgo deben priorizar la utilidad de los datos. Muchas empresas han recopilado la mayor cantidad de datos posible y han decidido más tarde qué es útil y qué no. Están negociando implícitamente toda la privacidad del consumidor con la mayor cantidad de información. Abogamos por un enfoque más disciplinado en el que los usos de los datos se especifiquen por adelantado para guiar tanto la recopilación como la retención de datos. Además, la tecnología nos ha ofrecido todas las herramientas que necesitamos para salvaguardar la privacidad sin afectar la inteligencia empresarial. Al aprovechar las tecnologías de inteligencia artificial y computación de vanguardia, las empresas pueden aplicar las opciones de diseño de suficiencia, agregación y alteración en la etapa de recopilación de datos. Con una arquitectura cuidadosamente diseñada, podemos obtener la información deseada y asegurar la privacidad de los datos de los consumidores al mismo tiempo.Contrariamente a la sabiduría convencional, podemos tener nuestro pastel (de privacidad) y comérnoslo también.

Sachin Gupta es profesora de gestión Henrietta Johnson Louis y profesora de marketing en el SC Johnson College of Business de la Universidad de Cornell, y editora en jefe del Journal of Marketing Research. Sus intereses de investigación incluyen la privacidad del consumidor, la atención médica y las organizaciones sin fines de lucro.

Panos Moutafis es un Ph.D. en Ciencias de la Computación. y cofundador y CEO de Zenus. La empresa de nueva creación se especializa en inteligencia artificial ética y soluciones informáticas de vanguardia.

Matthew J. Schneider es profesor asistente de estadística y privacidad de datos en el LeBow College of Business de la Universidad de Drexel. Su investigación muestra a las organizaciones cómo obtener más valor de los datos a nivel del consumidor mientras los anonimiza por razones de privacidad de datos y ha asesorado a una variedad de servicios financieros, farmacéuticos, tecnología de privacidad y compañías FinTech.


No hay comentarios:

Publicar un comentario