Estamos viviendo la era de los grandes datos, que ha centrado aún más la atención en el tema de la privacidad de los datos. Los seres humanos producen una cantidad increíble de datos cada segundo y las empresas utilizan estos datos para una amplia gama de aplicaciones. Con el almacenamiento y el intercambio de datos a un ritmo sin precedentes, debe haber más técnicas de protección de la privacidad.
La privacidad diferencial es uno de esos enfoques para proteger los datos personales y ha demostrado ser más eficaz que muchos de nuestros métodos tradicionales. Se puede definir como un sistema para compartir públicamente información sobre un conjunto de datos mediante la descripción de patrones de grupos dentro del conjunto de datos mientras se oculta información sobre las personas en el conjunto de datos.
La privacidad diferencial permite a los investigadores y analistas de bases de datos obtener información valiosa de las bases de datos sin divulgar la información de identificación personal de las personas. Esto es crítico ya que muchas bases de datos contienen una variedad de información personal.
Otra forma de ver la privacidad diferencial es que crea datos anónimos al inyectar ruido en los conjuntos de datos. El ruido introducido ayuda a proteger la privacidad sin dejar de ser lo suficientemente limitado para que los analistas puedan usar los datos de manera confiable.
Puede tener dos conjuntos de datos casi idénticos. Uno con tu información personal y otro sin ella. Con la privacidad diferencial, puede asegurarse de que la probabilidad de que una consulta estadística produzca un resultado determinado sea la misma independientemente de la base de datos en la que se realice.
¿Cómo funciona la privacidad diferencial?
La forma en que funciona la privacidad diferencial es introduciendo una pérdida de privacidad o un parámetro de presupuesto de privacidad, que a menudo se denota como épsilon (ε), en el conjunto de datos. Estos parámetros controlan cuánto ruido o aleatoriedad se agrega al conjunto de datos sin procesar.
Por ejemplo, imagine que tiene una columna en el conjunto de datos con respuestas «Sí»/»No» de personas.
Ahora, suponga que lanza una moneda para cada individuo:
- Cara: la respuesta se deja como está.
- Cruz: voltea una segunda vez, registrando la respuesta como «Sí» si es cara y «No» si es cruz, independientemente de la respuesta real.
Al usar este proceso, agrega aleatoriedad a los datos. Con una gran cantidad de datos y la información del mecanismo de adición de ruido, el conjunto de datos se mantendrá preciso en términos de mediciones agregadas. La privacidad entra en juego al permitir que cada individuo niegue plausiblemente su respuesta real gracias al proceso de aleatorización.
Si bien este es un ejemplo simplista de privacidad diferencial, proporciona un nivel básico de comprensión. En las aplicaciones del mundo real, los algoritmos son más complejos.
También es importante tener en cuenta que la privacidad diferencial se puede implementar localmente, donde el ruido se agrega a los datos individuales antes de que se centralice en la base de datos, o globalmente, donde el ruido se agrega a los datos sin procesar después de recopilarlos de las personas.
Ejemplos de privacidad diferencial
La privacidad diferencial se aplica en una amplia gama de aplicaciones, como sistemas de recomendación, redes sociales y servicios basados en la ubicación.
Estos son algunos ejemplos de cómo las grandes empresas confían en la privacidad diferencial:
- Apple usa el método para recopilar información de uso anónimo de dispositivos como iPhones y Mac.
- Facebook utiliza la privacidad diferencial para recopilar datos de comportamiento que se pueden utilizar para campañas publicitarias dirigidas.
- Amazon se basa en la técnica para obtener información sobre las preferencias de compra personalizadas mientras oculta información confidencial.
Apple ha sido especialmente transparente sobre el uso de la privacidad diferencial para obtener información sobre los usuarios y preservar su privacidad.
“Apple ha adoptado y desarrollado aún más una técnica conocida en el mundo académico como privacidad diferencial local para hacer algo realmente emocionante: obtener información sobre lo que hacen muchos usuarios de Apple, mientras ayuda a preservar la privacidad de los usuarios individuales. Es una técnica que permite a Apple aprender sobre la comunidad de usuarios sin aprender sobre los individuos de la comunidad. La privacidad diferencial transforma la información compartida con Apple antes de que abandone el dispositivo del usuario, de modo que Apple nunca puede reproducir los datos reales”.
– Descripción general de la privacidad diferencial de Apple
Aplicaciones de Privacidad Diferencial
Dado que vivimos en esta era de big data, hay muchas filtraciones de datos que amenazan a gobiernos, organizaciones y empresas. Al mismo tiempo, las aplicaciones de aprendizaje automático actuales se basan en técnicas de aprendizaje que requieren grandes cantidades de datos de entrenamiento, a menudo provenientes de individuos. Las instituciones de investigación también usan y comparten datos con información confidencial. La divulgación inadecuada de estos datos de cualquier manera puede causar muchos problemas tanto para el individuo como para la organización y, en casos graves, puede generar responsabilidad civil.
Los modelos formales de privacidad, como la privacidad diferencial, abordan todos estos problemas. Se utilizan para proteger la información personal, la ubicación en tiempo real y más.
Mediante el uso de la privacidad diferencial, las empresas pueden acceder a una gran cantidad de datos confidenciales para investigación o negocios sin comprometer los datos. Las instituciones de investigación también pueden desarrollar tecnologías de privacidad diferenciales específicas para automatizar los procesos de privacidad en las comunidades de uso compartido de la nube, que se están volviendo cada vez más populares.
¿Por qué utilizar la privacidad diferencial?
La privacidad diferencial ofrece algunas propiedades principales que la convierten en un marco excelente para analizar datos privados y garantizar la privacidad:
- Cuantificación de la pérdida de privacidad: los mecanismos y algoritmos de privacidad diferencial pueden medir la pérdida de privacidad, lo que permite compararla con otras técnicas.
- Composición: dado que puede cuantificar la pérdida de privacidad, también puede analizarla y controlarla en múltiples cálculos, lo que permite el desarrollo de diferentes algoritmos.
- Privacidad grupal: además del nivel individual, la privacidad diferencial le permite analizar y controlar la pérdida de privacidad entre grupos más grandes.
- Seguro en el posprocesamiento: la privacidad diferencial no puede verse afectada por el posprocesamiento. Por ejemplo, un analista de datos no puede calcular una función de la salida de un algoritmo diferencial privado y convertirlo en menos diferencialmente privado.
Beneficios de la privacidad diferencial
Como mencionamos anteriormente, la privacidad diferencial es mejor que muchas técnicas de privacidad tradicionales. Por ejemplo, si toda la información disponible es información identificada, la privacidad diferencial facilita la identificación de todos los elementos de los datos. También es resistente a los ataques a la privacidad basados en información auxiliar, evitando los ataques que se pueden realizar sobre los datos anonimizados.
Uno de los mayores beneficios de la privacidad diferencial es que es composicional, lo que significa que puede calcular la pérdida de privacidad al realizar dos análisis privados diferenciales sobre los mismos datos. Esto se hace sumando las pérdidas de privacidad individuales para los dos análisis.
Si bien la privacidad diferencial es una herramienta nueva y puede ser difícil de lograr fuera de las comunidades de investigación, las soluciones fáciles de implementar para la privacidad de los datos son cada vez más accesibles. En un futuro próximo, deberíamos ver un número cada vez mayor de estas soluciones disponibles para un público más amplio.