Descubriendo nuestras ‘visitas ocultas’ con datos de teléfonos celulares y aprendizaje automático

Investigadores de China y Estados Unidos han colaborado en una investigación que utiliza técnicas de aprendizaje automático para discernir las “visitas ocultas” que hacemos cuando nos movemos por el país, pero no hacemos suficientes llamadas telefónicas ni usamos nuestros teléfonos lo suficiente para tener una imagen completa de nuestro movimientos que de otro modo se formarían a partir de registros de datos de telecomunicaciones.

Él papeltitulado Identificación de visitas ocultas a partir de datos dispersos de registros detallados de llamadas, está dirigido por Zhan Zhao de la Universidad de Hong Kong, en colaboración con Haris N. Koutsopoulos de la Universidad del Noreste de Boston y Jinhua Zhao del MIT.

La premisa de la investigación es utilizar los registros de conectividad móvil (incluidos datos móviles, SMS y llamadas de voz) de usuarios muy activos para desarrollar un modelo que pueda adivinar con mayor precisión los patrones de movimiento de los usuarios menos activos.

Un esquema aproximado para extraer información de viaje de los datos del registro de detalles de llamadas (CD).  Fuente: https://arxiv.org/pdf/2106.12885.pdf

Un esquema aproximado para extraer información de viaje de los datos del registro de detalles de llamadas (CD). Fuente: https://arxiv.org/pdf/2106.12885.pdf

Aunque los investigadores admiten que existen implicaciones de privacidad en el desarrollo de dicho trabajo, y a pesar del objetivo declarado del proyecto de obtener detalles más detallados sobre los viajes de los usuarios, afirman que el objetivo es recopilar una mejor imagen generalizada del movimiento.

También señalan que los datos del Registro de detalles de llamadas (CDR) que alimentan dichos estudios tienen una resolución espacial baja y son propensos al ‘ruido de posicionamiento’ debido al cambio de posición del usuario en relación con las torres de telefonía celular por las que pasan, y sugieren que esta limitación en sí misma es una forma de protección de la privacidad:

‘La aplicación objetivo de nuestro estudio es la detección de viajes y la estimación de OD[*], que se realizan a nivel agregado, no a nivel individual. Los modelos desarrollados se pueden implementar directamente en los servidores de bases de datos de los operadores de telecomunicaciones, sin necesidad de transferencia de datos. Además, en comparación con otras formas de big data, como las redes sociales o los datos de transacciones de tarjetas de crédito, los datos de CDR son relativamente menos intrusivos en términos de privacidad personal. Además, su error de localización ayuda a enmascarar las ubicaciones exactas de los usuarios, proporcionando otra capa de preservación de la privacidad.

Intervalos de tiempo transcurrido (ETI)

Cuando viajamos con teléfonos móviles (no necesariamente con teléfonos inteligentes), las limitaciones de los datos CDR como herramienta de definición de ubicación se hacen evidentes. Los intervalos de tiempo transcurrido (ETI), períodos de un viaje en los que el usuario móvil no realiza ni recibe llamadas, son un marcador fundamental para realizar un seguimiento de nuestros movimientos: un intervalo de “silencio” lo suficientemente largo como para que nos desconectemos temporalmente de la red.

Los investigadores señalan que esto interfiere con la capacidad de los sistemas analíticos para hacer suposiciones sobre los viajes A>B, ya que la escasez de datos podría estar ocultando un “viaje no observado”. El nuevo método aborda este problema analizando el contexto espaciotemporal de las ETI, así como “las características individuales del usuario”.

conjunto de datos

Los investigadores desarrollaron su conjunto de entrenamiento central con datos proporcionados por un importante operador de servicios celulares en una ciudad china con una población de 6 millones de personas. Los datos contenían más de dos mil millones de transacciones de teléfonos móviles generadas por tres millones de usuarios en noviembre de 2013 y solo incluyen registros de llamadas de voz y acceso a datos (uso de datos). No se utilizaron datos de SMS, lo que hizo que abordar la escasez de datos fuera más difícil.

Los datos contenían una identificación única encriptada; un código de área de ubicación (LAC); una marca de tiempo; una identificación de teléfono celular, que se cotejó con el LAC para individualizar la torre de telefonía celular utilizada en la transacción; y un ID de evento (llamada entrante/saliente o uso de datos).

Árbol de procesos para la identificación de visitas ocultas.

Árbol de procesos para la identificación de visitas ocultas.

Esta información se cotejó con una base de datos de operación de torre celular, lo que permitió a los investigadores consultar las coordenadas de longitud y latitud de la torre asociada con el evento de comunicación. Los investigadores pudieron identificar 9000 torres celulares en el conjunto de datos.

Los investigadores observan que es difícil adivinar los destinos de viaje únicamente por los registros de llamadas, ya que este tipo de registros alcanzan su punto máximo en la mañana y la tarde, lo que de todos modos se correlaciona con los patrones de viaje. Dado que las llamadas telefónicas preceden al viaje (y pueden desencadenar un viaje), esto puede provocar un sesgo en la estimación del destino.

Patrones de uso de dispositivos móviles a lo largo del día.

Patrones de uso de dispositivos móviles a lo largo del día.

Se aplican restricciones similares a las transacciones de uso de datos iniciadas por el usuario, como aplicaciones de mensajería y otro tipo de interacción. Sin embargo, es el uso de datos ‘automatizado’ lo que ayuda a identificarnos: el sondeo sistemático de API para mensajes nuevos u otros tipos de datos, incluidas listas de mensajes, GPS y telemetría general en todas las aplicaciones instaladas.

Procesando

Los investigadores abordaron el problema con una amplia gama de clasificadores populares de aprendizaje automático, incluida la regresión logística, la máquina de vectores de soporte (SVM), el bosque aleatorio y un enfoque de conjunto de aumento de gradiente. Todos los clasificadores se implementaron en Python a través de scikit-aprenderen la configuración predeterminada.

De estos enfoques, los investigadores encontraron que la regresión logística produjo el mayor número de parámetros de modelo interpretables.

Los investigadores también descubrieron que cuanto más larga es una ETI, mayor es la probabilidad de que se haya producido una visita oculta y que se produzca una mayor incidencia de visitas ocultas por la mañana.

Además, cuando los datos CDR de un usuario exponen fácilmente una gran cantidad de destinos o puntos de paso, existe la menor probabilidad de que se haya producido una visita oculta. En general, esto concuerda con el principio general de la investigación: que los usuarios más “ruidosos” o más activos pintan una imagen detallada de sus movimientos, a partir de la cual se puede inferir el comportamiento de los usuarios menos activos.

Para concluir, los investigadores pronosticaron que su enfoque se puede utilizar para otros tipos de datos de tránsito, incluidos datos de tarjetas inteligentes e información de redes sociales geolocalizadas.

La investigación fue financiada por Energy Foundation China y el Centro de Transporte Sostenible de China.

* Origen Destino

Deja un comentario