Investigadores de la Universidad de Oxford han desarrollado un sistema habilitado por IA que puede identificar de manera integral a las personas en videos mediante la realización de investigaciones multidominio similares a las de un detective sobre quiénes podrían ser, a partir del contexto y de una variedad de fuentes secundarias disponibles públicamente, incluido el coincidencia de fuentes de audio con material visual de Internet.
Aunque la investigación se centra en la identificación de figuras públicas, como las personas que aparecen en programas de televisión y películas, el principio de inferir la identidad a partir del contexto es teóricamente aplicable a cualquier persona cuyo rostro, voz o nombre aparezca en fuentes en línea.
De hecho, el documentos La propia definición de fama no se limita a los trabajadores del mundo del espectáculo, ya que los investigadores declararon: “Denotamos a las personas con muchas imágenes de sí mismos en línea como famosas”.
Directo al video
Los investigadores, del Grupo de Geometría Visual de Oxford en el Departamento de Ciencias de la Ingeniería, describen el enfoque de investigación de estilo humano que ha inspirado el trabajo:
‘Imagina que estás viendo un video y te encuentras con una nueva persona. Para identificarlos con confianza, primero buscaría pistas de su nombre en el video, como el texto en la pantalla, su nombre mencionado en el habla o en una lista de miembros del elenco de un archivo de Internet. Entonces podría encontrar alguna evidencia para verificar que este nombre es correcto, buscando a la persona en línea.’
La metodología propuesta por el diario está completamente automatizada y elimina todo etiquetado manual adicional (descontando el que fue realizado por los proveedores de las fuentes en línea). También se demostró que el sistema funciona bien en tres conjuntos de datos no relacionados sin necesidad de adaptación de dominio.
Al discutir la aplicación del trabajo, los investigadores notan el crecimiento exponencial de los datos de video opacos y sin etiquetar, y la necesidad de nuevos sistemas que puedan derivar información de identidad de ellos sin costosas anotaciones dirigidas por humanos:
‘[The] La gran escala de los datos, junto con la falta de metadatos relevantes, hace que indexar, analizar y navegar por este contenido sea una tarea cada vez más difícil. Confiar en anotaciones manuales manuales adicionales ya no es factible, y sin una forma efectiva de navegar por estos videos, este banco de conocimiento es en gran parte inaccesible.’
Un motor de indexación de esta naturaleza abre la posibilidad de hipervínculos de resultados de búsqueda que llegan directamente a un punto del video donde aparece el tema de búsqueda, como se demostró en la búsqueda web de prueba de concepto proporcionada por el proyecto.
El sistema Oxford permite una búsqueda de instancias de una persona identificada. El resultado de la búsqueda lleva al espectador directamente al punto del video donde aparece la persona identificada, y luego se puede reproducir el video desde ese punto. Fuente: https://www.robots.ox.ac.uk/~vgg/research/person_id_in_video/
Una de las formas en que el sistema identifica a las personas ‘oscuras’ es por el contexto de su asociación con otros. En consecuencia, el motor de búsqueda está bien equipado para buscar múltiples identidades que aparecen en el mismo video:
peces grandes y pequeños
Inicialmente, el sistema aborda la ‘fruta madura’: personas cuyos rostros están tan bien indexados en recursos de red públicos que identificarlos es relativamente trivial, al comparar metadatos o texto OCR en videos con recursos de datos públicos como IMDB. liza. El texto interpretado por IA en subtítulos de video, créditos y otras formas de texto rasterizado en video también se aprovecha para realizar la identificación.
El sistema puede descubrir automáticamente los nombres de los candidatos para la búsqueda, en función del reconocimiento óptico de caracteres (OCR) de texto rasterizado o de texto real en otras fuentes, como listados emitidos. Por lo tanto, las personas pueden indexarse automáticamente sin que los usuarios finales individuales realicen consultas previas sobre sus nombres y sin participación previa en redes sociales habilitadas para IA. Fuente: https://www.robots.ox.ac.uk/~vgg/publications/2021/Brown21/brown21.pdf
Donde abrumadoras imágenes y videos de la red confirman la identidad de la persona, la investigación afirma una identidad. Pero cuando la persona es más desconocida, se utilizan otros métodos, incluido el audio tomado de las pistas de video, que se pueden usar para corroborar la confirmación de una identidad. Aunque no está cubierto en el trabajo, lógicamente no hay nada que impida que un marco de esta naturaleza también utilice fuentes de audio puras, así como componentes de audio en video.
Un panóptico de identidad autopropagante
Además de generar nombres de candidatos a partir de texto rasterizado o puro, las tecnologías de reconocimiento de voz se utilizan en el proyecto de Oxford para reconocer nombres que simplemente se pronuncian en el contenido de audio. Así, una o dos personas pueden inicializar una identidad mencionando simplemente a una tercera persona que no está presente.
La salvaguardia que introduce el proyecto Oxford es que el candidato debe aparecer en la base de datos IMDB, pero eliminar esta estipulación arbitraria amplía considerablemente el alcance potencial de las capacidades del sistema, ya que se basa por completo en recursos que se pueden extraer de la web.
Por lo tanto, con una combinación de fuentes que incluyen nombres derivados de texto de trama, texto real, menciones basadas en el habla y material visual muy limitado, es posible identificar a las personas con una baja presencia visual en la red.
Técnicamente, también es posible crear un perfil de una persona a la que aún no se ha asociado ninguna imagen o secuencia de video, pero a quien se le puede adjuntar una imagen o video cuando otros factores se correlacionan con una fuente de video recién ingresada.
Conjuntos de datos de prueba
Los investigadores utilizaron tres conjuntos de datos para evaluar la eficacia del sistema: Medieval, que presenta recursos de imágenes de la comunidad y derivados de las redes sociales Creative Commons (incluidas Wikipedia y Flickr) capturados entre 2010 y 2015; el propio grupo Oxford 2017 Conjunto de datos Sherlock, que presenta datos de video anotados de la popular adaptación moderna de la BBC del personaje clásico de Conan Doyle; y un nuevo conjunto de datos de videos de la BBC creado específicamente para el proyecto, que utiliza varias imágenes de noticias anotadas de la BBC.
El sistema tiene éxito en una amplia gama de entornos de conjuntos de datos, incluidas las ocasiones en las que la cara está ocluida por reflejos u oscuridad.
El proceso también utiliza clasificaciones de búsqueda de imágenes en vivo.
Los resultados del sistema produjeron una alta precisión en los tres modelos. En el caso del conjunto de datos de Sherlock, los investigadores se sorprendieron al descubrir que el nuevo sistema mejoró entre un 3 % y un 6 % con respecto a un método anterior que utilizaba máquinas de vectores de soporte (SVM) en un clasificador multidireccional, a pesar de que el clasificador vecino más cercano utilizado en el nuevo trabajo es una herramienta menos poderosa.
Trascendencia
La mayoría de las restricciones éticas o prácticas en el proyecto de Oxford son autoimpuestas por los investigadores, como definir ‘fama’ por el requisito de que las identidades descubiertas tengan presencia en IMDB y probar el sistema únicamente con conjuntos de datos académicos establecidos que respetar las licencias Creative Commons.
Sin embargo, la arquitectura esencial del proyecto representa un método genérico para no solo identificar a las personas ‘oscuras’ que tienen una presencia visual baja o nula en Internet (dado que la mera mención de un nombre puede generar una señal de identidad que se puede desarrollar con el tiempo como necesario), sino para crear una matriz de individuos impulsada por nada más que la curiosidad recursiva y mecanicista, en lugar de la demanda o la presencia explícita de datos etiquetados (como las cargas de fotos en las redes sociales que contienen metadatos PII).
El proyecto no utiliza datos de geolocalización u otras formas de metadatos ampliamente disponibles que puedan encontrarse al contribuir con documentos corroborativos, como la información de ubicación geográfica incrustada de forma predeterminada en las cargas a las redes sociales (donde no se eliminen como una preferencia del usuario). Sin embargo, no hay ningún obstáculo aparente para utilizar tales dimensiones adicionales de datos para fortalecer el proceso de corroboración.
Mientras que el proyecto de Oxford elimina los valores atípicos (identidades que tienen una presencia casi nula, además de no estar incluidas en la IMDB) de una manera que es común en los proyectos de aprendizaje automático, se puede decir que esa información mínima puede identificar de manera más efectiva a una persona desconocida de lo que sucedería si un mayor cantidad de información representativa sobre ellos estaba disponible. Si los valores atípicos son exactamente lo que está buscando (es decir, personas con poca huella de red), los datos escasos pueden ser muy indicativos.
Disponibilidad
Los investigadores de Oxford encapsularon la funcionalidad del proyecto en un motor de búsqueda similar a Google que se puede descargar e instalar en una máquina local a través de Docker (aunque las instrucciones de instalación para el documento de mayo de 2021 actualmente contienen información desactualizada para un requisito de Docker Tools, que puede entorpecer el proceso).
Aparentemente, no existe una versión en vivo en línea que cubra la implementación del proyecto en los tres conjuntos de datos, aunque los resultados del conjunto de datos de noticias de la BBC se pueden consultar libremente en http://zeus.robots.ox.ac.uk/bbc_search/.