Abordar la montaña PDF del gobierno de EE. UU. con visión artificial

El formato PDF de Adobe se ha arraigado tan profundamente en las canalizaciones de documentos del gobierno de los EE. UU. que se estima conservadoramente que la cantidad de documentos emitidos por el estado que existen actualmente es de cientos de millones. A menudo opacos y carentes de metadatos, estos archivos PDF, muchos creados por sistemas automatizados, colectivamente no cuentan historias ni sagas; si no sabe exactamente lo que está buscando, probablemente nunca encontrará un documento pertinente. Y si lo sabía, probablemente no necesitaba la búsqueda.

Sin embargo, un nuevo proyecto utiliza la visión por computadora y otros enfoques de aprendizaje automático para convertir esta montaña de datos casi inaccesible en un recurso valioso y explorable para investigadores, historiadores, periodistas y académicos.

Cuando el gobierno de EE. UU. descubrió el formato de documento portátil (PDF) de Adobe en la década de 1990, decidió que le gustaba. A diferencia de los documentos editables de Word, los archivos PDF se pueden «hornear» de diversas maneras, lo que dificulta o incluso imposibilita su modificación posterior; las fuentes se pueden incrustar, lo que garantiza la compatibilidad entre plataformas; y la impresión, la copia e incluso la apertura podrían controlarse de forma granular.

Lo que es más importante, estas funciones principales estaban disponibles en algunas de las especificaciones «básicas» más antiguas del formato, lo que prometía que el material de archivo no necesitaría ser reprocesado o revisado más tarde para garantizar la accesibilidad. Casi todo lo que necesitaban las publicaciones gubernamentales estaba listo en 1996.

Con la procedencia de la cadena de bloques y las tecnologías NFT a décadas de distancia, el PDF estaba lo más cerca que la era digital emergente podía estar de un documento analógico ‘muerto’, a solo un contratiempo conceptual de un fax. Esto era exactamente lo que se quería.

Disidencia interna sobre PDF

La medida en que los archivos PDF son herméticos, intratables y «no sociales» se caracteriza en el documentación sobre el formato en la Biblioteca del Congreso, que favorece a PDF como su ‘formato preferido’:

‘El propósito principal del formato PDF/A es representar documentos electrónicos de una manera que conserve su apariencia visual estática a lo largo del tiempo, independientemente de las herramientas y sistemas utilizados para crear, almacenar o representar los archivos. Con este fin, PDF/A intenta maximizar la independencia del dispositivo, la autocontención y la autodocumentación.’

El entusiasmo continuo por el formato PDF, los estándares de accesibilidad y los requisitos para una versión mínima varían según los departamentos gubernamentales de EE. UU. Por ejemplo, mientras que la Agencia de Protección Ambiental ha políticas estrictas pero de apoyo en este sentido, el sitio web oficial del gobierno de EE. UU. Plainlanguage.gov reconoce que ‘los usuarios odian PDF’, e incluso enlaces directos a un Nielsen Norman Group 2020 informe PDF titulado: Todavía no apto para el consumo humano, 20 años después.

Mientras tanto irs.gov, creado en 1995 específicamente para la transición de la documentación de la agencia tributaria a formato PDF digital adoptado de inmediato y sigue siendo un entusiasta defensor.

La propagación viral de los PDF

Desde que Adobe lanzó las especificaciones principales para PDF como fuente abierta, un tramo han surgido herramientas y bibliotecas de procesamiento del lado del servidor, muchas ahora como venerable y arraigado como las especificaciones de PDF de la era de 1996, y como confiable y resistente a errores, mientras que los proveedores de software se apresuraron a integrar la funcionalidad de PDF en herramientas de bajo costo.

En consecuencia, amados u odiados por sus departamentos anfitriones, los archivos PDF siguen siendo omnipresentes en los marcos de comunicación y documentación en una gran cantidad de departamentos gubernamentales de EE. UU.

En 2015, el vicepresidente de ingeniería de Document Cloud de Adobe, Phil Ydens estimado que existen 2,5 billones de documentos PDF en el mundo, mientras que se cree que el formato representa entre el 6 y el 11 % de todo el contenido web. En una cultura tecnológica adicta a la disrupción de las tecnologías antiguas, el PDF se ha convertido en un ‘óxido’ imposible de erradicar, una parte central de la estructura que lo aloja.

Desde 2018. Todavía hay poca evidencia de un retador formidable.  Fuente: https://twitter.com/trbrtc/status/980407663690502145

Desde 2018. Todavía hay poca evidencia de un retador formidable. Fuente: https://twitter.com/trbrtc/status/980407663690502145

De acuerdo a una estudio reciente de investigadores de la Universidad de Washington y la Biblioteca del Congreso, ‘hasta la fecha, las bibliotecas han archivado cientos de millones de documentos únicos del Gobierno de EE. UU. publicados en la web en formato PDF’.

Sin embargo, los investigadores sostienen que esto es solo la ‘punta del iceberg’*:

‘Como el destacado estudioso de la historia digital Roy Rosenzweig había señalado ya en 2003, cuando se trata de fuentes primarias nacidas digitales para la erudición, es esencial desarrollar métodos y enfoques que escalarán a decenas y cientos de millones e incluso miles de millones de fuentes digitales. [resources]. Ahora hemos llegado al punto en el que es necesario desarrollar enfoques para esta escala.

‘Como ejemplo, los archivos web de la Biblioteca del Congreso ahora contienen más de 20 mil millones de recursos digitales individuales’.

PDFs: Resistentes al Análisis

El proyecto de los investigadores de Washington aplica una serie de métodos de aprendizaje automático a un disponible públicamente y anotado cuerpo de 1,000 documentos seleccionados de la Biblioteca del Congreso, con la intención de desarrollar sistemas capaces de recuperar rápidamente y multimodalmente consultas basadas en texto e imágenes en marcos que pueden escalar hasta las alturas de los volúmenes PDF actuales (y crecientes), no solo en el gobierno, sino en una multiplicidad de sectores.

Como se observa en el documento, el ritmo acelerado de la digitalización en una variedad de departamentos gubernamentales balcanizados de los EE. UU. en la década de 1990 condujo a políticas y prácticas divergentes y, con frecuencia, a la adopción de métodos de publicación de PDF que no contenían la misma calidad de metadatos que alguna vez fue el estándar de oro de los servicios bibliotecarios gubernamentales, o incluso metadatos de PDF nativos muy básicos, que podrían haber sido de alguna ayuda para hacer que las colecciones de PDF sean más accesibles y amigables para la indexación.

Hablando de este período de interrupción, los autores señalan:

‘Estos esfuerzos condujeron a un crecimiento explosivo de la cantidad de publicaciones gubernamentales, lo que a su vez resultó en una ruptura del enfoque general por el cual se producían metadatos consistentes para dichas publicaciones y por el cual las bibliotecas adquirían copias de ellas.’

En consecuencia, una montaña PDF típica existe sin ningún contexto excepto las URL que enlazan directamente con ella. Además, los documentos en la montaña están cerrados, son autorreferenciales y no forman parte de ninguna ‘saga’ o narrativa que las metodologías de búsqueda actuales puedan discernir, aunque tales conexiones ocultas sin duda existen.

A la escala que se está considerando, la anotación manual o la curación es una perspectiva imposible. El corpus de datos del que se derivaron los 1000 documentos de la Biblioteca del Congreso del proyecto contiene más de 40 millones de archivos PDF, que los investigadores pretenden convertir en un desafío abordable en un futuro próximo.

Visión artificial para análisis de PDF

La mayor parte de la investigación anterior que citan los autores utiliza métodos basados ​​en texto para extraer características y conceptos de alto nivel del material PDF; por el contrario, su proyecto se centra en derivar características y tendencias mediante el examen de los archivos PDF a nivel visual, en línea con la investigación actual en el análisis multimodal del contenido de las noticias.

Aunque el aprendizaje automático también se ha aplicado de esta manera al análisis de PDF a través de esquemas específicos del sector, como Académico semánticolos autores tienen como objetivo crear más canales de extracción de alto nivel que sean ampliamente aplicables en una variedad de publicaciones, en lugar de ajustarse a las restricciones de la publicación científica o de otros sectores igualmente limitados.

Abordar datos desequilibrados

Al crear un esquema de métricas, los investigadores tuvieron que considerar qué tan sesgados son los datos, al menos en términos de tamaño por elemento.

De los 1000 archivos PDF en el conjunto de datos seleccionado (que los autores suponen que son representativos de los 40 millones de los que se extrajeron), el 33 % tiene solo una página y el 39 % tiene de 2 a 5 páginas. Esto pone el 72% de los documentos en cinco páginas o menos.

Después de esto, hay un gran salto: el 18 % de los documentos restantes tienen entre 6 y 20 páginas, el 6 % entre 20 y 100 páginas y el 3 % entre más de 100 páginas. Esto significa que los documentos más largos comprenden la mayoría de las páginas individuales extraídas, mientras que un enfoque menos granular que considera los documentos solo desviaría la atención hacia los documentos mucho más numerosos y cortos.

No obstante, estas son métricas perspicaces, ya que los documentos de una sola página tienden a ser esquemas técnicos o mapas; Los documentos de 2 a 5 páginas tienden a ser comunicados de prensa y formularios; y los documentos muy largos son generalmente informes y publicaciones del tamaño de un libro, aunque, en términos de extensión, se mezclan con grandes volcados de datos automatizados que contienen desafíos completamente diferentes para la interpretación semántica.

Por lo tanto, los investigadores tratan este desequilibrio como una propiedad semántica significativa en sí misma. No obstante, los archivos PDF aún deben procesarse y cuantificarse por página.

Arquitectura

Al comienzo del proceso, los metadatos del PDF se analizan en datos tabulares. Estos metadatos no van a faltar, porque consisten en cantidades conocidas como el tamaño del archivo y la URL de origen.

Luego, el PDF se divide en páginas, y cada página se convierte a un formato JPEG a través de imagenmagia. Luego, la imagen se alimenta a una red ResNet-50 que deriva un vector de 2048 dimensiones desde la penúltima capa.

La canalización para la extracción de archivos PDF.  Fuente: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf

La canalización para la extracción de archivos PDF. Fuente: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf

Al mismo tiempo, la página se convierte en un archivo de texto mediante pdf2text y las caracterizaciones de TF-IDF se obtienen a través de scikit-aprender.

TF-IDF significa Término Frecuencia Inversa Documento Frecuencia, que mide la prevalencia de cada frase dentro del documento a su frecuencia a través de su conjunto de datos host, en una escala de grano fino de 0 a 1. Los investigadores han utilizado palabras individuales (unigramas) como la unidad más pequeña en la configuración TF-IDF del sistema.

Aunque reconocen que el aprendizaje automático tiene métodos más sofisticados que ofrecer que TF-IDF, los autores argumentan que no es necesario nada más complejo para la tarea indicada.

El hecho de que cada documento tenga una URL de origen asociada permite que el sistema determine la procedencia de los documentos en el conjunto de datos.

Esto puede parecer trivial para miles de documentos, pero será una gran revelación para más de 40 millones.

Nuevos enfoques para la búsqueda de texto

Uno de los objetivos del proyecto es hacer que los resultados de búsqueda para consultas basadas en texto sean más significativos, permitiendo una exploración fructífera sin la necesidad de un conocimiento previo excesivo. Los autores afirman:

«Si bien la búsqueda por palabras clave es un método de búsqueda intuitivo y altamente extensible, también puede ser limitante, ya que los usuarios son responsables de formular consultas de palabras clave que obtengan resultados relevantes».

Una vez que se obtienen los valores de TF-IDF, es posible calcular las palabras más comunes y estimar un documento ‘promedio’ en el corpus. Los investigadores sostienen que, dado que estas palabras clave de documentos cruzados suelen ser significativas, este proceso forma relaciones útiles para que los académicos exploren, que no se pueden obtener únicamente mediante la indexación individual del texto de cada documento.

Visualmente, el proceso facilita un «panel de humor» de palabras que emanan de varios departamentos gubernamentales:

Palabras clave de TF-IDF para varios departamentos gubernamentales de EE. UU., obtenidas por TF-IDF.

Palabras clave de TF-IDF para varios departamentos gubernamentales de EE. UU., obtenidas por TF-IDF.

Estas palabras clave y relaciones extraídas se pueden usar más tarde para formar matrices dinámicas en los resultados de búsqueda, con el corpus de los archivos PDF comenzando a ‘contar historias’, y las relaciones de palabras clave uniendo documentos (posiblemente incluso durante cientos de años), para delinear un multi-explorable. parte ‘saga’ para un tópico o tema.

Los investigadores utilizan el agrupamiento k-means para identificar documentos que están relacionados, incluso cuando los documentos no comparten una fuente común. Esto permite el desarrollo de metadatos de frases clave aplicables en todo el conjunto de datos, que se manifestarían como clasificaciones de términos en una búsqueda de texto estricta o como nodos cercanos en un entorno de exploración más dinámico:

Análisis visual

La verdadera novedad del enfoque de los investigadores de Washington es aplicar técnicas de análisis visual basadas en el aprendizaje automático a la apariencia rasterizada de los archivos PDF en el conjunto de datos.

De esta manera, es posible generar una etiqueta ‘ELIMINADO’ de forma visual, donde nada en el texto en sí necesariamente proporcionaría una base lo suficientemente común.

Un grupo de portadas de PDF censuradas identificadas por visión artificial en el nuevo proyecto.

Un grupo de portadas de PDF censuradas identificadas por visión artificial en el nuevo proyecto.

Además, este método puede derivar dicha etiqueta incluso de documentos gubernamentales que han sido rasterizados, lo que suele ser el caso con material redactado, lo que hace posible una búsqueda exhaustiva y comprensiva de esta práctica.

Además, los mapas y esquemas también se pueden identificar y categorizar, y los autores comentan sobre esta funcionalidad potencial:

«Para los académicos interesados ​​en la divulgación de información clasificada o confidencial, puede ser de particular interés aislar exactamente este tipo de grupo de material para análisis e investigación».

El documento señala que también se puede utilizar una amplia variedad de indicadores visuales comunes a tipos específicos de PDF del gobierno para clasificar documentos y crear ‘sagas’. Dichos «tokens» podrían ser el sello del Congreso u otros logotipos o características visuales recurrentes que no tienen existencia semántica en una búsqueda de texto puro.

Además, los documentos que desafían la clasificación, o cuando el documento proviene de una fuente no común, se pueden identificar a partir de su diseño, como columnas, tipos de fuente y otras facetas distintivas.

El diseño por sí solo puede permitir agrupaciones y clasificaciones en un espacio de búsqueda visual.

El diseño por sí solo puede permitir agrupaciones y clasificaciones en un espacio de búsqueda visual.

Si bien los autores no han descuidado el texto, claramente el espacio de búsqueda visual es lo que ha impulsado este trabajo.

«La capacidad de buscar y analizar archivos PDF de acuerdo con sus características visuales es, por lo tanto, un enfoque de gran capacidad: no solo aumenta los esfuerzos existentes en torno al análisis textual, sino que también reinventa lo que la búsqueda y el análisis pueden ser para el contenido digital».

Los autores tienen la intención de desarrollar su marco para acomodar conjuntos de datos mucho, mucho más grandes, incluido el archivo web presidencial de fin de mandato de 2008 conjunto de datos, que contiene más de 10 millones de artículos. Inicialmente, sin embargo, tienen la intención de ampliar el sistema para abordar ‘decenas de miles’ de archivos PDF gubernamentales.

El sistema está destinado a ser evaluado inicialmente con usuarios reales, incluidos bibliotecarios, archivistas, abogados, historiadores y otros académicos, y evolucionará en función de los comentarios de estos grupos.

Lidiando con la escala de las publicaciones gubernamentales nacidas en formato digital: hacia canalizaciones para el procesamiento y la búsqueda de millones de archivos PDF está escrito por Benjamin Charles Germain Lee (en la Escuela Paul G. Allen de Ciencias de la Computación e Ingeniería) y Trevor Owens, Historiador Público Residente y Jefe de Gestión de Contenido Digital en la Biblioteca del Congreso en Washington, DC.

* Mi conversión de citas en línea a hipervínculos.

Publicado originalmente el 28 de diciembre de 2021

Deja un comentario