Reducción de imágenes de alta resolución con aprendizaje automático

Una nueva investigación del Reino Unido ha propuesto un método mejorado de aprendizaje automático para cambiar el tamaño de las imágenes, basado en el valor percibido de las diversas partes del contenido de la imagen, en lugar de reducir indiscriminadamente la dimensión (y, por lo tanto, la calidad y las características extraíbles) para todos los píxeles en la imagen.

Como parte de un creciente interés en los sistemas de compresión impulsados ​​por IA, es un enfoque que eventualmente podría informar nuevos códecs para la compresión general de imágenes, aunque el trabajo está motivado por imágenes de salud, donde la reducción arbitraria de imágenes médicas de alta resolución podría conducir a la pérdida. de información que salva vidas.

Arquitectura representacional del nuevo sistema.  El módulo de deformación intersticial produce un mapa de deformación que corresponde a áreas de interés en la imagen.  La densidad y dirección de los puntos rojos indican estas áreas.  El mapa se usa no solo para reducir la muestra, sino también para reconstruir las áreas de interés principal cuando el contenido de la imagen se vuelve a escalar de manera no uniforme en el otro lado del proceso de entrenamiento.  Fuente: https://arxiv.org/pdf/2109.11071.pdf

Arquitectura representacional del nuevo sistema. El módulo de deformación intersticial produce un mapa de deformación que corresponde a áreas de interés en la imagen. La densidad y dirección de los puntos rojos indican estas áreas. El mapa se usa no solo para reducir la muestra, sino también para reconstruir las áreas de interés principal cuando el contenido de la imagen se vuelve a escalar de manera no uniforme en el otro lado del proceso de entrenamiento. Fuente: https://arxiv.org/pdf/2109.11071.pdf

El sistema aplica segmentación semántica a las imágenes: bloques amplios, representados como bloques de color en la imagen de arriba, que abarcan entidades reconocidas dentro de la imagen, como ‘carretera’, ‘bicicleta’, ‘lesión’, etc. A continuación, se utiliza la disposición de los mapas de segmentación semántica para calcular qué partes de la foto no deben muestrearse excesivamente.

Titulado Learning to Downsample for Segmentation of Ultra-High Resolution Images, el nuevo papel es una colaboración entre investigadores del Center for Medical Image Computing del University College London e investigadores del departamento de Healthcare Intelligence de Microsoft Cambridge.

El mundo (bastante) de baja resolución del entrenamiento de visión por computadora

El entrenamiento de los sistemas de visión por computadora está significativamente limitado por la capacidad de las GPU. Los conjuntos de datos pueden contener muchos miles de imágenes de las que se deben extraer características, pero incluso las GPU de alcance industrial tienden a alcanzar un máximo de 24 gb de VRAM, con escasez continua afectando la disponibilidad y el costo.

Esto significa que los datos deben alimentarse a través de los núcleos Tensor limitados de la GPU en lotes manejables, con 8-16 imágenes típicas de muchos flujos de trabajo de entrenamiento de visión por computadora.

No hay muchas soluciones obvias: incluso si la VRAM fuera ilimitada y las arquitecturas de la CPU pudieran acomodar ese tipo de rendimiento de la GPU sin formar un cuello de botella arquitectónico, los tamaños de lote muy altos tenderán a derivar funciones de alto nivel a expensas de las transformaciones más detalladas. eso puede ser crítico para la utilidad del algoritmo final.

Aumentar la resolución de las imágenes de entrada significará que tendrá que usar tamaños de lote más pequeños para ajustar los datos en el “espacio latente” del entrenamiento de la GPU. Esto, por el contrario, es probable que produzca un modelo “excéntrico” y sobreajustado.

Agregar GPU adicionales tampoco ayuda, al menos en las arquitecturas más comunes: si bien las configuraciones de múltiples GPU pueden acelerar los tiempos de capacitación, también pueden comprometer la integridad de los resultados de la capacitación, como dos fábricas adyacentes que trabajan en el mismo producto, con solo un teléfono. línea para coordinar sus esfuerzos.

Imágenes redimensionadas inteligentemente

Lo que queda es que las secciones más relevantes de una imagen típica para un conjunto de datos de visión por computadora podrían, con el nuevo método, conservarse intactas en el cambio de tamaño automático que ocurre cuando las imágenes de muy alta resolución deben reducirse para adaptarse a una canalización ML.

Este es un desafío aparte del problema de los artefactos con pérdida en los conjuntos de datos de aprendizaje automático, donde la calidad se pierde en las canalizaciones de cambio de tamaño automatizadas porque el códec de compresión desecha demasiada información (generalmente irrecuperable).

Más bien, en este caso, incluso guardar en un formato de imagen sin pérdidas (como PNG con compresión LZW) no puede recuperar la información que se descarta genéricamente al cambiar el tamaño (por ejemplo) de una imagen de resonancia magnética (IRM) a menudo. dimensiones récord a una resolución típica más creíble de 256 × 256 o 512 × 512 píxeles.

Para empeorar las cosas, según los requisitos del marco, a menudo se agregarán bordes negros a las imágenes de origen rectangulares como una tarea rutinaria de procesamiento de datos, con el fin de producir un formato de entrada verdaderamente cuadrado para el procesamiento de redes neuronales, reduciendo aún más el espacio disponible para potencialmente datos cruciales.

En cambio, los investigadores de UCL y Microsoft proponen hacer que el proceso de cambio de tamaño sea más inteligente, utilizando de manera efectiva lo que siempre ha sido una etapa genérica en el proceso para resaltar áreas de interés, descargando parte de la carga interpretativa del sistema de aprendizaje automático a través del cual el las imágenes finalmente pasarán.

El método, afirman los investigadores, mejora una oferta de 2019 (imagen a continuación) que buscaba ganancias similares al enfocar la atención de calidad en los límites de los objetos.

De 'Efficient Segmentation: Learning Downsampling Near Semantic Boundaries', Marin et al., 2019. Fuente: https://arxiv.org/pdf/1907.07156.pdf

De ‘Efficient Segmentation: Learning Downsampling Near Semantic Boundaries’, Marin et al., 2019. Fuente: https://arxiv.org/pdf/1907.07156.pdf

Como señala el nuevo trabajo, este enfoque supone que las áreas de interés se reúnen en los límites, mientras que los ejemplos de imágenes médicas, como las regiones cancerosas anotadas, dependen de un contexto de nivel superior y pueden aparecer como detalles fácilmente descartables dentro de áreas más amplias en una imagen. , en lugar de en los bordes.

Remuestreador aprendible

La nueva investigación propone un downsampler aprendible llamado módulo de deformación, que se entrena conjuntamente con un módulo de segmentación paralelo y, por lo tanto, puede ser informado sobre las áreas de interés identificadas por la segmentación semántica y priorizarlas durante el proceso de downsampling.

Los autores probaron el sistema en varios conjuntos de datos populares, incluidos paisajes urbanos, Globo Profundo y un conjunto de datos de histología del cáncer de próstata local, ‘PCa-Histo’.

Tres enfoques: a la izquierda, reducción de muestreo 'uniforme' existente;  en el medio, el enfoque de

Tres enfoques: a la izquierda, reducción de muestreo ‘uniforme’ existente; en el medio, el enfoque de “perfil óptimo” del documento de 2019; a la derecha, la arquitectura detrás del nuevo sistema, informada por el reconocimiento de entidades en una capa de segmentación semántica.

Se ha intentado un enfoque similar para un clasificador propuesto en 2019pero los autores del artículo actual sostienen que este método no regulariza adecuadamente las áreas de énfasis, lo que podría pasar por alto áreas vitales en un contexto de imágenes médicas.

Resultados

El módulo de deformación en el nuevo sistema es una pequeña red neuronal convolucional (CNN), mientras que la capa de segmentación es una arquitectura CNN profunda que emplea HRNetV2-W48. Red de análisis de escena piramidal (Red PSP) se usó como una capa de verificación de cordura para las pruebas de CityScapes.

Los conjuntos de datos antes mencionados se probaron con el nuevo marco, utilizando un remuestreo uniforme (el método habitual), el método de borde óptimo de 2019 y el aprovechamiento de la segmentación semántica del nuevo enfoque.

Los autores informan que el nuevo método muestra una “clara ventaja en la identificación y distinción de las clases clínicamente más importantes”, con un aumento de precisión del 15-20%. Además, observan que la distancia entre estas clases a menudo se define como “el umbral de la salud al cáncer”.

Análisis de intersección sobre unión (IoU) de clase a través de los tres métodos: izquierda, remuestreo estándar;  borde medio, óptimo;  y bien, el nuevo enfoque. CityScapes se redujo a 64 x 128, PCaHisto a 80 x 800 y DeepGlobe a 300 píxeles cuadrados.

Análisis de intersección sobre unión (IoU) de clase a través de los tres métodos: izquierda, remuestreo estándar; borde medio, óptimo; y bien, el nuevo enfoque. CityScapes se redujo a 64 x 128, PCaHisto a 80 x 800 y DeepGlobe a 300 píxeles cuadrados.

El informe afirma que su método “puede aprender una estrategia de reducción de resolución, preservar mejor la información y permitir un mejor intercambio”, y concluye que el nuevo marco “puede aprender de manera eficiente dónde “invertir” el presupuesto limitado de píxeles en la reducción de resolución para lograr el máximo rendimiento general en la precisión de la segmentación’.

La imagen principal del artículo de esta función se obtuvo de thispersondoesnotexist.com. Actualizado a las 3:35 p. m. GMT+2 por error de texto.

Deja un comentario