Popular conjunto de datos de COVIDx criticado por investigadores del Reino Unido

Un consorcio de investigación del Reino Unido ha criticado el grado de confianza científica conferida a los conjuntos de datos de código abierto utilizados para el análisis basado en visión artificial de las radiografías de tórax de los pacientes con COVID-19, centrándose en el popular conjunto de datos de código abierto COVIDx.

Los investigadores, después de haber probado COVIDx en varios modelos de entrenamiento de IA, afirman que ‘no es representativo del problema clínico real’, que los resultados obtenidos al usarlo están ‘inflados’ y que los modelos ‘no se generalizan bien’ a la realidad. datos del mundo.

Los autores también notan la inconsistencia de los datos aportados que componen COVIDx, donde las imágenes originales vienen en una variedad de resoluciones que el flujo de trabajo de aprendizaje profundo reformatea automáticamente en los tamaños consistentes necesarios para el entrenamiento, y observan que este proceso puede introducir artefactos engañosos. relacionados con el algoritmo de cambio de tamaño de la imagen, en lugar del aspecto clínico de los datos.

Él papel se llama Los peligros de usar datos abiertos para desarrollar soluciones de aprendizaje profundo para la detección de COVID-19 en radiografías de tórax, y es una colaboración entre el Centro de Imagen Computacional y Simulación en Biomedicina (CISTIB) de la Universidad de Leeds, junto con investigadores de otras cinco organizaciones en la misma ciudad, incluido el Leeds Teaching Hospitals NHS Trust.

La investigación detalla, entre otras prácticas negativas, el “uso indebido de etiquetas” en el conjunto de datos de COVIDx, así como un “alto riesgo de sesgo y confusión”. Los propios experimentos de los investigadores al poner a prueba el conjunto de datos en tres modelos viables de aprendizaje profundo los llevaron a concluir que “el rendimiento excepcional informado ampliamente en el dominio del problema está inflado, que los resultados del rendimiento del modelo están tergiversados ​​y que los modelos no generalizan bien”. a datos clínicamente realistas.’

Cinco conjuntos de datos contrastantes en uno

El informe* señala que la mayoría de las metodologías actuales basadas en IA en este campo dependen de una variedad ‘heterogénea’ de datos de repositorios de código abierto dispares, observando que cinco conjuntos de datos con características notablemente diferentes se han aglomerado en el conjunto de datos COVIDx a pesar de (en el consideración de los investigadores) paridad inadecuada de la calidad y el tipo de datos.

El conjunto de datos COVIDx fue publicado en mayo de 2020 como un esfuerzo de consorcio liderado por el Departamento de Ingeniería de Diseño de Sistemas de la Universidad de Waterloo en Canadá, con los datos Hecho disponible como parte de la iniciativa de código abierto COVID-Net.

Las cinco colecciones que constituyen COVIDx son: el COVID-19 Recopilación de datos de imágenes (un código abierto conjunto de investigadores de Montreal); el conjunto de datos de rayos X de tórax COVID-19 iniciativa; la radiografía de tórax Actualmed COVID-19 conjunto de datos; la radiografía COVID-19 Base de datos; y el desafío de detección de neumonía RSNA conjunto de datosuno de los muchos equipos anteriores a la COVID que se han puesto en servicio para la crisis pandémica.

(RICORD, ver más abajo, se ha agregado desde entonces a COVIDx, pero debido a que se incluyó después de los modelos de interés en el estudio, se excluyó de los datos de prueba y, en cualquier caso, habrá tendido a variar aún más a COVIDx, lo que es la queja central de los autores del estudio.)

Los investigadores sostienen que COVIDx es el conjunto de datos ‘más grande y más utilizado’ de su tipo dentro de la comunidad científica relacionada con la investigación de COVID, y que los datos importados a COVIDx desde los conjuntos de datos externos constituyentes no se ajustan adecuadamente al esquema tripartito del conjunto de datos de COVIDx. (es decir, ‘normal’, ‘neumonía’ y ‘COVID-19’).

¿Lo suficientemente cerca…?

Al examinar la procedencia y la idoneidad de los conjuntos de datos contribuyentes para COVIDx en el momento del estudio, los investigadores encontraron un “uso indebido” de los datos de RSNA, donde los datos de un tipo, afirman los investigadores, han sido agrupados en una categoría diferente:

‘El repositorio RSNA, que utiliza datos de rayos X de tórax disponibles públicamente de NIH Chestx-ray8 [**]se diseñó para una tarea de segmentación y, como tal, contiene tres clases de imágenes, ‘Opacidad pulmonar’, ‘Sin opacidad pulmonar/No normal’ y ‘Normal’, con cuadros delimitadores disponibles para los casos de ‘Opacidad pulmonar’.

“En su compilación en COVIDx, todas las radiografías de tórax de la clase ‘Opacidad pulmonar’ están incluidas en la clase de neumonía”.

Efectivamente, afirma el documento, la metodología COVIDx amplía la definición de ‘neumonía’ para incluir ‘todas las opacidades pulmonares similares a la neumonía’. En consecuencia, el valor comparable de los tipos de datos comparativos está (presumiblemente) amenazado. Los investigadores afirman:

‘ […] la clase de neumonía dentro del conjunto de datos COVIDx contiene radiografías de tórax con una variedad de muchas otras patologías, que incluyen derrame pleural, infiltración, consolidación, enfisema y masas. La consolidación es una característica radiológica de una posible neumonía, no un diagnóstico clínico. Utilizar la consolidación como sustituto de la neumonía sin documentar esto es potencialmente engañoso.’

Patologías alternativas (además del COVID-19) asociadas al COVIDx.

Patologías alternativas (además del COVID-19) asociadas al COVIDx. Fuente: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

El informe encuentra que solo el 6,13 % de los 4305 casos de neumonía obtenidos de RSNA se etiquetaron con precisión, lo que representa solo 265 casos de neumonía genuinos.

Además, muchos de los casos que no son de neumonía incluidos en COVIDx representaban comorbilidades: complicaciones de otras enfermedades o problemas médicos secundarios en condiciones que no están necesariamente relacionadas con la neumonía.

No es normal’

El informe sugiere además que la influencia del conjunto de datos de desafío RSNA en COVIDx ha sesgado la estabilidad empírica de los datos. Los investigadores observan que COVIDx prioriza la clase “normal” de los datos RSNA, excluyendo efectivamente todas las clases “sin opacidad pulmonar/no normal” en el conjunto de datos más amplio. El papel dice:

“Si bien esto está de acuerdo con lo que se espera dentro de la etiqueta ‘normal’, expandir la clase de neumonía y usar solo radiografías de tórax ‘normales’, en lugar de casos con neumonía negativa, simplifica enormemente la tarea de clasificación.

“El resultado final de esto es un conjunto de datos que refleja una tarea que se elimina del verdadero problema clínico”.

Sesgos potenciales de estándares de datos incompatibles

El documento identifica una serie de otros tipos de sesgo en COVIDx, y señala que algunos de los datos que contribuyen mezclan imágenes de radiografías de tórax pediátricas con radiografías de pacientes adultos, y observa además que estos datos son la única fuente “significativa” de Imágenes pediátricas en COVIDx.

Además, las imágenes del conjunto de datos RSNA tienen una resolución de 1024 × 1024, mientras que otro conjunto de datos que contribuye proporciona imágenes con una resolución de solo 299 × 299. Dado que los modelos de aprendizaje automático invariablemente cambiarán el tamaño de las imágenes para adaptarse al espacio de entrenamiento disponible (espacio latente), esto significa que las imágenes de 299 × 299 se ampliarán en un flujo de trabajo de entrenamiento (lo que podría conducir a artefactos relacionados con un algoritmo de escala en lugar de una patología), y las imágenes más grandes reducidas. Nuevamente, esto mitiga los estándares de datos homogéneos necesarios para el análisis de visión artificial basado en IA.

Además, los datos de ActMed ingeridos en COVIDx contienen ‘marcadores en forma de disco’ en las radiografías de tórax de COVID-19, una característica recurrente que es inconsistente con el conjunto de datos más amplio y que debería manejarse como un ‘valor atípico repetitivo’.

Este es el tipo de problema que generalmente se soluciona limpiando u omitiendo los datos, ya que la recurrencia de los marcadores es suficiente para registrarse como una “característica” en el entrenamiento, pero no lo suficientemente frecuente como para generalizar de manera útil en el esquema más amplio del conjunto de datos. . Sin un mecanismo para descartar la influencia de los marcadores artificiales, la metodología del sistema de aprendizaje automático podría considerarlos potencialmente como fenómenos patológicos.

Entrenamiento y Pruebas

Los investigadores probaron COVIDx contra dos conjuntos de datos comparativos en tres modelos. Los dos conjuntos de datos adicionales fueron RICORD, que contiene 1096 radiografías de tórax con COVID-19 de 361 pacientes, provenientes de cuatro países; y CheXpertun conjunto de datos público

Los tres modelos utilizados fueron COVID-Net, Corona y DarkCovidNet. Los tres modelos emplean redes neuronales convolucionales (CNN), aunque CoroNet consiste en un proceso de clasificación de imágenes de dos etapas, con codificadores automáticos que pasan la salida a un clasificador CNN.

Las pruebas mostraron una “caída pronunciada” en el rendimiento de todos los modelos en conjuntos de datos que no son de COVIDx en comparación con el 86 % de precisión resultante al usar datos de COVIDx. Sin embargo, si los datos están mal etiquetados o mal agrupados, estos son efectivamente resultados falsos. Los investigadores notaron resultados de precisión muy reducidos en los conjuntos de datos externos comparables, que el documento propone como datos más realistas y correctamente clasificados.

Además, el documento observa:

‘Una revisión clínica de 500 mapas de prominencia grad-CAM generados por predicción en datos de prueba COVIDx mostró una tendencia significativa en características clínicamente irrelevantes. Esto comúnmente incluía un enfoque en las estructuras óseas y los tejidos blandos en lugar de la opacificación bilateral difusa de los campos pulmonares que son típicos de la infección por COVID-19”.

Esta es una radiografía de un caso confirmado de COVID-19, al que se le asignó una probabilidad de predicción de 0,938 de COVIDx capacitado en DarkCovidNet.  Fuente: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

Esta es una radiografía de un caso confirmado de COVID-19, al que se le asignó una probabilidad de predicción de 0,938 de COVIDx capacitado en DarkCovidNet.

Conclusiones

Los investigadores critican la falta de datos demográficos o clínicos relacionados con las imágenes de rayos X en COVIDx, argumentando que sin estos, es imposible dar cuenta de los “factores de confusión” como la edad.

También observan que los problemas encontrados en el conjunto de datos de COVIDx pueden ser aplicables a otros conjuntos de datos que se obtuvieron de manera similar (es decir, al mezclar bases de datos de imágenes radiológicas anteriores a COVID con datos de imágenes de rayos X de COVID recientes sin una arquitectura de datos adecuada, compensación de varianza y alcance claro). de las limitaciones de este enfoque).

Al resumir las deficiencias de COVIDx, los investigadores enfatizan la inclusión desequilibrada de radiografías pediátricas ‘claras’, así como su percepción del mal uso de las etiquetas y el alto riesgo de sesgo y confusión en COVIDx, afirmando que ‘el rendimiento excepcional [of COVIDx] informado ampliamente en todo el dominio del problema está inflado, que los resultados del rendimiento del modelo están tergiversados ​​y que los modelos no se generalizan bien a los datos clínicamente realistas.’

El informe concluye:

‘La falta de datos hospitalarios disponibles, combinada con una evaluación inadecuada del modelo en todo el dominio del problema, ha permitido el uso de datos de fuente abierta para engañar a la comunidad investigadora. La publicación continua de métricas de rendimiento de modelos inflados corre el riesgo de dañar la confiabilidad de la investigación de IA en diagnósticos médicos, particularmente donde la enfermedad es de gran interés público. La calidad de la investigación en este dominio debe mejorar para evitar que esto suceda, esto debe comenzar con los datos.’

*Aunque los investigadores del estudio afirman haber elaborado los datos, los archivos y el código para el nuevo artículo disponible en lineael acceso requiere inicio de sesión y, en el momento de escribir este artículo, no hay acceso público general a los archivos disponible.
** ChestX-ray8: Base de datos de rayos X de tórax a escala hospitalaria y puntos de referencia sobre clasificación y localización de enfermedades comunes del tórax con supervisión débil: https://arxiv.org/pdf/1705.02315.pdf

Deja un comentario