Investigadores de UCLA han desarrollado un método para cambiar la raza aparente de los rostros en conjuntos de datos que se utilizan para entrenar sistemas médicos de aprendizaje automático, en un intento por corregir el sesgo racial que sufren muchos conjuntos de datos comunes.
Él nueva técnica es capaz de producir video sintético fotorrealista y fisiológicamente preciso a una velocidad promedio de 0,005 segundos por cuadro, y se espera que ayude al desarrollo de nuevos sistemas de diagnóstico para el diagnóstico y monitoreo remotos de la atención médica, un campo que se ha expandido enormemente bajo las restricciones de COVID. El sistema está destinado a mejorar la aplicabilidad de la fotopletismografía remota (rPPG), una técnica de visión por computadora que evalúa el contenido de video facial para detectar cambios volumétricos en el suministro de sangre de una manera no invasiva.
Fuente: https://arxiv.org/pdf/2106.06007.pdf. Click para agrandar.
Aunque el trabajo, que utiliza redes neuronales convolucionales (CNN), incorpora código de investigación anterior publicado por la Universidad de Durham del Reino Unido en 2020, la nueva aplicación tiene como objetivo preservar las señales pulsátiles en los datos de prueba originales, en lugar de simplemente cambiar visualmente la raza aparente de los datos, como lo hace la investigación de 2020.
CNN para la transformación racial
La primera parte del sistema codificador-decodificador utiliza el modelo de transferencia de carreras de Durham, entrenado previamente en VGGFace2, para generar marcos de destino proxy con el componente anterior de caucásico a africano de la investigación de Durham. Esto produce una transferencia plana de características raciales, pero no contiene las variaciones de color y tono que representan indicadores fisiológicos visuales del estado del flujo sanguíneo del paciente.
La tubería de transformación de la investigación de 2020 de la Universidad de Durham, parte de la cual se incorpora a la nueva investigación de UCLA. Fuente: https://arxiv.org/pdf/2004.08945.pdf. Click para agrandar.
Una segunda red, llamada PhysResNet (PRN), proporciona el componente rPPG. PhysResNet está capacitado para aprender tanto la apariencia visual como las variaciones de color que definen los movimientos del volumen de sangre subcutánea.
Abajo a la izquierda, los resultados obtenidos por la investigación de Durham 2020, sin información de PPG. En el centro a la izquierda, la información del PPG incorporada a la transformación racial. Click para agrandar.
La arquitectura que propone el proyecto de la UCLA supera a las técnicas rPPG de la competencia incluso en ausencia de aumento del color de la piel, lo que representa una mejora del 31 % en técnicas similares optimizadas con MAE y RMSE.
La red de UCLA conserva con éxito el volumen de sangre y la información de distribución. Click para agrandar.
Los investigadores de UCLA esperan que el trabajo futuro lleve a cabo desafíos más extensos para corregir el sesgo racial en este sector de imágenes médicas, y esperan también que los esquemas posteriores produzcan videos de mayor resolución, ya que el sistema en cuestión está limitado a una resolución de 80 × 80 píxeles. – adecuado razonablemente bien a las limitaciones de la telesalud, pero no ideal.
Falta de conjuntos de datos étnicamente diversos
Las circunstancias económicas y prácticas que conducen a conjuntos de datos racialmente diversos han sido un obstáculo para la investigación médica durante algunos años. Los datos tienden a generarse parroquialmente, con muchos factores que contribuyen a una homogeneidad frecuente centrada en el Cáucaso de los sujetos de datos. Estos incluyen la composición de la demografía minoritaria en las ciudades donde se lleva a cabo la investigación y otros factores socioeconómicos que pueden influir en la medida en que aparecen sujetos no blancos. en conjuntos de datos occidentales que los investigadores desean que puedan tener una aplicabilidad más global.
En países con una mayor proporción de sujetos de piel oscura, con frecuencia se carece del equipo y los recursos necesarios para recopilar los datos.
Un mapa mundial del tono de la piel para los pueblos indígenas, del American Journal of Physical Anthropology.
Actualmente, los sujetos de piel oscura están notablemente subrepresentados en los conjuntos de datos de rPPG, lo que representa el 0 %, el 5 % y el 10 % del contenido de las tres bases de datos principales de uso común para este fin.
Datos caucásicos homogéneos
En 2019 nuevas investigaciones publicado en Science descubrió que un algoritmo ampliamente difundido en la atención hospitalaria de EE. UU. estaba muy sesgado a favor de los sujetos caucásicos. El estudio encontró que las personas negras tenían menos probabilidades de ser derivadas a atención especializada en triaje y niveles más profundos de admisión hospitalaria.
Más investigaciones en ese año de investigadores en Malasia y Australia. establecido el problema general del ‘sesgo de raza propia’ para la generación de conjuntos de datos en muchas regiones del mundo, incluida Asia.
Limitaciones potenciales de escala y arquitectura
Algunas de las limitaciones que han llevado a conjuntos de datos de etnicidad limitada son de naturaleza pragmática más que ética. Cuanto más amplia sea la pluralidad de los datos contribuyentes, mejor se generaliza a través de los temas que aparecen en esos datos, pero es menos probable que la rutina de entrenamiento intuya patrones dentro de cualquier característica única de los datos, incluida la raza, porque un porcentaje menor de tiempo de entrenamiento, la atención y los recursos están disponibles para cada subconjunto identificable de los datos.
Esto puede conducir a modelos que son ampliamente aplicables pero que obtienen resultados menos específicos, debido a las limitaciones del tamaño de los datos, la economía del tamaño del lote y las limitaciones prácticas del espacio latente en función de los recursos de hardware limitados.
En el otro extremo, aunque se pueden obtener resultados granulares y efectivos restringiendo los datos de entrada a un conjunto más limitado de características, incluida la etnicidad, es probable que los resultados se ‘sobreajusten’ a los datos limitados y no sean ampliamente aplicables, quizás incluso a través de sujetos no vistos en la misma área geográfica de la que se obtuvieron los sujetos del conjunto de datos original.
Avatares sintéticos para simulación PPG
El documento de la UCLA también destaca el trabajo anterior de Microsoft Research en 2020 sobre el uso de avatares sintéticos racialmente flexibles, que aprovecha la síntesis de imágenes en 3D para crear videos de rostros ricos en información PPG.
Avatares sintéticos creados por la investigación de Microsoft, con imágenes con trazado de rayos que contienen datos de PPG. Fuente: https://arxiv.org/pdf/2010.12949.pdf. Click para agrandar.