El científico de IBM Peter Staar ha desarrollado un herramienta de IA que está siendo utilizado por más de 300 expertos que están desarrollando un tratamiento o vacuna para el COVID-19.
Para ayudar a los investigadores a acceder rápidamente a datos estructurados y no estructurados, IBM ofrece un recurso de investigación de IA basado en la nube que se ha capacitado en un corpus de miles de más de 45 000 artículos científicos contenidos en el conjunto de datos de investigación abierta COVID-19 (CORD-19), preparado por la Casa Blanca y una coalición de grupos de investigación, y bases de datos autorizadas de DrugBank, Clinicaltrials.gov y GenBank.
El Dr. Peter Staar se unió a IBM Research – Zurich Laboratory en julio de 2015 como investigador posdoctoral en el proyecto Foundations of Cognitive Solutions. El científico nacido en Bélgica llegó por primera vez a IBM Research como estudiante de verano en 2006.
Se unió a IBM Research – Zurich Laboratory en julio de 2015. ¿En qué tipo de proyectos ha trabajado en IBM?
Mi investigación inicial se centró en aplicaciones para computación de alto rendimiento y formé parte del equipo ganador del prestigioso premio ACM Gordon Bell.
Más recientemente, alrededor de 2017, comencé a centrarme en la IA y, en agosto de 2018, mi equipo publicó un artículo en la Conferencia ACM sobre descubrimiento de conocimientos y minería de datos (KDD 2018) sobre un sistema de ingesta de documentos escalable de forma masiva, al que llamamos Corpus Conversion Service. Esta herramienta en la nube basada en IA pudo ingerir 100 000 páginas PDF por día (incluso de documentos escaneados) con una precisión superior al 97 %, y luego entrenar y aplicar modelos avanzados de aprendizaje automático que extraen el contenido de estos documentos a una escala nunca antes alcanzada. Ahora estamos aplicando esta misma tecnología para ayudar a los investigadores con COVID-19.
¿Cuándo se le ocurrió a IBM la idea de utilizar Servicio de conversión de corpus para hacer frente a la epidemia de COVID-19?
A mediados de marzo, la Casa Blanca lideró un esfuerzo para publicar más de 45,000 documentos sobre el coronavirus y el COVID-19. Cuando vimos el corpus, rápidamente nos dimos cuenta de que nuestra tecnología podría ayudar, no solo a hacer que los PDF se puedan buscar, sino también a combinar el conocimiento dentro de esos PDF con conjuntos de datos adicionales como banco de medicamentos, GenBank y Clinicaltrials.gov. Lanzamos el servicio el 3 de abril.
¿Cómo describiría mejor qué es el Servicio de conversión de Corpus?
Al igual que con cualquier gran volumen de fuentes de datos dispares, es difícil agregar y analizar de manera eficiente esos datos de manera que puedan generar conocimientos científicos. Hacemos esto más fácil utilizando un gráfico de conocimiento que encuentra conexiones entre estas fuentes de datos para generar potencialmente nuevos conocimientos.
¿Puede hablar sobre el principal desafío de extraer datos del formato PDF a un formulario de búsqueda?
Según Adobe, hay aproximadamente 2,5 billones de archivos en formato de documento portátil (PDF) actualmente en circulación. Piense en el conocimiento que contienen estos archivos: artículos científicos, literatura técnica y mucho más. Pero todo ese contenido es «oscuro» o no se usa, porque hasta ahora no hemos tenido forma de ingerir una gran cantidad de archivos PDF a escala y hacer que su contenido sea utilizable (o estructurado).
Los archivos PDF a menudo incluyen combinaciones de gráficos vectoriales, texto y gráficos de mapa de bits, todo lo cual hace que la extracción de datos cualitativos y cuantitativos sea bastante desafiante. De hecho, convertir la reconstrucción automática de contenido ha sido un problema durante más de una década. Si bien hay muchas soluciones de conversión de documentos disponibles, ninguna aborda la escalabilidad o aplica IA, lo que significa que deben depender de costosas actualizaciones y mantenimiento humano.
Hasta donde sabemos, Corpus Conversion Service es el primer sistema integral que utiliza IA avanzada en este nivel de escalabilidad. Si bien las soluciones existentes solo pueden convertir un documento a la vez a un formato de salida deseado, nuestra herramienta puede ingerir colecciones completas, un corpus de documentos y construir modelos de aprendizaje automático además de eso.
¿Cómo se extrae no solo el texto que está contenido en un documento, sino también la estructura?
Un elemento clave es que diseñamos la interacción humano-computadora en el sistema para permitir una anotación muy rápida y masiva sin ningún conocimiento de informática. Este cambio al aprendizaje automático le brinda a nuestro servicio una gran flexibilidad, ya que puede adaptarse rápidamente a ciertas plantillas de documentos, lograr resultados altamente precisos y, en última instancia, eliminar los ajustes costosos y lentos típicos de los algoritmos tradicionales basados en reglas.
¿Puede hablar sobre los desafíos de construir un modelo de aprendizaje automático que pueda escalar y responder rápidamente a cientos e incluso potencialmente a miles de usuarios simultáneos?
Hemos desarrollado Corpus Conversion Service además de servicios en la nube de última generación, como OpenShift en IBM Cloud. Esto nos permite escalar nuestra aplicación sin esfuerzo con una mayor demanda. Por lo tanto, los modelos de IA que aplicamos pueden ser utilizados por muchos usuarios al mismo tiempo.
¿Cuántos documentos se han ingerido en el servicio?
Tenemos varios clientes industriales que utilizan las herramientas, por lo que no sabemos cuántos documentos han ingerido, ya que cada uno tiene su propia instancia de IBM Cloud. Pero para COVID-19 ingerimos los 45,826 documentos de la Casa Blanca.
¿Cómo ha reaccionado la comunidad investigadora al usar esta herramienta de IA?
Desde que anunciamos la disponibilidad gratuita de nuestra herramienta hace unas semanas contamos con más de 400 usuarios de más de una docena de países, la mayoría médicos y profesores.
¿Hay algo más que le gustaría compartir sobre el Servicio de conversión de corpus y/o cómo se usa en el contexto de COVID-19?
Uno de nuestros clientes es la empresa energética italiana Eni, que está utilizando nuestra tecnología para la exploración de hidrocarburos, que es un negocio complejo e intensivo en conocimiento que involucra varias disciplinas científicas y de ingeniería trabajando juntas.
En Eni, el conocimiento se basa en el procesamiento de grandes cantidades de datos geológicos, físicos y geoquímicos, que luego se procesan en un gráfico de conocimiento. Luego, los geocientíficos pueden usar IA para contextualizar y presentar información relevante, lo que les ayudará a mejorar la toma de decisiones y la identificación y verificación de posibles escenarios alternativos de exploración. Más específicamente, para Eni esto significa una representación más realista y precisa del modelo geológico.
Gracias por esta entrevista tan importante, esto ahorrará horas incalculables a los investigadores. Los lectores que deseen obtener más información sobre la tecnología deben visitar el Servicio de conversión de corpus sitio web. Los investigadores deben visitar el Herramienta de IA COVID-19 página. Tenga en cuenta que el acceso a este recurso se otorgará solo a investigadores calificados.