La inteligencia artificial está jugando un papel más importante en la ciencia de la genómica todos los días. Recientemente, un equipo de investigadores de UC San Diego utilizó IA para descubrir un código de ADN que podría allanar el camino para controlar la activación de genes. Además, los investigadores de la organización científica nacional de Australia, CSIRO, emplearon algoritmos de IA para analizar más de un billón de puntos de datos genéticos, mejorando nuestra comprensión del genoma humano y mediante la localización de genes específicos que causan enfermedades.
El genoma humano, y todo el ADN, comprende cuatro bases químicas diferentes: adenina, guanina, timina y citosina, abreviadas como A, G, T y C respectivamente. Estas cuatro bases se unen en varias combinaciones que codifican diferentes genes. Alrededor de una cuarta parte de todos los genes humanos están codificados por secuencias genéticas que son aproximadamente TATAAA, con ligeras variaciones. Estos derivados TATAAA comprenden el “Caja TATA”, secuencias de ADN no codificantes que desempeñan un papel en la inicialización de la transcripción de genes compuestos por TATA. Sin embargo, se desconoce cómo se activa aproximadamente el otro 75 % del genoma humano, gracias a la abrumadora cantidad de posibles combinaciones de secuencias de bases. .
Según lo informado por ScienceDaily, investigadores de la UCSD lograron identificar un código de activación de ADN que se emplea con tanta frecuencia como las activaciones de la caja TATA, gracias a su uso de inteligencia artificial. Los investigadores se refieren al código de activación del ADN como la «región promotora del núcleo aguas abajo» (DPR). Según el autor principal del artículo que detalla los hallazgos, el profesor de Ciencias Biológicas de UCSD James Kagonaga, el descubrimiento del DPR revela cómo se activan entre un cuarto y un tercio de nuestros genes.
Kadonaga descubrió inicialmente una secuencia de activación de genes correspondiente a porciones de DPR cuando trabajaba con moscas de la fruta en 1996. Desde entonces, Kadonaga y sus colegas han estado trabajando para determinar qué secuencias de ADN estaban correlacionadas con la actividad de DPR. El equipo de investigación comenzó creando medio millón de secuencias de ADN diferentes y determinando qué secuencias mostraban actividad DPR. Se utilizaron alrededor de 200.000 secuencias de ADN para entrenar un modelo de IA que podría predecir si la actividad de DPR se observaría o no en fragmentos de ADN humano. Según los informes, el modelo era muy preciso. Kadonaga describió el desempeño del modelo como «absurdamente bueno» y su poder predictivo «increíble». El proceso utilizado para crear el modelo resultó tan confiable que los investigadores terminaron creando una IA similar enfocada en descubrir nuevas ocurrencias de cajas TATA.
En el futuro, la inteligencia artificial podría aprovecharse para analizar patrones de secuencias de ADN y dar a los investigadores más información sobre cómo ocurre la activación de genes en las células humanas. Kadonaga cree que, al igual que la IA pudo ayudar a su equipo de investigadores a identificar el DPR, la IA también ayudará a otros científicos a descubrir importantes secuencias y estructuras de ADN.
En otro uso de la IA para explorar el genoma humano, como informa MedicalExpress, investigadores de la agencia científica nacional CSIRO de Australia han utilizado una plataforma de inteligencia artificial llamada VariantSpark para analizar más de 1 billón de puntos de datos genómicos. Se espera que la investigación basada en IA ayude a los científicos a determinar la ubicación de ciertos genes relacionados con enfermedades.
Los métodos tradicionales de análisis de rasgos genéticos pueden tardar años en completarse, pero como explicó el Dr. Denis Bauser, líder de Bioinformática de CSIRO, la IA tiene el potencial de acelerar drásticamente este proceso. VarianSpark es una plataforma de IA que puede analizar características como la susceptibilidad a ciertas enfermedades y determinar qué genes pueden influir en ellas. Bauer y otros investigadores utilizaron VariantSpark para analizar un conjunto de datos sintéticos de alrededor de 100 000 personas en solo 15 horas. VariantSpark analizó más de diez millones de variantes de un billón de puntos de datos genómicos, una tarea que incluso los competidores más rápidos que utilizan métodos tradicionales tardarían miles de años en completar.
Como explicó el Dr. David Hansin, director ejecutivo de CSIRO Australian E-Health Research Center a través de MedicalExpress:
«A pesar de los avances tecnológicos recientes con estudios de secuenciación del genoma completo, los orígenes moleculares y genéticos de enfermedades complejas aún no se conocen bien, lo que dificulta la predicción, la aplicación de medidas preventivas adecuadas y el tratamiento personalizado».
Bauer cree que VariantSpark se puede ampliar a conjuntos de datos a nivel de población y ayudar a determinar el papel que desempeñan los genes en el desarrollo de enfermedades cardiovasculares y neurológicas. Dicho trabajo podría conducir a una intervención temprana, tratamientos personalizados y mejores resultados de salud en general.