Los poderosos algoritmos utilizados por compañías como Netflix, Facebook y Amazon podrían tener importantes implicaciones en el cuidado de la salud. Han demostrado la capacidad de predecir el lenguaje biológico del cáncer y otras enfermedades neurodegenerativas como el Alzheimer.
Esta iniciativa fue emprendida por académicos del St. John’s College de la Universidad de Cambridge, quienes incorporaron grandes datos producidos durante décadas en un modelo de lenguaje informático. El objetivo era ver si la inteligencia artificial (IA) podía hacer descubrimientos más avanzados que los humanos, y encontraron exactamente eso con la capacidad de la tecnología para descifrar el lenguaje biológico.
El estudio fue publicado en la revista científica PNAS, titulado “Aprendizaje de la gramática molecular de condensados de proteínas a partir de determinantes de secuencia e incrustaciones.” Según los expertos, podría usarse para “corregir los errores gramaticales dentro de las células que causan enfermedades”.
El profesor Tuomas Knowles es el autor principal del artículo y miembro del St. John’s College.
“Llevar la tecnología de aprendizaje automático a la investigación de enfermedades neurodegenerativas y cáncer es un cambio de juego absoluto. En última instancia, el objetivo será utilizar la inteligencia artificial para desarrollar medicamentos dirigidos a aliviar drásticamente los síntomas o prevenir la demencia”.
Algoritmos poderosos
Los algoritmos de aprendizaje automático utilizados por empresas como Netflix y Facebook hacen predicciones muy informadas sobre los consumidores y lo que harán a continuación. Esto es lo que sucede cuando Netflix recomienda una nueva película o Facebook recomienda un nuevo amigo. Los asistentes de voz como Alexa y Siri pueden reconocer a las personas de inmediato y responder.
La Dra. Kadi Liis Saar es la primera autora del artículo y becaria de investigación en St. John’s College. Usó una tecnología similar para entrenar un modelo de lenguaje a gran escala, cuyo objetivo era identificar qué les sucede a las proteínas durante la enfermedad.
“El cuerpo humano alberga miles y miles de proteínas y los científicos aún no conocen la función de muchas de ellas. Le pedimos a un modelo de lenguaje basado en redes neuronales que aprendiera el lenguaje de las proteínas”, dijo.
“Le pedimos específicamente al programa que aprendiera el lenguaje de los condensados biomoleculares que cambian de forma (gotas de proteínas que se encuentran en las células) que los científicos realmente necesitan entender para descifrar el lenguaje de la función biológica y el mal funcionamiento que causa el cáncer y las enfermedades neurodegenerativas como el Alzheimer. Descubrimos que podía aprender, sin que se le dijera explícitamente, lo que los científicos ya habían descubierto sobre el lenguaje de las proteínas durante décadas de investigación”.
Los científicos creen que existen varios cientos de enfermedades neurodegenerativas, siendo las más comunes las enfermedades de Alzheimer, Parkinson y Huntingon. El Alzheimer afecta a 50 millones de personas en todo el mundo y, durante la enfermedad, las proteínas forman grumos y matan las células nerviosas sanas.
Condensados de Proteínas y Tecnología NLP
Con un cerebro sano, estas masas de proteínas se pueden eliminar de manera efectiva. Según hallazgos más recientes, los científicos ahora creen que algunas proteínas desordenadas forman condensados, que son gotas de proteínas similares a líquidos. Estos no tienen membrana y se fusionan libremente entre sí, y pueden formarse y reformarse.
“Recientemente, los condensados de proteínas han atraído mucha atención en el mundo científico porque controlan eventos clave en la célula, como la expresión génica, cómo nuestro ADN se convierte en proteínas, y la síntesis de proteínas, cómo las células producen proteínas”, dijo el profesor Knowles.
“Cualquier defecto relacionado con estas gotitas de proteína puede provocar enfermedades como el cáncer. Es por eso que llevar la tecnología de procesamiento del lenguaje natural a la investigación de los orígenes moleculares del mal funcionamiento de las proteínas es vital si queremos poder corregir los errores gramaticales dentro de las células que causan enfermedades”, continuó.
“Alimentamos al algoritmo con todos los datos almacenados en las proteínas conocidas para que pudiera aprender y predecir el lenguaje de las proteínas de la misma manera que estos modelos aprenden sobre el lenguaje humano y cómo WhatsApp sabe cómo sugerir palabras para que las uses”, dijo el Dr. dijo Saar.
“Entonces pudimos preguntarle sobre la gramática específica que lleva solo a algunas proteínas a formar condensados dentro de las células. Es un problema muy desafiante y desbloquearlo nos ayudará a aprender las reglas del lenguaje de la enfermedad”, continuó el Dr. Saar.
Los principales impulsores de este avance tecnológico son una cantidad cada vez mayor de datos disponibles, una mayor potencia informática y avances técnicos. El aprendizaje automático tiene el potencial de transformar drásticamente la investigación en estas áreas, permitiendo descubrimientos que nunca podrían haberse predicho.
Según el Dr. Saar, “el aprendizaje automático puede estar libre de las limitaciones de lo que los investigadores creen que son los objetivos de la exploración científica y significará que se encontrarán nuevas conexiones que ni siquiera hemos concebido todavía. Realmente es muy emocionante”.
El nuevo la red está disponible para investigadores de todo el mundo, y cada vez más científicos se están involucrando.