Inicio Intelectualidad La inteligencia artificial de DeepMind predice las estructuras de un gran número...

La inteligencia artificial de DeepMind predice las estructuras de un gran número de proteínas

El genoma humano contiene las instrucciones para construir más de 20.000 proteínas. Pero solo se ha determinado experimentalmente la estructura tridimensional de alrededor de un tercio de ellas. Y en muchos casos, esas estructuras solo se conocen parcialmente.

Ahora, una inteligencia artificial llamada AlphaFold cambia las cosas. La ha creado DeepMind, compañía hermana de Google en Londres. AlphaFold ha predicho la estructura de casi todo el proteoma humano (el catálogo completo de proteínas expresadas por un organismo). Ha predicho además los proteomas casi completos de varios organismos diferentes: los ratones, el maíz, el parásito de la malaria.

Las más de 350.000 estructuras de proteína, disponibles en una base de datos pública, no son igualmente precisas. Pero los investigadores dicen que este recurso, que alcanzará, según lo que se ha planeado, 130 millones de estructuras a finales del año, podría revolucionar las ciencias de la vida.

«Lo cambia todo, según yo lo veo. Tener las formas de todas esas proteínas da realmente una idea de cómo funcionan», dice Christine Orengo, bióloga computacional del University College de Londres (UCL).

«Es la mayor contribución que un sistema de inteligencia artificial haya hecho hasta ahora al progreso del conocimiento científico. No creo que sea nada exagerado decir esto», dice Demis Hassabis, cofundador y jefe ejecutivo de DeepMind.

Pero los investigadores han insistido en que el vertido de datos es solo el principio, no un fin. Quieren validar las prediciones y, lo que es más importante, aplicarlas en experimentos que antes eran imposibles. «Es un primer paso asombroso que tengamos todos esos datos a esa escala», dice David Jones, biólogo computacional de la UCL que asesoró a DeepMind en una versión anterior de Alpha Fold.

Predicciones de premio

DeepMind asombró a los científicos de la vida el año pasado cuando una versión actualizada de AlphaFold ganó con claridad un ejercicio de predicción proteínica, la Evaluación Crítica de la Predicción de Estructuras de Proteínas, o CASP. En esta competición, que viene de lejos y ha sido un predio académico, los investigadores predicen las estructuras de proteína que ya se han identificado empíricamente pero sin que se haya hecho público.

Algunas de las predicciones de AlphaFold quedaron a la par con modelos experimentales muy buenos; algunos científicos dijeron que la influencia de esa red iba a hacer época. Hace unos días, DeepMind publicó el código fuente de la última versión de AlphaFold y una descripción detallada de cómo se desarrolló (hay equipos del mundo académico que ya están usando estos recursos para hacer predicciones útiles). Mientras preparaba la publicación del programa de AlphaFold, DeepMind lo refinó para que se ejecutase de modo más eficiente. Aunque algunas de las predicciones de CASP le llevaron días, la versión actualizada de AlphaFold puede ahora calcularlas en un plazo de entre minutos y horas.

Con esta eficacia adicional, el equipo de DeepMind quiere predecir las estructuras de casi todas las proteínas conocidas que el genoma humano codifica, y las de esos otros veinte organismos modelo. Las estructuras están disponibles en una base de datos de la que se encarga EMBL-EBI (el Laboratorio de Biología Molecular Europeo del Instituto Bioinformático Europeo, en Hixton, Reino Unido.
Además de las estructuras predichas, que abarcan el 98,5 por ciento de las proteínas humanas conocidas, y un procentaje parecido para otros organismos. AlphaFold generó una medida de la fiabilidad de sus predicciones. «Queremos darles a los experimentalistas y biólogos una señal realmente clara para que sepan de qué partes de las predicciones deben fiarse», dice Kathryn Tunyasuvunakool, ingeniera científica de DeepMind y primera autora del artículo de Nature en el que se describen las predicciones del proteoma humano. Para este, el 58 por ciento de las predicciones de AlphaFold de las localizaciones de amionácidos individuales eran lo suficientemente buenas como para tener confianza en la forma correspondiente de los plegamientos de las proteínas, afirma Tunyasuvunakool. Un subconjunto de esas predicciones, el 36 por ciento del total, eran en potencia tan precisas como para ofrecer el detalle de conformaciones atómicas útiles para el diseño de fármacos, el sitio activo de una enzima, por ejemplo.
Incluso predicciones menos precisas podrían aportar conocimiento. Los biólogos creen que en buena parte de las proteínas humanas y de las de otros eucariotas (los organismos cuyas células tienen núcleo) hay regiones que son intrínsecamente desordenadas y solo adquieren una estructura definida en concierto con otras moléculas. «Muchas proteínas, simplemente, tiemblan en solución, no tienen una estructura fija», explica el investigador jefe del equipo de AlphaFold, John Jumper. Algunas de las regiones que AlphaFold predijo con poca confianza coinciden con las que los biólogos sospechan que son desordenadas, dice Pushmeet Kohli, que dirige los proyectos de inteligencia artificial orientados a la ciencia de DeepMind.

Deteminar cómo interaccionan las proteínas individuales con otros agentes celulares es una de las grandes dificultades con que tropiezan las predicciones de AlphaFold, dicen los investigadores. En el caso de la competición CASP: muchas de sus predicciones se referían a las unidades que se pliegan individualmente de una proteína, los dominios. Pero el proteoma humano y el de otros organismos contiene proteínas con múltiples dominios que se pliegan semiindependientemente. Las células humanas tienen además moléculas compuestas por múltiples cadenas de proteínas interactivas, como los receptores de las membranas celulares.

Diluvio de datos

Las aproximadamente 365.000 predicciones estructurales hechas públicas esta semana deberían expandirse hasta 130 millones, casi la mitad de las proteínas conocidas, para finales de año, según dice Sameer Velankar, bioinformático estructural del EMBL-EBI. La base de datos se actualizará a medida que se identifiquen nuevas proteínas y mejoren las predicciones. «No es un recurso del que se esperase disponer», dice Tunyasuvunakool, que está ansiosa por ver qué encuentran los científicos con él.

Ya hay investigadores que se valen de AlphaFold e instrumentos parecidos para darles sentido a los datos experimentales obtenidos mediante la cristalografía de rayos X y la microscopía crioelectrónica. Marcelo Sousa, bioquímico de la Universidad de Colorado Boulder, utilizó AlphaFold para hacer modelos a partir de los datos de rayos X de proteínas que les sirven a las bacterias para escapar de un antibiótico llamado colistina. Las partes del modelo experimental que difieren de la predicción de AlphaFold son de ordinario regiones que el programa había asignado con confianza baja, señala Sousa, signo de que AlphaFold predice con acierto sus límites.

No obstante, los biólogos querrán seguir contrastando esas predicciones con los datos experimentales para tener más control sobre su fiabilidad, dice Venki Ramakrishnan, biólogo estructural del Laboratorio MRC de Biología Molecular de Cambridge, Reino Unido. «Tenemos que poder fiarnos de esos datos», añade Orengo.

A Jones le impresiona lo que ha conseguido la red. Pero dice que muchos de los modelos predichos por AlphaFold podrían haberse generado con programas anteriores, elaborados en el mundo académico. «Para la mayoría de esas proteínas, estos resultados son seguramente lo bastante buenos para muchas de las cosas que queremos hacer». Unos científicos totalmente empeñados en conseguir la estructura de una proteína cualquiera seguramente lo conseguirán con métodos experimentales.

Pero disponer de tantas estructuras de proteínas marcará probablemente «un cambio de paradigma» en biología, según Mohammed AlQuraishi, biólogo computacional de la Universidad de Columbia en Nueva York, que trabaja en la predicción de la estructura de proteínas. En su campo se ha gastado tanto tiempo y energía en predecir de forma precisa estructuras de proteínas a esta escala que todavía no se sabe qué hacer con tantos recursos. «Todo lo que hacemos hoy que depende de la secuencia de una proteína, podremos hacerlo ahora con la estructura de la proteína».

Orengo tiene la esperanza de que la base de datos le servirá para conocer mejor las constricciones estructurales de las proteínas. Orengo ha puesto en correspondencia una base de datos de proteínas conocidas con unas 5000 «familias estructurales», pero alrededor de la mitad de las proteínas de esa base de datos están excluidas porque no hay nada parecido a ellas a lo que se le haya determinado una estructura. Las predicciones de AlphaFold podrían valer para descubrir nuevas formas, dice. «Vamos a ver cómo es de verdad el espacio de los plegamientos».

Jones espera que AlphaFold conducirá a muchas cavilaciones entre los biólogos relativas a qué hacer con tantas estructuras. Sobre eso, y sobre la facilidad de crear muchas más. «Habrá congresos. Ahora que tenemos 130 millones de modelos, ¿cómo cambia ello nuestra forma de ver la biología? Quizá no la cambie», dice. «Mi impresión es que sí lo hara».

Ewen Callaway / Nature News

Artículo traducido y adaptado por Investigación y Ciencia con permiso de Nature Research Group.

Referencia: «Highly accurate protein structure prediction with AlphaFold», de John Jumper et al., prepublicado en Nature (2021); «Highly accurate protein structure prediction for the human proteome», de Kathryn Tunyasuvunakool et al., prepublicado en Nature (2021).