Información

¿Por qué se conocen algunas secuencias de proteínas pero no su estructura 3D?

¿Por qué se conocen algunas secuencias de proteínas pero no su estructura 3D?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

¿Por qué hay algunas proteínas que tienen una secuencia de aminoácidos conocida, pero se desconoce su estructura tridimensional? ¿Encontrar el primero en un laboratorio no conduciría al descubrimiento del segundo? Por favor corríjame si he entendido mal algo.


La secuenciación de proteínas es un problema muy limitado: tienes una secuencia unidimensional de miembros de aminoácidos, que provienen de un conjunto limitado de opciones (que se complican un poco más con las modificaciones postraduccionales, pero no mucho más). Debido a que es unidimensional, es un problema que puede resolver fácilmente cortando una proteína en pequeños trozos, usando las diferencias de masa entre los aminoácidos para comprender sus constituyentes y determinando el orden a partir de esa distribución. Si se conoce una secuencia de ADN (o ARNm), se vuelve aún más fácil: puede omitir el proceso de secuenciación de proteínas y obtener la secuencia de aminoácidos directamente de la secuencia de ácidos nucleicos y el código genético.

En comparación, el plegamiento de proteínas es una auténtica pesadilla que resolver. Los enlaces químicos entre los aminoácidos no son rígidos, pueden doblarse y retorcerse en todas las direcciones. La conformación de esos enlaces también depende no solo de los aminoácidos adyacentes (como en un problema 1-D) sino potencialmente de cualquier otro aminoácido en la secuencia (sin mencionar las influencias externas…).

En una molécula grande como una proteína hay un enorme problema de grados de libertad. De Wikipedia, describiendo la paradoja de Levinthal, la mía en negrita:

En 1969, Cyrus Levinthal señaló que, debido al gran número de grados de libertad en una cadena polipeptídica desplegada, la molécula tiene un número astronómico de posibles conformaciones. Una estimación de 3300 o 10143 se hizo en uno de sus artículos [1] (a menudo citado incorrectamente como el artículo de 1968 [2]). Por ejemplo, un polipéptido de 100 residuos tendrá 99 enlaces peptídicos y, por tanto, 198 ángulos de enlace phi y psi diferentes. Si cada uno de estos ángulos de enlace puede estar en una de tres conformaciones estables, la proteína puede doblarse mal en un máximo de 3198 diferentes conformaciones (incluida cualquier posible redundancia de plegado). Por lo tanto, Si una proteína alcanzara su configuración correctamente plegada muestreando secuencialmente todas las conformaciones posibles, necesitaría un tiempo mayor que la edad del universo para llegar a su conformación nativa correcta.

Ahora, por supuesto, ese no es el proceso real que usan las proteínas para plegarse (no iteran a través de todas las combinaciones posibles, se asientan a través de un paisaje energético donde solo se realizan ciertas conformaciones intermedias), y podemos usar eso en modelos computacionales para resolver estructuras de proteínas más rápidamente que la edad del universo, pero todavía es un proceso bastante lento. Proyectos como Folding @ home han tenido como objetivo distribuir la carga computacional entre la potencia de procesamiento no utilizada en dispositivos de todo el mundo, incluidas las consolas de juegos inactivas y las computadoras personales, pero hay muchas estructuras de proteínas por resolver.

Es posible obtener una imagen general de la forma de la proteína utilizando técnicas de imagen como la cristalografía de rayos X o la crio-EM, y para algunos propósitos, estas técnicas brindan mucha información, pero estas técnicas tampoco son simples y pueden ser propensas a errores. .


Contestar por qué las secuencias se conocen antes que las estructuras, cabe destacar el típico "flujo de trabajo" de un investigador bioquímico. Brevemente, la secuencia siempre está antes de la estructura porque necesita la secuencia para determinar la estructura. Como con todo lo demás que a uno le gustaría investigar, debe comenzar con la información que ya tiene. En las ciencias modernas, estos suelen ser los siguientes para la investigación de proteínas:

Flujo de trabajo:

1. Aísle algunas bacterias u hongos de p. Ej. el océano o en cualquier otro lugar, y secuenciar todo su genoma (ADN). Esto es muy realista de hacer, y ya no es tan caro.

2. Una vez que tenga la secuencia del genoma, hay mucho trabajo bioinformático por hacer para anotar la secuencia. Esto significa, identificar regiones de codificación para p. Ej. para proteínas. Hay programas que son muy buenos en esto, porque ya tenemos mucha información sobre lo que está codificado en los organismos vivos (basado en datos experimentales y años de investigación).

3. Los programas de anotación de ADN pueden asignar miles de proteínas en un genoma. Estas secuencias de proteínas luego se cargan en bases de datos relevantes, para que otras personas puedan verlas y trabajar con ellas. Tenga en cuenta que estas secuencias de proteínas NO están validadas experimentalmente. Sin embargo, se supone que son correctos con cierta validez estadística (lo que suele ser correcto hoy en día debido a la abrumadora cantidad de conocimiento recopilado y software sofisticado).

4. Los científicos (es decir, bioquímicos y otros) pueden trabajar con estas secuencias de proteínas para averiguar si realmente son lo que asumen los programas. Esto implica el cuello de botella de haber sido capaz de producir y purificar la proteína de interés (lo que puede ser muy difícil).

5. Después de asegurarse experimentalmente de que la proteína realmente tiene la función que le interesa (haciendo experimentos) y de poder producirla y purificarla, normalmente se querrá determinar su estructura. Esto se debe a que la estructura tridimensional de una proteína puede explicar cómo y por qué funciona como lo hace. Sin embargo, esto es difícil de hacer, experimentalmente (como se describe en la respuesta de la otra publicación).

¿Puedes confiar en los modelos de homología?

Como científico que trabaja con la estructura y función de las proteínas, también señalaría que (en mi opinión) no se puede confiar completamente en las estructuras resueltas de forma puramente computacional (es decir, modelos de homología). Estos modelos de homología estimados se basan simplemente en estructuras reales que se validan experimentalmente (por ejemplo, cristalográficos). Aunque los modelos de homología son muy útiles cuando no tienes una mejor estructura, nunca puedes estar completamente seguro de que son correctos (ya que son simplemente modelos asumidos de modelos estructurales; es decir, modelos de un modelo).

El sitio activo de las enzimas es de gran interés para comprender cómo las enzimas catalizan su reacción. Es de vital importancia saber cómo los residuos catalíticos están colocados / dispuestos estructuralmente en el sitio activo para comprender e incluso modificar su comportamiento catalítico. Incluso si tiene un modelo de homología correcto en un 98%, el error del 2% podría ser la ubicación estructural de residuos catalíticamente importantes. Tampoco puede saber con certeza cuál es el error. Por lo tanto, se debe tener mucho cuidado de poner mucho razonamiento en un modelo de homología. En resumen, si no tiene una estructura validada experimentalmente (que es difícil de obtener), nunca podrá estar completamente seguro de lo que está sucediendo (o al menos, estaría trabajando en la oscuridad, buscando efectos).

Estructuras validadas experimentalmente:

También me gustaría agregar que las estructuras cristalinas de rayos X son, a partir de hoy, el estándar de oro cuando se trata de información sobre la estructura de las proteínas (aunque cryoEM se está poniendo al día (!), Y la estructura de RMN proporciona mucha información sobre la dinámica). Debería consultar la base de datos de PDB. Si tiene una estructura de alta resolución, p. Ej. 1.1A se está acercando a la resolución atómica e incluso puede ver los anillos en las cadenas laterales de los aminoácidos aromáticos (¡lo cual es genial!).

Para responder brevemente a su pregunta:

La secuencia siempre está antes de la estructura, ya que no se puede determinar experimentalmente la estructura sin la secuencia (también se requiere para modelar computacionalmente la estructura). Las secuencias de proteínas simplemente se asignan con programas complejos, a partir de las secuencias de ADN. Una vez que tenga la secuencia, debe validar experimentalmente que las secuencias de proteínas asignadas son correctas. Solo después de todo este trabajo puedes empezar a determinar su estructura tridimensional ... a través de mucho trabajo duro.


Los modelos 3D revelan por qué algunos animales no contraen el coronavirus

Esta tecnología podría ayudar a prevenir futuros brotes de coronavirus.

Al principio de la pandemia, quedó claro que Covid-19 había dado el salto de los animales a los humanos.

Se desconoce la cadena de transmisión exacta, pero la ciencia hasta ahora sugiere que los murciélagos desempeñaron un papel protagonista. Después de que un tigre contrajo el virus, los científicos comenzaron a preguntarse: ¿Qué otro los animales pueden contraer Covid-19?

Un nuevo estudio publicado el jueves en PLOS Biología Computacional ofrece pistas moleculares sobre cuáles de los animales con los que estamos en contacto más cercano son más susceptibles al coronavirus. Y, quizás, lo que es más importante, el estudio muestra qué animales son menos susceptibles a la infección.

Los pangolines, a los que en el pasado se les culpó de propagar el Covid-19 a los humanos, son los que obtienen los puntajes más altos en la lista de susceptibles. Los ratones son los menos susceptibles. Los gatos se encuentran en algún punto intermedio y, a pesar de los informes de perros con Covid-19, los resultados del estudio no fueron concluyentes cuando se trata del mejor amigo del hombre.

La clave, sugiere este estudio, puede estar en una sola molécula transportada por algunos animales y no por otros.

Poder proteico - La infección por Covid-19 ocurre cuando la proteína de pico del SARS-CoV-2 se une a receptores específicos en las células, lo que permite que el virus ingrese a las células animales (y humanas) y comience a replicarse.

El receptor en cuestión se conoce como proteína receptora ACE2 y se encuentra en la superficie de la célula. Es esta proteína la que forma la base del nuevo estudio. Los investigadores utilizaron una forma única de modelado por computadora para generar modelos de proteínas en 3D.

"Nuestra hipótesis era que debe haber similitudes en la secuencia de aminoácidos del receptor ACE2 de especies susceptibles y eso es exactamente lo que encontramos", dice João Rodrigues, autor principal del estudio e investigador postdoctoral en biología estructural en la Universidad de Stanford. Inverso.

Los modelos 3D permitieron a los investigadores probar cómo la proteína de pico del virus interactúa con las proteínas receptoras de las células de 28 animales diferentes tan diversos como cobayas y patos.

Para ver si las proteínas de las células del animal interactuaban con la proteína de pico del virus, los investigadores utilizaron una medida científica conocida como puntuación HADDOCK, llamada así por el brusco Capitán Archibald Haddock de la Tintín historietas.

Esta figura del estudio muestra cómo se compara la puntuación HADDOCK de cada animal:

"La puntuación HADDOCK es un indicador de qué tan bien encajan dos proteínas, como una llave en una cerradura", dice Rodrigues.

Algunas proteínas encajan mejor que otras, al igual que la zapatilla de Cenicienta, si las proteínas no se juntan, el virus no puede ingresar a la célula. Como resultado, la puntuación HADDOCK puede revelar la probabilidad de que un animal determinado se infecte. Sorprendentemente, dada su reputación como portadoras de la peste, las puntuaciones de las ratas sugieren que es menos probable que contraigan el coronavirus que los humanos, los gatos o incluso las vacas.

"Los buenos ajustes tendrán puntuaciones más bajas. En nuestro estudio, las especies no susceptibles han más alto puntuaciones que las especies susceptibles ", dice Rodrigues.

Cuanto mayor sea la puntuación HADDOCK, menos susceptible es la especie al coronavirus. Pero para comprender completamente las implicaciones de la puntuación de cada animal, debe sopesarse en relación con la de otros animales; por ejemplo, un ratón puntúa -93,2 en el modelo, lo que puede no parecer muy bueno, pero es considerablemente más alto que la puntuación de los humanos. -116,2.

"Esta diferencia en la puntuación se debe a que el ratón ACE2 tiene ciertas mutaciones en comparación con la variante humana que predecimos que hacen que se una menos bien a la proteína de pico viral", dice Rodrigues.

La mayoría de las especies no susceptibles en su modelo también tienen esta misma mutación que inhibe la unión a proteínas, explica Rodrigues. La mutación es la clave para comprender por qué algunos animales son susceptibles al coronavirus, mientras que otros no.

Coronavirus futuros - Los investigadores esperan que la tecnología de modelado de proteínas que utilizan en este estudio pueda ayudar a prevenir futuros brotes de nuevos coronavirus en humanos.

"Armados con este conocimiento, deberíamos ser capaces de construir modelos que predigan (énfasis en predecir) qué especies son susceptibles a este y otros coronavirus y que podrían ser reservorios animales potenciales", dice Rodrigues.

Esencialmente, si comprende qué animales son capaces de infectarse con coronavirus, potencialmente puede detener la cadena de transmisión a los humanos.

"Nuestro protocolo es fácilmente aplicable a otros coronavirus, siempre que conozcamos las estructuras de la proteína del pico viral y del receptor al que se une", dice Rodrigues.

Limitaciones - Los investigadores son francos sobre dos limitaciones clave de su estudio. La investigación utiliza modelos de proteínas en 3D y no analiza los casos de Covid-19 en tiempo real.

"Primero, aunque nuestros modelos concuerdan con los datos experimentales, en su mayor parte, siempre existe un grado de incertidumbre debido a la naturaleza computacional de nuestro trabajo", dice Rodrigues.

"Esto significa que podemos hacer conjeturas fundamentadas sobre cómo el pico del virus se une a los receptores ACE2 de los anfitriones y sobre qué aminoácidos del receptor juegan un papel importante en este proceso", dice Rodrigues.

"Sin embargo, no significa que nuestros resultados puedan usarse para decir, promulgar políticas que afecten la salud animal o que el público en general debería considerar nuestros resultados como una 'regla' para el riesgo de Covid para las mascotas", agrega.

Y aunque la unión de la proteína de pico al receptor ACE2 es importante, es "sólo un paso temprano de todo el proceso de infección viral", dice Rodrigues.

"Entonces, incluso si nuestros modelos predicen correctamente una fuerte unión de la proteína de pico a ACE2, existe la posibilidad de que otros pasos posteriores fallen y, por lo tanto, no haya una infección productiva", dice.

Tiempo de terapia - Los desarrollos recientes en inteligencia artificial han ayudado a superar lo que se conoce como el "problema de plegamiento de proteínas", que ocurre cuando los investigadores no están seguros de las formas que forman las proteínas plegadas.

AlphaFold, la tecnología de inteligencia artificial de DeepMind, permite a los científicos predecir la estructura de las proteínas utilizando sus modelos. Abre un nuevo camino para la investigación biológica.

El momento también es bueno, ya que el equipo de Rodrigues espera que otros científicos utilicen sus hallazgos para crear medicamentos terapéuticos para abordar los efectos dañinos del coronavirus en el cuerpo humano.

"Desde que hicimos nuestros protocolos completamente de código abierto, los investigadores interesados ​​pueden aprovechar nuestros resultados y refinarlos a su gusto, por ejemplo, para probar qué variantes de ACE2 humana unirían mejor la proteína de pico", dice Rodrigues.

La terapia propuesta funciona a través de mutaciones que "mejoran la unión" de ACE2 a la proteína de pico, según el modelo de Rodrigues.

"Una forma de terapia que se está desarrollando es crear versiones artificiales de ACE2 humano que tienen estas y otras mutaciones y usarlas como 'trampas' para el virus", dice Rodrigues.

Al engañar al virus para que se una a las trampas en lugar de a nuestros propios receptores ACE2, le permitiría al cuerpo "ganar tiempo para que nuestro sistema inmunológico monte un contraataque", dice Rodrigues.


No, DeepMind no ha resuelto el plegamiento de proteínas

Esta semana DeepMind ha anunciado que, utilizando inteligencia artificial (IA), ha resuelto el problema de 50 años de "plegamiento de proteínas". El anuncio se realizó cuando se publicaron los resultados del 14º y último concurso sobre la Evaluación crítica de técnicas para la predicción de la estructura de proteínas (CASP14). La competencia enfrenta a equipos de científicos computacionales entre sí para ver cuál es el mejor método para predecir las estructuras de las moléculas de proteínas, y la solución de DeepMind, "AlphaFold 2", surgió como el claro ganador.

No crea todo lo que lee en los medios

Siguieron muchos informes sin aliento en los medios de comunicación de que la IA ahora se puede usar para predecir con precisión las estructuras de las proteínas, la maquinaria molecular de todos los seres vivos. Anteriormente, el laborioso trabajo experimental de resolver estructuras de proteínas era el dominio de cristalógrafos de proteínas, espectroscopistas de RMN y microscopistas crioelectrónicos, que trabajaron durante meses y, a veces, años para elaborar cada nueva estructura.

¿Debería el experimentalista ahora abandonar el laboratorio y dejar el campo a Deep Mind?

No, no deberían, por varias razones.

En primer lugar, no hay duda de que DeepMind ha dado un gran paso adelante. De todos los equipos que compiten entre sí, están tan por delante del resto que los demás modeladores computacionales pueden estar pensando en darse por vencidos. Pero todavía no estamos en el punto en el que podamos decir que el plegamiento de proteínas está "resuelto". Por un lado, solo dos tercios de las soluciones de DeepMind eran comparables a la estructura de la proteína determinada experimentalmente. Esto es impresionante, pero debe tener en cuenta que no sabían exactamente qué dos tercios de sus predicciones estaban más cerca de ser correctas hasta que se realizó la comparación con las soluciones experimentales. * ¿Compraría un navegador con solo un 67% de precisión?

Por eso se requiere una dosis de realismo. También es difícil ver en este momento, a pesar del impresionante desempeño de DeepMind & # 8217, que esto transformará inmediatamente la biología.

Impresionantes predicciones & # 8211 pero ¿cómo sabes que & # 8217 son correctas?

Alphafold 2 sin duda ayudará a avance biología. Por ejemplo, como ya se informó, puede generar predicciones de estructura plegada que luego se pueden utilizar para resolver estructuras experimentales mediante cristalografía (y probablemente otras técnicas). Así que esto ayudará a que la ciencia de la determinación de estructuras vaya un poco más rápido en algunos casos.

Sin embargo, a pesar de algunas de las afirmaciones que se han hecho, no estamos en el punto en el que esta herramienta de inteligencia artificial pueda utilizarse para el descubrimiento de fármacos. Para las predicciones de estructura de DeepMind & # 8217s (111 en total), el promedio o la diferencia cuadrática media (RMSD) en las posiciones atómicas entre la predicción y la estructura real es 1.6 Å (0.16 nm). Eso es aproximadamente del tamaño de un enlace.

Eso suena bastante bien, pero no está claro en el anuncio de DeepMind cómo se calcula ese número. Eso podría calcularse únicamente comparando las posiciones de los átomos de carbono alfa en la estructura de la proteína, una forma razonable de estimar la precisión del pliegue total de la proteína. O podría calcularse sobre todas las posiciones atómicas, una prueba mucho más rigurosa. Si es lo último, entonces un RMSD de 1.6 Å es un resultado aún más impresionante.

Pero todavía no es lo suficientemente bueno como para brindar información confiable sobre la química de las proteínas o el diseño de fármacos. Para hacer eso, queremos tener confianza en las posiciones atómicas dentro de un margen de alrededor de 0,3 Å. La mejor predicción de AlphaFold 2 & # 8217 tiene un RMSD para todos los átomos de 0,9 Å. Muchas de las predicciones que contribuyen a su promedio de 1,6 Å tendrán desviaciones en las posiciones atómicas incluso mayores que eso. Entonces, a pesar de las afirmaciones, aún no estamos listos para usar Alphafold 2 para crear nuevos medicamentos.

Hay otras razones para no creer que el problema del plegamiento de proteínas esté "resuelto" # 8217. Los métodos de IA se basan en aprender las reglas del plegamiento de proteínas a partir de estructuras proteicas existentes.Esto significa que puede resultar más difícil predecir las estructuras de proteínas con pliegues que no están bien representados en la base de datos de estructuras resueltas.

Además, como se informó en Nature, el método aún no puede abordar de manera confiable las predicciones de proteínas que son componentes de complejos de múltiples proteínas. Estas se encuentran entre las entidades biológicas más interesantes de los seres vivos (por ejemplo, ribosomas, canales iónicos, polimerasas). Así que queda un territorio bastante grande donde AlphaFold 2 no puede llevarnos. Los experimentadores, que han logrado delinear las estructuras de complejos de creciente complejidad, aún tienen mucho trabajo valioso por hacer.

Si bien se supone que todo lo anterior debe sonar una nota de precaución para contrarrestar algunas de las afirmaciones más hiperbólicas que se han escuchado en los medios de comunicación en los últimos días, todavía quiero enfatizar mi admiración por los logros del equipo AlphaFold. Claramente, han logrado un avance muy significativo.

Ese avance será mucho más claro una vez que se publique su artículo revisado por pares (no debemos juzgar la ciencia por comunicados de prensa), y una vez que la herramienta esté abiertamente disponible para la comunidad académica, o incluso para cualquier persona que quiera estudiar la estructura de las proteínas.

Actualización (02 de diciembre, 18:43): Esta publicación se actualizó para proporcionar una explicación más clara de las medidas de RMSD utilizadas para comparar estructuras de proteínas predichas y determinadas experimentalmente. Estoy muy agradecido con el profesor Leonid Sazanov, quien señaló algunas correcciones y adiciones necesarias en Twitter.

* Actualización (12 de diciembre, 15:35): Estrictamente esto es cierto, pero pasa por alto el punto más importante de que la puntuación otorgada a cada predicción de estructura (GDT_TS) se correlaciona ampliamente con la cercanía de su coincidencia con la estructura experimental. Como resultado, he eliminado mi crack de SatNav.

Para una evaluación profundamente informada y muy mesurada de lo que DeepMind realmente ha logrado en CASP14, lea esta publicación de blog del Prof. Mohammed AlQuraishi, quien conoce este territorio mucho mejor que yo. Su publicación es bastante larga, pero puede omitir los bits técnicos que explican cómo funciona AlphaFold 2. Da una muy buena explicación de la naturaleza del avance de DeepMind en el punto de vista de AlQuraishi, AlphaFold 2 representa una solución al problema de predicción de la estructura de la proteína, aunque tiene cuidado de definir lo que quiere decir con una solución. También reconoce que aún quedan algunas mejoras significativas por hacer en el programa, pero las considera más un desafío de ingeniería que científico. Está de acuerdo en que AlphaFold 2 no se utilizará pronto para trabajos de diseño de fármacos. AlQuraishi también ofrece una excelente descripción general de las implicaciones de este trabajo para las carpetas de proteínas, los biólogos estructurales y los biotecnólogos en general, y ofrece algunas ideas muy interesantes sobre las diferencias entre el enfoque de investigación de DeepMind & # 8217 y el de los grupos académicos más tradicionales.


¿Por qué AlphaFold2 se considera "revolucionario"?

Un equipo de investigación de DeepMind se unió a CASP13 (la decimotercera competencia) en 2018 con AlphaFold, un programa basado en una "red neuronal profunda". La profundidad de la red neuronal se refiere a la cantidad de parámetros en el modelo, que fue de aproximadamente 21 millones, y el modelo fue entrenado en base a una gran cantidad de secuencia e información estructural para 29,000 proteínas conocidas. Aunque AlphaFold ganó CASP13, su GDS-TS para los objetivos más difíciles fue de solo 58.9, lo cual fue impresionante pero no mucho mejor que las puntuaciones de los equipos subcampeones, que estaban alrededor de 52.

En 2020, DeepMind dio el salto en CASP14 con AlphaFold2, que logró una mediana de GDS-TS de 92,4. ¡Esto significa que la predicción tenía más del 92% de los aminoácidos en la proteína en la conformación correcta! Esta es la primera vez que un modelo de computadora en la competencia alcanza un nivel de precisión comparable al de técnicas experimentales como la cristalografía de rayos X.

Ejemplos para la comparación entre experimental y computacional. Izquierda: una puntuación GDT bastante buena (0,64) muestra que los resultados experimentales y del modelo (violeta frente a verde) coinciden bastante estrechamente. Por el contrario, el ejemplo de la derecha con una puntuación de GDT mala (0,23) muestra cómo el modelo y las formas experimentales (rojo frente a verde) son muy diferentes. AlphaFold2 tuvo un puntaje GDT superior a 0.9, y puede ver imágenes de los modelos en el blog de DeepMind & # 8217s. (esta imagen modificada de Hou et al. (2019) 3 cortesía de acceso abierto)

Incluso para un conjunto de objetivos clasificados como los más difíciles, el puntaje medio de AlphaFold2 fue 87. En comparación con el mejor puntaje que rondaba los 40 hace tan solo 4-5 años, este fue realmente un progreso tremendo, y no es de extrañar que haya provocado mucho entusiasmo en la prensa. Si bien DeepMind aún no ha publicado oficialmente los detalles algorítmicos de AlphaFold2, incluso los expertos en el campo creen que se tomaron pasos revolucionarios para hacer posible una mejora tan impresionante en la predicción. Mucha gente, incluido yo mismo, aguarda con impaciencia la publicación oficial de DeepMind, ya que es probable que sus desarrollos puedan encontrar aplicaciones en otros problemas basados ​​en la IA relacionados con las proteínas.


Revertir la desnaturalización

A menudo es posible invertir la desnaturalización porque la estructura primaria del polipéptido, los enlaces covalentes que mantienen los aminoácidos en su secuencia correcta, está intacta. Una vez que se elimina el agente desnaturalizante, las interacciones originales entre los aminoácidos devuelven la proteína a su conformación original y puede reanudar su función. Sin embargo, la desnaturalización puede ser irreversible en situaciones extremas, como freír un huevo. El calor de una sartén desnaturaliza la proteína de albúmina en la clara de huevo líquida y se vuelve insoluble. La proteína de la carne también se desnaturaliza y se vuelve firme cuando se cocina.

Figura ( PageIndex <1> ): La desnaturalización de una proteína es ocasionalmente irreversible.: (Arriba) La proteína albúmina en la clara de huevo cruda y cocida. (Abajo) Una analogía con un clip visualiza el proceso: cuando los clips entrecruzados (& lsquoaminoácidos & rsquo) ya no se mueven libremente, su estructura se reorganiza y & lsquodenatured & rsquo.

Las proteínas acompañantes (o chaperoninas) son proteínas auxiliares que proporcionan condiciones favorables para que tenga lugar el plegamiento de proteínas. Las chaperoninas se agrupan alrededor de la proteína formadora y evitan que se agreguen otras cadenas polipeptídicas. Una vez que la proteína objetivo se pliega, las chaperoninas se disocian.


AlphaFold 2 explicado: una inmersión semi-profunda

A fines del mes pasado, DeepMind, la rama de investigación de aprendizaje automático de Google conocida por crear bots que vencieron a los campeones mundiales en Go y StarCraft II, alcanzó un nuevo punto de referencia: predecir con precisión la estructura de las proteínas. Si sus resultados son tan buenos como afirma el equipo, su modelo, AlphaFold, podría ser de gran ayuda tanto para el descubrimiento de fármacos como para la investigación biológica fundamental. Pero, ¿cómo funciona este nuevo modelo basado en redes neuronales? En esta publicación, intentaré brindarte una breve pero semi profunda inmersión detrás del aprendizaje automático y la biología que impulsan este modelo.

Primero, una introducción rápida a la biología: las funciones de las proteínas en el cuerpo están completamente definidas por sus estructuras tridimensionales. Por ejemplo, son las notorias "proteínas de pico" las que se encargan de detectar el coronavirus y permiten que el virus entre en nuestras células. Mientras tanto, las vacunas de ARNm como Moderna y Pfizer replican la forma de esas proteínas de pico, lo que hace que el cuerpo produzca una respuesta inmune. Pero históricamente, la determinación de las estructuras de las proteínas (mediante técnicas experimentales como la cristalografía de rayos X, la resonancia magnética nuclear y la microscopía crioelectrónica) ha sido difícil, lenta y costosa. Además, para algunos tipos de proteínas, estas técnicas no funcionan en absoluto.

Sin embargo, en teoría, la totalidad de la forma 3D de una proteína debería estar determinada por la cadena de aminoácidos que la componen. Y podemos determinar las secuencias de aminoácidos de una proteína fácilmente, a través de la secuenciación del ADN (¿recuerdas de Bio 101 cómo tu ADN codifica las secuencias de aminoácidos?). Pero en la práctica, predecir la estructura de las proteínas a partir de las secuencias de aminoácidos ha sido una tarea tremendamente difícil que hemos estado tratando de resolver durante décadas.

Aquí es donde entra AlphaFold. Es un algoritmo basado en redes neuronales que ha funcionado sorprendentemente bien en el problema del plegamiento de proteínas, tanto que parece rivalizar en calidad con los métodos tradicionales de imágenes lentos y costosos.

Lamentablemente para los nerds como yo, no podemos saber exactamente qué funciona AlphaFold porque el artículo oficial aún no se ha publicado ni revisado por pares. Hasta entonces, todo lo que tenemos que hacer es la publicación del blog de la empresa. Pero dado que AlphaFold (2) es en realidad una iteración de un modelo un poco más antiguo (AlphaFold 1) publicado el año pasado, podemos hacer algunas conjeturas bastante buenas. En esta publicación, me centraré en dos piezas centrales: la arquitectura neuronal subyacente de AlphaFold 2 y cómo se las arregló para hacer un uso efectivo de los datos sin etiquetar.

Primero, este nuevo avance no es tan diferente de un avance de IA similar sobre el que escribí hace unos meses, GPT-3. GPT-3 era un modelo de lenguaje de gran tamaño creado por OpenAI que podía escribir poemas, sonetos, bromas e incluso muestras de código impresionantemente parecidos a los humanos. Lo que hizo que GPT-3 fuera tan poderoso fue que se entrenó en un conjunto de datos muy, muy grande y se basó en un tipo de red neuronal llamada "Transformador".

Los transformadores, inventados en 2017, realmente parecen ser el martillo mágico del aprendizaje automático que resuelve problemas abiertos en todos los dominios. En una clase de introducción al aprendizaje automático, a menudo aprenderá a usar diferentes arquitecturas de modelos para diferentes tipos de datos: las redes neuronales convolucionales sirven para analizar imágenes, las redes neuronales recurrentes sirven para analizar texto. Los transformadores se inventaron originalmente para realizar traducciones automáticas, pero parecen ser efectivos de manera mucho más amplia, capaces de comprender texto, imágenes y, ahora, proteínas. Entonces, una de las principales diferencias entre AlphaFold 1 y AlphaFold 2 es que el primero usaba redes neuronales concurrentes (CNN) y la nueva versión usa Transformers.

Ahora hablemos de los datos que se utilizaron para entrenar AlphaFold. Según la publicación del blog, el modelo se entrenó en un conjunto de datos públicos de 170.000 proteínas con estructuras conocidas y una base de datos mucho más grande de secuencias de proteínas con estructuras desconocidas. El conjunto de datos públicos de proteínas conocidas sirve como conjunto de datos de entrenamiento etiquetado del modelo, una verdad fundamental. El tamaño es relativo, pero según mi experiencia, 170.000 ejemplos "etiquetados" es un conjunto de datos de entrenamiento bastante pequeño para un problema tan complejo. Eso me dice que los autores deben haber hecho un buen trabajo al aprovechar ese conjunto de datos "sin etiquetar" de proteínas con estructuras desconocidas.

Pero, ¿de qué sirve un conjunto de datos de secuencias de proteínas con formas misteriosas? Resulta que descubrir cómo aprender a partir de datos sin etiquetar ("aprendizaje no supervisado") ha permitido muchos avances recientes en IA. GPT-3, por ejemplo, se entrenó en un enorme corpus de datos de texto sin etiquetar extraídos de la web. Dada una porción de una oración, tenía que predecir qué palabras venían a continuación, una tarea conocida como "predicción de la siguiente palabra", que lo obligaba a aprender algo sobre la estructura subyacente del lenguaje. La técnica también se ha adoptado para las imágenes: corte una imagen por la mitad y pida a un modelo que prediga cómo debería verse la parte inferior de la imagen solo desde la parte superior:

La idea es que, si no tiene suficientes datos para entrenar un modelo para que haga lo que quiere, entrenelo para hacer algo similar en una tarea para la que sí tiene suficientes datos, una tarea que lo obliga a aprender algo sobre el estructura subyacente del lenguaje, o imágenes o proteínas. Luego, puede ajustarlo para la tarea que realmente deseaba que hiciera.

Una forma extremadamente popular de hacer esto es mediante incrustaciones. Las incrustaciones son una forma de asignar datos a vectores cuya posición en el espacio captura el significado. Un ejemplo famoso es Word2Vec: es una herramienta para tomar una palabra (es decir, "martillo") y mapearla en un espacio n-dimensional para que palabras similares ("destornillador", "clavo") se mapeen cerca. Y, como GPT-3, se entrenó en un conjunto de datos de texto sin etiquetar.

Entonces, ¿cuál es el equivalente de Word2Vec para la biología molecular? ¿Cómo extraemos el conocimiento de las cadenas de aminoácidos con estructuras desconocidas y sin etiquetar? Una técnica consiste en observar grupos de proteínas con secuencias de aminoácidos similares. A menudo, una secuencia de proteínas puede ser similar a otra porque las dos comparten un origen evolutivo similar. Cuanto más similares sean las secuencias de aminoácidos, más probable es que esas proteínas tengan un propósito similar para los organismos en los que se fabrican, lo que significa que, a su vez, es más probable que compartan una estructura similar.

Entonces, el primer paso es determinar qué tan similares son dos secuencias de aminoácidos. Para hacer eso, los biólogos normalmente calculan algo llamado MSA o alineación de secuencia múltiple. Una secuencia de aminoácidos puede ser muy similar a otra, pero puede tener algunos aminoácidos extra o "insertados" que la hacen más larga que la otra. MSA es una forma de agregar espacios para hacer que las secuencias se alineen lo más cerca posible.

Según el diagrama de la publicación del blog de DeepMind, MSA parece ser un paso temprano importante en el modelo.


Contenido

El método de modelado de homología se basa en la observación de que la estructura terciaria de la proteína se conserva mejor que la secuencia de aminoácidos. [3] Por lo tanto, incluso las proteínas que han divergido apreciablemente en la secuencia, pero que aún comparten una similitud detectable, también compartirán propiedades estructurales comunes, particularmente el pliegue general. Debido a que es difícil y requiere mucho tiempo obtener estructuras experimentales a partir de métodos como la cristalografía de rayos X y la RMN de proteínas para cada proteína de interés, el modelado de homología puede proporcionar modelos estructurales útiles para generar hipótesis sobre la función de una proteína y dirigir el trabajo experimental adicional.

Hay excepciones a la regla general de que las proteínas que comparten una identidad de secuencia significativa compartirán un pliegue. Por ejemplo, un conjunto de mutaciones elegidas con criterio de menos del 50% de una proteína puede hacer que la proteína adopte un pliegue completamente diferente. [7] [8] Sin embargo, es poco probable que ocurra un reordenamiento estructural masivo en la evolución, especialmente porque la proteína generalmente está bajo la restricción de que debe plegarse adecuadamente y realizar su función en la célula. En consecuencia, la estructura aproximadamente plegada de una proteína (su "topología") se conserva más tiempo que su secuencia de aminoácidos y mucho más que la secuencia de ADN correspondiente, en otras palabras, dos proteínas pueden compartir un pliegue similar incluso si su relación evolutiva es tan distante que no se puede discernir con seguridad. A modo de comparación, la función de una proteína se conserva mucho menos que la secuencia de la proteína, ya que se requieren relativamente pocos cambios en la secuencia de aminoácidos para asumir una función relacionada.

El procedimiento de modelado de homología se puede dividir en cuatro pasos secuenciales: selección de la plantilla, alineación de la plantilla objetivo, construcción del modelo y evaluación del modelo. [3] Los dos primeros pasos a menudo se realizan esencialmente juntos, ya que los métodos más comunes de identificación de plantillas se basan en la producción de alineaciones de secuencia, sin embargo, estas alineaciones pueden no ser de calidad suficiente porque las técnicas de búsqueda en bases de datos priorizan la velocidad sobre la calidad de la alineación. Estos procesos se pueden realizar de forma iterativa para mejorar la calidad del modelo final, aunque todavía se están desarrollando evaluaciones de calidad que no dependen de la verdadera estructura objetivo.

Optimizar la velocidad y precisión de estos pasos para su uso en la predicción de estructuras automatizadas a gran escala es un componente clave de las iniciativas de genómica estructural, en parte porque el volumen de datos resultante será demasiado grande para procesarlo manualmente y en parte porque el objetivo de la genómica estructural requiere proporcionar modelos de calidad razonable para los investigadores que no son expertos en predicción de estructuras. [3]

El primer paso crítico en el modelado de homología es la identificación de la mejor estructura de plantilla, si es que hay alguna disponible. El método más simple de identificación de plantillas se basa en alineaciones de secuencias por pares en serie con la ayuda de técnicas de búsqueda en bases de datos como FASTA y BLAST. Los métodos más sensibles basados ​​en la alineación de múltiples secuencias, de los cuales PSI-BLAST es el ejemplo más común, actualizan iterativamente su matriz de puntuación específica de la posición para identificar sucesivamente homólogos relacionados más lejanamente. Se ha demostrado que esta familia de métodos produce un mayor número de plantillas potenciales e identifica mejores plantillas para secuencias que sólo tienen relaciones distantes con cualquier estructura resuelta. El enhebrado de proteínas, [9] también conocido como reconocimiento de pliegues o alineación 3D-1D, también se puede utilizar como una técnica de búsqueda para identificar plantillas que se utilizarán en los métodos tradicionales de modelado de homología. [3] Los experimentos CASP recientes indican que algunos métodos de enhebrado de proteínas, como RaptorX, son de hecho más sensibles que los métodos basados ​​puramente en secuencias (perfiles) cuando solo están disponibles plantillas relacionadas lejanamente para las proteínas bajo predicción. Al realizar una búsqueda BLAST, un primer enfoque confiable es identificar aciertos con un nivel suficientemente bajo. mi-valor, que se consideran suficientemente cercanos en evolución para hacer un modelo de homología confiable. Otros factores pueden inclinar la balanza en casos marginales, por ejemplo, la plantilla puede tener una función similar a la de la secuencia de consulta, o puede pertenecer a un operón homólogo. Sin embargo, una plantilla con un pobre miPor lo general, no se debe elegir el valor, incluso si es el único disponible, ya que bien puede tener una estructura incorrecta, lo que lleva a la producción de un modelo equivocado. Un mejor enfoque es enviar la secuencia primaria a servidores de reconocimiento de pliegues [9] o, mejor aún, metaservidores de consenso que mejoran los servidores de reconocimiento de pliegues individuales identificando similitudes (consenso) entre predicciones independientes.

A menudo, estos enfoques identifican varias estructuras de plantillas candidatas. Aunque algunos métodos pueden generar modelos híbridos con mayor precisión a partir de múltiples plantillas, [9] [10] la mayoría de los métodos se basan en una sola plantilla. Por lo tanto, elegir la mejor plantilla entre los candidatos es un paso clave y puede afectar significativamente la precisión final de la estructura. Esta elección está guiada por varios factores, como la similitud de las secuencias de la consulta y la plantilla, de sus funciones y de las estructuras secundarias de la consulta predicha y la plantilla observada. Quizás lo más importante, el cobertura de las regiones alineadas: la fracción de la estructura de la secuencia de consulta que se puede predecir a partir de la plantilla y la plausibilidad del modelo resultante. Por lo tanto, a veces se producen varios modelos de homología para una única secuencia de consulta, y el candidato más probable se elige solo en el paso final.

Es posible utilizar la alineación de secuencias generada por la técnica de búsqueda en la base de datos como base para la producción posterior del modelo, sin embargo, también se han explorado enfoques más sofisticados. Una propuesta genera un conjunto de alineaciones por pares definidas estocásticamente entre la secuencia objetivo y una única plantilla identificada como un medio de explorar el "espacio de alineación" en regiones de secuencia con baja similitud local.[11] Alineaciones de "perfil-perfil" que primero generan un perfil de secuencia del objetivo y lo comparan sistemáticamente con los perfiles de secuencia de estructuras resueltas. Se cree que el granulado grueso inherente a la construcción del perfil reduce el ruido introducido por la deriva de secuencia en regiones no esenciales. de la secuencia. [12]

Dada una plantilla y una alineación, la información contenida en ella debe usarse para generar un modelo estructural tridimensional del objetivo, representado como un conjunto de coordenadas cartesianas para cada átomo de la proteína. Se han propuesto tres clases principales de métodos de generación de modelos. [13] [14]

Ensamblaje de fragmentos Editar

El método original de modelado de homología se basó en el ensamblaje de un modelo completo a partir de fragmentos estructurales conservados identificados en estructuras resueltas estrechamente relacionadas. Por ejemplo, un estudio de modelado de serina proteasas en mamíferos identificó una clara distinción entre las regiones estructurales "centrales" conservadas en todas las estructuras experimentales de la clase y las regiones variables típicamente ubicadas en los bucles donde se localizaron la mayoría de las diferencias de secuencia. Por tanto, las proteínas no disueltas podrían modelarse construyendo primero el núcleo conservado y luego sustituyendo las regiones variables de otras proteínas en el conjunto de estructuras resueltas. [15] Las implementaciones actuales de este método difieren principalmente en la forma en que tratan las regiones que no se conservan o que carecen de una plantilla. [16] Las regiones variables a menudo se construyen con la ayuda de bibliotecas de fragmentos.

Coincidencia de segmento Editar

El método de emparejamiento de segmentos divide el objetivo en una serie de segmentos cortos, cada uno de los cuales se empareja con su propia plantilla ajustada del Protein Data Bank. Por tanto, la alineación de secuencias se realiza sobre segmentos en lugar de sobre toda la proteína. La selección de la plantilla para cada segmento se basa en la similitud de secuencia, las comparaciones de las coordenadas del carbono alfa y los conflictos estéricos predichos que surgen de los radios de van der Waals de los átomos divergentes entre el objetivo y la plantilla. [17]

Satisfacción de las restricciones espaciales Editar

El método de modelado de homología actual más común se inspira en los cálculos necesarios para construir una estructura tridimensional a partir de datos generados por espectroscopía de RMN. Se utilizan una o más alineaciones de plantilla objetivo para construir un conjunto de criterios geométricos que luego se convierten en funciones de densidad de probabilidad para cada restricción. Las restricciones aplicadas a las coordenadas internas de la proteína principal (distancias de la columna vertebral de la proteína y ángulos diedros) sirven como base para un procedimiento de optimización global que originalmente usaba la minimización de la energía del gradiente conjugado para refinar iterativamente las posiciones de todos los átomos pesados ​​en la proteína. [18]

Este método se ha expandido drásticamente para aplicarse específicamente al modelado de bucles, que puede ser extremadamente difícil debido a la alta flexibilidad de los bucles en las proteínas en solución acuosa. [19] Una expansión más reciente aplica el modelo de restricción espacial a mapas de densidad electrónica derivados de estudios de microscopía crioelectrónica, que proporcionan información de baja resolución que no suele ser suficiente para generar modelos estructurales de resolución atómica. [20] Para abordar el problema de las inexactitudes en la alineación inicial de la secuencia objetivo-plantilla, también se ha introducido un procedimiento iterativo para refinar la alineación sobre la base del ajuste estructural inicial. [21] El software más comúnmente utilizado en el modelado basado en restricciones espaciales es MODELLER y se ha establecido una base de datos llamada ModBase para generar modelos confiables con él. [22]

Las regiones de la secuencia diana que no están alineadas con una plantilla se modelan mediante el modelado de bucle; son las más susceptibles a errores de modelado importantes y ocurren con mayor frecuencia cuando la diana y la plantilla tienen una baja identidad de secuencia. Las coordenadas de las secciones no emparejadas determinadas por los programas de modelado de bucles son generalmente mucho menos precisas que las que se obtienen simplemente copiando las coordenadas de una estructura conocida, particularmente si el bucle tiene más de 10 residuos. Los primeros dos ángulos diedros de la cadena lateral (χ1 y χ2) por lo general se puede estimar dentro de los 30 ° para una estructura de la columna vertebral precisa, sin embargo, los ángulos diedros posteriores que se encuentran en cadenas laterales más largas, como la lisina y la arginina, son notoriamente difíciles de predecir. Además, pequeños errores en χ1 (y, en menor medida, en χ2) puede causar errores relativamente grandes en las posiciones de los átomos en el extremo de la cadena lateral, tales átomos a menudo tienen una importancia funcional, particularmente cuando se encuentran cerca del sitio activo.

La evaluación de modelos de homología sin referencia a la verdadera estructura objetivo se realiza generalmente con dos métodos: potenciales estadísticos o cálculos de energía basados ​​en la física. Ambos métodos producen una estimación de la energía (o un análogo similar a la energía) para el modelo o modelos que se evalúan, se necesitan criterios independientes para determinar los límites aceptables. Ninguno de los dos métodos se correlaciona excepcionalmente bien con la verdadera precisión estructural, especialmente en los tipos de proteínas subrepresentados en la AP, como las proteínas de membrana.

Los potenciales estadísticos son métodos empíricos basados ​​en las frecuencias de contacto residuo-residuo observadas entre proteínas de estructura conocida en el AP. Asignan una puntuación de probabilidad o energía a cada posible interacción por pares entre aminoácidos y combinan estas puntuaciones de interacción por pares en una única puntuación para todo el modelo. Algunos de estos métodos también pueden producir una evaluación de residuo por residuo que identifique regiones con una puntuación deficiente dentro del modelo, aunque el modelo puede tener una puntuación general razonable. [23] Estos métodos enfatizan el núcleo hidrofóbico y los aminoácidos polares expuestos al solvente que a menudo se encuentran en las proteínas globulares. Ejemplos de potenciales estadísticos populares incluyen Prosa y DOPE. Los potenciales estadísticos son más eficientes computacionalmente que los cálculos de energía. [23]

Los cálculos de energía basados ​​en la física tienen como objetivo capturar las interacciones interatómicas que son físicamente responsables de la estabilidad de las proteínas en solución, especialmente las interacciones de van der Waals y electrostáticas. Estos cálculos se realizan utilizando un campo de fuerza de la mecánica molecular. Las proteínas son normalmente demasiado grandes incluso para cálculos semiempíricos basados ​​en la mecánica cuántica. El uso de estos métodos se basa en la hipótesis del paisaje energético del plegamiento de proteínas, que predice que el estado nativo de una proteína es también su energía mínima. Dichos métodos suelen emplear solvatación implícita, que proporciona una aproximación continua de un baño de disolvente para una única molécula de proteína sin necesidad de la representación explícita de moléculas de disolvente individuales. Un campo de fuerza construido específicamente para la evaluación del modelo se conoce como el campo de fuerza efectivo (EFF) y se basa en parámetros atómicos de CHARMM. [24]

Se puede obtener un informe de validación de modelo muy extenso utilizando Radboud Universiteit Nijmegen "Qué cheque" software que es una opción de Radboud Universiteit Nijmegen "Y si" paquete de software produce un documento de muchas páginas con análisis extensos de casi 200 aspectos científicos y administrativos del modelo. "Qué cheque" está disponible como servidor gratuito y también se puede utilizar para validar estructuras de macromoléculas determinadas experimentalmente.

Un método más nuevo para la evaluación de modelos se basa en técnicas de aprendizaje automático, como las redes neuronales, que pueden entrenarse para evaluar la estructura directamente o para formar un consenso entre múltiples métodos estadísticos y basados ​​en energía. Los resultados que utilizaron la regresión de la máquina de vectores de soporte en un jurado de métodos de evaluación más tradicionales superaron a los métodos estadísticos, basados ​​en energía y de aprendizaje automático comunes. [25]

Métodos de comparación estructural Editar

La evaluación de la precisión de los modelos de homología es sencilla cuando se conoce la estructura experimental. El método más común de comparar dos estructuras de proteínas utiliza la métrica de la desviación cuadrática media (RMSD) para medir la distancia media entre los átomos correspondientes en las dos estructuras después de que se hayan superpuesto. Sin embargo, RMSD subestima la precisión de los modelos en los que el núcleo está esencialmente modelado correctamente, pero algunas regiones de bucle flexible son inexactas. [26] Un método introducido para el experimento de evaluación de modelos CASP se conoce como prueba de distancia global (GDT) y mide el número total de átomos cuya distancia desde el modelo a la estructura experimental se encuentra por debajo de un cierto límite de distancia. [26] Ambos métodos se pueden usar para cualquier subconjunto de átomos en la estructura, pero a menudo se aplican solo a los átomos de la cadena principal de carbono o proteína alfa para minimizar el ruido creado por estados rotámeros de cadena lateral mal modelados, que la mayoría de los métodos de modelado no están optimizados. predecir. [27]

Se han realizado varios esfuerzos de evaluación comparativa a gran escala para evaluar la calidad relativa de varios métodos de modelado de homología actuales. CASP es un experimento de predicción para toda la comunidad que se ejecuta cada dos años durante los meses de verano y desafía a los equipos de predicción a presentar modelos estructurales para una serie de secuencias cuyas estructuras se han resuelto recientemente de forma experimental pero aún no se han publicado. Su socio CAFASP se ha ejecutado en paralelo con CASP, pero evalúa solo los modelos producidos a través de servidores totalmente automatizados. Los experimentos en ejecución continua que no tienen "temporadas" de predicción se centran principalmente en la evaluación comparativa de los servidores web disponibles públicamente. LiveBench y EVA se ejecutan continuamente para evaluar el rendimiento de los servidores participantes en la predicción de estructuras liberadas inminentemente desde la PDB. CASP y CAFASP sirven principalmente como evaluaciones del estado del arte en modelación, mientras que las evaluaciones continuas buscan evaluar la calidad del modelo que obtendría un usuario no experto empleando herramientas disponibles públicamente.

La precisión de las estructuras generadas por el modelado de homología depende en gran medida de la identidad de secuencia entre el objetivo y la plantilla. Por encima del 50% de identidad de secuencia, los modelos tienden a ser confiables, con solo errores menores en el empaquetamiento de la cadena lateral y el estado rotámero, y un RMSD general entre la estructura modelada y experimental que cae alrededor de 1 Å. Este error es comparable a la resolución típica de una estructura resuelta por RMN. En el rango de identidad del 30 al 50%, los errores pueden ser más graves y, a menudo, se encuentran en bucles. Por debajo del 30% de identidad, se producen errores graves, que a veces resultan en una predicción errónea del pliegue básico. [13] Esta región de baja identidad a menudo se conoce como la "zona crepuscular" dentro de la cual el modelado de homología es extremadamente difícil y para la que posiblemente sea menos adecuado que los métodos de reconocimiento de pliegues. [28]

En identidades de secuencia alta, la fuente principal de error en el modelado de homología deriva de la elección de la plantilla o plantillas en las que se basa el modelo, mientras que las identidades más bajas exhiben errores graves en la alineación de secuencia que inhiben la producción de modelos de alta calidad. [6] Se ha sugerido que el principal impedimento para la producción de modelos de calidad son las deficiencias en la alineación de secuencias, ya que las alineaciones estructurales "óptimas" entre dos proteínas de estructura conocida se pueden utilizar como entrada a los métodos de modelado actuales para producir reproducciones bastante precisas del original. estructura experimental. [29]

Se han hecho intentos para mejorar la precisión de los modelos de homología construidos con métodos existentes sometiéndolos a simulación de dinámica molecular en un esfuerzo por mejorar su RMSD a la estructura experimental. Sin embargo, las parametrizaciones actuales del campo de fuerza pueden no ser lo suficientemente precisas para esta tarea, ya que los modelos de homología utilizados como estructuras de partida para la dinámica molecular tienden a producir estructuras ligeramente peores. [30] Se han observado ligeras mejoras en los casos en los que se utilizaron restricciones importantes durante la simulación. [31]

Las dos fuentes de error más comunes y a gran escala en el modelado de homología son la mala selección de la plantilla y las inexactitudes en la alineación de la secuencia objetivo-plantilla. [6] [32] El control de estos dos factores mediante el uso de una alineación estructural, o una alineación de secuencia producida sobre la base de la comparación de dos estructuras resueltas, reduce drásticamente los errores en los modelos finales. Estas alineaciones "estándar de oro" se pueden utilizar como entrada para métodos de modelado actuales para producir reproducciones bastante precisas de la estructura experimental original. [29] Los resultados del experimento CASP más reciente sugieren que los métodos de "consenso" que recopilan los resultados del reconocimiento de múltiples veces y las búsquedas de alineación múltiple aumentan la probabilidad de identificar la plantilla correcta de manera similar, el uso de múltiples plantillas en el paso de construcción del modelo puede ser peor que el uso de la única plantilla correcta, pero mejor que el uso de una única subóptima. [32] Los errores de alineación pueden minimizarse mediante el uso de una alineación múltiple, incluso si se usa solo una plantilla, y mediante el refinamiento iterativo de las regiones locales de baja similitud. [3] [11] Una fuente menor de errores del modelo son los errores en la estructura de la plantilla. La base de datos PDBREPORT enumera varios millones de errores, en su mayoría muy pequeños pero ocasionalmente dramáticos, en estructuras experimentales (plantilla) que se han depositado en la AP.

Pueden surgir errores locales graves en modelos de homología en los que una mutación de inserción o deleción o un hueco en una estructura resuelta dan como resultado una región de secuencia diana para la que no existe una plantilla correspondiente. Este problema se puede minimizar mediante el uso de múltiples plantillas, pero el método se complica por las diferentes estructuras locales de las plantillas alrededor de la brecha y por la probabilidad de que una región faltante en una estructura experimental también falte en otras estructuras de la misma familia de proteínas. . Las regiones faltantes son más comunes en bucles donde una alta flexibilidad local aumenta la dificultad de resolver la región mediante métodos de determinación de estructura. Aunque el posicionamiento de los extremos de la región faltante proporciona alguna guía incluso con una única plantilla, cuanto más largo es el espacio, más difícil es modelarlo. Los bucles de hasta aproximadamente 9 residuos se pueden modelar con precisión moderada en algunos casos si la alineación local es correcta. [3] Las regiones más grandes a menudo se modelan individualmente utilizando técnicas de predicción de estructura ab initio, aunque este enfoque solo ha tenido un éxito aislado. [33]

Los estados rotámeros de las cadenas laterales y su disposición de empaquetamiento interno también presentan dificultades en el modelado de homología, incluso en blancos para los que la estructura de la columna vertebral es relativamente fácil de predecir. Esto se debe en parte al hecho de que muchas cadenas laterales en estructuras cristalinas no están en su estado rotamerico "óptimo" como resultado de factores energéticos en el núcleo hidrofóbico y en el empaquetamiento de las moléculas individuales en un cristal de proteína. [34] Un método para abordar este problema requiere buscar en una biblioteca rotámera para identificar combinaciones de estados de empaquetamiento de baja energía local. [35] Se ha sugerido que una de las principales razones por las que el modelado de homología es tan difícil cuando la identidad de la secuencia objetivo-plantilla se encuentra por debajo del 30% es que dichas proteínas tienen pliegues muy similares pero disposiciones de empaquetamiento de cadenas laterales muy divergentes. [4]

Los usos de los modelos estructurales incluyen la predicción de la interacción proteína-proteína, el acoplamiento proteína-proteína, el acoplamiento molecular y la anotación funcional de genes identificados en el genoma de un organismo. [36] Incluso los modelos de homología de baja precisión pueden ser útiles para estos fines, porque sus inexactitudes tienden a ubicarse en los bucles en la superficie de la proteína, que normalmente son más variables incluso entre proteínas estrechamente relacionadas. Las regiones funcionales de la proteína, especialmente su sitio activo, tienden a estar más conservadas y, por lo tanto, modeladas con mayor precisión. [13]

Los modelos de homología también se pueden utilizar para identificar diferencias sutiles entre proteínas relacionadas que no se han resuelto todas estructuralmente. Por ejemplo, el método se utilizó para identificar sitios de unión de cationes en la ATPasa Na + / K + y para proponer hipótesis sobre la afinidad de unión de diferentes ATPasas. [37] Utilizados junto con simulaciones de dinámica molecular, los modelos de homología también pueden generar hipótesis sobre la cinética y la dinámica de una proteína, como en los estudios de la selectividad iónica de un canal de potasio. [38] Se ha intentado el modelado automatizado a gran escala de todas las regiones codificantes de proteínas identificadas en un genoma para la levadura. Saccharomyces cerevisiae, lo que resultó en casi 1000 modelos de calidad para proteínas cuyas estructuras aún no se habían determinado en el momento del estudio, e identificando nuevas relaciones entre 236 proteínas de levadura y otras estructuras previamente resueltas. [39]


Estructura secundaria

El plegamiento local del polipéptido en algunas regiones da lugar a la estructura secundaria de la proteína. Los más comunes son los α-hélice y β-Estructuras de chapa plegada (Figura 4). Ambas estructuras son el α-estructura de la hélice: la hélice mantenida en forma por enlaces de hidrógeno. Los enlaces de hidrógeno se forman entre el átomo de oxígeno en el grupo carbonilo en un aminoácido y otro aminoácido que está cuatro aminoácidos más adelante en la cadena.

Figura 4. La hélice α y la lámina plegada en β son estructuras secundarias de proteínas que se forman debido a los enlaces de hidrógeno entre los grupos carbonilo y amino en la estructura del péptido. Ciertos aminoácidos tienen una propensión a formar una hélice α, mientras que otros tienen una propensión a formar una hoja plegada β.

Cada giro de una hélice alfa tiene 3,6 residuos de aminoácidos. Los grupos R (los grupos variantes) del polipéptido sobresalen del α-cadena de hélice. En el β-hoja plegada, los & # 8220pleats & # 8221 están formados por enlaces de hidrógeno entre átomos en la columna vertebral de la cadena polipeptídica. Los grupos R están unidos a los carbones y se extienden por encima y por debajo de los pliegues del pliegue. Los segmentos plegados se alinean paralelos o antiparalelos entre sí, y se forman enlaces de hidrógeno entre el átomo de nitrógeno parcialmente positivo en el grupo amino y el átomo de oxígeno parcialmente negativo en el grupo carbonilo de la estructura del péptido. los α-hélice y βLas estructuras de láminas plegadas se encuentran en la mayoría de las proteínas globulares y fibrosas y desempeñan un papel estructural importante.


Contenido

Las proteínas son cadenas de aminoácidos unidas por enlaces peptídicos. Muchas conformaciones de esta cadena son posibles debido a la rotación de la cadena alrededor de cada átomo de carbono alfa (átomo de Cα). Son estos cambios conformacionales los responsables de las diferencias en la estructura tridimensional de las proteínas. Cada aminoácido de la cadena es polar, es decir, tiene regiones separadas con carga positiva y negativa con un grupo carbonilo libre, que puede actuar como aceptor de enlaces de hidrógeno y un grupo NH, que puede actuar como donador de enlaces de hidrógeno. Por tanto, estos grupos pueden interactuar en la estructura de la proteína. Los [ ¿cuales? ] 20 aminoácidos se pueden clasificar de acuerdo con la química de la cadena lateral, que también juega un papel estructural importante. La glicina asume una posición especial, ya que tiene la cadena lateral más pequeña, solo un átomo de hidrógeno y, por lo tanto, puede aumentar la flexibilidad local en la estructura de la proteína. La cisteína, por otro lado, puede reaccionar con otro residuo de cisteína y así formar un entrecruzamiento que estabiliza toda la estructura. [ cita necesaria ]

La estructura de la proteína se puede considerar como una secuencia de elementos de la estructura secundaria, como hélices α y láminas β, que juntas constituyen la configuración tridimensional general de la cadena proteica. En estas estructuras secundarias se forman patrones regulares de enlaces H entre aminoácidos vecinos, y los aminoácidos tienen ángulos Φ y ψ similares. [ cita necesaria ]

La formación de estas estructuras neutraliza los grupos polares de cada aminoácido. Las estructuras secundarias están fuertemente empaquetadas en el núcleo de la proteína en un ambiente hidrofóbico. Cada grupo lateral de aminoácidos tiene un volumen limitado para ocupar y un número limitado de posibles interacciones con otras cadenas laterales cercanas, una situación que debe tenerse en cuenta en el modelado y alineamientos moleculares. [1]

Α Helix Editar

La hélice α es el tipo de estructura secundaria más abundante en las proteínas. La hélice α tiene 3,6 aminoácidos por turno con un enlace H formado entre cada cuarto residuo, la longitud promedio es de 10 aminoácidos (3 vueltas) o 10 Å pero varía de 5 a 40 (1,5 a 11 vueltas). La alineación de los enlaces H crea un momento dipolar para la hélice con una carga positiva parcial resultante en el extremo amino de la hélice. Porque esta región tiene NH gratis2 grupos, interactuará con grupos cargados negativamente como los fosfatos. La ubicación más común de las hélices α es en la superficie de los núcleos de proteínas, donde proporcionan una interfaz con el entorno acuoso. El lado de la hélice que mira hacia el interior tiende a tener aminoácidos hidrófobos y el lado que mira hacia el exterior, aminoácidos hidrófilos. Por tanto, cada tercio de los cuatro aminoácidos a lo largo de la cadena tenderá a ser hidrófobo, un patrón que puede detectarse con bastante facilidad. En el motivo de cremallera de leucina, un patrón repetido de leucinas en los lados enfrentados de dos hélices adyacentes es altamente predictivo del motivo. Se puede utilizar un gráfico de rueda helicoidal para mostrar este patrón repetido. Otras hélices α enterradas en el núcleo de la proteína o en las membranas celulares tienen una distribución más alta y más regular de aminoácidos hidrófobos y son altamente predictivas de tales estructuras. Las hélices expuestas en la superficie tienen una menor proporción de aminoácidos hidrófobos. El contenido de aminoácidos puede predecir una región α-helicoidal. Las regiones más ricas en alanina (A), ácido glutámico (E), leucina (L) y metionina (M) y más pobres en prolina (P), glicina (G), tirosina (Y) y serina (S) tienden a formarse. una hélice α. La prolina desestabiliza o rompe una hélice α, pero puede estar presente en hélices más largas, formando una curva.

Hoja β Editar

Las láminas β están formadas por enlaces H entre un promedio de 5 a 10 aminoácidos consecutivos en una porción de la cadena con otros 5 a 10 más abajo en la cadena. Las regiones que interactúan pueden ser adyacentes, con un bucle corto en el medio, o muy separadas, con otras estructuras en el medio. Cada cadena puede correr en la misma dirección para formar una hoja paralela, cualquier otra cadena puede correr en la dirección química inversa para formar una hoja anti-paralela, o las cadenas pueden ser paralelas y anti-paralelas para formar una hoja mixta. El patrón de unión de H es diferente en las configuraciones paralelas y antiparalelas. Cada aminoácido en las hebras interiores de la hoja forma dos enlaces H con los aminoácidos vecinos, mientras que cada aminoácido en las hebras exteriores forma solo un enlace con una hebra interior. Mirando a través de la hoja en ángulo recto con las hebras, las hebras más distantes se giran ligeramente en sentido antihorario para formar un giro a la izquierda. Los átomos de Cα se alternan por encima y por debajo de la hoja en una estructura plisada, y los grupos laterales R de los aminoácidos se alternan por encima y por debajo de los pliegues. Los ángulos Φ y Ψ de los aminoácidos en las hojas varían considerablemente en una región de la gráfica de Ramachandran. Es más difícil predecir la ubicación de las hojas β que de las hélices α. La situación mejora algo cuando se tiene en cuenta la variación de aminoácidos en múltiples alineamientos de secuencia.

Loops Editar

Algunas partes de la proteína tienen una estructura tridimensional fija, pero no forman estructuras regulares. No deben confundirse con segmentos de proteínas desordenados o desplegados o con una espiral aleatoria, una cadena polipeptídica desplegada que carece de estructura tridimensional fija. Estas partes se denominan frecuentemente "bucles" porque conectan láminas β y hélices α. Los bucles se encuentran generalmente en la superficie de la proteína y, por lo tanto, las mutaciones de sus residuos se toleran más fácilmente. Tener más sustituciones, inserciones y deleciones en una determinada región de una secuencia de alineación puede ser una indicación de un bucle. Las posiciones de los intrones en el ADN genómico pueden correlacionarse con las ubicaciones de los bucles en la proteína codificada [ cita necesaria ]. Los bucles también tienden a tener aminoácidos cargados y polares y, con frecuencia, son un componente de los sitios activos.

Las proteínas pueden clasificarse según la similitud estructural y de secuencia. Para la clasificación estructural, los tamaños y disposiciones espaciales de las estructuras secundarias descritas en el párrafo anterior se comparan en estructuras tridimensionales conocidas. Históricamente, la clasificación basada en la similitud de secuencia fue la primera que se utilizó. Inicialmente, se realizó la similitud basada en alineamientos de secuencias completas. Posteriormente, las proteínas se clasificaron sobre la base de la aparición de patrones de aminoácidos conservados. Se encuentran disponibles bases de datos que clasifican proteínas mediante uno o más de estos esquemas. Al considerar los esquemas de clasificación de proteínas, es importante tener en cuenta varias observaciones. Primero, dos secuencias de proteínas completamente diferentes de diferentes orígenes evolutivos pueden plegarse en una estructura similar. Por el contrario, la secuencia de un gen antiguo para una estructura dada puede haber divergido considerablemente en diferentes especies, manteniendo al mismo tiempo las mismas características estructurales básicas. Reconocer cualquier similitud de secuencia restante en tales casos puede ser una tarea muy difícil. En segundo lugar, dos proteínas que comparten un grado significativo de similitud de secuencia entre sí o con una tercera secuencia también comparten un origen evolutivo y también deberían compartir algunas características estructurales. Sin embargo, la duplicación de genes y los reordenamientos genéticos durante la evolución pueden dar lugar a nuevas copias de genes, que luego pueden evolucionar a proteínas con nuevas funciones y estructuras. [1]

Términos utilizados para clasificar estructuras y secuencias de proteínas Editar

Los términos más utilizados para las relaciones evolutivas y estructurales entre proteínas se enumeran a continuación. Se utilizan muchos términos adicionales para varios tipos de características estructurales que se encuentran en las proteínas. Las descripciones de dichos términos se pueden encontrar en el sitio web de CATH, el sitio web de clasificación estructural de proteínas (SCOP) y un tutorial de Glaxo Wellcome en el sitio web de bioinformática suiza Expasy.

Sitio activo: una combinación localizada de grupos laterales de aminoácidos dentro de la estructura terciaria (tridimensional) o cuaternaria (subunidad proteica) que puede interactuar con un sustrato químicamente específico y que proporciona a la proteína actividad biológica. Las proteínas de secuencias de aminoácidos muy diferentes pueden plegarse en una estructura que produce el mismo sitio activo. La arquitectura son las orientaciones relativas de las estructuras secundarias en una estructura tridimensional sin importar si comparten o no una estructura de bucle similar. Fold (topología) un tipo de arquitectura que también tiene una estructura de bucle conservada. Los bloques son un patrón de secuencia de aminoácidos conservado en una familia de proteínas. El patrón incluye una serie de posibles coincidencias en cada posición en las secuencias representadas, pero no hay posiciones insertadas o eliminadas en el patrón o en las secuencias. Por el contrario, los perfiles de secuencia son un tipo de matriz de puntuación que representa un conjunto similar de patrones que incluye inserciones y eliminaciones. Clase término utilizado para clasificar los dominios de proteínas según su contenido estructural secundario y su organización. Cuatro clases fueron originalmente reconocidas por Levitt y Chothia (1976), y varias otras se han agregado a la base de datos SCOP. En la base de datos CATH se dan tres clases: principalmente-α, principalmente-β y α-β, y la clase α-β incluye estructuras α / β y α + β alternas. Núcleo de la porción de una molécula de proteína plegada que comprende el interior hidrofóbico de hélices α y láminas β. La estructura compacta reúne grupos laterales de aminoácidos lo suficientemente cerca para que puedan interactuar. Al comparar estructuras de proteínas, como en la base de datos SCOP, el núcleo es la región común a la mayoría de las estructuras que comparten un pliegue común o que están en la misma superfamilia. En la predicción de estructuras, el núcleo a veces se define como la disposición de estructuras secundarias que es probable que se conserven durante el cambio evolutivo. Dominio (contexto de secuencia) un segmento de una cadena polipeptídica que se puede plegar en una estructura tridimensional independientemente de la presencia de otros segmentos de la cadena. Los dominios separados de una proteína dada pueden interactuar ampliamente o pueden estar unidos solo por una longitud de cadena polipeptídica. Una proteína con varios dominios puede usar estos dominios para interacciones funcionales con diferentes moléculas. Familia (contexto de secuencia) un grupo de proteínas de función bioquímica similar que son más del 50% idénticas cuando se alinean. Este mismo límite todavía lo utiliza el recurso de información de proteínas (PIR). Una familia de proteínas comprende proteínas con la misma función en diferentes organismos (secuencias ortólogas) pero también puede incluir proteínas en el mismo organismo (secuencias parálogos) derivadas de la duplicación y reordenamientos de genes. Si una alineación de secuencia múltiple de una familia de proteínas revela un nivel común de similitud en todas las longitudes de las proteínas, PIR se refiere a la familia como una familia homeomórfica. La región alineada se denomina dominio homeomórfico y esta región puede comprender varios dominios de homología más pequeños que se comparten con otras familias. Las familias pueden subdividirse en subfamilias o agruparse en superfamilias según los respectivos niveles superiores o inferiores de similitud de secuencia. La base de datos SCOP reporta 1296 familias y la base de datos CATH (versión 1.7 beta) reporta 1846 familias. Cuando se examinan con mayor detalle las secuencias de proteínas con la misma función, se descubre que algunas comparten una gran similitud de secuencia. Obviamente, son miembros de la misma familia según los criterios anteriores. Sin embargo, se encuentran otros que tienen muy poca, o incluso insignificante, similitud de secuencia con otros miembros de la familia. En tales casos, la relación familiar entre dos miembros distantes de la familia A y C a menudo se puede demostrar al encontrar un miembro adicional de la familia B que comparta una similitud significativa con A y C. Por lo tanto, B proporciona un vínculo de conexión entre A y C. Otro enfoque es examinar alineaciones distantes en busca de coincidencias altamente conservadas. A un nivel de identidad del 50%, es probable que las proteínas tengan la misma estructura tridimensional, y los átomos idénticos en la secuencia de alineación también se superpondrán dentro de aproximadamente 1 Å en el modelo estructural. Por tanto, si se conoce la estructura de un miembro de una familia, se puede hacer una predicción fiable para un segundo miembro de la familia, y cuanto mayor sea el nivel de identidad, más fiable será la predicción. El modelado estructural de proteínas se puede realizar examinando qué tan bien encajan las sustituciones de aminoácidos en el núcleo de la estructura tridimensional. Familia (contexto estructural) como se usa en la base de datos FSSP (Familias de proteínas estructuralmente similares) y el sitio web DALI / FSSP, dos estructuras que tienen un nivel significativo de similitud estructural pero no necesariamente una similitud de secuencia significativa. Pliegue similar al motivo estructural, incluye una combinación más grande de unidades estructurales secundarias en la misma configuración. Por lo tanto, las proteínas que comparten el mismo pliegue tienen la misma combinación de estructuras secundarias que están conectadas por bucles similares. Un ejemplo es el pliegue de Rossman que comprende varias hélices α alternas y hebras β paralelas. En las bases de datos SCOP, CATH y FSSP, las estructuras proteicas conocidas se han clasificado en niveles jerárquicos de complejidad estructural con el pliegue como nivel básico de clasificación. Dominio homólogo (contexto de secuencia) un patrón de secuencia extendido, generalmente encontrado por métodos de alineación de secuencia, que indica un origen evolutivo común entre las secuencias alineadas. Un dominio de homología es generalmente más largo que los motivos. El dominio puede incluir toda una secuencia de proteína determinada o solo una parte de la secuencia. Algunos dominios son complejos y están formados por varios dominios de homología más pequeños que se unieron para formar uno más grande durante la evolución. Un dominio que cubre una secuencia completa se denomina dominio homeomórfico por PIR (Protein Information Resource). Modular una región de patrones de aminoácidos conservados que comprende uno o más motivos y se considera una unidad fundamental de estructura o función. La presencia de un módulo también se ha utilizado para clasificar proteínas en familias. Motivo (contexto de secuencia) un patrón conservado de aminoácidos que se encuentra en dos o más proteínas. En el catálogo de Prosite, un motivo es un patrón de aminoácidos que se encuentra en un grupo de proteínas que tienen una actividad bioquímica similar y que a menudo se encuentra cerca del sitio activo de la proteína. Ejemplos de bases de datos de motivos de secuencia son el catálogo de Prosite y la base de datos de motivos de Stanford. [2] Motivo (contexto estructural) una combinación de varios elementos estructurales secundarios producidos por el plegado de secciones adyacentes de la cadena polipeptídica en una configuración tridimensional específica. Un ejemplo es el motivo hélice-bucle-hélice. Los motivos estructurales también se conocen como estructuras y pliegues supersecundarios. La matriz de puntuación específica de la posición (contexto de secuencia, también conocida como matriz de puntuación o ponderación) representa una región conservada en una alineación de secuencia múltiple sin espacios. Cada columna de la matriz representa la variación encontrada en una columna de la alineación de secuencia múltiple. Matriz de puntuación de posición específica: 3D (contexto estructural) representa la variación de aminoácidos que se encuentra en una alineación de proteínas que pertenecen a la misma clase estructural. Las columnas de matriz representan la variación de aminoácidos que se encuentra en una posición de aminoácido en las estructuras alineadas. Estructura primaria la secuencia lineal de aminoácidos de una proteína, que químicamente es una cadena polipeptídica compuesta por aminoácidos unidos por enlaces peptídicos. Perfil (contexto de secuencia) una matriz de puntuación que representa un alineamiento de secuencia múltiple de una familia de proteínas. El perfil generalmente se obtiene de una región bien conservada en una alineación de secuencia múltiple. El perfil tiene la forma de una matriz con cada columna que representa una posición en la alineación y cada fila uno de los aminoácidos. Los valores de la matriz dan la probabilidad de que cada aminoácido esté en la posición correspondiente en la alineación. El perfil se mueve a lo largo de la secuencia objetivo para localizar las mejores regiones de puntuación mediante un algoritmo de programación dinámica. Se permiten huecos durante el emparejamiento y en este caso se incluye una penalización por hueco como una puntuación negativa cuando no se empareja ningún aminoácido. Un perfil de secuencia también puede estar representado por un modelo de Markov oculto, denominado perfil HMM. Perfil (contexto estructural) una matriz de puntuación que representa qué aminoácidos deberían encajar bien y cuáles deberían encajar mal en posiciones secuenciales en una estructura de proteína conocida. Las columnas de perfil representan posiciones secuenciales en la estructura y las filas de perfil representan los 20 aminoácidos. Al igual que con un perfil de secuencia, el perfil estructural se mueve a lo largo de una secuencia objetivo para encontrar la puntuación de alineación más alta posible mediante un algoritmo de programación dinámica. Se pueden incluir huecos y recibir una penalización. La puntuación resultante proporciona una indicación de si la proteína diana podría adoptar tal estructura. Estructura cuaternaria la configuración tridimensional de una molécula de proteína que comprende varias cadenas polipeptídicas independientes. Estructura secundaria las interacciones que ocurren entre los grupos C, O y NH en los aminoácidos en una cadena polipeptídica para formar hélices α, láminas β, giros, bucles y otras formas, y que facilitan el plegamiento en una forma tridimensional. estructura. Superfamilia un grupo de familias de proteínas de la misma o diferente longitud que están relacionadas por una similitud de secuencia distante pero detectable. Los miembros de una superfamilia determinada tienen, por tanto, un origen evolutivo común. Originalmente, Dayhoff definió el límite para el estado de superfamilia como la posibilidad de que las secuencias no estén relacionadas de 10 6, sobre la base de una puntuación de alineación (Dayhoff et al. 1978). Las proteínas con pocas identidades en una alineación de las secuencias pero con un número convincentemente común de características estructurales y funcionales se colocan en la misma superfamilia. A nivel de estructura tridimensional, las proteínas de la superfamilia compartirán características estructurales comunes, como un pliegue común, pero también puede haber diferencias en el número y la disposición de las estructuras secundarias. El recurso PIR usa el término superfamilias homeomorfas para referirse a superfamilias que están compuestas por secuencias que pueden alinearse de un extremo a otro, lo que representa un dominio compartido de homología de secuencia única, una región de similitud que se extiende a lo largo de la alineación. Este dominio también puede comprender dominios de homología más pequeños que se comparten con otras familias de proteínas y superfamilias. Aunque una secuencia de proteína determinada puede contener dominios que se encuentran en varias superfamilias, lo que indica una historia evolutiva compleja, las secuencias se asignarán a una sola superfamilia homeomórfica en función de la presencia de similitud en un alineamiento de secuencia múltiple. La alineación de superfamilia también puede incluir regiones que no se alinean ni dentro ni en los extremos de la alineación. Por el contrario, las secuencias de la misma familia se alinean bien en toda la alineación. Estructura secundaria un término con un significado similar a un motivo estructural. La estructura terciaria es la estructura tridimensional o globular formada por el empaquetamiento o plegado de estructuras secundarias de una cadena polipeptídica. [1]

Predicción de estructura secundaria es un conjunto de técnicas en bioinformática que tienen como objetivo predecir las estructuras secundarias locales de las proteínas basándose únicamente en el conocimiento de su secuencia de aminoácidos. Para las proteínas, una predicción consiste en asignar regiones de la secuencia de aminoácidos como posibles hélices alfa, hebras beta (a menudo señaladas como conformaciones "extendidas") o giros. El éxito de una predicción se determina comparándola con los resultados del algoritmo DSSP (o similar, por ejemplo STRIDE) aplicado a la estructura cristalina de la proteína. Se han desarrollado algoritmos especializados para la detección de patrones específicos bien definidos, como hélices transmembrana y bobinas enrolladas en proteínas. [1]

Se afirmó que los mejores métodos modernos de predicción de estructuras secundarias en proteínas alcanzan el 80% de precisión después de usar el aprendizaje automático y las alineaciones de secuencias [3]. motivos estructurales y refinamiento de alineamientos de secuencia. La precisión de los métodos actuales de predicción de la estructura secundaria de proteínas se evalúa en puntos de referencia semanales como LiveBench y EVA.

Edición de fondo

Los primeros métodos de predicción de estructuras secundarias, introducidos en la década de 1960 y principios de la de 1970, [4] [5] [6] [7] [8] se centraron en identificar posibles hélices alfa y se basaron principalmente en modelos de transición de hélice-bobina. [9] En la década de 1970 se introdujeron predicciones significativamente más precisas que incluían hojas beta y se basaban en evaluaciones estadísticas basadas en parámetros de probabilidad derivados de estructuras resueltas conocidas. Estos métodos, aplicados a una sola secuencia, suelen tener una precisión de entre el 60 y el 65% y, a menudo, no predicen las hojas beta. [1] La conservación evolutiva de las estructuras secundarias puede explotarse evaluando simultáneamente muchas secuencias homólogas en una alineación de secuencia múltiple, calculando la propensión neta a la estructura secundaria de una columna alineada de aminoácidos. Junto con bases de datos más grandes de estructuras de proteínas conocidas y métodos modernos de aprendizaje automático, como redes neuronales y máquinas de vectores de soporte, estos métodos pueden lograr hasta un 80% de precisión general en proteínas globulares. [10] El límite superior teórico de precisión es de alrededor del 90%, [10] en parte debido a idiosincrasias en la asignación de DSSP cerca de los extremos de las estructuras secundarias, donde las conformaciones locales varían en condiciones nativas pero pueden verse obligadas a asumir una única conformación en los cristales debido a a las limitaciones de embalaje. Además, los métodos típicos de predicción de la estructura secundaria no tienen en cuenta la influencia de la estructura terciaria en la formación de la estructura secundaria, por ejemplo, una secuencia predicha como una hélice probable aún puede adoptar una conformación de cadena beta si se encuentra dentro de una cadena beta. La región de la hoja de la proteína y sus cadenas laterales se empacan bien con sus vecinas. Los cambios conformacionales dramáticos relacionados con la función o el entorno de la proteína también pueden alterar la estructura secundaria local.

Perspectiva histórica Editar

Hasta la fecha, se han desarrollado más de 20 métodos diferentes de predicción de estructuras secundarias. Uno de los primeros algoritmos fue el método de Chou-Fasman, que se basa predominantemente en parámetros de probabilidad determinados a partir de las frecuencias relativas de la aparición de cada aminoácido en cada tipo de estructura secundaria. [11] Los parámetros originales de Chou-Fasman, determinados a partir de una pequeña muestra de estructuras resueltas a mediados de la década de 1970, producen malos resultados en comparación con los métodos modernos, aunque la parametrización se ha actualizado desde que se publicó por primera vez. El método de Chou-Fasman tiene aproximadamente un 50-60% de precisión en la predicción de estructuras secundarias. [1]

El siguiente programa notable fue el método GOR, un método basado en la teoría de la información. Utiliza la técnica probabilística más poderosa de la inferencia bayesiana. [12] El método GOR tiene en cuenta no solo la probabilidad de que cada aminoácido tenga una estructura secundaria particular, sino también la probabilidad condicional de que el aminoácido asuma cada estructura dadas las contribuciones de sus vecinos (no supone que los vecinos tengan esa misma estructura). El enfoque es más sensible y más preciso que el de Chou y Fasman porque las propensiones estructurales de los aminoácidos solo son fuertes para una pequeña cantidad de aminoácidos como la prolina y la glicina. Las contribuciones débiles de cada uno de los muchos vecinos pueden sumar efectos fuertes en general. El método GOR original tenía una precisión aproximada del 65% y es mucho más exitoso en la predicción de hélices alfa que hojas beta, que con frecuencia se equivocaban al predecir como bucles o regiones desorganizadas. [1]

Otro gran paso adelante fue el uso de métodos de aprendizaje automático. Se utilizaron los primeros métodos de redes neuronales artificiales. Como conjuntos de entrenamiento, utilizan estructuras resueltas para identificar motivos de secuencia comunes asociados con arreglos particulares de estructuras secundarias. Estos métodos tienen una precisión de más del 70% en sus predicciones, aunque las hebras beta todavía a menudo se subestiman debido a la falta de información estructural tridimensional que permitiría la evaluación de los patrones de enlace de hidrógeno que pueden promover la formación de la conformación extendida requerida para la presencia de un hoja beta completa. [1] PSIPRED y JPRED son algunos de los programas más conocidos basados ​​en redes neuronales para la predicción de estructuras secundarias de proteínas. A continuación, las máquinas de vectores de soporte han demostrado ser particularmente útiles para predecir la ubicación de los giros, que son difíciles de identificar con métodos estadísticos. [13] [14]

Las extensiones de las técnicas de aprendizaje automático intentan predecir propiedades locales más detalladas de las proteínas, como los ángulos diedros de la columna vertebral en regiones no asignadas. Se han aplicado a este problema tanto las SVM [15] como las redes neuronales [16]. [13] Más recientemente, los ángulos de torsión de valor real pueden predecirse con precisión mediante SPINE-X y emplearse con éxito para la predicción de estructuras ab initio. [17]

Otras mejoras Editar

Se informa que además de la secuencia de proteínas, la formación de estructuras secundarias depende de otros factores. Por ejemplo, se informa que las tendencias de la estructura secundaria dependen también del entorno local, [18] la accesibilidad de los residuos a los disolventes, [19] la clase estructural de proteínas, [20] e incluso el organismo del que se obtienen las proteínas. [21] Basándose en tales observaciones, algunos estudios han demostrado que la predicción de la estructura secundaria puede mejorarse mediante la adición de información sobre la clase estructural de la proteína, [22] el área de superficie accesible del residuo [23] [24] y también la información del número de contacto. [25]

El papel práctico de la predicción de la estructura de las proteínas es ahora más importante que nunca. [26] Se producen cantidades masivas de datos de secuencias de proteínas mediante esfuerzos modernos de secuenciación de ADN a gran escala, como el Proyecto Genoma Humano. A pesar de los esfuerzos de toda la comunidad en genómica estructural, la producción de estructuras proteicas determinadas experimentalmente, por lo general mediante cristalografía de rayos X o espectroscopía de RMN, que requiere mucho tiempo y es relativamente costosa, está muy por detrás de la producción de secuencias de proteínas.

La predicción de la estructura de la proteína sigue siendo una empresa extremadamente difícil y sin resolver. Los dos problemas principales son el cálculo de la energía libre de proteínas y la búsqueda del mínimo global de esta energía. Un método de predicción de la estructura de la proteína debe explorar el espacio de posibles estructuras de la proteína que es astronómicamente grande. Estos problemas pueden evitarse parcialmente en los métodos de reconocimiento de pliegues y modelado "comparativo" o de homología, en los que el espacio de búsqueda se reduce suponiendo que la proteína en cuestión adopta una estructura cercana a la estructura determinada experimentalmente de otra proteína homóloga. Por otro lado, los métodos de predicción de la estructura de la proteína de novo deben resolver explícitamente estos problemas. Zhang ha revisado el progreso y los desafíos en la predicción de la estructura de las proteínas. [27]

Antes de modelar Editar

La mayoría de los métodos de modelado de estructuras terciarias, como Rosetta, están optimizados para modelar la estructura terciaria de dominios de proteínas individuales. Un paso llamado análisis de dominio, o predicción de límites de dominio, generalmente se hace primero para dividir una proteína en dominios estructurales potenciales. Al igual que con el resto de la predicción de estructuras terciarias, esto se puede hacer comparativamente a partir de estructuras conocidas [28] o ab initio solo con la secuencia (generalmente mediante aprendizaje automático, asistido por covariación). [29] Las estructuras de los dominios individuales se acoplan en un proceso llamado ensamblaje de dominio para formar la estructura terciaria final. [30] [31]

Ab initio modelado de proteínas Editar

Métodos basados ​​en energía y fragmentos Editar

Ab initio- o de novo- Los métodos de modelado de proteínas buscan construir modelos de proteínas tridimensionales "desde cero", es decir, basados ​​en principios físicos en lugar de (directamente) en estructuras previamente resueltas. Hay muchos procedimientos posibles que intentan imitar el plegamiento de proteínas o aplican algún método estocástico para buscar posibles soluciones (es decir, optimización global de una función de energía adecuada). Estos procedimientos tienden a requerir vastos recursos computacionales y, por lo tanto, solo se han llevado a cabo para proteínas diminutas. Para predecir la estructura de las proteínas de novo para proteínas más grandes se requerirán mejores algoritmos y recursos computacionales más grandes como los que ofrecen las poderosas supercomputadoras (como Blue Gene o MDGRAPE-3) o la computación distribuida (como Folding @ home, Human Proteome Folding Project y Rosetta @ Home). Aunque estas barreras computacionales son enormes, los beneficios potenciales de la genómica estructural (por métodos predichos o experimentales) hacen ab initio predicción de estructuras un campo de investigación activo. [27]

A partir de 2009, una proteína de 50 residuos podría simularse átomo por átomo en una supercomputadora durante 1 milisegundo. [32] A partir de 2012, se podría realizar un muestreo de estado estable comparable en un escritorio estándar con una nueva tarjeta gráfica y algoritmos más sofisticados. [33] Se pueden lograr escalas de tiempo de simulación mucho más grandes utilizando modelos de grano grueso. [34] [35]

Covariación evolutiva para predecir contactos 3D Editar

A medida que la secuenciación se volvió más común en la década de 1990, varios grupos usaron alineaciones de secuencias de proteínas para predecir mutaciones correlacionadas y se esperaba que estos residuos coevolucionados pudieran usarse para predecir la estructura terciaria (usando la analogía con las restricciones de distancia de los procedimientos experimentales como la RMN). La suposición es que cuando las mutaciones de un solo residuo son ligeramente perjudiciales, pueden producirse mutaciones compensatorias para restablecer las interacciones residuo-residuo. Este primer trabajo utilizó lo que se conoce como local métodos para calcular mutaciones correlacionadas a partir de secuencias de proteínas, pero adolecían de correlaciones falsas indirectas que resultan de tratar cada par de residuos como independientes de todos los demás pares. [36] [37] [38]

En 2011, diferente, y esta vez global enfoque estadístico, demostró que los residuos coevolucionados predichos eran suficientes para predecir el pliegue 3D de una proteína, siempre que haya suficientes secuencias disponibles (se necesitan & gt1,000 secuencias homólogas). [39] El método, EVfold, no utiliza modelos de homología, subprocesos o fragmentos de estructura 3D y se puede ejecutar en una computadora personal estándar incluso para proteínas con cientos de residuos. La precisión de los contactos predichos usando este y otros enfoques relacionados se ha demostrado ahora en muchas estructuras conocidas y mapas de contacto, [40] [41] [42] incluyendo la predicción de proteínas transmembrana experimentalmente no resueltas. [43]

Modelado comparativo de proteínas Editar

El modelado comparativo de proteínas utiliza estructuras previamente resueltas como puntos de partida o plantillas. Esto es eficaz porque parece que, aunque el número de proteínas reales es enorme, existe un conjunto limitado de motivos estructurales terciarios a los que pertenecen la mayoría de las proteínas. Se ha sugerido que solo hay alrededor de 2000 pliegues de proteínas distintos en la naturaleza, aunque hay muchos millones de proteínas diferentes. El modelado comparativo de proteínas se puede combinar con la covariación evolutiva en la predicción de la estructura. [44]

Estos métodos también pueden dividirse en dos grupos: [27]

    se basa en la suposición razonable de que dos proteínas homólogas compartirán estructuras muy similares. Debido a que el pliegue de una proteína se conserva más evolutivamente que su secuencia de aminoácidos, una secuencia diana se puede modelar con una precisión razonable en una plantilla muy distante, siempre que la relación entre la diana y la plantilla se pueda discernir a través del alineamiento de secuencias. Se ha sugerido que el principal cuello de botella en el modelado comparativo surge de las dificultades en la alineación más que de los errores en la predicción de la estructura dada una buena alineación conocida. [45] Como era de esperar, el modelado de homología es más preciso cuando el objetivo y la plantilla tienen secuencias similares. [46] escanea la secuencia de aminoácidos de una estructura desconocida contra una base de datos de estructuras resueltas. En cada caso, se utiliza una función de puntuación para evaluar la compatibilidad de la secuencia con la estructura, produciendo así posibles modelos tridimensionales. Este tipo de método también se conoce como Reconocimiento de pliegues 3D-1D debido a su análisis de compatibilidad entre estructuras tridimensionales y secuencias de proteínas lineales. Este método también ha dado lugar a métodos que realizan una búsqueda de plegado inverso evaluando la compatibilidad de una estructura dada con una gran base de datos de secuencias, prediciendo así qué secuencias tienen el potencial de producir un pliegue dado.

Modelado de conformaciones de cadenas laterales Editar

El empaquetamiento preciso de las cadenas laterales de aminoácidos representa un problema aparte en la predicción de la estructura de las proteínas. Los métodos que abordan específicamente el problema de predecir la geometría de la cadena lateral incluyen la eliminación de callejones sin salida y los métodos de campo medio autoconsistente. Las conformaciones de la cadena lateral con baja energía se determinan generalmente en la estructura rígida del polipéptido y usando un conjunto de conformaciones discretas de la cadena lateral conocidas como "rotámeros". Los métodos intentan identificar el conjunto de rotámeros que minimizan la energía total del modelo.

Estos métodos utilizan bibliotecas de rotámeros, que son colecciones de conformaciones favorables para cada tipo de residuo en proteínas. Las bibliotecas de rotámeros pueden contener información sobre la conformación, su frecuencia y las desviaciones estándar sobre los ángulos diedros medios, que se pueden utilizar en el muestreo. [47] Las bibliotecas de rotámeros se derivan de bioinformática estructural u otro análisis estadístico de conformaciones de cadenas laterales en estructuras experimentales conocidas de proteínas, como agrupando las conformaciones observadas para carbonos tetraédricos cerca del escalonado (60 °, 180 °, -60 °) valores.

Las bibliotecas de rotámeros pueden ser independientes de la estructura, dependientes de la estructura secundaria o dependientes de la estructura. Las bibliotecas de rotámeros independientes de la estructura principal no hacen referencia a la conformación de la estructura principal y se calculan a partir de todas las cadenas laterales disponibles de un cierto tipo (por ejemplo, el primer ejemplo de una biblioteca de rotámeros, realizado por Ponder y Richards en Yale en 1987). [48] ​​Las bibliotecas dependientes de la estructura secundaria presentan diferentes ángulos diedros y / o frecuencias de rotámero para α < displaystyle alpha> -helix, β < displaystyle beta> -sheet o estructuras secundarias en espiral. [49] Las bibliotecas de rotámeros dependientes de la columna vertebral presentan conformaciones y / o frecuencias dependientes de la conformación de la columna vertebral local definida por los ángulos diedros de la columna vertebral ϕ < displaystyle phi> y ψ < displaystyle psi>, independientemente de la estructura secundaria. [50]

Las versiones modernas de estas bibliotecas, tal como se utilizan en la mayoría del software, se presentan como distribuciones multidimensionales de probabilidad o frecuencia, donde los picos corresponden a las conformaciones de ángulos diedros consideradas como rotámeros individuales en las listas. Algunas versiones se basan en datos cuidadosamente seleccionados y se utilizan principalmente para la validación de estructuras, [51] mientras que otras enfatizan frecuencias relativas en conjuntos de datos mucho más grandes y son la forma utilizada principalmente para la predicción de estructuras, como las bibliotecas de rotámeros de Dunbrack. [52]

Los métodos de empaquetamiento de cadenas laterales son más útiles para analizar el núcleo hidrófobo de la proteína, donde las cadenas laterales están empaquetadas más estrechamente, tienen más dificultades para abordar las restricciones más flexibles y una mayor flexibilidad de los residuos de la superficie, que a menudo ocupan múltiples conformaciones de rotámero en lugar de solo una. [53] [54]

En el caso de complejos de dos o más proteínas, donde las estructuras de las proteínas son conocidas o pueden predecirse con gran precisión, se pueden utilizar métodos de acoplamiento proteína-proteína para predecir la estructura del complejo. La información del efecto de las mutaciones en sitios específicos sobre la afinidad del complejo ayuda a comprender la estructura del complejo y a orientar los métodos de acoplamiento.

Existe una gran cantidad de herramientas de software para la predicción de la estructura de proteínas. Los enfoques incluyen modelado de homología, enhebrado de proteínas, ab initio métodos, predicción de estructura secundaria y predicción de hélice transmembrana y péptido señal. Algunos métodos exitosos recientes basados ​​en los experimentos CASP incluyen I-TASSER, HHpred y AlphaFold. Para obtener una lista completa, consulte el artículo principal.

Evaluación de servidores de predicción automática de estructuras Editar

CASP, que significa Evaluación crítica de técnicas para la predicción de la estructura de proteínas, es un experimento comunitario para la predicción de la estructura de proteínas que se lleva a cabo cada dos años desde 1994. CASP brinda la oportunidad de evaluar la calidad de la metodología humana no automatizada disponible ( categoría humana) y servidores automáticos para la predicción de la estructura de proteínas (categoría de servidor, introducida en el CASP7). [55]

El servidor de evaluación de modelo automatizado continuo CAMEO3D evalúa los servidores de predicción de estructura de proteínas automatizados semanalmente utilizando predicciones ciegas para estructuras de proteínas de reciente liberación. CAMEO publica los resultados en su sitio web.


Ver el vídeo: Estructura secundaria de proteínas 3D (Mayo 2022).