Información

¿Por qué los ángulos de Ramachandran del primer y último aminoácido no son necesarios para definir la estructura tridimensional completa de una cadena de proteínas?


Me he encontrado con una diapositiva ppt en línea del algoritmo bioinformático donde se dice que el ángulo de Ramachandran del primer y último aminoácido no es necesario para decir todas sus coordenadas internas. ¿No es realmente necesario para realizar simulaciones mientras se predice la estructura 3D de las proteínas? Por ejemplo, si tenemos una cadena de proteínas de N secuencia de aminoácidos, habrá 2N ángulos diedros. De los cuales necesitamos especificar solo los ángulos diedros 2N-2 (aparte del primer y último ángulo diedro de aminoácidos). ¿Por qué se ignoran los dos ángulos? Supongamos que todos los ángulos de enlace y las longitudes de enlace se proporcionan para toda la cadena.

He visto esta declaración en el siguiente ppt, diapositiva número -9, titulada representación de coordenadas internas, en el punto 3 de la viñeta.

https://www.cs.umb.edu/~nurith/cs612/Manipulation.pdf


Piense en el caso de una cadena de N = 3 puntos en el espacio. Solo hay ángulos asociados con el punto medio, los dos extremos no tienen ángulos asociados porque solo tienen un segmento incidente en lugar de dos.


Los genes NKCC y NCC

E. Topologías predichas pero no demostradas de proteínas SLC12A1, 2 y 3

Una proteína topología predicho en silico está a mitad de camino desde la secuencia del péptido hasta la estructura tridimensional real de la proteína (von Heijne, 2006). Por lo tanto, los algoritmos informáticos desarrollados para predecir la topología o la estructura de las proteínas en función de las propiedades fisicoquímicas de las secuencias de aminoácidos, así como mediante la comparación con las estructuras de proteínas conocidas (por ejemplo, el modelado de subprocesos y homología) son herramientas invaluables para inferir topología y / o relaciones función-estructura.

La mayoría de las proteínas SLC12A parecen compartir estructuras predichas similares con varios dominios transmembrana y extremos N o C intracelulares largos. Esta suposición se basa en los perfiles de hidrofilicidad / hidrofobicidad estimados de las secuencias de proteínas SLC12A deducidas de acuerdo con el algoritmo de Kyte-Doolittle (Kyte y Doolittle, 1982). Una característica clave de este algoritmo es el llamado "tamaño de ventana", es decir, el número de aminoácidos examinados a la vez para determinar un punto de carácter hidrófobo (Kyte y Doolittle, 1982). Por lo tanto, es fundamental elegir un tamaño de ventana que corresponda al tamaño esperado del motivo estructural bajo investigación (es decir, un tamaño de ventana de 19-21 (aproximadamente el tamaño de una hélice α que atraviesa una membrana) hará Los dominios se destacan en la escala Kyte-Doolittle (típicamente & gt1.6)). Sin embargo, se usaron tamaños de ventanas que iban de 11 a 15 aminoácidos para generar gráficos de hidropatía que predicen 12 dominios transmembrana (TM) en mamíferos miembros de la familia SLC12A (Caron et al., 2000 Delpire et al., 1994 Gamba et al., 1994 Gillen et al., 1996 Hiki et al., 1999 Moore-Hoon y Turner, 1998 Payne y Forbush, 1994 Payne et al., 1996 Yerby et al., 1997). Aunque se han propuesto modelos topológicos alternativos para miembros de la familia SLC12A (Park y Saier, 1996) y varias familias de proteínas de transporte incluyen miembros que probablemente tienen más o menos de 12 dominios TM (Español y Saier, 1995 Paulsen y Skurray, 1993), se acepta que la familia SLC12A son proteínas de 12 dominios TM.

Ahora está claro que el factor más importante para determinar la inserción de la membrana es la hidrofobicidad de las secuencias de aminoácidos de 19 a 21 (Zhao y London, 2006). Este concepto se representa mejor utilizando las energías libres de transferencia determinadas experimentalmente (ΔGRAMO) para cada aminoácido (es decir, una escala termodinámica de hidrofobicidad) propuesto originalmente por Wimley y White (Wimley y White, 1996). Por lo tanto, la gráfica de hidrofobicidad de Wimley-White (también conocida como octanol plot) identifica la posición de las hélices α transmembrana en secuencias de proteínas con menos ambigüedad que la gráfica de Kyte-Doolittle. Como se muestra en la Fig. 11.3, octanol Los gráficos obtenidos para SLC12A1 (NKCC2), SLC12A2 (NKCC1) y SLC12A3 (NCC) son diferentes a los propuestos originalmente para estos productos génicos utilizando el algoritmo Kyte-Doolittle con un tamaño de ventana de 11-15 (Delpire et al., 1994 Gamba et al., 1994 Payne y Forbush, 1994 Yerby et al., 1997). sin embargo, el octanol plot se correlaciona muy bien con el gráfico de Kyte-Doolittle si este último se construye utilizando un tamaño de ventana de 19-21 aminoácidos (Fig. 11.3).

Figura 11.3. Gráficos Kyte-Doolittle y White-Wimley de secuencias de proteínas NKCC2 y NKCC1. UNA. Topología de la proteína NKCC prevista. Los dominios transmembrana putativos (TM) se indican como recuadros grises a través de la bicapa lipídica. La posición de los aminoácidos NKCC2 que se predice que están localizados en los dominios de TM se numera debajo de cada dominio de TM potencial. La línea gris continua representa la cadena de aminoácidos de las proteínas NKCC2. Los puntos de color ubicados en las porciones citoplásmicas N-terminal y C-terminal de NKCC2s representan la ubicación de los residuos que se predice que serán fosforilados (azul: Ser, verde: Thr y negro: Tyr) y sitios potenciales de N-glicosilación (puntos rojos). El sitio potencial para la sulfinización de tirosina en el extremo N-terminal de NKCC2 se indica con una punta de flecha. Los sitios de fosforilación y sulfinación en las proteínas NKCC2 se predijeron usando NetPhos (www.cbs.dtu.dk/services/NetPhos) y Sulfinador (www.expasy.ch/tools/sulfinator), respectivamente. B. Gráficos de hidropatía de hNKCC2A (ABU69043) (arriba), rNKCC2A (ABU63482) (centro) y hNKCC1a (AAC50561) (abajo). Estos análisis se realizaron utilizando un tamaño de ventana de 19 residuos. Los tamaños de ventana de 19 o 21 hacen que los dominios hidrofóbicos que atraviesan la membrana se destaquen claramente (normalmente, valores & ampgt 1.6 en la escala Kyte y Doolittle). En estas condiciones, se predice que las proteínas hNKCC2 tienen 10 regiones TM: 174–198, 208–228, 259–279, 298–318, 323–349, 380–402, 413–441, 489–512, 551–579 y 604–627. Cada TM tiene aproximadamente 20 residuos de longitud y es muy idéntica entre las especies. Todas las MT pronosticadas en NKCC2 tienen preferencias energéticas por estar en el entorno lipídico, caracterizado por la energía libre total (ΔGRAMO) por encima de cero en el gráfico de hidropatía de la interfaz de White-Wimley. Las cargas medias de los aminoácidos se calculan dando a los residuos D (Asp) y E (Glu) una carga de -1, K (Lys) y R (Arg) una carga de +1, y el residuo H (His) una carga de +0,5. Los datos representados se obtuvieron utilizando jEMBOSS para Linux (emboss.sourceforge.net/Jemboss), TMap, TMPredProtScale (en el servidor de biología molecular ExPASy) y Servidor de predicción de estructuras PROTEUS v2.0 (wks16338.biology.ualberta.ca/proteus).

Los algoritmos de predicción basados ​​únicamente en gráficos de hidrofobicidad (Kyte y Doolittle, 1982) o escalas termodinámicas de hidrofobicidad (Wimley y White, 1996) son algo incompletos e inexactos. El hecho de que ~ 5% de las hélices α transmembrana en las estructuras conocidas sean muy cortas (& lt15 residuos) y solo se extiendan parcialmente por la membrana, junto con la falta de datos termodinámicos críticos, ha hecho que los algoritmos de predicción transmembrana sean algo insatisfactorios. No fue hasta hace poco que se informaron las contribuciones de energía libre de los aminoácidos individuales en diferentes posiciones a lo largo de la membrana (Hessa et al., 2007). Por lo tanto, la precisión de los algoritmos que predicen las hélices de TM se ha mejorado recientemente mediante el desarrollo de nuevas herramientas como MemBrain (Shen y Chou, 2008), TopPred ΔG (Hessa et al., 2007), GAMBAS REBOZADAS (Bernsel et al., 2008), ZPRED (Granseth et al., 2006) y PRO / PRODIV-TMHMM (Viklund y Elofsson, 2004). La mayoría de estos algoritmos son parte de TOPCONS servidor de predicción de topología de proteínas (topcons.cbr.su.se). Mediante el uso MemBrain o GAMBAS REBOZADAS, proteínas SLC12A1, SLC12A2 y SLC12A3 humanas (es decir, NKCC2, NKCC1 y NCC) se puede predecir que estas proteínas pueden tener 13 dominios TM, mientras que PRODIV, PRO o OCTUPUS predice 12 dominios TM (Fig. 11.4). Cabe mencionar que el modelo que tiene 13 dominios TM coloca los terminales N y C en diferentes compartimentos (dentro y fuera, respectivamente), lo que no está respaldado por la evidencia experimental actual.

Figura 11.4. Predicción por consenso de la topología de proteínas de membrana. La información topológica de las proteínas hNKCC2A, hNKCC1a y hNCCa (GenBank ABU69043, AAC50561 y AAC50355, respectivamente) se generó mediante el uso de cinco algoritmos diferentes: GAMBAS REBOZADAS, OCTUPUS, ZPRED, PRO / PRODIV-TMHMM (topcons.cbr.su.se/) y MemBrain, un algoritmo utilizado para predecir los extremos de los dominios de TM que tienen menos de 15 residuos. UNA. Topología predicha de proteínas NKCC y NCC según los algoritmos utilizados (MemBrain (rojo), GAMBAS REBOZADAS (azul), PRO / PRODIV y TOPCONS (verde)). Los dominios de TM predichos se indican como recuadros grises en la bicapa lipídica. La ubicación de aminoácidos NKCC / NCC que se predice que se ubicará en cada TM está numerada debajo de cada dominio transmembrana y varía según el algoritmo utilizado. La línea gris continua representa la cadena de aminoácidos de las proteínas NKCC / NCC, mientras que las líneas de puntos representan las topologías potenciales según el algoritmo utilizado. Se indican las porciones citoplásmicas N-terminal y C-terminal de NKCC / NCC. B. Energía libre total prevista (ΔGRAMO) valores de cada residuo en las secuencias de proteínas hNKCC2A (arriba), hNKCC1a (centro) y hNCCa (abajo).


Fondo

La taxonomía de proteínas [1-5] revela que las estructuras proteicas cristalográficas tienen sorprendentemente poca diversidad conformacional. Podría ser que ya se hayan encontrado la mayoría de las diferentes conformaciones [6, 7]. Esta aparente convergencia en la estructura de las proteínas proporciona la justificación para el desarrollo de técnicas de modelado comparativo o de subprocesamiento [8-12]. Estos enfoques intentan predecir la estructura terciaria de una proteína plegada utilizando bibliotecas de estructuras proteicas conocidas como plantillas. De acuerdo con las pruebas de Evaluación Crítica para Predicción Estructural (CASP) de toda la comunidad [13], en este momento este tipo de métodos tienen el mejor poder predictivo para determinar una conformación plegada.

En las regiones de bucle, los enfoques de modelado comparativo siguen careciendo de precisión [14, 15]. No es raro que haya huecos en las regiones del bucle que deban rellenarse mediante diversas técnicas de inserción. El éxito en el modelado de bucles también se limita a menudo a estructuras supersecundarias donde α-helices y β-Las hebras están conectadas entre sí mediante giros y vueltas relativamente cortos [16, 17]. En el caso de un bucle muy corto, con no más de tres residuos, la forma se puede determinar mediante una combinación de consideraciones geométricas y restricciones estereoquímicas [18]. En el caso de bucles más largos, se están desarrollando métodos basados ​​en plantillas e independientes de plantillas para predecir sus formas [19-21]. La suposición subyacente es que el número de conformaciones de bucle que pueden ser acomodadas por una secuencia dada debería ser limitado. Los diferentes fragmentos que ya están disponibles en la base de datos del Protein Data Bank (PDB) [22] podrían utilizarse como Ladrillos de lego, como bloques de construcción estructurales en la construcción de los bucles. Una secuencia de aminoácidos determinada se divide simplemente en fragmentos cortos y la forma del bucle resultante se deduce utilizando fragmentos relacionados homológicamente que tienen estructuras conocidas. Luego, la proteína completa se ensambla uniendo estos fragmentos. Para el proceso de unión de los fragmentos, se pueden utilizar tanto las funciones de energía de todos los átomos como las comparaciones con estructuras de plantilla estrechamente homólogas en el Protein Data Bank [8, 9, 12, 14].

En el presente artículo proponemos un nuevo método sistemático, puramente cuantitativo, para identificar y clasificar los bloques de construcción modulares de los bucles PDB. Identificamos un bucle siguiendo la convención DSSP [23]. Nuestro enfoque se basa en una función energética de primeros principios [24-29]. Se basa en el concepto de universalidad [30-36] para modelar los fragmentos de bucles de proteínas incluso largos en términos de diferentes parametrizaciones de un único pliegue que resuelve una variante [37, 38] de la ecuación discreta no lineal de Schrödinger (DNLS) [39, 40]. Nuestro punto de partida es la observación realizada en [41] de que más del 92% de los bucles en esas estructuras PDB que se han medido con una resolución mejor que 2,0 Å, se pueden componer a partir de 200 parametrizaciones diferentes del perfil de torsión, con RMSD mejor que 0,65 Ångström Precisión (raíz-media-distancia-cuadrada). Aquí refinamos esta observación, con el objetivo de desarrollarla en un esquema de clasificación de fragmentos de bucle sistemático. Para esto, consideramos solo aquellas estructuras PDB de ultra alta precisión que se han medido con una resolución mejor que 1.0 Å. Esto asegura que los factores B en las regiones del bucle sean pequeños y, en particular, que las estructuras no se hayan sometido a procedimientos de refinamiento extensos. De hecho, dos fragmentos de bucle deben considerarse diferentes solo cuando la distancia interatómica promedio es mayor que la distancia de fluctuación del factor B de Debye-Waller promedio. Si los factores B son grandes, cualquier intento sistemático de identificar y / o distinguir dos fragmentos se vuelve ambiguo. En el caso de estas estructuras de resolución intraalta, podemos apuntar a la precisión RMSD de 0,2 Å. Estimamos que este es el alcance de las fluctuaciones del punto cero. es decir. una distancia de alrededor de 0,2 Å corresponde a la intrínseco incertidumbre en la determinación de las posiciones de los átomos pesados ​​a lo largo del esqueleto de la proteína. Por lo tanto, cualquier diferencia menor de 0.2 Å entre las coordenadas atómicas promedio es esencialmente indetectable. Mediante construcciones explícitas, mostramos cómo en el caso de este subconjunto de estructuras de proteínas PDB de ultra alta resolución, los bucles se pueden modelar sistemáticamente utilizando combinaciones de la única torsión de la ecuación DNLS generalizada. Como tal, nuestro enfoque proporciona una base para un enfoque general para clasificar bucles en estructuras PDB cristalográficas de alta precisión, en términos de un concepto matemático de primeros principios basado en funciones de energía.


Resultados

Modelo global mejor que local para acoplamientos de residuos

La información mutua no se correlaciona suficientemente con la proximidad de los residuos.

Primero intentamos la predicción de las relaciones de proximidad residuo-residuo utilizando la medida directa de información mutua local (MI). MI (i, j) para cada par de residuos I, j es una entropía de diferencia que compara las frecuencias de co-ocurrencia observadas experimentalmente Fij(AI,Aj) de pares de aminoácidos AI, Aj en posiciones I, j de la alineación a la distribución FI(AI)Fj(Aj) que no tiene acoplamientos de pares de residuos (detalles en el Texto S1): (1) Mapas de contacto construidos a partir de pares de residuos asignados alto MI valores, y por lo tanto interpretados como contactos predichos, difieren sustancialmente de los mapas de contacto correctos deducidos de estructuras nativas, consistente con el trabajo de Fodor et al. [9] (Figura S1). Inspección visual de MI-contactos predichos como líneas que conectan pares de residuos superpuestos en la estructura cristalina observada confirma que los contactos predichos de MI a menudo son incorrectos y / o están distribuidos de manera desigual (Figura 3, izquierda, líneas azules). Es de suponer que esto se debe a la naturaleza local de MI, que se calcula de forma independiente para cada par de residuos I,j. Plausiblemente, el factor de confusión clave es la transitividad de las correlaciones de pares, donde el caso más simple involucra tripletes de residuos, por ejemplo, si el residuo B co-varía tanto con A como con C, porque B está espacialmente cerca de A y C, entonces A y C puede covariar incluso sin proximidad física (A – C es una correlación de pares transitiva). Cualquier medida local de correlación, no solo la información mutua, está limitada por este efecto de transitividad.

La extracción de información evolutiva sobre el acoplamiento de residuos y los contactos predichos de múltiples alineamientos de secuencia funciona mucho mejor utilizando el modelo estadístico global (derecha, Información directa, DI, Ecuación 3) que el modelo estadístico local (izquierda, Información mutua, MI, Ecuación 1). Los contactos predichos para DI (líneas rojas que conectan los residuos que se predice que se acoplarán a partir de la información de secuencia) están mejor posicionados en la estructura observada experimentalmente (diagrama de cinta gris), que los de MI (izquierda, líneas azules), que se muestran aquí para la proteína RAS ( superior) y proteína ELAV4 (inferior). Los pares de residuos de DI también se distribuyen de manera más uniforme a lo largo de la cadena y se superponen con mayor precisión con los contactos en la estructura observada (estrellas rojas [predichas, círculos grises [observados] en el centro del mapa de contactos, triángulo superior derecho) que aquellos que usan MI (azul [ predice], círculos grises [observados] en el centro, triángulo inferior izquierdo). Los detalles de los mapas de contacto para todas las proteínas que comparan los contactos previstos y observados se encuentran en las Figuras S1 y S2, Texto S1.

Acoplamientos de residuos efectivos de un modelo de entropía máxima global.

Para desenredar tales efectos de correlación directa e indirecta, utilizamos un modelo estadístico global para calcular un conjunto de acoplamientos de residuos directos que explique mejor todas las correlaciones de pares observadas en la alineación de secuencia múltiple (ver Métodos y Texto S1) [15], [47]. Más precisamente, buscamos un modelo general, PENSILVANIA1…AL), para la probabilidad de una secuencia de aminoácidos particular A1…AL de longitud L ser un miembro de la familia isoestructura en consideración, de modo que las probabilidades implícitas PAGij(AI,Aj) para apariciones de pares (marginales) son consistentes con los datos. En otras palabras, requerimos PAGij(AI,Aj) ∼fij(AI,Aj), dónde Fij(AI,Aj) son las frecuencias de pares observadas de aminoácidos en las posiciones I y j en las secuencias conocidas en la familia y los marginales PAGij(AI,Aj) se calculan sumando PENSILVANIA1…AL) sobre todos los tipos de aminoácidos en todas las posiciones de secuencia que no sean I y j. Como la especificación de las propiedades de los pares de residuos (ignorando los términos de orden superior) deja la secuencia de aminoácidos sin determinar, existen muchos modelos de probabilidad que serían consistentes con las frecuencias de pares observadas. Por lo tanto, se puede imponer una condición adicional, la condición de máxima entropía, que requiere una distribución máximamente uniforme de las probabilidades, sin dejar de ser coherente con los datos.Las distribuciones de probabilidad que son soluciones de este problema de optimización restringida son de la forma [11], [45], [49]: (2) Aquí AI y Aj son aminoácidos particulares en posiciones de secuencia I y j, y Z es la constante de normalización. Los multiplicadores de Lagrange miij(AI,Aj) y hI(AI) Restringir la concordancia del modelo de probabilidad con apariciones de residuos individuales y de pares, respectivamente. Este modelo estadístico global es análogo a las expresiones de la física estadística para la probabilidad de configuración de un sistema de partículas múltiples, como en los modelos de Ising o Potts. En esta analogía, una posición de secuencia I corresponde a una partícula, como un espín, y puede estar en uno de 21 estados (AI = 1..21) y el hamiltoniano (la expresión entre paréntesis) consiste en una suma de energías de acoplamiento partícula-partícula miij(AI,Aj) y energías de acoplamiento de partículas individuales a campos externos hI(AI).

Para nuestro problema de secuencia de proteínas, el miij(AI,Aj) en la ecuación 2 son acoplamientos de residuos esenciales que se utilizan en la predicción de restricciones de plegamiento y la hI(AI) son términos de residuo único que reflejan la coherencia con las frecuencias de residuo único observadas. Por tanto, estos parámetros son óptimos con respecto a las dos condiciones clave, (1) coherencia con los datos observados (frecuencias de par y residuo único) y (2) entropía máxima de la probabilidad global sobre el conjunto de todas las secuencias posibles. En la práctica, una vez que estos parámetros se determinan mediante la inversión de la matriz (ecuaciones M4, M5), se pueden calcular directamente las probabilidades efectivas de los pares. PAGij Dir (AI,Aj) (Ecuación M6), y de estos los acoplamientos de residuos efectivos ("información directa", en analogía con el término "información mutua") DIij sumando todos los pares de aminoácidos posibles AI,Aj en posiciones I,j: (3) La diferencia crucial entre esta expresión para información directa DIij (Ecuación 3) y la ecuación de información mutua MIij (Ecuación 1) reemplaza las probabilidades de pares estimadas en base a los recuentos de frecuencias locales Fij(AI,Aj), por las probabilidades de pares doblemente restringidas PAGij Dir (AI,Aj), que son globalmente consistentes en todos los pares I,j.

El modelo estadístico de máxima entropía global revela la proximidad de residuos.

Ahora examinamos si las puntuaciones de acoplamiento de residuos DIij (Ecuación 3 Ecuación 22, Texto S1) del modelo de máxima entropía proporciona información sobre la proximidad espacial. ¿Son pares de residuos con mayor DIij ¿Es más probable que las puntuaciones estén cerca unas de otras en la estructura 3D? Examen de mapas de contacto que muestran pares de residuos con DIij Los valores, superpuestos en mapas de contacto para una estructura (cristalina) observada, revelan una coincidencia sorprendentemente precisa. Los pares de residuos de alta puntuación a menudo están cerca en la estructura observada, y estos pares están bien distribuidos a lo largo de la secuencia y estructura de la proteína, en contraste con los pares con alta puntuación. MIij valores, (Figura 3, Figura S2). Este notable nivel de predicción de contacto correcta se mantiene para todos nuestros casos de prueba (Tabla 1, Tabla S1) en las cuatro clases principales.

Otros han demostrado que dados suficientes contactos correctos (verdaderos positivos) combinados con una falta de contactos incorrectos (falsos positivos), los contactos predichos se pueden implementar como restricciones de distancia residuo-residuo para plegar proteínas de las cuatro categorías principales con hasta 200 residuos hasta menos de 3 Å Cα-Error RMSD de la estructura cristalina [50] y, en trabajos posteriores, hasta 365 residuos con una precisión inferior a 3 Å Cα-Error RMSD [50], [51]. Por lo tanto, nos animaron a utilizar nuestras relaciones de proximidad predichas a ciegas como restricciones de distancia residuo-residuo para plegar proteínas. de novo de cadenas polipeptídicas extendidas.

Estructuras de proteínas de todos los átomos inferidas de las limitaciones evolutivas

A pesar de los análisis elegantes que utilizan subconjuntos de contactos reales [50], [51], no es a priori Es obvio hasta qué punto la precisión de la predicción del contacto se traduce en precisión de la predicción de la estructura 3D y, en particular, qué tan robusta es dicha predicción ante la presencia de falsos positivos. Por lo tanto, decidimos evaluar la precisión de la predicción de contacto mediante el criterio muy estricto de precisión de las estructuras 3D predichas.

Generación de estructuras modelo.

A partir de una cadena polipeptídica extendida con la secuencia de aminoácidos de una proteína de la familia (Tabla S1), usamos algoritmos de geometría de distancia bien establecidos, como se usa para la determinación de la estructura por espectroscopía de resonancia magnética nuclear (RMN) [52] (Texto S1) . Las restricciones de distancia se construyeron utilizando pares de residuos con pares de puntajes DI altos y restricciones de estructura secundaria predichas a partir de la secuencia (Texto S1, Apéndice A1, Tabla S2). El protocolo genera conformaciones 3D iniciales y luego aplica recocido simulado [48] (pasos descritos en el Texto S1 y el Apéndice A2). Razonamos que el número de restricciones de distancia (norteC) necesarios deben escalar monótonamente con la longitud de la proteína L, como se ve en la reconstrucción de pliegues a partir de mapas de contacto observados [50], [51]. Para explorar la variabilidad de la estructura predicha usando un conjunto dado de restricciones de distancia, generamos 20 estructuras candidatas para un rango de norteC valores que comenzaron en norteC = 30 y se incrementa en pasos de 10 al múltiplo de 10 más cercano para L, por ejemplo, de norteC = 30 para norteC = 160 para las proteínas Hras que tiene 160 residuos centrales en la alineación PFAM. Así, en total generamos del orden de 2 * L estructuras tridimensionales candidatas para cada familia de proteínas como candidatas de predicción, más precisamente, entre 400 y 560, dependiendo del tamaño de la proteína (Tabla 1, Apéndice A3). En la práctica, puede ser suficiente un número menor de estructuras candidatas. Cada candidato es una predicción de la estructura de todos los átomos para una proteína de referencia particular de interés elegida de la familia. Las estructuras del modelo satisfacen una fracción máxima de las restricciones de distancia predichas y cumplen las condiciones de buena estereoquímica y consistencia con potenciales intermoleculares no enlazados. La estructura predicha superior para cada proteína se selecciona mediante la clasificación ciega de estas estructuras candidatas utilizando criterios objetivos, principalmente geométricos (Figura 2, Figura S2, Apéndice A3).

Inferencia de estructura 3D para proteínas pequeñas y grandes de diversos tipos de pliegues

Para evaluar el contenido de información de las correlaciones de pares de residuos con respecto a la predicción de pliegues de proteínas, aplicamos el método a casos cada vez más difíciles. Comenzamos con pequeñas proteínas de dominio único y avanzamos hacia objetivos más grandes y difíciles, y finalmente cubrimos un conjunto de dominios de proteínas bien estudiados de amplio interés biológico, de diferentes clases de pliegues. Reportamos resultados detallados para cuatro familias de ejemplo y resultados resumidos para 11 familias de prueba adicionales, y proporcionamos vistas 3D detalladas de las 15 familias de proteínas de prueba en la Figura S3 y coordenadas 3D detalladas y archivos de sesión Pymol para inspección interactiva en los Apéndices A3 y A4, http : //cbio.mskcc.org/foldingproteins.

Pequeño: un dominio de unión a ARN (RRM).

La predicción ciega del dominio RRM de 71 residuos de la proteína Elav4 humana (Uniprot ID: Elav4_human) es un ejemplo típico de una proteína más pequeña. Las restricciones de distancia se derivan de un rico corpus de proteínas de ejemplo de 25K en la familia PFAM. La estructura pronosticada con la clasificación más alta tiene un (excelente) bajo de 2.9 Å Cα -RMSD desviación de la estructura cristalina en 67 de 71 residuos, una puntuación de TM de 0,57 y GDT_TS 54,6, lo que indica una buena similitud estructural general con la estructura cristalina observada, [53], [54], (Figura 2 arriba, Tabla 1) . Tiene una topografía correcta de las cinco hebras β y dos hélices α, estropeada solo por un patrón de enlace H faltante entre las hebras 1 y 3, al menos en parte debido al truncamiento de la hebra 1, una consecuencia de la corta longitud de la secuencia en la alineación PFAM. Los hilos 2 y 3 se alinean con solo 1,6 Å Cα-RMSD desviación sobre la longitud de las hebras predichas y están posicionadas lo suficientemente bien para la formación de puentes de hidrógeno, con algún registro correcto. Curiosamente, la cuarta cadena β (penúltima) omitida por el método de predicción de la estructura secundaria se coloca en la región correcta en 3D: este es uno de varios ejemplos en los que la información de acoplamiento de residuos anula la predicción local incorrecta. Es muy probable que el dominio pronosticado de Elav4 mejor clasificado se encuentre dentro de la cuenca de refinamiento de la estructura nativa.

Tamaño mediano: oncogén Ras (dominio G), un dominio α / β con un sitio activo GTPasa.

La familia del dominio G en PFAM, con la proteína protooncogénica Ras humana (Uniprot-ID: hras_human) elegida como la proteína de interés, tiene un alineamiento de secuencia múltiple central (MSA) de 161 residuos. La estructura tiene un pliegue α / β con una hoja β de 6 hebras, rodeada por 5 hélices α, una de las cuales (α-2) está involucrada en la transición del cambio de GTPasa después de la hidrólisis de GTP. La estructura mejor clasificada y predicha ciegamente es 3.6 Å Cα-RMSD de la estructura cristalina, más de 161 residuos (Figura 2 en el medio) y tiene una puntuación de TM alta de 0,7 (rango 0,0-1,0, con 1,0 implicando que el 100% de los residuos están dentro de una distancia establecida desde la posición correcta [53]). Las seis hebras β y las cinco hélices α se colocan en las posiciones espaciales correctas y están correctamente enhebradas (Apéndices A3 y A4). Las 6 hebras β, que forman 5 pares de hebras β, no están dentro de la distancia de unión de hidrógeno para todos los enlaces de la columna vertebral, pero se puede predecir fácilmente el registro correcto para 26/30 de los pares de residuos, Text S1. La precisión de la topografía general de las estructuras mejor clasificadas es notable (Tabla 1) y, hasta donde sabemos, actualmente no se puede lograr para proteínas de este tamaño por ningún medio. de novo método de predicción de la estructura [27].

Más grande: tripsina, una enzima con una estructura de barril β de dos dominios.

La familia de proteínas más grande (no de membrana) probada en la prueba ciega es la familia de proteasas de serina multiplicada por tripsina, con tripsina de rata elegida como proteína representativa. Su tamaño, con 223 aminoácidos, es significativamente mayor que el de las proteínas que pueden predecirse mediante otros métodos computacionales de novo. La tripsina consta de cadenas β en dos dominios de barril β estructuralmente isomorfos. La estructura pronosticada mejor clasificada tiene 4,3 Å Cα-Error de RMSD sobre 186 de 223 residuos (Figura 2 inferior, Tabla 1, Apéndices A3 y A4). La distribución general de los elementos de la estructura secundaria en el espacio es aproximadamente correcta y nuestro método predice correctamente 5 pares de cisteínas con enlaces disulfuro, que se encuentran dentro de nuestra alineación, Texto S1. La topografía del primer barril β (dominio 1) es buena y plausiblemente dentro del rango de refinamiento de la estructura observada. Se identifican cinco pares correctos de cadenas β (uno ausente) y se predice el 70% de los residuos emparejados con enlaces de hidrógeno con el registro correcto, Texto S1. Sin embargo, el dominio 2 tiene una serie de progresiones de bucle incorrectas (consulte la sesión de Pymol en el Apéndice A3) y posiblemente (mediante inspección) no se encuentre dentro del rango de refinamiento de la estructura correcta. Predecir la estructura de las proteínas en la familia de las tripsina es particularmente difícil, ya que se sabe que la estructura sufre un cambio conformacional después de la escisión del péptido de activación [55] y, como el péptido N-terminal y C-terminal cruza de un dominio al otro.

Inferir la configuración del residuo en el sitio activo de la tripsina.

A pesar de la calidad limitada de la predicción de la estructura en el dominio 2 de la tripsina, es interesante que las estructuras mejor clasificadas colocan la Cα átomos de los residuos de la tríada del sitio activo altamente conservados Ser-His-Asp en relativo proximidad espacial, es decir, dentro de 0,64 3 Å Cα-RMSD (y 1,3 Å todos los átomos-RMSD) error, después de la superposición de los tres residuos del sitio catalítico con los mismos tres residuos de la estructura experimental (Figura S4). Esto puede reflejar fuertes limitaciones evolutivas cerca de sitios funcionales y puede implicar que la configuración de reside alrededor de un sitio activo puede predecirse con mayor precisión que otros aspectos detallados de la estructura 3D. La capacidad de predecir constelaciones de sitios activos a este nivel de precisión sería particularmente interesante para el diseño de fármacos en plantillas estructurales previstas.

Exploración: rodopsina, una proteína transmembrana α-helicoidal.

La rodopsina es la primera proteína de membrana predicha usando este método. Esta importante clase de proteínas de membrana tiene 7 hélices y la familia PFAM de la que se infieren las restricciones de distancia contiene muchas subfamilias de receptores acoplados a proteína G de clase A [56]. Para la estructura de rodopsina pronosticada mejor clasificada (4,84 Å Cα-RMSD error de una estructura cristalina representativa sobre 171 residuos), la topografía general de las hélices es precisa (puntuación de TM 0.5), con la mayor parte de la desviación posicional que surge de las hélices 1 y 7, que están desalineadas en relación con la dirección perpendicular a la superficie de la membrana, (Tabla 1, Figura S3). La estructura predicha con la puntuación de TM más alta (0,55) y 4,29 Å Cα-RMSD sobre 180 residuos, también desalinea las hélices terminales pero recapitula una red de distancias cercanas (& lt4.5 Å) entre las cadenas laterales de Arg135 (hélice III) y Glu247, Thr251 (hélice VI) así como otros conocidos proximidades entre hélices como Asn78 (hélice II) a Trp161 (hélice IV) y Ser127 (hélice III) [57]. Dado que la versión actual del método no tiene información sobre la orientación de la membrana para las proteínas de la membrana, esto constituye un excelente punto de partida para la aplicación futura del método a la predicción de la estructura 3D de las proteínas de la membrana.

Clasificación de estructuras inferidas.

Para llegar a predicciones ciegas útiles y objetivas, el conjunto de estructuras inferidas para cada familia se clasifica según criterios objetivos basados ​​en principios físicos y en el conocimiento a priori de los principios generales de la estructura de las proteínas. En la implementación actual, utilizamos la coherencia con la observación empírica bien establecida de la torsión de la cadena hacia la derecha en hélices α y la torsión entre hebras a la derecha para los pares de hebras β [58] (Texto S1). Los diedros virtuales de las hélices α y las torsiones β pronosticadas en las estructuras candidatas se combinaron como una puntuación, ponderada por el número relativo de residuos en las hebras β y hélices α para cada proteína, véanse las puntuaciones de todas las estructuras en Apéndice A5. Encontramos que estos criterios geométricos son efectivos para eliminar artefactos que parecen surgir del hecho de que las restricciones de distancia no tienen ninguna información quiral, de modo que las estructuras iniciales antes del refinamiento usando dinámica molecular, aunque son consistentes con las restricciones de distancia, pueden tener una quiralidad incorrecta, ya sea global o localmente. También eliminamos las estructuras candidatas con nudos (como con la predicción de tripsina mejor clasificada) de acuerdo con el método de Mirny et al. [59].

La estructura del modelo de todos los átomos con la clasificación más alta se toma como la estructura superior predicha a ciegas (Tabla 1, Tabla S1). Se espera que las estructuras de menor rango tengan menor precisión de estructura 3D, pero esto debe probarse después de una predicción ciega en comparación con estructuras conocidas. Como prueba de todo el procedimiento y los criterios de clasificación, evaluamos nuestras predicciones ciegas comparando la puntuación de clasificación de las estructuras predichas con la estructura observada experimentalmente, a partir de la cristalografía de rayos X, de la proteína de referencia elegida (Texto S1, Figura 4A , Figura S5 y Apéndice A5). Para proteínas como RAS y tripsina (Figura 4B), el criterio objetivo clasifica con éxito las estructuras predichas con la C más bajaα-Error de RMSD a una estructura cristalina como puntuación más alta. Como eliminamos proteínas obviamente anudadas [59], perderíamos proteínas genuinamente anudadas [60] que, sin embargo, rara vez se observan.

UNA. El rendimiento general de la predicción de la estructura de novo informada aquí basada en los contactos inferidos de la información evolutiva (EIC), varía de bueno a excelente para las 15 proteínas de prueba (a la izquierda: tipo de estructura 3D [α = α-helix-conteniendo, β = que contiene cadena β, 7tm-α = contiene siete hélices transmembrana] entre paréntesis: tamaño del dominio proteico / número de residuos usados ​​para Cα-Cálculo del error RMSD en la barra: ID de la base de datos Uniprot). Las barras más grandes significan un mejor rendimiento, es decir, una C más bajaα-Error de coordenadas RMSD. Izquierda: rendimiento de la estructura mejor clasificada para cada proteína objetivo de 400 a 560 (según el tamaño de la proteína, 20 estructuras por norteC compartimiento, norteC en pasos de 10, detalles en el Apéndice A3 y A6) estructuras candidatas en modo de predicción ciega derecha: rendimiento de la mejor estructura, en retrospectiva, de 20 estructuras candidatas generadas, para 20 conjuntos de restricciones que van desde 10∶200, en pasos de 10. Esto refleja lo que se podría lograr con mejores criterios de clasificación o una validación independiente posterior a la predicción de la calidad de la estructura (detalles de la Tabla 1 de las puntuaciones de clasificación ciega en el Apéndice A5 de la Web). Otros métodos bien aceptados para la evaluación de errores, como GDT-TS y la puntuación de TM, son útiles para fines de comparación (Tabla S1, Apéndice A6 en la Web). B. Puntuación de clasificación de cada estructura candidata (cuantificación de la calidad de estructura esperada) versus Cα-Error de RMSD. Idealmente, las puntuaciones más altas corresponden a un error más bajo. La distribución de las estructuras candidatas (puntos negros) para Elav4, Ras y tripsina muestra, en retrospectiva, que los criterios de clasificación utilizados aquí son relativamente útiles y ayudan a anticipar qué estructuras probablemente sean las mejores (gráficos para todas las proteínas probadas en la Figura S5 ). En el modo de predicción ciega, una lista de estructuras 3D candidatas predichas debe clasificarse por criterios objetivos y automatizados, con una única estructura clasificada en primer lugar o un conjunto de estructuras clasificadas en primer lugar nominadas como predicciones preferidas.

Evaluación de la precisión de la predicción: estructuras 3D

Resumen de la precisión 3D ciega para 15 proteínas de prueba de estructura conocida.

Nos sorprendió la extensión y el alto valor de la información en las restricciones de distancia derivadas sobre el pliegue 3D de los ejemplos de todas las clases de pliegues principales que contienen diversas proporciones de hélices α y láminas β. Este alto contenido de información en acoplamientos de residuos, derivado del modelo estadístico de máxima entropía, se extiende, hasta ahora, a proteínas tan grandes como dominios G, como H-ras, con 161 residuos, y serina proteasas, como tripsina, con 223 residuos. así como la familia de la rodopsina, una proteína transmembrana, con 258 residuos alineados. Hasta ahora, este tamaño ha estado fuera del rango de los de novo métodos de predicción incluso cuando se utilizan fragmentos tridimensionales [22], [61].En general, encontramos que los pliegues α / β predichos, entre las 15 proteínas investigadas en detalle, producen la topografía general más precisa (Tabla 1, Tabla S1, Figura S5.). Anticipamos que estos resultados probablemente se extenderán a muchas familias de proteínas y que se pueden generar estructuras precisas para muchas de ellas utilizando restricciones de distancia derivadas de la información evolutiva y la estructura secundaria predicha sola, seguida de un refinamiento de energía. Para 12 de un conjunto de 15 familias de proteínas (Tabla 1), las estructuras mejor clasificadas a ciegas tienen errores de coordenadas de 2.7 Å – 4.8 Å para al menos el 75% de los residuos, utilizando la práctica aceptada de omitir una fracción moderada de mal ajuste residuos para evitar una influencia exagerada de los valores atípicos que resultan del cuadrado en la definición de Cα-RMSD (usando la suite MaxCluster [62]). Para la mayoría de los propósitos prácticos, se podría considerar que están dentro de la cuenca de atracción dentro de la cual es muy probable que se pueda identificar el pliegue correcto particular, que estimamos aproximadamente que tiene un radio de aproximadamente 5 Å Cα-RMSD. Las excepciones parciales son la rodopsina (OPSD) para la cual el relativamente bajo 4.8 Å Cα-El error de RMSD se limita a 171 de 258 residuos (66%) y PCBP1 a 4,7 Å para 46/63 residuos (73%). Para estas proteínas, la concordancia se limita a una fracción más pequeña, aunque todavía considerable, de la proteína y es menos probable que se reconozca el pliegue general correcto. La principal excepción es SPTB2 a 4.0 Å para 47/108 residuos (44%), que consideramos no satisfactorio. Los puntajes de TM habituales en CASP reflejan estas diferencias y es plausible que las predicciones mejor clasificadas para 11 de las 15 proteínas de prueba se consideren excelentes para estructuras modeladas de novo de este tamaño (Tabla S1) [27], [61] , [63].

Un examen detallado de los contactos cercanos de las estructuras predichas mejor clasificadas revela violaciones interesantes (Figura 5). Para Ras y tripsina, las restricciones de DI falso positivo (entre Ser145 y Asp57 para Ras, y Ser127 y Ala37 para tripsina) no se satisfacen en las estructuras pronosticadas superiores, mejorando así la precisión. Por el contrario, se establece un contacto entre la hebra β N-terminal y la hélice C-terminal en RAS y la hebra β C-terminal en ELAV4, a pesar de que no se utilizan restricciones en la vecindad de estos contactos (círculos grises, Figura 5).

Las estructuras mejor clasificadas a ciegas se evalúan en términos de calidad de predicción de contacto (NC = 40 para Elav4, NC = 130 para Ras, NC = 160 para tripsina). Las restricciones predichas (estrellas rojas) son correctas cuando coinciden con contactos derivados de la estructura observada (círculos grises) y por lo demás incorrectas (falsos positivos, rojo sobre blanco). Los contactos derivados de la estructura 3D predicha (azul oscuro) coinciden en general con los de la estructura observada (gris). La naturaleza cooperativa del proceso de predicción de plegado permite situaciones favorables, en las que las regiones de contactos no tocadas por una restricción predicha (rojo) todavía se predicen correctamente (círculo negro para RAS, azul oscuro sobre gris, sin rojo) y las restricciones de falsos positivos no son fuertes suficiente para generar contactos incorrectos (círculo negro izquierdo Elav4, estrella roja, sin azul oscuro ni gris). Sin embargo, en situaciones desfavorables, las restricciones que faltan pueden implicar que las regiones de contacto se pierden total o parcialmente (círculo negro, tripsina) o en su mayoría (círculo negro derecho para Elav4, gris adyacente y más ancho que el azul oscuro).

La mejor precisión de predicción 3D en las 400 estructuras candidatas principales.

Para evaluar el potencial del método y con vistas a futuras mejoras de los criterios de clasificación para conjuntos de estructuras candidatas, se puede hacer la pregunta, en retrospectiva, cuál de, digamos, 400 estructuras candidatas tiene la mayor precisión. Esta pregunta es análoga a los informes de predicción de la estructura de la proteína que discuten la relación (diagramas de dispersión) de, por ejemplo, la energía del modelo contra el error del modelo. Aquí, las mejores estructuras candidatas por puntuación de TM, seleccionadas entre 400 estructuras candidatas para cada proteína (norteC = 10-200), tienen puntuaciones de TM de 0,5 a 0,76 y, por lo general, un error más bajo que la estructura clasificada ciegamente superior, que van desde 2,8 Å a 4,6 Å Cα-RMSD para las 15 familias, que cubre al menos el 80% de los residuos, con la excepción de OPSD donde logramos 4,3 Å para 180/258 residuos (66%), (Figura 4B, Tabla1, Tabla S1). El hecho de que, en la mayoría de los casos, se encuentren mejores estructuras 3D entre los 400 candidatos principales es una indicación positiva no trivial, ya que el espacio de búsqueda conformacional de los pliegues de proteínas es tan grande que los métodos aleatorios o los métodos moderadamente efectivos tendrían un valor extremadamente bajo. probabilidad de lograr errores en este rango bajo en tan solo 400 estructuras. Sin embargo, algunas de las estructuras generadas aquí entre las 400 principales parecen topológicamente incorrectas, con la cadena de polipéptidos pasando a través de bucles de una manera que, según la intuición visual, es atípica de las estructuras completamente correctas. Tales estructuras topológicamente incorrectamente no estarían dentro de una cuenca de atracción de refinamiento de energía convencional, por ejemplo, mediante recocido simulado. Esto indica que ni la C bajaα-RMSD como medida de precisión general, ni la puntuación de modelado de plantillas (TM) desarrollada más recientemente, ni la prueba de distancia global - puntuación total (GDT-TS), son indicadores totalmente informativos de la calidad de la estructura. Estas métricas clásicas de comparación de estructuras deben complementarse con medidas más sofisticadas, que cuantifiquen las diferencias topográficas en la progresión de la cadena en el espacio 3D, una dirección para el trabajo futuro [64], [65], junto con un análisis de violaciones de restricciones en el espíritu de Miller y col. [3]. En cualquier caso, la alentadora alta precisión de los pliegues que generamos entre un número relativamente pequeño de candidatos implica que la mejora de los criterios de clasificación puede conducir a un mejor conjunto de predicciones totalmente ciegas y mejor clasificadas.

Límites técnicos actuales de precisión de predicción 3D.

Como una estimación de la precisión máxima alcanzable por este método y su implementación particular, realizamos cálculos de referencia utilizando restricciones de distancia artificiales, totalmente correctas, derivadas de la estructura observada experimentalmente. Con este conjunto ideal de restricciones, podemos construir modelos de estructura de proteínas con un error no inferior a aproximadamente 2,0 Å Cα-RMSD (Texto S1, Tabla S3, valores más grandes para algunas de las proteínas más grandes). Esto coloca un límite inferior en el error esperado, inherente a la geometría de la distancia y parte del refinamiento del método y este error se escalará en cierta medida con la longitud de la proteína, como otros han observado [50]. Que logremos estructuras candidatas cercanas a estos límites con restricciones de distancia predichas es consistente con la noción de que los acoplamientos de residuos inferidos contienen casi toda la información requerida para encontrar la estructura de la proteína nativa, al menos para las 15 familias de proteínas examinadas aquí. Este límite inferior técnico también representa un desafío para la mejora de los métodos genéricos para el cálculo de estructuras precisas de todos los átomos a partir de restricciones de distancia.

Evaluación de la precisión de la predicción

Precisión de la predicción de contactos.

La precisión de la predicción de estructuras 3D depende fundamentalmente de la precisión de la predicción de contacto y la elección de las restricciones de distancia de un conjunto de contactos previstos. Tenga en cuenta que la proximidad residuo-residuo es un requisito diferente al contacto residuo-residuo, ya que los residuos pueden estar cerca unos de otros en el espacio sin ninguno de sus átomos, estando en contacto interatómico (definido como distancia interatómica cercana al mínimo de no- potenciales interatómicos enlazados ('van der Waals'), digamos, alrededor de 3,5 Å). Aquí, usamos el término contacto entre residuos de manera intercambiable con proximidad entre residuos, es decir, distancia mínima del átomo de menos de 5 Angstroms. Evaluamos la precisión de la predicción de contacto en términos del número de verdaderos positivos y falsos positivos entre los contactos previstos, es decir, los que están de acuerdo y los que no están de acuerdo con los contactos observados en estructuras proteicas 3D conocidas.

Encontramos que los pares de puntuación más alta proporcionan información notablemente precisa sobre la proximidad residuo-residuo (Figura 6A, Figuras S6 y S7). Por ejemplo, la tasa de verdaderos positivos está por encima de 0,8 para los primeros 50 pares para HRAS y aún por encima de 0,5 para los primeros 200 pares para otras proteínas, es más baja pero todavía relativamente alta, por ejemplo, por encima de 0,7 y 0,4 para los primeros 50 y 200 para ELAV4. Estos resultados son consistentes con nuestra evaluación paralela de la precisión de la predicción de contacto para un gran número de dominios de proteínas bacterianas [47] y representan una mejora significativa con respecto a los métodos locales de predicción de contacto a partir de mutaciones correlacionadas o coevolución. No es sorprendente que haya una tendencia general a una mayor tasa de predicción de contacto positivo verdadero que dé como resultado estructuras 3D mejor predichas.Las estructuras predichas de proteínas como Ras y CheY con una alta proporción de contactos predichos positivos verdaderos tienden a ser más precisas que aquellos con tasas más bajas, por ejemplo, el dominio KH de PCBP1 y el dominio de homología de calponina de SPTB2. Sin embargo, esta relación entre la proporción de verdaderos positivos y la precisión de las estructuras mejor predichas no es tan simple como cabría esperar, Figuras S6, S8 y S9. Por ejemplo, las estructuras predichas de tiorredoxina son en general más precisas que las estructuras predichas del dominio de lectina (A8MVQ9_HUMAN) a pesar del hecho de que la tiorredoxina tiene una tasa positiva verdadera más baja que el dominio de lectina para sus contactos predichos. Dado que la calidad de las estructuras 3D podría depender también de la distribución de los contactos a través de la cadena, para cada proteína también calculamos la distancia de un contacto experimental al contacto predicho más cercano y esta "extensión" mostró una buena correlación con la Cα-Precisión RMSD lograda, (Figura S10 y Texto S1).

Evaluación de la precisión en términos de contactos previstos (A) y estructuras 3D previstas (B). (A) Los dos modelos globales, el modelo de red bayesiana (BNM, verde [13]) y el modelo de información directa (DI, rojo, este trabajo y [47]) tienen una tasa consistentemente alta de contactos correctamente predichos (verdaderos positivos) entre los pares de residuos mejor clasificados de NC, dos modelos locales, información mutua (MI, verde, ecuación 1) y SCA (negro, [66]) tienen una tasa consistentemente más baja de verdaderos positivos. Aquí, local se refiere a la independencia estadística de cada par i, j, mientras que global se refiere a la consistencia estadística de todos los pares. En (B), solo las estructuras 3D predichas (verde, rojo BNM, EIC) para los modelos globales concuerdan bien con la estructura observada (gris) Cα-RMSDs se calcula sobre el número de residuos entre paréntesis (sesiones de Pymol para todas las estructuras en Apéndice Web A4). Los intentos de generar estructuras 3D para los dos métodos locales MI y SCA fallaron (no se muestra). La comparación de (A) y (B) confirma que una tasa más alta de verdaderos positivos para la predicción de contactos conduce a mejores estructuras 3D y que para DI se necesita al menos una tasa de verdaderos positivos de aproximadamente 0,5 para aproximadamente 100 contactos previstos, dependiendo del tamaño y otros detalles de familias de proteínas particulares. Curiosamente, una tasa de falsos positivos tan alta como aproximadamente 0,3-0,5 puede seguir siendo coherente con una buena predicción de la estructura 3D.

Comparación de la precisión de la predicción de contacto entre modelos globales y locales.

¿Qué tan bien funcionan otros métodos de predicción de contactos? Los dos modelos globales, el modelo de red bayesiana (BNM, [13], [46]) y el modelo DI (este trabajo y [15] tienen una tasa consistentemente alta de contactos correctamente predichos (tasa positiva verdadera) entre los principales norteC pares de residuos clasificados en comparación con dos modelos locales, MI (Ecuación 1) y análisis de acoplamiento estadístico (SCA, [66]), ambos tienen una tasa más baja de verdaderos positivos (Figura 6A, Figuras S6, S7, S11, S12, S13, S14 y S15). La precisión relativamente alta de la predicción de contacto en el modelo BNM nos animó a generar estructuras 3D predichas basadas en los pares de residuos clasificados BNM como base para las restricciones de distancia inferidas, siguiendo el protocolo desarrollado para el modelo DI. Para diez proteínas de prueba, las estructuras 3D de todos los átomos plegadas para BNM concuerdan bien con la estructura observada (estructuras verdes en la Figura 6B y datos no mostrados). En general, la Cα-Los errores de RMSD son algo más altos para las estructuras del modelo BNM que para el modelo DI (estructuras rojas en la Figura 6B). En particular, usando la notación [identificador de proteína / error para BNM / error para DI], tenemos: [RASH / 5.6 Å / 2.8 Å], [ELAV4 / 3.8 Å / 2.6 Å], [YES / 4.6 Å / 3.6 Å ] [CADH / 4.7 Å / 3.9 Å] y la tripsina no alcanzó una precisión inferior a 12 Å Cα-RMSD con las restricciones BNM (Figura 6B y datos no mostrados). Por otro lado, las predicciones BNM y DI para OMPR estaban en el mismo rango de precisión en comparación con la estructura experimental, ya que el resultado BNM fue de más de 74 átomos en comparación con 63 átomos para el método DI [OMPR / 4.4 Å / 4.0 A].

Estos resultados confirman que, en general, una tasa más alta de verdaderos positivos para la predicción de contactos conduce a una mejor predicción de la estructura 3D y que, para los métodos globales, se necesita al menos una tasa de verdaderos positivos de aproximadamente 0,5 y del orden de aproximadamente 100 contactos previstos, según sobre el tamaño y otros detalles de familias de proteínas particulares. Curiosamente, una tasa de falsos positivos tan alta como aproximadamente 0,3-0,5 puede seguir siendo coherente con una buena predicción de la estructura 3D. Claramente, los modelos estadísticos globales proporcionan un aumento sustancial en la precisión de la predicción de contactos de residuos y de estructuras 3D.

Requisitos de información para una mejor predicción de estructuras 3D

Requisito de una cobertura de rango de secuencia suficiente por la alineación de secuencia múltiple.

Entre el conjunto de prueba de doce familias de proteínas, la precisión más baja se obtuvo para las proteínas SPBT2 y rodopsina (ver Tabla 1, Tabla S1, Figura S3). En estos casos, un número significativo de residuos clave no se incluyen en el modelo de Markov oculto de PFAM (HMM) y, por lo tanto, se excluyeron de nuestro análisis. Si la alineación cubre solo una parte de la estructura, el modelo estadístico de la secuencia se restringe a esta parte de la estructura y no proporciona información para las regiones no cubiertas. Dado que las regiones no cubiertas por las alineaciones de PFAM se encuentran a menudo en el extremo N-terminal o C-terminal de la proteína y están en contacto en muchas estructuras proteicas, esto perjudicará significativamente la precisión de la predicción que es posible. Nuestro análisis también muestra que es menos probable que la predicción sea precisa incluso dentro de la región cubierta cuando los extremos de la alineación están ausentes. ¿Cuánta información de secuencia adicional se requiere para construir una alineación para toda la secuencia de proteínas en cada caso? Esta pregunta no es trivial ya que la diversidad muestreada en cada posición de secuencia por evolución varía mucho. De hecho, la fuerza de las limitaciones evolutivas estructurales puede disminuir hacia los extremos de la proteína, de forma análoga a los "extremos deshilachados" observados en muchas estructuras determinadas por RMN.

Corrija el plegado con un número sorprendentemente pequeño de restricciones de distancia.

¿Cuál es el número mínimo de restricciones de distancia previstas necesarias para generar un pliegue 3D aproximado? Un parámetro importante de nuestro protocolo de plegado es el número de restricciones de distancia inferidas, NC, utilizado para generar estructuras candidatas. Mientras que los residuos con las correlaciones de pares más altos suelen estar cerca en la estructura 3D (Figuras S6 y S7), la confiabilidad disminuye al disminuir el valor de DIij. Evaluamos la precisión de los pliegues de proteínas pronosticados para 15 familias de evaluación en función de NC (Figuras 7A y S16, Tabla S1).

A. ¿Cuántas restricciones de distancia se necesitan para la predicción de pliegues? ¿Qué fracción de falsos positivos se puede tolerar? Con un número creciente de restricciones de distancia esenciales predichas (NC, eje horizontal), el error de predicción 3D disminuye rápidamente, según lo evaluado por Cα-RMSD entre el mejor de 20 (en cada NC bin) predicen las estructuras y la estructura observada (aquí, para las 15 proteínas de prueba, utilizando Pymol). Sorprendentemente, tan solo ∼NRES/ 2 (∼L / 2) restricciones de distancia Dij (con distancia de cadena |i − j| & gt5) son suficientes para realizar predicciones de buena calidad por debajo de 5 Å Cα-RMSD, donde norteRES es el número de residuos de aminoácidos en la alineación de secuencias múltiples de proteínas. Por lo tanto, generamos rutinariamente estructuras de proteínas candidatas para hasta NC = NRES restricciones de distancia para la clasificación ciega (y hasta NC = 200 para otras pruebas). Eventualmente, el número de falsos positivos degrada la calidad de la predicción, por ejemplo, para la proteína de 58 residuos BPTI una vez NC es aproximadamente 80 (1,5 NRES), la calidad de la predicción se pierde. En la práctica, no recomendamos utilizar NC& gtNRES, es decir, más de una restricción Dij con |i − j| & gt5, por residuo. B. ¿Cuándo habría sido posible plegar desde la secuencia? El aumento en el número de secuencias disponibles en las bases de datos públicas (aquí, de sucesivas versiones de archivo de la colección PFAM de alineaciones de familias de proteínas) es uno de los dos elementos clave en la capacidad de predecir los pliegues de proteínas a partir de mutaciones correlacionadas. Sin embargo, trazar el número de secuencias y fechas muestra que habría sido posible calcular las estructuras hasta hace 10 años para algunas proteínas y que sorprendentemente pocas secuencias son suficientes. Por ejemplo, aunque el error de predicción retrospectiva (eje vertical, Cα-RMSD, usando Pymol) para la mejor estructura 3D (de 400 candidatos cada una) en cuatro familias de proteínas (Ras, dominio SH3 (YES_human) y RnaseH de Ecoli) ha disminuido con el tiempo, la disminución no es estrictamente monótona, como resultado de crecimiento no sistemático de la base de datos. El punto en el que una estructura de proteína predicha de una familia particular llega por debajo de 4 Å Cα-RMSD varía considerablemente. Por ejemplo, mientras que RnaseH requirió alrededor de 6000 secuencias para caer por debajo del error de 4 Å, alcanzado alrededor de 2008, la estructura de CheY podría haberse predicho en 3.3 Å Cα-RMSD, con solo las 600 secuencias disponibles en 1999.

Pasando de 10 a típicamente 200 restricciones de distancia, encontramos que el error de predicción cae drásticamente a medida que se agregan las restricciones de EIC, hasta que los falsos positivos comienzan a degradar gradualmente la calidad de la predicción. Llegamos a la conclusión de que se necesitan alrededor de 0,5 a 0,75 restricciones previstas por residuo, o alrededor del 25-35% del número total de contactos, para lograr una predicción de estructura 3D razonable. Este número está cerca de los reportados por otros grupos, que utilizaron pares de residuos cercanos completamente correctos para imponer distancias inexactas como restricciones [50], [51], [67]. Por ejemplo, Elav4 (longitud 71) se pliega por debajo de 5 Å Cα-RMSD con solo 20 restricciones, mientras que la tripsina (longitud 223) toma 130 restricciones. Sin embargo, el número de restricciones por residuo para llegar por debajo de 5 Å Cα-RMSD no es constante (columna 15 Tabla S1), y proteínas como OMPR con 0,66 restricciones por residuo y Ras con 0,25 restricciones por residuo muestran que esto dependerá de otros factores, como el tipo de pliegue y las tasas de falsos positivos. Si bien la precisión de la predicción de la estructura para algunas proteínas disminuye claramente a medida que aumenta el número de falsos positivos, por ejemplo Cadh1, Elav4 y Yes, otras proteínas, como Ras y CheY, permanecen iguales o incluso mejoran en precisión a medida que aumenta la proporción de falsos positivos ( Figura S8). Este resultado subraya la necesidad de utilizar las limitaciones para intentar doblar las proteínas, con el fin de analizar la calidad de los contactos previstos, en lugar de depender únicamente de las tasas positivas verdaderas de predicción del contacto.

Aumento de la precisión de la predicción a lo largo del tiempo, pero se necesita un número de secuencias inferior al esperado.

Dado que no requerimos el estándar actual de computación de alto rendimiento, nos preguntamos cuánto tiempo hace que habría sido posible hacer buenas predicciones estructurales. ¿Cómo depende la precisión de los pliegues predichos del número de secuencias en la alineación de secuencias múltiples y su diversidad evolutiva? Para comenzar a explorar estas preguntas, calculamos la precisión del plegamiento usando restricciones de distancia para cuatro proteínas representativas, usando alineaciones de 20 versiones diferentes de PFAM [1] que cubren los últimos 13 años. Para cada alineación de secuencia múltiple calculamos 20 estructuras para un rango de restricciones de 30 a 200 (Figura 7B). Durante este período, la información de secuencia disponible ha aumentado dramáticamente como resultado de la nueva tecnología de secuenciación y proyectos genómicos a gran escala, por lo que examinamos la mejor estructura obtenida en función del número de secuencias. Aunque existe una clara tendencia general para el Cα-RMSD de estructuras predichas para caer monótonamente a medida que aumenta el número de secuencias en la familia (por ejemplo, RnaseH, 4 Å Cα-El umbral de RMSD se alcanzó en 2009 cuando el número de secuencias alcanzó 5000), no todas las familias de proteínas se comportan de la misma manera. Las estructuras de Ras predichas alcanzaron bajo 4 Å Cα-RMSD en 2002 con tan solo 1200 secuencias, luego, sorprendentemente, volvió a subir a medida que se incluían más secuencias, para finalmente caer a 2,5 Å Cα-RMSD en 2009. De manera similar, aunque las estructuras predichas de CheY y el dominio SH3 de la proteína Yes mejoran con el número de secuencias disponibles, las estructuras predichas tenían Cα-RMSD en errores tan bajos como 3.3 Å y 4.7 Å respectivamente en 1999, con ∼600 secuencias para ambos. (Figura 7B). Lo más sorprendente es que una estructura OMPR predicha con un error por debajo de 5 Å Cα-RMSD posiblemente habría estado usando tan solo 170 secuencias (lanzamiento de 1999 de PFAM).

Por lo tanto, nuestros resultados resaltan la relación general de precisión del pliegue predicho con el número de secuencias disponibles. Sin embargo, esta relación no es sencilla. La distribución de secuencias en el espacio de secuencias de una familia particular sin duda tendrá un efecto. En nuestra implementación actual del algoritmo, las secuencias con más del 70% de identidad de residuo con los vecinos de la familia están ponderadas hacia abajo (Texto S1). Por lo tanto, el número efectivo de secuencias utilizadas para el cálculo del acoplamiento DI es mucho menor que el tamaño de la familia. Aproximadamente sólo el 12-40% de las secuencias disponibles en la familia se utilizan realmente para el cálculo (Tabla S1). Esta reducción en el número efectivo de secuencias varía sustancialmente entre familias, destacando las diferentes distribuciones sobre el espacio de secuencia cubierto por familias individuales (columna 18 en la Tabla S1). Especulamos que el trabajo futuro mejorará nuestra comprensión de cuales, al igual que Cuantos Las secuencias son óptimas para la inferencia de contacto a partir de información evolutiva.


Fondo

Los métodos de validación de la estructura de la proteína como MolProbity [1] y Procheck [2] ayudan a los cristalógrafos a encontrar y solucionar los problemas potenciales que surgen durante el ajuste y el refinamiento. Estos métodos se basan comúnmente en a priori conocimiento químico y utilizar varios paradigmas estereoquímicos bien probados y ampliamente aceptados. Asimismo, los paquetes de análisis y predicción de estructuras basados ​​en plantillas [3] y los campos de fuerza de dinámica molecular [4] se construyen habitualmente sobre tales paradigmas. Entre estos, el mapa de Ramachandran [5,6] tiene un papel central. Se utiliza ampliamente tanto para varios análisis de las estructuras de proteínas como como herramienta en la visualización de proteínas. El mapa de Ramachandran describe la distribución estadística de los dos ángulos diedros & # x003c6 y & # x003c8 que son adyacentes a la C& # x003b1 carbonos a lo largo de la columna vertebral de la proteína. Una comparación entre los valores observados de los diedros individuales en una proteína determinada con la distribución estadística del mapa de Ramachandran es un método evaluado para validar la geometría de la columna vertebral.

En el caso de los átomos de cadena lateral, se han introducido métodos de análisis visual como el mapa de Ramachandran. Por ejemplo, el mapa de Janin [7] se puede utilizar para comparar diedros de cadena lateral observados como & # x003c71 y & # x003c72 en una proteína dada, contra su distribución estadística, de una manera análoga al mapa de Ramachandran.

Los programas de refinamiento y validación cristalográficos como Phenix [8], Refmac [9] y otros, a menudo utilizan los datos estadísticos obtenidos de la biblioteca de Engh y Huber [10,11]. Esta biblioteca se construye utilizando pequeñas estructuras moleculares que se han determinado con una resolución muy alta. A nivel de proteínas completas, las restricciones de la cadena lateral se derivan comúnmente del análisis de estructuras cristalográficas de alta resolución [12, 13] en Protein Data Bank (PDB) [14]. Una biblioteca de rotámeros independientes de la columna vertebral [15] no hace referencia a la conformación de la columna vertebral. Pero la posibilidad de que la población de rotámeros de cadena lateral dependa de la conformación de la columna vertebral de la proteína local ya fue considerada por Chandrasekaran y Ramachandran [16]. Posteriormente, se han desarrollado tanto bibliotecas de rotámeros dependientes de la estructura secundaria [17], ver también [7] y [15], como dependientes de la columna vertebral [18,19]. Observamos que el tema sigue siendo investigado activamente [20-25].

El contenido de información en las bibliotecas dependientes de la estructura secundaria y las bibliotecas independientes de la columna vertebral esencialmente coinciden [13]. Ambos tipos de bibliotecas se utilizan ampliamente durante la construcción y el refinamiento del modelo de estructura de proteínas cristalográficas. Pero para la predicción de las conformaciones de la cadena lateral, por ejemplo en el caso del modelado de homología y el diseño de proteínas, puede ser una ventaja utilizar las bibliotecas de rotámeros dependientes de la columna vertebral más reveladoras.

En experimentos de estructura de proteínas cristalográficas de rayos X, la esqueletización del mapa de densidad de electrones es una técnica común para interpretar los datos y construir el modelo inicial [26]. La C& # x003b1 los átomos se encuentran en los puntos de ramificación entre la columna vertebral y la cadena lateral. Como tales, están sujetos a restricciones estereoquímicas relativamente estrictas, esta es la razón por la que la construcción de modelos a menudo comienza con la identificación inicial del esqueleto C& # x003b1 rastro. El papel central de la C& # x003b1 Los átomos se explotan ampliamente en esquemas de clasificación estructural como CATH [27] y SCOP [28], en diversas técnicas de modelado de subprocesos como I-Tasser [29] y enfoques de homología de base, incluido SWISS-MODEL [30] y otros métodos relacionados [31 ], en de novo enfoques [32], y en el desarrollo de funciones de energía de grano grueso para la predicción de plegamiento [33]. Como consecuencia, el llamado C& # x003b1-El problema de la traza se ha convertido en objeto de extensas investigaciones [34-38]. La resolución del problema consistiría en una cadena principal precisa y / o modelo de todos los átomos de la proteína plegada, basado en el conocimiento de las posiciones de la C central.& # x003b1 átomos solamente. Ambos enfoques basados ​​en el conocimiento, como MAXSPROUT [34] y de novo Se han desarrollado métodos que incluyen PULCHRA [37] y REMO [38] para tratar de resolver la C& # x003b1- problema de rastreo. En el caso de los átomos de la columna vertebral, el algoritmo geométrico introducido por Purisima y Scheraga [39], o alguna variante del mismo, se utiliza comúnmente en estos enfoques. Para los átomos de la cadena lateral, la mayoría de las aproximaciones a la C& # x003b1 Los problemas de trazas se basan en una biblioteca de rotámeros estadísticos o de conformadores en combinación con restricciones estéricas, complementadas por un análisis que se basa en diversas funciones de puntuación. Para el ajuste fino final del modelo, también se pueden utilizar simulaciones de dinámica molecular de todos los átomos.

En el presente artículo presentamos y desarrollamos técnicas de visualización de nueva generación que esperamos se conviertan en un complemento beneficioso de los métodos existentes para el análisis, el refinamiento y la validación de la estructura de proteínas. Usamos la C& # x003b1 Marcos de frenet [40,41] para visualizar la cadena lateral. La salida a la que apuntamos es un mapa visual de tipo 3D & # x0201c what-you-see-is-what-you-have & # x0201d del modelo de átomos estadísticamente preferido, calculable en términos de C& # x003b1 coordenadas. Como tal, nuestro enfoque debería tener valor, por ejemplo, durante la construcción y validación de la columna vertebral inicial y los modelos de todos los átomos de una estructura de proteína cristalográfica.

Nuestro enfoque se basa en desarrollos en visualización tridimensional y realidad virtual, que han tenido lugar después de la introducción del mapa de Ramachandran. En lugar de los ángulos diedros de la columna vertebral que aparecen como coordenadas en el mapa de Ramachandran y corresponden a una topología toroidal, empleamos la geometría de esferas virtuales que rodean cada átomo pesado. Describimos visualmente todos los átomos pesados ​​de la cadena principal y de la cadena lateral de nivel superior en la superficie de una esfera, nivel por nivel a lo largo de la columna vertebral y las cadenas laterales, exactamente de la manera en que son vistos por un imaginario, geométricamente determinado y C& # x003b1 observador en miniatura basado que recorre las costas a lo largo de la columna vertebral y trepa por las cadenas laterales, procedente de una C& # x003b1 átomo al siguiente. En la ubicación de cada C& # x003b1 nuestro observador virtual se orienta consistentemente de acuerdo con la C puramente determinada geométricamente& # x003b1 marcos discretos basados ​​en Frenet [40,41]. Por lo tanto, la visualización depende solo de la C& # x003b1 coordenadas, y no hay referencia a los otros átomos en la inicialización de la construcción. Los otros átomos, incluido el C subsiguiente& # x003b1 átomos a lo largo de la cadena principal - están todos mapeados en la superficie de una esfera que rodea al observador, como si estos átomos fueran estrellas en el cielo.

En cada C& # x003b1 átomo, la construcción procede a lo largo de la cadena lateral subsiguiente, hasta que se ha determinado la posición de todos los átomos pesados. Como tales, nuestros mapas proporcionan una información visual directa puramente geométrica y equitativa sobre la estructura de todos los átomos estadísticamente esperada en una proteína dada.

El método que describimos en este artículo puede constituir una base para el desarrollo futuro de un enfoque novedoso de la C& # x003b1 problema de rastreo. Como complemento a los enfoques existentes como MAXSPROUT [34], PULCHRA [37] y REMO [38], el método que imaginamos explica la dependencia de la estructura secundaria en las posiciones de los átomos pesados, que aquí revelamos. Un método dependiente de la estructura secundaria para resolver la C& # x003b1 El problema de la traza debería conducir a una precisión mejorada en las posiciones de los átomos pesados, en términos de la C& # x003b1 coordenadas. En particular, dado que los estados rotámeros muestran una clara dependencia de la estructura secundaria, un hecho que a veces se pasa por alto en el desarrollo de bibliotecas de rotámeros. El presente artículo sirve como prueba de concepto.


Bioquímica estructural / Proteínas

Una proteína es una molécula biológica funcional que se compone de uno o más polipéptidos que se pliegan / enrollan en una estructura específica [1]. Las proteínas son macromoléculas importantes que sirven como elementos estructurales, canales de transporte, receptores y transmisores de señales y enzimas. Las proteínas son polímeros lineales que están formados por unidades monoméricas llamadas aminoácidos. Hay 20 aminoácidos diferentes y están conectados por un enlace peptídico entre el grupo carboxilo y el grupo amino en una cadena lineal llamada polipéptido. Cada proteína tiene diferentes cadenas laterales o grupos "R". Las proteínas tienen muchos grupos funcionales activos diferentes adjuntos para ayudar a definir sus propiedades y funciones. Las proteínas cubren una amplia gama de funciones, que van desde elementos estructurales muy rígidos hasta la transmisión de información entre células. Cada persona tiene varios cientos de miles de proteínas diferentes en su cuerpo. Las proteínas se pliegan en estructuras secundarias, terciarias y cuaternarias basadas en enlaces intramoleculares entre grupos funcionales o enlaces intermoleculares (solo cuaternarios) y se pueden obtener en una variedad de formas tridimensionales dependiendo de la secuencia de aminoácidos. Todas las proteínas tienen estructuras primarias, secundarias y terciarias, pero las estructuras cuaternarias solo surgen cuando una proteína está formada por dos o más cadenas polipeptídicas [1]. El plegamiento de proteínas también es impulsado y reforzado por la formación de muchos enlaces entre diferentes partes de la cadena. La formación de estos enlaces depende de la secuencia de aminoácidos. El estudio de sus estructuras es importante porque las proteínas son esenciales para todas las actividades del cuerpo humano y son los componentes clave de los materiales biológicos. La estructura primaria es cuando los aminoácidos se unen mediante enlaces peptídicos para formar cadenas polipeptídicas. La estructura secundaria es cuando las cadenas de polipéptidos se pliegan en estructuras regulares como hojas beta, hélice alfa, giros o bucles. Una proteína funcional es mucho más que un simple polipéptido, es uno o más polipéptidos que se han plegado con precisión en una molécula con una forma única y muy específica que es fundamental para su función [1].


Las proteínas generalmente se representan en estructuras 3D y se clasifican en cuatro características y niveles diferentes:

Primario: La estructura primaria de una proteína es el nivel de estructura de la proteína que se refiere a la secuencia específica de aminoácidos [1]. Cuando dos aminoácidos están en una posición tal que los grupos carboxilo de cada aminoácido están adyacentes entre sí, se pueden combinar mediante una reacción de deshidratación que da como resultado la formación de un enlace peptídico [1]. Los aminoácidos en un polipéptido (proteína) están unidos por enlaces peptídicos que comienzan con el N-terminal con un grupo amino libre y terminan en C-terminal con un grupo carboxilo libre. rts. El enlace peptídico es plano y no puede rotar libremente debido a un carácter de doble enlace parcial. Si bien hay una rotación restringida sobre el enlace peptídico, hay dos rotaciones libres en el enlace (N-C) y el enlace (C-C), que se denominan ángulos de torsión, o más específicamente los ángulos phi y psi. Las libertades de rotación de estos dos enlaces también están limitadas debido al impedimento estérico. Los genes llevan la información para producir polipéptidos con una secuencia de aminoácidos definida. Un polipéptido promedio tiene aproximadamente 300 aminoácidos de longitud y algunos genes codifican polipéptidos que tienen unos pocos miles de aminoácidos de longitud. Es importante conocer la estructura primaria de la proteína porque la estructura primaria codifica motivos que son de importancia funcional en su función biológica, la estructura y la función están correlacionados en todos los niveles de la organización biológica [1].

Secundario: La secuencia de aminoácidos de un polipéptido, junto con las leyes de la química y la física, hacen que un polipéptido se pliegue en una estructura más compacta. Los aminoácidos pueden rotar alrededor de enlaces dentro de una proteína. Esta es la razón por la que las proteínas son flexibles y pueden plegarse en una variedad de formas. El plegado puede ser irregular o ciertas regiones pueden tener un patrón de plegado repetido. Las espirales y pliegues que resultan de los enlaces de hidrógeno entre los segmentos repetidos de la estructura polipeptídica se denominan estructuras secundarias [1]. Aunque los enlaces de hidrógeno individuales son débiles, pueden soportar una forma específica para esa parte de la proteína debido al hecho de que se repiten muchas veces en una parte larga de la cadena [1]. Pauling y Corey proponen estructuras secundarias de una proteína. Sus estructuras están formadas por aminoácidos que se encuentran a distancias cortas entre sí. Debido a la naturaleza plana de los enlaces peptídicos, solo existen ciertos tipos de estructura secundaria. Las tres estructuras secundarias importantes son hélice α, láminas β y giros β. Además, las hojas beta pueden ser paralelas, antiparalelas o mixtas. Las láminas beta antiparalelas son más estables porque los enlaces de hidrógeno están en ángulos de noventa grados. La a-hélice es una estructura en espiral estabilizada por enlaces de hidrógeno intracadena.

Características de las estructuras secundarias:

1. α-hélice: En una hélice α, la cadena principal del polipéptido forma una estructura helicoidal repetida que se estabiliza mediante enlaces de hidrógeno entre un oxígeno de carbonilo y un hidrógeno de amina. Estos enlaces de hidrógeno se producen a intervalos regulares de un enlace de hidrógeno cada cuatro aminoácidos y hacen que la columna vertebral del polipéptido forme una hélice [1]. La estructura helicoidal más común es una hélice a la derecha con sus enlaces de hidrógeno paralelos a su eje. Los enlaces de hidrógeno se forman entre el oxígeno del carbonilo y los grupos de hidrógeno de amina de cuatro residuos de aminoácidos. Cada aminoácido avanza la hélice, a lo largo de su eje, en 1,5 Å. Cada vuelta de la hélice se compone de 3,6 aminoácidos, por lo que el paso de la hélice es de 5,4 Å. Hay un promedio de diez residuos de aminoácidos por hélice con sus cadenas laterales orientadas fuera de la hélice. Los diferentes aminoácidos tienen diferentes propensiones a formar una hélice x, sin embargo, la prolina es un rompedor de la hélice porque la prolina no tiene un grupo amino libre. Los aminoácidos que prefieren adoptar conformaciones helicoidales en las proteínas incluyen metionina, alanina, leucina, glutamato y lisina (malek).

2. hoja β: Las láminas ß se estabilizan mediante enlaces de hidrógeno entre hebras de péptidos. En una hoja β, las regiones de la columna vertebral del polipéptido quedan paralelas entre sí y están conectadas por enlaces de hidrógeno [1]. Los enlaces de hidrógeno se forman entre el oxígeno del carbonilo y el hidrógeno de la amina del aminoácido en hebras adyacentes en un polipéptido, lo que significa que los enlaces de hidrógeno están entrelazados. Las regiones de la hoja β están más extendidas que una hélice α, y la distancia entre los aminoácidos adyacentes es de 3,5 Å. El enlace de hidrógeno en la cadena β puede ocurrir como paralelo, antiparalelo o una mezcla. Los residuos de aminoácidos en configuración β- paralela se ejecutan en la misma orientación.Las láminas plisadas constituyen el núcleo de muchas proteínas globulares y también son dominantes en algunas proteínas fibrosas, como la telaraña [1]. Los aromáticos grandes como: triptófano, tirosina y fenilalanina, y los aminoácidos ramificados beta como: isoleucina, valina y treonina prefieren adoptar conformaciones de cadena β. Esta orientación es energéticamente menos favorable debido a sus enlaces de hidrógeno inclinados y no verticales. . El triptófano, la tirosina y la fenilalanina son hidrófobos, mientras que los otros aminoácidos son hidrófilos.

3. β-vueltas: Las cadenas de polipéptidos pueden cambiar de dirección haciendo giros y vueltas inversas. Las regiones de bucle que conectan dos hebras β antiparalelas se conocen como vueltas inversas o vueltas beta. Estas regiones de bucle tienen longitudes y formas irregulares y generalmente se encuentran en la superficie de la proteína. El giro se estabiliza mediante un enlace de hidrógeno entre la columna vertebral del oxígeno del carbonilo y el hidrógeno de la amina. El grupo CO del residuo, en muchas vueltas inversas, que está unido al grupo NH del residuo i + 3. La interacción estabiliza cambios abruptos en la dirección de la cadena polipeptídica. A diferencia de las hélices alfa y las cadenas ß, los bucles no tienen estructuras periódicas regulares. Sin embargo, suelen ser rígidos y bien definidos. Dado que los bucles se encuentran en la superficie de las proteínas, pueden participar en interacciones entre proteínas y otras moléculas. La gráfica de Ramachandran es una gráfica que muestra los ángulos de torsión disponibles de dónde se pueden encontrar las proteínas. Sin embargo, en la trama, si hay muchos puntos que se ubican por todo el lugar, significa que existe un bucle.

Terciario: A medida que la estructura secundaria se establece debido a la estructura primaria, un polipéptido se pliega y se pliega sobre sí mismo para asumir una forma tridimensional compleja llamada estructura terciaria de la proteína. La estructura terciaria es la forma general de un polipéptido. [1] La estructura terciaria resulta de las interacciones entre las cadenas laterales (grupos R) de los distintos aminoácidos [1]. Esta estructura tridimensional se debe a interacciones intramoleculares entre los grupos laterales a lo largo de la cadena polipeptídica. Su dominio contiene típicamente de 300 a 400 aminoácidos y adopta una estructura terciaria estable cuando se aísla de su proteína madre. A medida que un polipéptido se pliega en su forma funcional, los aminoácidos que tienen cadenas laterales hidrófobas tienden a terminar agrupados en el núcleo de la proteína de modo que quedan fuera de contacto con el agua [2]. Los enlaces covalentes llamados puentes disulfuro también pueden afectar la forma de una proteína [1]. Los puentes disulfuro se forman cuando dos aminoácidos que contienen grupos sulfhidrilo en sus cadenas laterales se acercan por la forma en que la proteína se pliega [1]. Para algunas proteínas, como la ribonucleasa, la estructura terciaria es la estructura final de una proteína funcional. Otras proteínas están compuestas por dos o más polipéptidos y adoptan una estructura cuaternaria.

Cuaternario: Si bien todas las proteínas contienen estructuras primarias, secundarias y terciarias, las estructuras cuaternarias están reservadas para proteínas compuestas por dos o más cadenas polipeptídicas [1]. Las proteínas que tienen estructuras cuaternarias contienen más de un polipéptido y cada una adopta una estructura terciaria y luego se ensamblan entre sí mediante interacciones intermoleculares. La estructura cuaternaria de una proteína es la estructura general que es el resultado de la adición de estas subunidades polipeptídicas [1]. Los polipéptidos individuales se denominan subunidades de proteínas, lo que significa que diferentes polipéptidos se pliegan por separado. Las subunidades pueden ser polipéptidos idénticos o pueden ser diferentes. Cuando las proteínas constan de más de una cadena polipeptídica, se dice que tienen estructura cuaternaria y también se conocen como proteínas multiméricas, es decir, proteínas que constan de muchas partes. Las estructuras cuaternarias también se pueden definir como cuando más de una proteína se unen para crear un dímero, un trímero, un tetrámero, etc. [2]. La hemoglobina es un ejemplo de una estructura cuaternaria que se compone de dos subunidades alfa y dos subunidades beta.

Proteínas fibrosas: Las proteínas fibrosas, también conocidas como Schleroproteína, son cadenas de proteínas largas con forma de alambres de varilla. A diferencia de la proteína globular, no se desnaturalizan tan fácilmente y contienen muchas repeticiones de estructuras secundarias. En su mayoría son proteínas estructurales que son responsables de los organismos de apoyo y protección, como la formación de tejido conectivo, fibras musculares, huesos y tendones. Los dos ejemplos de proteínas fibrosas son:

1. α-queratina: La α –queratina (esencial en el cabello, las pezuñas, el cuerno, las uñas, etc.) es una proteína en espiral compuesta por dos α-hélices entrelazadas. Las estructuras de espirales enrolladas se encuentran en otras proteínas estructurales, por ejemplo, la miosina del músculo esquelético tiene repeticiones de heptads corresponden a 3,5 aminoácidos por vuelta. Los residuos en la posición de a, d, a ’y d’ en las hélices de estas proteínas suelen ser hidrófobos. Las dos hebras en una bobina enrollada se mantienen juntas por interacción hidrofóbica, así como interacciones iónicas y enlaces disulfuro.

2. Colágeno: El colágeno (de tendones, cartílagos, paredes de los vasos sanguíneos) es la proteína más abundante en el cuerpo humano. El colágeno es una triple hélice que, a diferencia de la α-hélice, tiene 3,3 aminoácidos y 10 Å por vuelta. El colágeno se estabiliza mediante enlaces de hidrógeno, que se forman entre el oxígeno del carbonilo y el hidrógeno amínico de los aminoácidos situados en las cadenas vecinas y es perpendicular al eje de la fibra. Es abundante en prolina y contiene hidroxiprolina e hidroxilisina. Sin embargo, debido a la abundancia de prolina, no hay enlaces de hidrógeno intracadena, y la hidroxilación de prolina y lisina requiere vitamina C. La deficiencia de vitamina C causa escorbuto. Un tercio de los aminoácidos del colágeno son glicina debido al hacinamiento, solo las glicinas se encuentran en el centro de las moléculas de colágeno. Las moléculas de colágeno pueden reticularse mediante enlaces covalentes a fibras y láminas más grandes.

Proteína globular: Las proteínas globulares se pliegan para enterrar las cadenas laterales hidrofóbicas. Todas las proteínas globulares tienen un interior donde se dispone el núcleo hidrofóbico. Tiene un exterior hacia el que se dirigen los grupos hidrofílicos. Los residuos de aminoácidos polares no cargados se encuentran generalmente en las superficies de las proteínas, pero también pueden ocurrir en el interior. En el último caso, se unirá hidrógeno a otros grupos, es decir, ser, thr, tyr son todos polares, sin carga.

Varios factores determinan la forma en que los polipéptidos adoptan sus estructuras secundarias, terciarias y cuaternarias. Las secuencias de aminoácidos de los polipéptidos son las características definitorias que distinguen la estructura de una proteína de otra. A medida que los polipéptidos se sintetizan en una célula, se pliegan en estructuras secundarias y terciarias, que se ensamblan en estructuras cuaternarias para la mayoría de las proteínas. Como se mencionó, las leyes de la química y la física, junto con la secuencia de aminoácidos, gobiernan este proceso. Cinco factores son fundamentales para el plegamiento y la estabilidad de las proteínas:

1. Enlaces de hidrógeno: Los enlaces de hidrógeno se forman entre un donante de enlaces de hidrógeno y un aceptor de enlaces de hidrógeno. Para los aminoácidos, el enlace de hidrógeno se produciría entre la columna vertebral del grupo amina y el oxígeno del grupo carbonilo.

2. Enlaces iónicos: Las interacciones electrostáticas ocurren entre dos moléculas con carga opuesta. Las interacciones iónicas son más débiles en el agua que en el vacío, esto se debe a una constante dieléctrica diferente enfrentada en el agua entre cargas opuestas dentro de la estructura de la proteína.

3. Efecto hidrofóbico: La interacción hidrofóbica se origina por la tendencia de las moléculas no polares a minimizar sus interacciones con el agua. Cuando las moléculas no polares interactúan con el agua, estas moléculas tienden a agruparse en el centro para formar una micela.

4. Las fuerzas de van der Waals: Existen fuerzas de van der waals entre moléculas no polares a corta distancia. De las tres interacciones de van der waals, las interacciones entre dipolos permanentes son las más fuertes, las interacciones entre dipolos inducidas por dipolos son más débiles que los dipolos permanentes y las fuerzas de dispersión de London son las más débiles. Si bien las fuerzas de van der waals entre átomos individuales son débiles, la suma de las fuerzas de van der waals que resultan de las interacciones entre muchos átomos en grandes macromoléculas puede ser sustancial. La fuerza de las interacciones de van der waals varía con la distancia entre los átomos y es máxima a la distancia de contacto de van der waals.

5. Puentes disulfuro: Se puede formar un enlace disulfuro entre dos cisteínas por oxidación. Estos también son los enlaces covalentes más fuertes dentro de la estructura terciaria de una proteína.

Desnaturalización de proteínas: es la pérdida de conformaciones nativas de estructura terciaria. Las proteínas desnaturalizantes experimentan la destrucción o la alteración de la estructura terciaria o secundaria interna. Sin embargo, la desnaturalización no rompe el enlace peptídico entre los aminoácidos adyacentes, por lo que no afecta la estructura primaria de la proteína. Sin embargo, la desnaturalización interferirá con la hélice alfa normal y las hojas beta de una proteína que, en última instancia, distorsionará su forma tridimensional.

La desnaturalización provoca la ruptura de los enlaces de hidrógeno entre los aminoácidos cercanos, lo que interfiere en la estructura secundaria y terciaria de una proteína. En la estructura terciaria hay cuatro tipos de interacciones de enlace entre "cadenas laterales" que incluyen: enlaces de hidrógeno, puentes iónicos, enlaces disulfuro e interacciones intermoleculares hidrofóbicas. En otras palabras, existen varias condiciones diferentes para desnaturalizar la conformación de una proteína.

Condiciones que desnaturalizan las proteínas:

1. PH extremo (pH & lt 4 o pH & gt 9): altera la unión de H

2. Calor (temp & gt70oC): efecto térmico, interrumpe las fuerzas débiles de los enlaces no covalentes

3. Detergentes o disolventes orgánicos : interrumpe la interacción hidrofóbica

4. Agentes caotrópicos (altas concentraciones): p. ej., urea y cloruro de guanidinio

A medida que los científicos comenzaron a descubrir más aspectos de la química, en realidad encontraron la magnitud de la complejidad en la química / biología celular. Aunque los científicos descubrieron que las proteínas tenían un papel imperativo en el cuerpo, también descubrieron que las proteínas se ensamblan en un sitio específico de la célula y se activan solo cuando es necesario. Usando las proteínas etiquetadas con GFP (fluorescencia) en células animadas, se observó el posicionamiento y reposicionamiento de las proteínas en respuesta a las señales específicas. Cuando las moléculas de señal extracelular se unen a las proteínas receptoras, se enrollan en diferentes proteínas hacia el área interna de la membrana plasmática para crear un aparato de proteínas que transmitirá la señal.

Los seres humanos tenemos 10 enzimas PKC que difieren tanto en su regulación como en sus funciones. Cuando la PKC se activa, se moverá desde el citoplasma a varias ubicaciones intracelulares y, finalmente, formará complejos específicos con otras proteínas, lo que les permitirá fosforilar diferentes sustratos de proteínas. Varias ligasas expresan este tipo de comportamiento, como las ligasas de ubiquitina SCF. Estos mecanismos implican la colaboración entre la fosforilación de proteínas y las proteínas de andamiaje que unen proteínas específicas activantes, inhibidoras, adaptadoras y sustrato a una parte discreta de una célula.

Esta ocurrencia se llama proximidad inducida, que describe la razón por la cual formas diminutas de enzimas con los mismos sitios de reacción pueden tener funciones diferentes. Esto se puede hacer modificando covalentemente la ubicación de la proteína de varias formas. Estas alteraciones construyen sitios de unión en las proteínas para que se unan a las proteínas de andamiaje, haciendo que se agrupen para que puedan tener lugar diferentes reacciones dentro de una ubicación específica de una célula. Por tanto, los andamios permiten que las células agrupen reacciones sin necesidad de membranas.

Se pensaba que las proteínas de andamio mantenían a las proteínas en ubicaciones específicas entre sí, pero en realidad, las regiones no estructuradas de las cadenas polipeptídicas conectan las proteínas que interactúan. Esto permite que las proteínas choquen con frecuencia entre sí en orientaciones aleatorias, algunas de las cuales conducen a reacciones exitosas. La unión de las proteínas permite que se produzcan velocidades de reacción más rápidas. Por lo tanto, las proteínas de andamio proporcionan métodos flexibles para controlar la química celular.

Las proteínas de la caja DEAD consisten en helicasas de ARN, están involucradas en los procesos de metabolismo del ARN y se conservan en nueve dominios que se encuentran en bacterias y virus para humanos. Tienen 350 aminoácidos de longitud. Las proteínas de la caja DEAD están involucradas en el procesamiento previo al ARNm, la formación de splicesosomas y el reordenamiento de los complejos de ribonucleoproteína (RNP). Las proteínas de caja DEAD son necesarias en el proceso de corte y empalme de pre-ARNm y en el proceso de corte y empalme in vivo. Durante el procesamiento previo al ARNm, las proteínas de la caja DEAD se desenrollan para proporcionar energía para reorganizar los cinco snRNP (U1, U2, U4, U5 y U6) requeridos en el empalme previo al ARNm. En el empalme in vivo, se necesitan tres proteínas de caja DEAD, Sub2, Prp28 y Prp5. Prp5 ayuda a reorganizar la conformación de U2, lo que permite que la secuencia de U2 se una a la secuencia del punto de ramificación. Prp28 ayuda a reconocer la ubicación de empalme de 5 '.

La primera proteína de caja DEAD, el factor de iniciación de la traducción ElF4A, depende de la actividad de la ARN ATPasa. Esta proteína ayuda a desenrollar la estructura secundaria, lo que detiene el escaneo.


Conclusiones

Se ha demostrado que los protómeros de proteínas que forman complejos heterooligoméricos tienden a tener estructuras más similares entre sí que las proteínas que no forman este tipo de ensamblajes supramoleculares. Una serie de enfoques diferentes han contribuido a esta observación: distancias en las gráficas proteómicas de Ramachandran, superposiciones de estructuras de proteínas y comparaciones basadas en dos bases de datos de estructuras de dominio (CATH y SCOP).

De acuerdo con estudios previos, es razonable suponer que esta sorprendente similitud entre protómeros de complejos heterooligoméricos se debe a la relación evolutiva entre heterooligómeros y homooligómeros anteriores, a través de la duplicación de genes y la evolución de parálogos (Archibald et al. 1999). Ispolatov et al.2005 Lukatsky et al.2007 Lukatsky et al.2006 Pereira-Leal et al.2007). Sin embargo, en mi opinión, se necesitan más estudios para evaluar la importancia relativa de las restricciones evolutivas y físico-químicas sobre la estructura y dinámica de las proteínas.


Estudio de la dinámica de torsión de la columna vertebral de proteínas intrínsecamente desordenadas utilizando cinética de despolarización de fluorescencia

Las proteínas intrínsecamente desordenadas (IDP) no adoptan de forma autónoma una estructura 3D única y estable y existen como un conjunto de estructuras que se interconvierten rápidamente. Se caracterizan por una plasticidad conformacional significativa y están asociados con varias funciones y disfunciones biológicas. La rápida fluctuación conformacional está gobernada por la dinámica segmentaria de la columna vertebral que surge debido a la fluctuación del ángulo diedro en el espacio conformacional Ramachandran ϕ – ψ. Descubrimos que la movilidad torsional de la columna vertebral intrínseca se puede controlar mediante una lectura de fluorescencia sensible, es decir, la cinética de despolarización de la fluorescencia, del triptófano en un IDP arquetípico como la α-sinucleína. Esta metodología nos permite mapear la movilidad de torsión específica del sitio en el espacio diedro dentro del rango de tiempo de picosegundos-nanosegundos a una baja concentración de proteína en la condición nativa. La característica escala de tiempo de

1,4 ns, independiente de la posición del residuo, representa la dinámica de torsión colectiva de los ángulos diedros (ϕ y ψ) de varios residuos del triptófano y es independiente del giro global global de la proteína. Creemos que la metodología de la cinética de despolarización de la fluorescencia encontrará una amplia aplicación para estudiar los movimientos correlacionados de corto y largo alcance, la fricción interna, el plegado inducido por la unión, la transición de desorden a orden, el plegado incorrecto y la agregación de los desplazados internos.

Esta es una vista previa del contenido de la suscripción, acceda a través de su institución.


Fondo

Los biocombustibles son una fuente de energía limpia y renovable, surgiendo como alternativa a los combustibles fósiles, como los derivados del petróleo [1, 2]. Se producen a partir de materiales agrícolas, por ejemplo, caña de azúcar, maíz, tierra, algas, etc. [3]. La producción de biocombustibles de segunda generación se produce en varios pasos, como el preprocesamiento, la sacarificación y la fermentación. El paso de sacarificación se produce por la acción sinérgica de tres tipos de enzimas: endoglucanasas (CE 3.2.1.4), exoglucanasas, también llamadas celobiohidrolasas (CE 3.2.1.91) y β-glucosidasas (CE 3.2.1.21) [4, 5]. Las endoglucanasas actúan en la estructura de la celulosa, liberando oligosacáridos de diferentes longitudes. Las celobiohidrolasas hidrolizan el terminal de estos oligosacáridos, liberando principalmente moléculas de celobiosa. Luego, las β-glucosidasas hidrolizan el enlace glicosídico de celobiosa, liberando dos moléculas de glucosa [4, 5, 6, 7]. Sin embargo, la mayoría de las β-glucosidasas son fuertemente inhibidas por concentraciones elevadas de glucosa [8,9,10]. Así, estas enzimas han sido consideradas por varios estudios como objetivos para mejorar la tolerancia a concentraciones altas de glucosa mediante mutagénesis directa al sitio o el diseño de nuevas enzimas [8,9,10,11,12,13,14,15,16,17, 18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42] . Además, muchas revisiones han informado de la importancia de la tolerancia a la glucosa para mejorar el proceso de sacarificación [4, 7, 43].

Recientemente, Salgado et al. [43] propuso un sistema de clasificación de β-glucosidasas dividido en cuatro grupos: (i) β-glucosidasas fuertemente inhibidas por la glucosa (la mayoría de ellas) (ii) β-glucosidasas tolerantes a la glucosa (iii) β-glucosidasas estimuladas por concentraciones bajas de glucosa pero inhibidas en altas concentraciones y (iv) β-glucosidasas no inhibidas por altas concentraciones de glucosa. Hasta donde sabemos, los grupos ii, iii y iv están compuestos por pocas enzimas. Por lo tanto, muchos estudios tuvieron como objetivo transferir sus características a otras enzimas no eficientes para la hidrólisis de biomasa. Por ejemplo, Yang et al. [9] evaluó la importancia de un conjunto de posiciones de aminoácidos mediante mutagénesis directa al sitio. Informaron que las mutaciones H228T y N301Q / V302F podrían conducir a una β-glucosidasa marina no resistente a la tolerancia a la glucosa. Además, Giuseppe et al. [10] informó que la forma y la presencia de residuos hidrofóbicos en el medio del canal del sustrato podrían estar relacionadas con la base estructural de la tolerancia a la glucosa. Además, se ha informado que las mutaciones en las posiciones 174, 404 y 441 de una β-glucosidasa extraída del metagenoma de depresión de Turpan son necesarias para aumentar la temperatura óptima y reducir el pH óptimo [12]. El estudio de Cao et al. [12] demostró que la β-glucosidasa del metagenoma de depresión de Turpan podría clasificarse como tolerante a la glucosa. Sin embargo, la enzima salvaje presentó un bajo Kgato/ Kmetro valor cuando se utiliza celobiosa como sustrato. Además, la vida media de la enzima salvaje a 50 ° C fue de solo 1 h. Por tanto, esto podría dificultar el empleo de esta enzima en la hidrólisis de celulosa. La combinación de tres mutaciones beneficiosas (W174C / A404V / L441F) fue esencial para extender la vida media a 48 h, manteniendo la IC50 y, en consecuencia, la tolerancia a la glucosa. El uso de la enzima mutante permitió mejorar la conversión del bagazo de caña de azúcar en un 14-35%, lo que demostró que se deben considerar múltiples aspectos para proponer mutaciones que mejoren la actividad de las β-glucosidasas.

También se han utilizado enfoques computacionales en la búsqueda de aminoácidos cruciales para convertir β-glucosidasas no tolerantes en tolerantes. Por ejemplo, se ha propuesto un conjunto de 15 mutaciones para mejorar la actividad de una β-glucosidasa no tolerante de un metagenoma marino [44]. A partir de estas 15 mutaciones propuestas, un estudio anterior ha proporcionado pruebas experimentales de aumento de la actividad de la β-glucosidasa incluso en concentraciones elevadas de glucosa para tres de ellas: H228C, H228T y H228V [9]. Los residuos mutados V302F, N301Q / V302F, F172I, V227M, G246S, T299S y H228T también fueron el objetivo de otros estudios computacionales que utilizaron simulación de dinámica molecular clásica y acelerada para resaltar su papel en la liberación de glucosa [45, 46]. A pesar de todos estos esfuerzos, el diseño racional de β-glucosidasas más eficientes sigue siendo un desafío.

Anteriormente, se propuso una base de datos que contiene estructuras de β-glucosidasas tolerantes a la glucosa, llamada Betagdb [4]. La base de datos Betagdb se desarrolló sobre la base de artículos que informaron sobre β-glucosidasas tolerantes a la glucosa con validaciones experimentales y datos estructurales de bases de datos públicas (solo se encontraron 23 ocurrencias en ese momento). Con el aumento y la popularización de las plataformas de secuenciación de próxima generación, miles de β-glucosidasa de varios organismos se almacenaron en bases de datos de secuencias, como UniProt. Estos datos podrían explorarse mejor para aportar nuevos conocimientos sobre los mecanismos de la β-glucosidasa. En este artículo, proponemos una base de datos de enzimas β-glucosidasas llamada Glutantβase. Nuestra base de datos incluye 3842 secuencias recolectadas de UniProt de β-glucosidasas de la familia GH1 (Glycoside Hydrolase Family 1), la familia más prometedora para la producción de biocombustibles de segunda generación. Para todas las secuencias, realizamos un modelado comparativo, predecimos su estructura secundaria, detectamos los residuos involucrados en las redes de coevolución, detallamos los residuos conservados, los glutamatos catalíticos y los residuos presentes en el canal del sustrato que guía al sitio activo. Además, planteamos la hipótesis de que las mutaciones descritas en la literatura como beneficiosas para mejorar la actividad de la β-glucosidasa podrían extrapolarse a otras β-glucosidasas. Para verificar esto, modelamos proteínas mutantes 5607 basadas en posiciones análogas de seis mutaciones beneficiosas descritas en la literatura: H228T [9], V174C [12], A404V [12], L441F [12], H184F [27] y E96K [ 47]. Realizamos un acoplamiento molecular de glucosa y celobiosa en la naturaleza y proteínas mutantes para verificar la variación de la puntuación de afinidad. Nuestros resultados muestran que solo las mutaciones en posiciones análogas de H228T impactan en las interacciones de la glucosa y la celobiosa, lo que concuerda con estudios experimentales y computacionales previos [9, 44, 45]. Esperamos que Glutantβase pueda ayudar a diseñar enzimas β-glucosidasa tolerantes para traer mejoras en la producción de biocombustible de segunda generación.


Métodos

Predicción basada en desplazamientos químicos de las propensiones a estructuras secundarias.

En el primer paso del procedimiento CHESHIRE, los cambios químicos se utilizan para predecir la estructura secundaria de la proteína. El método que desarrollamos, denominado 3PRED, utiliza la inferencia bayesiana para predecir la estructura secundaria de los aminoácidos a partir de los cambios químicos conocidos en combinación con la propensión a la estructura secundaria intrínseca de los tripletes de aminoácidos Las distribuciones de probabilidad PAG δ medir la probabilidad de que los aminoácidos individuales formen estructuras secundarias específicas S dado un conjunto de desplazamientos químicos medidos experimentalmente (δH α,…, δC β ). El segundo conjunto de distribuciones de probabilidad PAG 3 tener en cuenta las propensiones intrínsecas de los fragmentos de tres aminoácidos consecutivos (Q 1, Q 2, Q 3) para formar estructuras secundarias dadas (S 1, S 2, S 3). los PAG 3 Las distribuciones actúan como potenciales de suavizado para aumentar la precisión de las asignaciones derivadas de los cambios químicos solo a través de la PAG δ distribuciones.

Las propensiones PAG 3 se calcularon considerando todas las estructuras en la base de datos ASTRAL SCOP (35) que tienen & lt25% de identidad de secuencia de acuerdo con la clasificación de estructura secundaria proporcionada por el programa STRIDE (36). Para los cálculos de probabilidades PAG δ, los desplazamientos químicos se calcularon aplicando SHIFTX (17) al mismo conjunto de estructuras para obtener una base de datos extensa (3PRED-DB), que constaba de 939,639 desplazamientos químicos calculados para cada tipo de átomo.

Una vez que las probabilidades PAG 3 y PAG δ son conocidas, por conveniencia computacional pueden ser refundidas en pseudoenergías como Por lo tanto, la pseudoenergía mi de una asignación de estructura secundaria S para una proteína de secuencia Q y cambios químicos Δ puede aproximarse como la estructura secundaria más probable S y las propensiones individuales (PAG H, PAG B, PAG C) se calculan promediando las asignaciones con la función pseudoenergía mi. Usamos un esquema de Monte Carlo en el que mi se minimiza mediante una búsqueda en el espacio del norte-dimensionales vectores S en el que en cada movimiento se cambia la asignación de estructura secundaria de un solo aminoácido. Las predicciones se obtuvieron considerando 10 6 de tales pasos a una pseudotemperatura T = 1.

Predicción basada en cambios químicos de restricciones diédricas: TOPOS.

En el segundo paso del procedimiento CHESHIRE, las propensiones de la estructura secundaria calculadas por 3PRED se utilizan como entrada en TOPOS, un algoritmo basado en un enfoque similar al de TALOS (2), para predecir los ángulos de torsión de la columna vertebral que son más compatibles con el cambios químicos experimentales. En TOPOS, para cada segmento de proteína de tres residuos centrados en la posición I en la secuencia (el objetivo), la similitud con un triplete centrado en la posición j en una secuencia en la base de datos ASTRAL SCOP (la fuente) se evalúa calculando la función de similitud σ (I, j) donde Δδ es el desplazamiento químico secundario de un átomo dado del segmento de proteína fuente y objetivo los parámetros k h y k s ambos se establecieron en 0,2, y los valores de los parámetros restantes y de la matriz de similitud de aminoácidos ΔResType fueron tomados de Cornilescu et al. (2). Los primeros términos de la ecuación. 3 son similares a la función de puntuación de TALOS, la única diferencia sustancial es que no consideramos H N cambios químicos. Por el contrario, el término k s Iniciar sesión PAG norte+j(S norte+j) es el sesgo de estructura secundaria presente en TOPOS pero no en TALOS. Para evitar problemas de sobreajuste debido al uso de una base de datos limitada, TOPOS utiliza la misma base de datos extensa de 3PRED.

Los fragmentos con las puntuaciones σ más altas, típicamente de 200 a 500, se agrupan de acuerdo con la distancia de los ángulos de torsión de la columna vertebral del aminoácido central. Finalmente, los ángulos diedros Φ y Ψ promedio para los tres grupos con mejor puntuación se informan como predicción.

Predicción de las estructuras de fragmentos.

El método CHESHIRE se basa en el enfoque de reemplazo de fragmentos moleculares, que ha demostrado ser exitoso para la determinación de estructuras proteicas con RDC (27) y en ab initio determinación de la estructura (37). En el presente método, se seleccionan dos tipos de fragmentos, de tres y nueve aminoácidos, respectivamente, de la base de datos ASTRAL SCOP PDB. La función de puntuación tiene en cuenta tres contribuciones: (I) el marcador mi turnos entre los cambios químicos experimentales del fragmento de la proteína considerada y los cambios químicos de la estructura en la base de datos, (ii) el marcador mi restr para la compatibilidad con las restricciones de ángulo diedro obtenidas con TOPOS, y (iii) el marcador mi secstr para la coincidencia entre la estructura secundaria predicha y la estructura secundaria del fragmento donde los pesos se establecen como

Puntuación de desplazamiento químico.

La puntuación de desplazamiento químico utilizada en la selección de fragmentos es similar a la puntuación utilizada por TOPOS, las únicas diferencias son que (I) el ΔResType no está incluido y (ii) el efecto de los residuos I - 1 y I + 1 en residuo I no se tienen en cuenta. dónde mi cambio(I, j) es dado por

Puntuación de restricción del ángulo diedro.

El término mi restr penaliza los fragmentos que tienen ángulos de torsión incompatibles con las predicciones de TOPOS. Un fragmento es compatible si su distancia, en el gráfico de Ramachandran, con al menos uno de los valores predichos es & lt60 °.

Puntuación de estructura secundaria.

La puntuación de estructura secundaria penaliza los segmentos de la base de datos con estructuras secundarias que difieren de las predichas por 3PRED: donde PAG(S j, I) es la probabilidad de tener la asignación de estructura secundaria S j en la posición I.

Este paso del procedimiento CHESHIRE proporciona en cada posición a lo largo de la secuencia diez fragmentos de longitud tres y cinco fragmentos de longitud nueve. Estos fragmentos se utilizan para generar las estructuras de baja resolución, como se describe a continuación.

Generación de Estructuras de Baja Resolución.

Representación molecular.

En la generación inicial de estructura de baja resolución, se utilizó una representación de grano grueso de la cadena de proteína en la que solo los átomos de la columna vertebral están modelados explícitamente (H, N, C α, C ′, O), las cadenas laterales están representadas por un solo C β átomo. Las longitudes y ángulos de enlace, y el ángulo de torsión de la columna vertebral ω se mantienen fijos, mientras que la torsión Φ y Ψ tienen la libertad de moverse.

Función energética.

La función de energía utilizada para la generación de estructuras de baja resolución es una combinación lineal de términos que modelan diferentes características de las proteínas plegadas: En el siguiente texto, ilustramos el significado de estos términos de energía.

Interacciones por parejas.

mi vdw, mi elec, y mi EEF1 modelo de van der Waals, electrostático y solvatación, respectivamente. Los dos primeros fueron adaptados del CHARMM PARAM19 (38) y el tercero de la ref. 39. El potencial por pares de la fuerza media mi PMF se implementó utilizando todas las estructuras PDB conocidas en la base de datos ASTRAL SCOP siguiendo a Zhou y Zhou (40).

Empaquetadura de estructura secundaria.

Para modelar correctamente el empaque de elementos de la estructura secundaria, el potencial de Baker y colaboradores (41) (mi SS, mi SH, y mi S.S) Fue implementado.

Enlace de hidrógeno cooperativo.

Este término (mi CHB) se implementó de acuerdo con la ref. 42 para favorecer la formación de láminas β por cadenas β distantes en secuencia.

Protocolo de generación de estructuras.

Las estructuras de baja resolución se generaron utilizando un algoritmo de Monte Carlo llevado a cabo en un espacio de configuración extendido Γ dado por el producto cartesiano de las coordenadas de la cadena de proteínas y una cadena de "estructura secundaria virtual" donde norte y METRO son, respectivamente, el número de átomos y aminoácidos en la cadena de proteínas. Estas METRO Se utilizan grados de libertad discretos adicionales para activar y desactivar los términos energéticos que dependen de la estructura secundaria de la proteína.

A partir de una cadena completamente extendida, las conformaciones se generan mediante 20.000 movimientos Monte Carlo utilizando un protocolo de recocido simulado. Se aplican dos tipos de movimientos. En el primero (sustitución de fragmentos), los ángulos de torsión y la cadena de estructura secundaria en una ventana de tres o nueve residuos seleccionados al azar de la cadena de proteína se reemplazan con los de un fragmento de estructura conocida. En el segundo, la columna vertebral local se mueve, los ángulos de torsión, pero no la estructura secundaria, de una ventana de cuatro aminoácidos se alteran aleatoriamente. Se calcula la puntuación de la nueva conformación y se acepta el movimiento según el criterio de Metropolis. Para cada una de las proteínas estudiadas aquí, se generaron 10,000 estructuras de prueba de esta manera.

Refinamiento.

Representación molecular.

En la tercera etapa del procedimiento CHESHIRE, todos los átomos, incluidos los átomos de hidrógeno polares, se representan explícitamente a partir de las estructuras de prueba generadas en la etapa anterior de baja resolución. En una primera fase, las longitudes de enlace, los ángulos y los ángulos de torsión de la columna vertebral ω se mantienen fijos, mientras que los ángulos de torsión Φ, Ψ y de la cadena lateral se dejan moverse libremente. Luego, las estructuras se optimizan mediante el uso de la función de energía que se describe a continuación. Finalmente, las estructuras de mejor puntuación se refinan aún más mediante minimizaciones repetidas y optimizaciones de la cadena lateral utilizando la biblioteca de rotámeros de Dunbrack y Cohen (43).

Las estructuras iniciales se obtuvieron agregando los átomos faltantes a las estructuras de baja resolución de acuerdo con el siguiente protocolo. (I) Se genera una cadena de proteína de átomos completamente extendida mediante el uso de geometrías ideales. (ii) Los ángulos objetivo Φ y Ψ se establecen en los de la cadena fuente. (iii) Se realiza una minimización de energía de 10.000 pasos para eliminar los choques estéricos. (iv) Se realiza una minimización de energía adicional de 10,000 pasos restringiendo las distancias entre redes troncales a las originales. (v) Se realiza una minimización de energía final de 10.000 pasos sin ningún tipo de restricción.

Proyección de estructuras.

Todas las estructuras que contienen choques estéricos, así como aquellas con un radio de giro mayor que R max = 2.83 × METRO 0.34, donde METRO es el número de aminoácidos de la proteína (44), se descartaron.

Función energética.

La función energética CHESHIRE es una combinación de un término fisicoquímico (mi FF) y de un término que describe la correlación (C) entre cambios químicos experimentales y predichos: donde mi FF es un campo de fuerza de fondo dado por y log (1 + C)capp viene dado por donde Aquí, corrX es la correlación entre los desplazamientos químicos experimentales y retrocalculados para átomos de tipo X, k decir ah = 18, y k norte = k California = k cb = 1. El término C tiene un límite de 3,5 para evitar correlaciones entre el desplazamiento químico experimental y retrocalculado que supere el error de SHIFTX. Con esta elección de valores, las correlaciones están sesgadas hasta que alcanzan un umbral de ≈0,8 para los átomos de H α y 0,9 para los átomos de N, C α y C β.

Campo de fuerza.

Todos los términos en mi FF excepto mi media pensión son los mismos definidos en la Ec. 10 los mi media pensión modelos de término enlace de hidrógeno de la columna vertebral siguiendo a Kortemme et al. (45).

Límite de correlación de desplazamiento químico.

El término de correlación de desplazamiento químico C tiene un límite de 3,5 para evitar correlaciones entre el desplazamiento químico experimental y retrocalculado que son mejores que el error de SHIFTX. Con esta elección de valores, las correlaciones están sesgadas hasta que alcanzan un umbral de ≈0,8 para los átomos de H α y 0,9 para los átomos de N, C α y C β.

Protocolo de generación de estructuras.

Después de la adición de los átomos de la cadena lateral, la mi Se calcularon las puntuaciones de todas las estructuras y se seleccionaron las mejores 500 estructuras para perfeccionarlas. El refinamiento consistió en una corrida Monte Carlo de recocido simulado de 10,000 pasos. El uso de una estrategia de Monte Carlo nos permite usar un sesgo en los cambios químicos sin requerir las derivadas de la función de costo como sería necesario en un esquema de dinámica molecular. Después del refinamiento, las estructuras se clasificaron de acuerdo con sus puntajes y se seleccionó la mejor puntuación como resultado final.


Ver el vídeo: Aesthetic Universals and the Neurology of Hindu Art - Vilayanur S. Ramachandran (Enero 2022).