Información

Uso de secuencias de aminoácidos versus uso de secuencias de nucleótidos en análisis filogenético

Uso de secuencias de aminoácidos versus uso de secuencias de nucleótidos en análisis filogenético


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Al leer un artículo sobre la evolución genética, veo que hacen análisis filogenéticos para bacterias usando secuencias de proteínas. Toman el método de otro artículo.

Puedo sospechar que las secuencias de aminoácidos son más estables que las secuencias de nucleótidos, ante la presencia de sustituciones sinónimos ... pero, ¿se requiere esta estabilidad entre especies estrechamente relacionadas? ¿No hace que el análisis sea menos poderoso? ¿Lo hace más confiable? En otras palabras, ¿cuál es la ventaja de usar secuencias de aminoácidos frente a usar secuencias de nucleótidos para el análisis filogenético?


En general, muchos programas de alineación de secuencias pueden utilizar múltiples modelos de sustitución, distinguiendo entre nucleótidos, aminoácidos y codones. Una secuencia de proteína tiene información funcional que no es directamente visible en la secuencia de nucleótidos.

Los artículos que vincula se refieren a la transferencia horizontal de genes, en la que un gen se transmite a un organismo más distante. Diferentes especies tienen diferentes sesgos de uso de codones, es decir, la eficiencia de traducción es diferente para diferentes codones. Por un lado, esto significa que es más probable que ocurra HGT entre especies de uso de codones similar. Por otro lado, "el uso de codones de genes transferidos horizontalmente se acerca al uso del huésped a lo largo del tiempo". Por lo tanto, a nivel de nucleótidos, la señal filogenética se perderá debido a la presión evolutiva sobre la eficiencia de la traducción, mientras que a nivel de proteínas habrá más conservación.


Debido al hecho de que varios codones pueden codificar un mismo aminoácido, la secuencia de aminoácidos suele estar más conservada que la secuencia de nucleótidos.

Para estudios a pequeña escala, la mayor variabilidad de los datos de nucleótidos aporta caracteres útiles para establecer relaciones entre organismos estrechamente relacionados que podrían no diferenciarse a nivel de aminoácidos.

Con una larga distancia evolutiva, la señal de nucleótidos tiende a borrarse por múltiples sustituciones en un mismo sitio. Una característica más molesta es que los genomas tienden a tener una composición de nucleótidos preferida. Un sitio que experimenta sustituciones tendrá una probabilidad incrementada de presentar el nucleótido preferido, particularmente si la sustitución no tiene ningún efecto a nivel de aminoácidos (sustitución sinónima). Esto afecta principalmente a las posiciones del tercer codón porque, como puede ver en el código genético, aquí es donde varían la mayoría de las familias de codones. Puede suceder que especies distantes compartan una misma preferencia de composición. Los sitios libres para variar tenderán entonces a mostrar el mismo nucleótido en ambas especies a medida que aumenta el número de sustituciones. Esto puede inducir errores de reconstrucción de filogenia, especialmente si los modelos de evolución de nucleótidos no son lo suficientemente sofisticados.

Cuanto mayor sea la escala evolutiva, mayor será la probabilidad de que tales características engañosas aparezcan en los datos de nucleótidos. Esto hace que el aminoácido sea más adecuado para estudios a gran escala. Pero en última instancia, uno podría esperar que el uso de mejores modelos permita utilizar la señal presente en los datos de nucleótidos al máximo sin ser demasiado engañoso. El uso de datos de aminoácidos equivale a descartar parte de la información presente.

Cabe señalar que algunos métodos utilizan modelos de evolución de codones en lugar de modelos de nucleótidos o aminoácidos: se mantiene toda la señal, pero es posible incorporar el conocimiento de que algunos codones tienen más probabilidades de transformarse entre sí, debido a la sinonimia.


Fondo

La estimación de las relaciones filogenéticas entre las angiospermas ha recibido una atención considerable durante la última década con el rápido aumento en la disponibilidad de datos de secuencias de ADN de una amplia diversidad de marcadores y taxones [revisado en [1]]. La mayoría de los estudios filogenéticos moleculares anteriores de plantas con flores se han basado en uno o varios genes de los genomas del cloroplasto, mitocondrial y / o nuclear, aunque la mayoría de estos análisis se basaron en marcadores de cloroplasto. Estos esfuerzos han resuelto las relaciones entre muchos de los principales linajes de angiospermas, pero quedan varios problemas pendientes [1]. Los genomas de cloroplasto completamente secuenciados proporcionan una rica fuente de datos que pueden utilizarse para abordar cuestiones filogenéticas en los nodos profundos del árbol de las angiospermas [2-6]. El uso de secuencias de ADN de todos los genes de cloroplasto compartidos proporciona muchos más caracteres para la reconstrucción de la filogenia en comparación con estudios anteriores que se han basado en solo uno o unos pocos genes para abordar las mismas preguntas. Sin embargo, el enfoque del genoma completo puede resultar en estimaciones engañosas de las relaciones debido al muestreo de taxón limitado [5, 7-10] y el uso de modelos incorrectos de evolución de secuencia en conjuntos de datos concatenados [4, 11]. Por lo tanto, existe un creciente interés en ampliar el muestreo de taxones de secuencias genómicas completas de cloroplasto y desarrollar nuevos modelos evolutivos para el análisis filogenético de secuencias de cloroplasto [12] para superar estas preocupaciones.

Los rosids representan el mayor de los ocho principales clados de eudicots centrales e incluyen casi un tercio de todas las plantas con flores. Las filogenias de genes únicos y múltiples de rosids han identificado siete clados principales, sin embargo, las relaciones entre estos clados siguen sin resolverse [13-16]. Uno de estos clados sin resolver incluye las Vitaceae, que incluye la uva, una importante planta de cultivo. La posición filogenética de Vitaceae ha sido controvertida durante muchos años. Algunas clasificaciones anteriores colocan a la familia dentro de los Rhamnales en la subclase Rosidae [17]. Las filogenias moleculares más recientes basadas en uno a cuatro genes proporcionaron un apoyo débil para la ubicación de Vitaceae hermana de Caryophylales [18], asterids [18], Saxifragales [14], Dilleniaceae [19] o rosids [14-16] . Por lo tanto, la relación filogenética de la familia de las uvas con el núcleo de eudicots sigue sin resolverse.

En este artículo, informamos sobre la secuencia completa del genoma del cloroplasto de la uva (Vitis vinifera, Vitaceae). Además de describir la organización del genoma del cloroplasto, presentamos los resultados de análisis filogenéticos de secuencias de ADN para 61 genes de uva y otros 26 genomas de cloroplasto de angiospermas, incluidos otros ocho miembros del clado rosid. Los análisis filogenéticos proporcionan información sobre la relación de Vitaceae con otras rosids e ilustran la importancia del muestreo de taxones y el método analítico para abordar cuestiones filogenéticas utilizando secuencias del genoma completo. La secuencia completa del genoma del cloroplasto de Vitis también proporciona datos valiosos para el uso de la ingeniería genética del cloroplasto para esta planta de cultivo de importancia económica [20].


Métodos

Recolección y procesamiento de datos

Los genomas de referencia se descargaron junto con sus archivos de Formato de características generales (GFF3) correspondientes de la base de datos del Centro Nacional de Información Biotecnológica (NCBI) 18,19,20,21 en agosto de 2018 utilizando el sitio FTP de NCBI: ftp: //ftp.ncbi. nlm.nih.gov/genomes/refseq/. Usamos la versión de ensamblaje de referencia más reciente para cada una de las 247 especies de vertebrados (consulte las Notas complementarias S1 y S2 para obtener una lista de las especies utilizadas en este estudio). Se analizó el grupo taxonómico de mamíferos (114 especies de mamíferos), así como su grupo externo de vertebrados no mamíferos (133 especies no mamíferos). Nuestros análisis incluyen solo especies de vertebrados porque se identificaron secuencias de rampa ortólogas insuficientes en otros grupos taxonómicos. De arqueas, bacterias, hongos, invertebrados, mamíferos vertebrados, otros vertebrados, plantas, protozoos y virus, solo los vertebrados pasaron nuestros criterios de filtrado para garantizar que los ortólogos contenían secuencias de rampa en al menos el 5% de las especies disponibles y no contenían secuencias de rampa en al menos el 5% de las especies disponibles. Al menos el 5% de todos los ortólogos anotados debían pasar esos criterios de filtrado para que un grupo taxonómico se incluyera en nuestros análisis.

Luego evaluamos la congruencia de la señal filogenética de las secuencias de rampa dentro de las especies de mamíferos y su grupo externo de vertebrados. Todos los datos de las secuencias de codificación (CDS) se extrajeron de los genomas de referencia utilizando un analizador sintáctico GFF3 incluido en JustOrthologs 22. Todas las secuencias con excepciones anotadas, como excepciones de traducción, discrepancias de transcripción no clasificadas y errores sospechosos, se eliminaron del conjunto de datos. Nuestros análisis incluyeron todas las anotaciones de genes NCBI. Las anotaciones del gen NCBI se calculan mediante la canalización de anotaciones del genoma eucariótico del NCBI para el conjunto de datos del gen NCBI. Utilizan una combinación de similitud de secuencias de proteínas e información de sintenía local para establecer la ortología. Un curador manual también puede asignar relaciones de genes ortólogos. La base de datos del NCBI incluye 34,202 ortólogos para Mammalia y 41,337 ortólogos para vertebrados no mamíferos.

Identificación de secuencias de rampas

Las secuencias de rampa se identificaron usando ExtRamp (Fig. 1). La adaptabilidad relativa del codón se calculó para cada codón utilizando su frecuencia en el genoma. A continuación, se estimó la tasa de traducción en cada codón del gen utilizando la eficiencia de traducción media de una ventana de codones. Se utilizó una ventana deslizante de nueve codones para aproximar el lapso de un ribosoma, como se recomienda en la documentación de ExtRamp 9. Las secuencias de rampa se identificaron cuando se produjeron regiones atípicas bajas de eficiencia de traducción de codones (es decir, cuellos de botella de traducción) al comienzo de las secuencias de genes. ExtRamp se ejecutó en el archivo FASTA de cada especie (.fasta) que contiene todos los genes utilizando las opciones para generar la secuencia de rampa y la porción después de la secuencia de rampa, como se describe en el archivo README de ExtRamp (https://github.com/ridgelab/ExtRamp ) El comando exacto utilizado se incluye en la nota complementaria S3.

Identificación de secuencias de rampa mediante ExtRamp. Diagrama de flujo para encontrar secuencias de rampas usando ExtRamp.

Recuperando filogenias utilizando la presencia y ausencia de rampas

La presencia o ausencia de una secuencia de rampa en cada ortólogo anotado se codificó en una matriz binaria. Si una secuencia de rampa estaba presente en un ortólogo, se codificó en la matriz como un '1', y si estaba ausente, se codificó como un '0'. A las especies que no contenían el ortólogo se les asignó un '?' para un valor faltante, similar a otros métodos que han encontrado señales filogenéticas en sesgos de uso de codones 23,24,25. El efecto de los datos faltantes se limitó mediante la aplicación de un filtro adicional a los datos. Un gen ortólogo se incluyó en los análisis solo si se encontraba una secuencia de rampa en ese gen en al menos el 5% de las especies. Además, todas las especies debían contener anotaciones de ortólogos para al menos el 5% de los ortólogos que pasaban ese filtro inicial. Después de aplicar este filtro, las especies de mamíferos tenían una media de 16,31% ± 7,81% de datos faltantes, y los vertebrados no mamíferos tenían una media de 28,50% ± 13,11% de datos faltantes.

Los árboles filogenéticos de parsimonia se recuperaron mediante el análisis de árboles con nueva tecnología (TNT) 26. Los árboles más parsimoniosos se encontraron al salvar varios árboles mediante el intercambio de ramas de reconexión de bisección de árboles (tbr) 27. Los árboles de máxima verosimilitud se recuperaron utilizando IQTREE 28.

Recuperando filogenias de referencia

Para determinar la congruencia de la señal filogenética de las secuencias de rampa, cada una de las filogenias recuperadas (es decir, parsimonia y árboles de máxima verosimilitud) se compararon con la filogenia sintética del Open Tree of Life (OTL) 29. Aunque esta filogenia no puede considerarse el árbol "verdadero", se crea a partir de un conglomerado de muchos estudios filogenéticos y proporciona un recurso útil para comparar secuencias de rampa como un nuevo estado de carácter. La filogenia sintética se recuperó del OTL utilizando un analizador previamente publicado, getOTLtree.py 30, que hace referencia a la interfaz de programación de aplicaciones (API) OTL para obtener identificadores de taxonomía OTL para cada especie y recupera la filogenia de la base de datos OTL. El comando exacto se incluye en la nota complementaria S4.

Comparaciones con el árbol sintético OTL

La precisión de las filogenias recuperadas en función de la presencia o ausencia de la secuencia de rampa se evaluó comparando cada árbol con la filogenia sintética OTL. La diferencia se cuantificó utilizando comparaciones de porcentajes de ramas, según lo implementado por el módulo de comparación 31,32 del kit de herramientas Environment for Tree Exploration ete3. Esta métrica calcula el porcentaje de similitud de ramas entre dos árboles, donde un alto porcentaje corresponde a árboles más similares. Se seleccionó esta métrica debido a su capacidad para comparar árboles grandes, incluidos árboles sin raíces y árboles con politomías. El rendimiento de la línea de base de la métrica de identidad porcentual de la rama ete3 se determinó comparando 1000 permutaciones aleatorias de las topologías de mamíferos y otros vertebrados con la OTL.

Secuencias de rampa de puntuación

Utilizando la matriz binaria de secuencias de rampa dentro de cada ortólogo, se cuantificó el grado en que las secuencias de rampa son homoplasias mapeando cada secuencia de rampa al OTL. Para cada secuencia de rampa, las especies se dividieron en dos particiones en función de la presencia o ausencia de la secuencia de rampa. Dado que las autapomorfias no proporcionan información filogenética, se requería que una secuencia de rampa ortóloga estuviera presente en al menos dos especies y ausente en al menos dos especies, asumiendo un árbol completamente resuelto. Para cada secuencia de rampa, se cuantificó el número de paralelismos y reversiones que ocurrieron. Los paralelismos ocurren cuando un personaje surge de forma independiente varias veces debido a la evolución convergente. Las reversiones ocurren cuando un personaje derivado se pierde o cuando el personaje vuelve a su estado ancestral. Se determinó que una secuencia de rampa era ortóloga si separaba correctamente las especies de acuerdo con sus relaciones informadas en el OTL, y si el número total de eventos de ganancia / pérdida era igual a uno, como se calculó previamente para otros sesgos de uso de codones 23,24. El número de eventos de origen y pérdida se utilizó luego para calcular el índice de retención para cada secuencia de rampa 33, donde un índice de retención de cero representa un carácter completamente homoplasioso, y un índice de retención de uno representa un carácter en el que ninguno de los estados es homoplásico. .

Cálculos estadísticos mediante prueba de permutación aleatoria

Se realizaron permutaciones aleatorias para determinar en qué medida el índice de retención medio observado de las secuencias de rampa se compara con el azar. Las pruebas de permutación (también llamadas pruebas de aleatorización) son pruebas estadísticas no paramétricas que determinan la significación estadística reorganizando aleatoriamente las etiquetas de un conjunto de datos 34. Los taxones en el OTL se barajaron 1000 veces para generar árboles aleatorios. La topología de árbol de la OTL se mantuvo para evitar cualquier sesgo debido a la topología de árbol. Los índices de retención de las secuencias de rampa se calcularon para cada árbol aleatorio para crear una distribución nula de índices de retención debido al azar. El índice de retención medio real de la rampa se comparó con esta distribución y se calculó un valor p empírico como la proporción de índices de retención permutados menores o iguales al índice de retención observado del OTL.

Cálculo estadístico de rampas completamente ortólogas

Una secuencia de rampa se consideró ortóloga si todas las especies que tienen o no tienen la secuencia de rampa forman un grupo monofilético. Para cada secuencia de rampa ortóloga, se calculó la probabilidad de que formara un grupo monofilético de acuerdo con la topología OTL debido al azar. Las especies se dividieron en dos grupos: especies con secuencias de rampa y especies sin secuencias de rampa. Luego se calculó la probabilidad condicional de que un grupo de especies se dividiría aleatoriamente en un grupo monofilético concordante con el OTL usando el método descrito previamente en Miller, et al. 23, que describe cómo (t) especies totales con (s) número de especies en el más pequeño de los dos grupos (es decir, especies con rampas o especies sin rampas para un gen dado) rastrearán una filogenia propuesta usando la Ec. (1).

Por ejemplo, si tres especies contienen una secuencia de rampa en un gen ortólogo y hay siete especies en total, entonces la probabilidad de que las tres especies que contienen una secuencia de rampa en el gen ortólogo formen un grupo monofilético de acuerdo con la topología OTL por azar es como sigue:

Para cada secuencia de rampa ortóloga, el número esperado de secuencias de rampa se calculó multiplicando la probabilidad condicional por el número total de secuencias de rampa con la misma distribución taxonómica (p. Ej., Si el conjunto de datos contenía 15 genes ortólogos con secuencias de rampa donde había tres especies en el grupo más pequeño y siete especies en total, entonces el número esperado de rampas ortólogas a través de esa distribución sería (P * 15 = frac <1> <15> * 15 = 1 )). Se realizó un análisis de chi cuadrado utilizando el número esperado de secuencias de rampa ortólogas frente a los números observados para calcular un valor p para el conjunto de datos.

Comparaciones de control con secuencias abreviadas

Realizamos un análisis de control adicional para asegurarnos de que ExtRamp identificara secuencias de rampa que probablemente afectaron la eficiencia de traducción en lugar de artefactos genómicos al eliminar los primeros 50 codones en todos los genes y volver a ejecutar nuestro proceso de análisis. Dado que la secuencia de rampa generalmente ocurre dentro de los primeros 50 codones de un gen, esperábamos que este análisis de control identificara significativamente menos secuencias de rampa que el conjunto de datos original. Evaluamos esta diferencia mediante una estadística de chi cuadrado y un valor de p.

Recuperación de filogenias utilizando datos de secuencia alineados

Para investigar la hipótesis de que los nucleótidos en las secuencias en rampa proporcionan una señal filogenética diferente a otras porciones del gen, las secuencias alineadas se analizaron utilizando la máxima verosimilitud y parsimonia. Las secuencias de rampa para cada grupo ortólogo se alinearon utilizando Clustal Omega 35 (consulte la nota complementaria S5 para el comando). Las secuencias se alinearon usando la alineación de secuencias de nucleótidos en oposición a la alineación de secuencias de aminoácidos para acomodar las posibles diferencias en los marcos de lectura del sitio de corte y empalme entre especies. Los alineamientos de secuencias de nucleótidos permiten alinear genes homólogos que pueden contener exones de codificación dual, lo que ocurre cuando una porción de una secuencia puede codificarse usando diferentes marcos de lectura.

La matriz de caracteres se codificó concatenando primero las secuencias de rampa alineadas de cada ortólogo. Entonces, si un ortólogo no estaba presente en una especie, cada carácter de nucleótido para esa secuencia se codificó como un '?' para los datos faltantes. A continuación, se utilizó el máximo en IQ-TREE 28 para seleccionar el mejor modelo 36 y realizar una estimación de máxima verosimilitud de la filogenia. La matriz también se utilizó en TNT para recuperar filogenias utilizando parsimonia.

Las filogenias se recuperaron de manera similar usando la secuencia alineada después de la rampa y la secuencia completa del gen para cada gen ortólogo. Para el análisis de máxima verosimilitud, el tamaño del conjunto de datos para la porción después de la secuencia de rampa y la secuencia completa hicieron que la selección automática del modelo no fuera práctica debido a demandas computacionales. Por lo tanto, seleccionamos los mismos modelos que se usaron en la secuencia de rampa para evaluar la secuencia de genes después de la secuencia de rampa y la secuencia de genes completa, que fueron GTR + F + R5 para Mammalia y GTR + F + R8 para vertebrados no mamíferos.


Fondo

Antes de que los estudiantes comiencen las actividades 1 y 2, discutimos la idea de Darwin de descendencia con modificación y lo que eso implica para la diversidad de organismos en la tierra. Si la descendencia con modificación es el mecanismo de la filogenia, o los patrones de relación entre organismos, entonces existen similitudes entre organismos porque comparten un ancestro común. Basado en los mismos principios que hacen a los hermanos más similares que a los primos, la similitud entre especies se puede utilizar para hacer inferencias sobre las relaciones evolutivas entre ellos. Las características similares se denominan "" caracteres homólogos "" si la similitud se debe a un ancestro común. No todas las similitudes son homólogas. La evolución convergente puede resultar en similitudes porque las presiones de selección empujan a especies ampliamente divergentes a formas similares. Los planeadores del azúcar marsupiales de Australia y las ardillas voladoras placentarias de América del Norte son dos de los muchos ejemplos de similitudes en la morfología que resultaron de la evolución convergente. Mediante el estudio de caracteres homólogos, ya sea comparando moléculas como el ADN, características físicas como rasgos anatómicos o caracteres fósiles, se pueden crear árboles filogenéticos que reflejen las relaciones entre organismos. La comprensión y el escrutinio de este proceso es la forma en que avanza la teoría de la evolución.

Tres pasos importantes en el análisis filogenético son (1) determinar la homología, (2) determinar las características ancestrales versus las derivadas (es decir, la polaridad del carácter) y (3) usar la parsimonia como criterio para juzgar entre árboles alternativos. (La parsimonia se aborda al comienzo de la actividad 3.)

La homología está determinada por tres líneas de evidencia: morfología, posición relativa en relación con otras características y desarrollo embriológico de la característica de interés. Al considerar los huesos, la posición relativa es, en parte, un indicador para observar el desarrollo de ese hueso. Debido a que los huesos, especialmente los huesos de las extremidades, pueden ser morfológicamente variables como resultado de adaptaciones, la posición relativa es una herramienta útil para ayudar a determinar la homología. Dos huesos en diferentes organismos pueden verse significativamente diferentes pero articulados con exactamente los mismos tipos de huesos. Esta es una buena indicación de homología ósea, incluso si los huesos se ven muy diferentes, porque el cambio en el programa de desarrollo complejo e interconectado de una extremidad completa es mucho menos probable que la forma final de cualquier hueso en particular en esa extremidad.

““ Polaridad de caracteres ”” es un término utilizado para describir la variación en caracteres homólogos con respecto a cómo han cambiado a través del tiempo. Imagina que un personaje nuevo acaba de evolucionar en una nueva especie. A medida que esta especie irradia y da lugar a otras especies nuevas, el personaje nuevo puede permanecer igual o cambiar. Si el carácter cambia y esa variación se transmite a una nueva especie, la forma original del carácter se conoce como "" estado de carácter ancestral "", mientras que la nueva forma se denomina "" estado de carácter derivado ". Por ejemplo, suponga que una población parental de vertebrados tenía extremidades cortas y dio lugar a especies hijas que tenían extremidades largas y extremidades cortas. Las extremidades cortas se considerarían el estado de carácter ancestral y las extremidades largas se considerarían derivadas. Esta información se puede utilizar para reconstruir las relaciones evolutivas entre un grupo de especies existentes. Dado que no hay forma de mirar atrás en el tiempo para descubrir cómo los personajes —y, por lo tanto, las especies— han cambiado, los fósiles brindan la mejor evidencia para determinar la polaridad de los personajes. En lugar de fósiles, se puede utilizar el análisis de grupos externos. El análisis de grupos externos comienza por encontrar una especie viviente relacionada lejanamente (pero no demasiado) con el grupo de organismos en el que se cuestiona la polaridad del carácter. Suponiendo que el grupo externo también compartió un ancestro común, pero menos recientemente, se puede predecir que la forma compartida de la característica es ancestral. Por ejemplo, si el grupo de organismos en consideración tiene algunos miembros con extremidades largas y algunos con extremidades cortas, la pregunta se convierte en "¿cuál fue primero?" ¿antepasado? Si el grupo externo tiene extremidades cortas, se puede inferir que las extremidades cortas eran el estado antiguo del grupo interno. ¿Por qué es ese el caso? Es más probable que las extremidades cortas evolucionen solo una vez en un ancestro común y se transmitieran tanto al grupo interno como al externo, en lugar de evolucionar por separado en ambos. Si se suponía que las extremidades largas eran el rasgo ancestral del grupo interno, entonces las extremidades cortas habrían tenido que evolucionar una vez en el grupo externo y otra vez en algunos de los miembros del grupo interno. Este concepto se explorará con más detalle durante los ejercicios de laboratorio.


Porcentaje de identidad de secuencias de aminoácidos y ADN genómico

El porcentaje de identidad se refiere a una medida cuantitativa de la similitud entre dos secuencias (ADN, aminoácido o de otro tipo). Se espera que las especies estrechamente relacionadas tengan un porcentaje de identidad más alto para una secuencia dada que las especies relacionadas más lejanamente y, por lo tanto, el porcentaje de identidad refleja en cierto grado la relación. El porcentaje de identidad de la secuencia de ADN genómico, la secuencia de intrones y exones y la secuencia de aminoácidos entre humanos y otras especies varía según el tipo de especie, y el chimpancé tiene el mayor porcentaje de identidad con los humanos de todas las especies en cada categoría.

Secuencia de ADN genómico: La mayoría de las estimaciones del porcentaje de identidad entre humanos y chimpancés sitúan el porcentaje de identidad genómica total en 98-99%, aunque se han presentado estimaciones tan bajas como el 95% al ​​incluir inserciones y deleciones y un estudio reciente que compara los genomas completos de los dos encontró una 96% de identidad. Dado que muchos de estos estudios utilizaron un tamaño de muestra pequeño de cada especie, es plausible que el porcentaje de identidad esté subestimado debido a los polimorfismos individuales presentes en cada población. Las diferencias encontradas entre especies no se distribuyen uniformemente a lo largo del genoma, y ​​el cromosoma Y, los extremos cromosómicos y las repeticiones de dinucleótidos CpG muestran una mayor divergencia que otras regiones. Estas estimaciones de identidad son más altas que las de las especies relacionadas más lejanamente (93% para los monos del viejo mundo, 89% para los monos del nuevo mundo), pero más bajas que las de las variaciones interindividuales intraespecies.

Secuencia de aminoácidos: el porcentaje de identidad entre humanos y chimpancés en la secuencia de aminoácidos es mayor que el de la secuencia de ADN, con estimaciones superiores al 99%, y se ha propuesto que el 29% de las proteínas codificadas son idénticas entre las especies. Sin embargo, cuando se observan secuencias de aminoácidos de familias de genes particulares, la similitud puede ser que los genes humanos mucho más bajos con actividad de factor de transcripción, por ejemplo, han demostrado tener casi un 50% más de cambios de aminoácidos que dichos genes en chimpancés.

Intrones y exones: Las estimaciones del porcentaje de identificación de intrones y exones entre humanos y chimpancés son 97 y 99, respectivamente, otras estimaciones dan 98,3 por ciento de identidad en regiones no codificantes y & gt99,5 por ciento de identidad en regiones codificantes. La mayor similitud en las regiones codificantes / exones es coherente con el aumento de la restricción selectiva evolutiva que se impondría a estas secuencias codificantes de proteínas. Estos valores caen a

77 por ciento de identidad cuando se observan genomas humanos y de ratón, en consonancia con el punto de divergencia más antiguo entre estos linajes.

Secuencia de ADN nueva, secuencia de aminoácidos y secuencia de intrones y exones


Uso de secuencias de aminoácidos versus uso de secuencias de nucleótidos en análisis filogenético - Biología

Los métodos filogenéticos se pueden utilizar para muchos propósitos, incluido el análisis de datos morfológicos y de varios tipos de datos moleculares. Nos concentramos aquí en el análisis de secuencias de ADN y proteínas.

Comparaciones de más de dos secuencias

Análisis de familias de genes, incluidas predicciones funcionales.

Estimación de relaciones evolutivas entre organismos.

Los conceptos básicos del análisis filogenético son bastante fáciles de entender, pero comprender lo que significan los resultados del análisis y evitar errores de análisis puede ser bastante difícil. Para cursos detallados, puede tomar mi clase de posgrado sobre el tema.

Un sustituto `` rápido y sucio '' del análisis filogenético

Usando BLAST para comparaciones de múltiples secuencias

El énfasis está en los mejores resultados recíprocos, particularmente entre tres genomas

Esta es probablemente una forma correcta de identificar homólogos, pero no tiene el poder de un análisis filogenético completo.

Ejemplo con objetos cotidianos

El modelo básico de análisis filogenético.

Casi todos los métodos de análisis filogenético comparten una serie de supuestos fundamentales. Éstos incluyen:

Las secuencias homólogas están en un alineamiento de secuencia múltiple.

& bull Tenga en cuenta que la homología es una a priori suposición de la mayoría de los métodos filogenéticos. Si la homología es incierta, los resultados analíticos deben interpretarse con gran precaución.

La alineación también se conoce como matriz de datos.

Cada columna de la alineación se denomina personaje.

El residuo específico (nucleótido o aminoácido) presente en una secuencia dada se denomina estado del personaje.

Se supone que se derivan de un antepasado común único (esta declaración es realmente redundante por definición, las secuencias homólogas deben derivarse de un ancestro común).

En la mayoría de los casos, las secuencias ancestrales no se conocen y los estados ancestrales deben inferirse

Se supone que las secuencias ancestrales han sufrido mutación

Modelar la mutación con precisión es uno de los desafíos del análisis filogenético

Se supone que están relacionados por un árbol de ramificación dicotómica.

A priori Los supuestos incluyen (pero no necesariamente se limitan a):

Que la secuencia en sí es correcta

Que se determinó a partir del organismo correcto.

Las violaciones de esta suposición son más comunes de lo que uno podría sospechar. Varios tipos de errores de laboratorio pueden dar como resultado una anotación incorrecta de una secuencia que de otro modo sería legítima.

Esa homología se ha determinado correctamente. Esto se aplica tanto a las secuencias en sí mismas como a la alineación.

La paralogía puede causar una gran confusión.

Las suposiciones que se utilizaron para realizar la alineación de secuencias múltiples se encuentran entre las suposiciones del análisis filogenético que se basa en esa alineación.

Esa similitud suficiente permanece entre las secuencias de que hay presente información filogenética utilizable.

Los supuestos del análisis filogenético descritos anteriormente

Otras consideraciones críticas

El contenido de información de las secuencias

Secuencias invariantes

Secuencias saturadas

Supuestos particulares del método analítico (esto constituirá gran parte de nuestra discusión para las próximas conferencias)

Modelo de Markov

Tenga en cuenta que incluso si la filogenia de un gen se infiere correctamente, esa filogenia puede no ser útil. Por ejemplo, debido a la paralogía, la hibridación, la introgresión y la transferencia horizontal de genes, las filogenias de los genes no siempre se corresponden con la filogenia del genoma en su conjunto.

Caracteres

Estados de carácter

Múltiples alineaciones de secuencia como matrices de datos

La importancia de la evaluación de homología

Los métodos filogenéticos se pueden dividir en tres categorías generales

Criterios de optimalidad vs. algoritmos de construcción de árboles

Parte de un sistema teórico más amplio denominado & quotCladística & quot

Enfatiza los estados de caracteres derivados compartidos

La idea es que los grupos monofiléticos pueden reconocerse porque comparten estados de carácter derivados (& quotsynapomorphies & quot).

Los estados de carácter invariante, único (& quotautapomórfico & quot) y ancestral se consideran no informativos

Busque el árbol que requiera el menor número de cambios de estado de carácter

Determinar la longitud de un árbol

El número mínimo de pasos para un personaje dado se puede determinar en una sola pasada.

Veremos un caso simple con caracteres desordenados.

    1. Asignar un estado a cada nodo terminal
    2. (2) Visite el primer nodo interno
      1. ¿La intersección de estados no está vacía?
        1. Sí: establezca el estado interno en esto.
        2. Demás:
          1. set the state to the smallest set containing the states of the daughter nodes
          2. increase the tree length by 1.
    3. Are you at the root of the tree?
      1. No: go to 2.
      2. Yes: go to 4.
    4. (4) Is the state at this node the same as the outgroup state?
      1. Yes: Proceed to the next character
      2. Else: Add one to the length of the tree proceed to next character

This tells you the tree length, but does not map the characters onto the tree

Determining a most parsimonious reconstruction requires another pass

This reconstruction will not necessarily be unique!

The problem with uncorrected methods

Parsimony is easy to understand and can be a useful analytical method, but the method makes some assumptions that may not be immediately obvious. One of parsimony's most important assumptions is that it is relatively unusual for identical character-states to appear independently in different parts of the phylogenetic tree. In other words, it assumes that convergent evolution is a relatively rare phenomenon.

Unfortunately this is not a valid assumption for biological sequence data.

When the possible number of character states is limited, then one expects to observe convergent evolution. Because DNA has only four possible character states, two unrelated DNA sequences would be expected to have the same nucleotide present in roughly 25% of all positions. Two random alineado sequences would be expected to share somewhat more than 25% sequence identity (why?).

Because of this, under some conditions parsimony methods will be inconsistent

Although amino acid data have more character states than DNA and are therefore probably less

Models of DNA Sequence Evolution

Jukes-Cantor (JC)

All substitutions are equally likely

All nucleotides occur with equal frequency

Transitions and transversions can occur at different rates

All nucleotides occur with equal frequency

In the evolution of real sequences transitions are typically observed more often than transversions.

Example of a substitution probability matrix consistent with the K2P model.

These values represent the probability of the corresponding event occurring within a unit of time, t.

The values in the diagonals are selected such that each row adds up to one. Each row has to add up to one because the substitution matrix takes into account all possible events within the model.

Felsenstein 1985 and Hasegawa, Kishino, and Yano, 1985 (F84/HKY85)

Transitions and transversions occur at different rates

The four nucleotides can occur with different frequencies

Each of the six possible substitutions occurs at a different rate, but rates are always symetrical, i.e., the rate for A being substituted by C is equal to the rate for being substituted by A.

Nucleotides can occur with different frequencies.

Modeling site-to-site rate variation

Pairwise distances can be aggregated into a phylogenetic tree

Search for the tree that minimizes discrepancies among pairwise distances

May or may not use an explicit model of sequence evolution

How the distances are calculated and how the tree is found can be mixed and matched

To know what method is being used, you have to know both how the distance matrix was constructed, and how the tree was determined

A model of sequence evolution can be used to relate the data to a hypothesis (typically a tree topology).

Maximum likelihood

Search for the tree that maximizes the likelihood function

The idea is to find the tree that is most likely given the data and the model

Typically uses a Monte Carlo algorithm

Estimates probabilities for branch lengths and tree topologies

Properties of analytical methods

Consistency A method is consistent if it is more likely to find the correct answer with more data. Power A method is powerful if it can find the correct answer with very few data. Accuracy A method is accurate if in multiple trials it produces answers that follow a normal distribution centered on the correct answer. Precision A method is precise if in multiple trials it finds answers that are very close to each other (i.e., have low variance).

Felsenstein, Joseph. 2004. Inferring Phylogenies. Sinauer Associates, Sunderland, MA.

Hillis, D.M., C. Moritz, and B.K. Mable, eds. 1996. Molecular Systematics, 2nd Ed. Sinauer Associates, Inc. Sunderland, MA.

Edwards, A.W.F. 1972. Likelihood, Expanded Edition. Johns Hopkins Press, Baltimore.

Hennig, W. 1966. Phylogenetic systematics. University of Illinois Press, Urbana.


Materiales y métodos

BLAST Analysis

We calculated E-values using the blastp program version 2.2.16, [17] and modified Perl scripts, as in our previous report [18]. The deduced amino acid sequences of every gene from one organism were used as the query (query database) for a BLAST (Basic Local Alignment Search Tool) search against the protein database of another organism. For the calculation of E-values, we used default parameters and settings of BLAST as follows: a cut-off E-value of 10, the BLOSUM62 amino acid substitution matrix [19], and filtration of low complexity sequences [20]. E-values of the best-matched proteins, which showed the lowest E-values for each query sequence, were extracted. All E-values were converted into common logarithms, and E-values of zero were converted to −180 for data handling. These E-values were used for calculation of the evolutionary distances.

Calculation of the Substitution Rate of 16S Ribosomal DNA

We independently calculated the substitution rate of 16S ribosomal DNA. The 16S rDNA sequences were retrieved from the website databases of DDBJ/EMBL/GenBank, CyanoBase (Kazusa DNA Research Institute), and Integrated Genomics Inc., and the database in the ARB software 7.7.12 [21]. Accession numbers of 16S rDNA genes and databases for retrieving 16S rDNA sequences are listed in Table S1. Pairs of 16S rDNA nucleotide sequences from two different organisms were aligned using CLUSTALW 1.81 with an IUB matrix [22]. Substitution rates were calculated for all combinations of 16S rDNAs in all organisms used in this study even though some organisms contain multiple copies of 16S rDNA genes. The regression curve between the results based on the E-value estimation and the substitution rate of 16S ribosomal DNA was estimated using the IGOR Pro software (Version 5.05J, WaveMetrics, Inc. USA), and a correlation coefficient of determination was obtained using Microsoft Excel.

Phylogenetic Analysis

The phylogenetic tree was constructed as a neighbor joining (NJ) tree [23] with the program NEIGHBOR from the PHYLIP package 3.67 [24]. The consensus NJ tree was constructed with the programs NEIGHBOR and CONSENSE from the PHYLIP package 3.67. Bootstrap values were constructed using the CONSENSE program [24] from 100 reproduced trees. Reproduced trees were formed from individual distance matrices that were constructed by randomly extracted best-matched proteins and their E-values. The rand function subprogram of the Perl language was used to select the best-matched proteins and their E-values.

We constructed a phylogenetic NJ tree based on 16S rDNA sequences using 1,364 unambiguously aligned bases to compare a branching pattern with those based on amino acid sequences. The distance matrix and phylogenetic tree were constructed using DNADIST with the Jukes-Cantor correction [25] and NEIGHBOR in the PHYLIP package 3.67, respectively. Bootstrap analysis of 100 replicates of the trees was performed with SEQBOOT, DNADIST and NEIGHBOR from the PHYLIP package. The CONSENSE program was used to obtain the bootstrap values. Synechococcus elongatus PCC 6301 were used as an out-group because only Proclorococo y Synechococcus groups were analyzed.

Protein Sequence Databases

FASTA-formatted sequence files for whole proteins of each organism were retrieved from DDBJ/EMBL/GenBank, CyanoBase, Department of Energy Joint Genome Institute (JGI), Cyanorak database (http://www.sb-roscoff.fr/Phyto/cyanorak/), and Integrated Genomics Inc., and their sources are listed in Table S2.


Use of amino-acid sequences versus use of nucleotide sequences in phylogenetic analysis - Biology

SYSTEMATICS AND MOLECULAR PHYLOGENETICS

Have you ever noticed that when you see an insect or a bird, there is real satisfaction in giving it a name, and an uncomfortable uncertainty when you can't. Along these same lines, consider the bewildering number and variety of organisms that live, or have lived, on this earth. If we did not know what to call these organisms, how could we, or more importantly, scientists, communicate ideas about them, let alone the history of life. Gracias a taxonomy--the field of science that classifies life into groups--today we can discuss just about any organism, from bacteria to man.

Carolus Linnaeus pioneered the grouping of organisms based on scientific names using Latin. His system of giving an organism a scientific name of two parts, sometimes more, is called nomenclatura binomial, or "two-word naming." His scheme was based on physical similarities and differences, referred to as caracteres. Today, taxonomic classification is much more complex and takes into account cellular types and organization, biochemical similarities, and genetic similarities. Taxonomy is but one aspect of a much larger field called systematics.

What is Phylogenetic Systematics?

Carolus Linnaeus was also credited with pioneering systematics--the field of science dealing with the diversity of life and the relationship between life's components. Systematics reaches beyond taxonomy to elucidate new methods and theories that can be used to classify species based on similarity of traits and possible mechanisms of evolución--a change in the gene pool of a population over time.

Phylogenetic systematics is that field of biology which does deal with identifying and understanding the evolutionary relationships among the many different kinds of life on earth, both living (existente) and dead (extinto). Evolutionary theory states that similarity among individuals or species is due to common descent, or inheritance from a common ancestor. Thus, the relationships established by phylogenetic systematics often describe a species' evolutionary history and, hence, its filogenia--the historical relationships among lineages or organisms or their parts, such as their genes.

Understanding the Evolutionary Process

Genetic Variation: Changes In A Gene Pool

Evolution is not always discrete with clearly defined boundaries that pinpoint the origin of a new species, nor is it a steady continuum. Evolution requires genetic variation and genetic variation results from changes within a reserva genética--the genetic make-up of a specific population. A gene pool is the combination of all the alleles--alternative forms of a genetic locus--for all traits that population may exhibit. Changes in a gene pool can result from mutación--variation within a particular gene--or from changes in gene frequency--a measure of the proportion of an allele in a given population.

How does genetic variation occur?

Every organism posses a genoma that contains all the biological information needed to construct and maintain a living example of that organism. The biological information contained in a genome is encoded in the nucleotide sequence of its DNA or RNA molecules and is divided into discrete units called genes. The information stored in a gene is read by proteins, which attach to the genome and initiate a series of reactions called la expresion genica.

Every time a cell divides, it must make a complete copy of its genome--a process called Replicación de ADN. DNA replication must be extremely accurate in order to avoid introducing mutaciones, or changes in the nucleotide sequence of a short region of the genome. Inevitably, some mutations do occur, usually in one of two ways either from errors in DNA replication or from damaging effects of chemical agents or radiation that react with DNA and change the structure of individual nucleotides. Many of these mutations result in a change that has no effect on the functioning of the genome, referred to as silent mutations. Silent mutations include virtually all changes that happen in the noncoding components of genes and gene-related sequences.

Mutations in the coding regions of genes are much more important. Here we must consider the importance of the same mutation in a somatic cell compared with a germ line cell. A somatic cell is any cell of an organism other than a reproductive cell such as a sperm or egg cell. A germ cell line is any line of cells that give rise to gametes and is continuous through the generations. Because a somatic cell does not pass on copies of its genome to the next generation, a somatic cell mutation is important only for the organism in which it occurs and has no potential evolutionary impact. In fact, most somatic mutations have no significant effect because there are many other identical cells in the same tissue.

On the other hand, mutations in germ cells can be transmitted to the next generation and will then be present in all the cells of an individual who inherits that mutation. Even still, mutations within germ line cells may not change the phenotype of the organism in any significant way. Those mutations that do have an evolutionary effect can be divided into two categories: pérdida de función mutations and gain-of-function mutations. A loss-of-function mutation results in reduced or abolished protein function. Gain-of-function mutations, which are much less common, confer an abnormal activity on a protein.

The Drivers Of Evolution: Selection, Drift, and Founder Effects

We just discussed that new alleles appear in a population because of mutations that occur in the reproductive cells of an organism. This means that many genes are polimórfico, that is, two or more alleles for that gene are present in a population. Each of these alleles has its own alelo o gene frequency--a measure of how common an allele is in a population. Allele frequencies vary over time due to two conditions: natural selection and random drift.

Natural selection is the process whereby one genotipo--the hereditary constitution of an individual--leaves more offspring than another genotype because of superior life attributes, termed fitness. Natural selection acts on genetic variation by conferring a survival advantage to those individuals harboring a particular mutation that tends to favor a changing environmental condition. These individuals then reproduce and pass on this "new" gene, altering their gene pool. Natural selection, therefore, decreases the frequencies of alleles that reduce the fitness of an organism and increase the frequency of alleles that improve fitness.

It is important to point out that natural selection does not always represent progress, only adaptation to a changing surrounding. That is, evolution due to natural selection is devoid of intent--something does not evolve to better itself, only to adapt. Since environments are always changing, what was once an advantageous mutation can often become a liability further down the evolutionary line.

El término "random drift" actually encompasses a number of distinct processes, sometimes referred to as outcomes. They include indiscriminate parent sampling los efecto fundador and fluctuations in the rate of evolutionary processes such as selection, migration, and mutation. Parent sampling is the process of determining which organisms of one generation will be the parents of the next generation. Parent sampling may be discriminate, that is, with regard to fitness differences, or indiscriminate--without regard to fitness differences. Discriminate parent sampling is generally considered natural selection while indiscriminate parent sampling is considered random drift.

Another important cause of genetic drift is the efecto fundador--the difference between the gene pool of a population as a whole and that of a newly isolated population of the same species. The founder effect occurs when populations are started from a small number of pioneer individuals of one original population. Due to small sample size, the new population could have a much different genetic ratio than the original population. An example of the founder effect would be when a plant population results from a single seed.

Thus far we have discussed natural selection and random drift as events that occur in isolation from one another. However, in most populations, the two processes will be occurring at the same time. Furthermore, there is great debate over whether, in particular instances and in general, natural selection is more prevalent that random drift.

Phylogenetic Trees: Presenting Evolutionary Relationships

Systematics describes the pattern of relationships among taxa and is intended to help us understand the history of all life. But history is not something we can see--it has happened once and leaves only clues as to the actual events. Scientists use these clues to build hypotheses, or models, of life's history. In phylogenetic studies, the most convenient way of visually presenting evolutionary relationships among a group of organisms is through illustrations called phylogenetic trees.

  • Node: represents a taxonomic unit. This can be either an existing species or an ancestor.
  • Branch: Defines the relationship between the taxa in terms of descent and ancestry.
  • Topología: The branching patterns of the tree.
  • Branch length: Represents the number of changes that have occurred in the branch.
  • Root: The common ancestor of all taxa.
  • Distance scale: scale that represents the number of differences between organisms or sequences.
  • Clade: a group of two or more taxa or DNA sequences that includes both their common ancestor and all their descendents.
  • Operational Taxonomic Unit (OTU): Taxonomic level of sampling selected by the user to be used in a study, such as individuals, populations, species, genera, or bacterial strains.

Un árbol filogenético se compone de nodos--each representing a taxonomic unit (species, populations, individuals)--and sucursales, which define the relationship between the taxonomic units in terms of descent and ancestry. Only one branch can connect any two adjacent nodes. The branching pattern of the tree is called the topology and the branch length usually represents the number of changes that have occurred in the branch. A esto se le llama scaled branch. Scaled trees are often calibrated to represent the passage of time. Such trees have a theoretical basis in the particular gene or genes under analysis. Branches can also be unscaled, which means that the branch length is not proportional to the number of changes that has occurred, although the actual number may be indicated numerically somewhere on the branch. Phylogenetic trees may also be either rooted o desarraigado. In rooted trees, there is a particular node, called the raíz--representing a common ancestor--from which a unique path leads to any other node. An unrooted tree only specifies the relationship among species, without identifying a common ancestor, or evolutionary path.

Methods Of Phylogenetic Analysis

Two major groups of analyses exist to examine phylogenetic relationships: phenetic methods y cladistic methods. It is important to note that phenetics and cladistics have had an uneasy relationship over the last 40 years or so. Most of today's evolutionary biologists favor cladistics, even though a strictly cladistic approach may result in counterintuitive results.

Phenetic Method of Analysis

Phenetics, also known as numerical taxonomy, involves the use of various measures of overall similarity for the ranking of species. There is no restriction on the number or type of characters (data) that can be used, although all data must be first converted to a numerical value, without any character "weighting." Each organism is then compared with every other for all characters measured, and the number of similarities (or differences) is calculated. The organisms are then clustered in such a way that the most similar are grouped close together and the more different ones are linked more distantly. The taxonomic clusters, called phenograms, that result from such an analysis do not necessarily reflect genetic similarity or evolutionary relatedness. The lack of evolutionary significance in phenetics has meant that this system has had little impact on animal classification, and as a consequence, interest in and use of phenetics has been declining in recent years.

Cladistic Method of Analysis

An alternative approach to diagramming relationships between taxa is called cladística. The basic assumption behind cladistics is that members of a group share a common evolutionary history. Thus, they are more closely related to one another than they are to other groups of organisms. Related groups of organisms are recognized because they share a set of unique features (apomorphies) which were not present in distant ancestors, but which are shared by most or all of the organisms within the group. These shared derived characteristics are called sinapomorfias. Therefore, In contrast to phenetics, cladistics groupings do not depend on whether organisms share physical traits, but on their evolutionary relationships. Indeed, in cladistic analyses two organisms may share numerous characteristics but still be considered members of different groups.

  • A monophyletic grouping is one in which all species share a common ancestor and all species derived from that common ancestor are included. This is the only form of grouping accepted as valid by cladists.
  • A paraphyletic grouping is one in which all species share a common ancestor, but not all species derived from that common ancestor are included.
  • A polyphyletic grouping is one in which species that do not share an immediate common ancestor are lumped together, while excluding other members that would link them.

The Origins of Molecular Phylogenetics

Macromolecular data, meaning gene (DNA) and protein sequences, is accumulating at an increasing rate due to recent advances in molecular biology. For the evolutionary biologist, the rapid accumulation of sequence data from whole genomes has been a major advance, as the very nature of DNA allows it to be used as a "document" of evolutionary history. Comparisons of the DNA sequences of various genes between different organisms can tell a scientist a lot about the relationships of organisms that cannot otherwise be inferred from morfología, or an organism's outer form and inner structure. Since genomes evolve by the gradual accumulation of mutations, the amount of nucleotide sequence difference between a pair of genomes from different organisms should indicate how recently those two genomes shared a common ancestor. Two genomes that diverged in the recent past should have fewer differences than two genomes whose common ancestor is more ancient. Therefore, by comparing different genomes with each other, it should be possible to derive evolutionary relationships between them, the major objective of molecular phylogenetics.

Molecular phylogenetics attempts to determine the rates and patterns of change occurring in DNA and proteins and to reconstruct the evolutionary history of genes and organisms. Two general approaches may be taken to obtain this information. In the first approach, scientists use DNA to study the evolution of an organism. In the second approach, different organisms are used to study the evolution of DNA. Whatever the approach, the general goal is to infer process from pattern: the processes of organismal evolution deduced from patterns of DNA variation and processes of molecular evolution inferred from the patterns of variations in the DNA itself.

Molecular Phylogenetic Analysis: Fundamental Elements

As we just discussed, macromolecules, especially gene and protein sequences, have surpassed morphological and other organismal characters as the most popular forms of data for phylogenetic analyses. Therefore, this next section will concentrate only on molecular data.

First, it is important to point out that a single, all-purpose recipe does not exist for phylogenetic analysis of this type of data. Although numerous algorithms, procedures, and computer programs have been developed, their reliability and practicality are, in all cases, dependent upon the size and structure of the data set under analysis. The merits and shortfalls of these various methods are subject to much scientific debate, as the danger of generating incorrect results is greater in computational molecular phylogenetics than in many other fields of science. Occasionally, the limiting factor in such analyses is not so much the computational method employed, but the users understanding of what the method is actually doing with the data. Therefore, the goal of this section is to demonstrate to the reader that practical analysis should be thought of both as a search for a correct model (analysis) as well as a search for the correct tree (outcome).

  • The sequence is correct and originates from the specified source
  • The sequences are homologous--are all descended in some way from a shared ancestral sequence
  • Each position in a sequence alignment is homologous with every other in that alignment
  • Each of the multiple sequences included in a common analysis has a common phylogenetic history with the other sequences
  • The sampling of taxa is adequate to resolve the problem under study
  • Sequence variation among the samples is representative of the broader group and
  • The sequence variability in the sample contains phylogenetic signal adequate to resolve the problem under study.

Tree Building: Key Features of DNA-Based Phylogenetic Trees

Studies of gene and protein evolution often involve the comparison of homologs--sequences that have common origins but may or may not have common activity. Sequences that share an arbitrary level of similarity determined by alignment of matching bases are called homólogo. These sequences are inherited from a common ancestor that possessed similar structure, although the ancestor may be difficult to determine because it has been modified through descent.

A typical gene-based phylogenetic tree is depicted below. This tree shows the relationship between four homologous genes: A, B, C, and D. The topology of this tree consists of four external nodes ( A , B , C , and D ) each one representing on of the four genes, and two internal nodes ( mi y F ) representing ancestral genes. The branch lengths indicate the degree of evolutionary differences between the genes. This particular tree is unrooted--it is only an illustration of the relationships between genes A, B, C, and D and does not signify anything about the series of evolutionary events that led to these genes.

The second panel, below, depicts three rooted trees that can be drawn from the unrooted tree shown above, each representing the different evolutionary pathways possible between these four genes. A rooted tree is often referred as an inferred tree. This is to emphasize that this type of illustration depicts only the series of evolutionary events that are inferred from the data under study, and may not be the same as the true tree, or the tree that depicts the actual series of evolutionary events that occurred.

To distinguish between the pathways, the phylogenetic analysis must include at least one outgroup---a gene that is less closely related to A, B, C, and D than these genes are to each other, panel below. Outgroups enable the root of the tree to be located and the correct evolutionary pathway to be identified. Let's say that the four homologous genes used in the previous tree examples come from human, chimpanzee, gorilla, and orangutan. In this case, an outgroup could be a gene from another primate, such as baboon, which is known to have branched away from the four species above before the common ancestor of the species.

Gene Trees Versus Species Trees--Why Are They Different?

It is assumed that a gene tree, because it is based on molecular data, will be a more accurate and less ambiguous representation of the species tree than that obtainable by morphological comparisons. This may indeed be the case, but it does not mean that the gene tree is the same as the species tree. For this to be true, the internal nodes in both trees would have to be precisely equivalent, and they are not. An internal node in a gene tree indicates the divergence of an ancestral gene into two genes with different DNA sequences, usually resulting from a mutation of one sort or another. An internal node in a species tree represents what is called a speciation event, whereby the population of the ancestral species splits into two groups that are no longer able to interbreed. These two events, mutation and speciation, do not always occur at the same time.

The purpose of NCBI's Taxonomy Project is to build a consistent phylogenetic taxonomy for the NCBI sequence databases. The Taxonomy Database contains the names and lineages of every organism represented by at least one nucleotide or protein sequence in the NCBI genetic databases. As of February 2002, this total is over 100,000 taxa. For current estimates visit NCBI's Taxonomy Statistics Web page. The database is recognized as the standard reference by the international sequence database collaboration (GenBank, EMBL, DDJB, and Swiss-Prot).

The Taxonomy Browser is an NCBI-derived search tool that allows an individual to search the database. Using the browser, information may be retrieved on available nucleotide, protein, and structure records for a particular species or higher taxon. The Taxonomy Browser can be used to view the taxonomic position or retrieve sequence and structural data for a particular organism or group of organisms. Searches of the NCBI taxonomy database may be made on the basis of whole, partial or phonetically-spelled organism names, and direct links to organisms commonly used in biological research are also provided. The new Entrez Taxonomy system adds the ability to display custom taxonomic trees representing user-defined subsets of the full NCBI taxonomy.

TaxPlot, another component of the Taxonomy project, is a research tool for conducting three-way comparisons of different genomes. Comparisons are based on the sequences of the proteins encoded in that organism's genome. To use TaxPlot, one selects a reference genome to which two other genomes will be compared. The TaxPlot tool then uses a pre-computed BLAST result to plot a point for each protein predicted to be included in the reference genome.

BLAST: Detecting New Sequence Similarities

Currently, the characters most widely used for phylogenetic analysis are DNA and protein sequences. DNA sequences may be compared directly, or for those regions that code for a known protein, translated into protein sequences. Creating phylogenies from nucleotide or amino acid sequences first requires aligning the bases so that the differences between the sequences being studied are easier to spot.

The introduction of NCBI's BLAST, or The Basic Local Alignment Search Tool, in 1990 made it easier to rapidly scan huge databases for overt homologies, or sequence similarity, and to statistically evaluate the resulting matches. BLAST works by comparing a user's unknown sequence against the database of all known sequences to determine likely matches. In a matter of seconds, the BLAST server compares the user's sequence with up to a million known sequences and determines the closest matches.

Specialized BLASTs are also available for human, microbial, and malaria genomes. A single BLAST search can compare a sequence of interest to all other sequences stored in GenBank, NCBI's nucleotide sequence database. In this step, a researcher has the option of limiting the search to a specific taxonomic group. If the full scientific name or relationship of species of interest is not known, the user can search for such details using NCBI's Taxonomy Browser, which provides direct links to some of the organisms commonly used in molecular research projects, such as the zebrafish, fruit fly, bakers yeast, nematode, and many more.

BLAST next tallies the differences between sequences and assigns a "score" based on sequence similarity. The scores assigned in a BLAST search have a well-defined statistical interpretation, making real sequence matches easier to distinguish from random background hits. This is because BLAST employs a special algorithm, or mathematical formula, that seeks local as opposed to global alignments and is therefore able to detect relationships among sequences that share only isolated regions of similarity. Taxonomy-related BLAST results are presented in three formats, based on the information found in NCBI's Taxonomy Database. los Organism Report sorts BLAST comparisons, also called hits, by species such that all hits to a given organism are grouped together. los Lineage Report provides a view of the relationships between the organisms based on NCBI's taxonomy database. los Taxonomy Report provides in-depth details on the relationship between all the organisms in the BLAST hit list.

COGs: Phylogenetic Classification of Proteins

The database of Clusters of Orthologous Groups of proteins (COGs) represents an attempt at the phylogenetic classification of proteins--a scheme that indicates the evolutionary relationships between organisms--from complete genomes. Each COG includes proteins that are thought to be orthologous, or connected through vertical evolutionary descent. COGs may be used to detect similarities and differences between species for identifying protein families and predicting new protein functions and to point to potential drug targets in disease-causing species. The database is accompanied by the COGNITOR program, which assigns new proteins, typically from newly sequenced genomes, to pre-existing COGs. A Web page containing additional structural and functional information is now associated with each COG. These hyperlinked information pages include: systematic classification of the COG members under the different classification systems indications which COG members (if any) have been characterized genetically and biochemically information on the domain architecture of the proteins comprising the COG and the three-dimensional structure of the domains if known or predictable a succinct summary of the common structural and functional features of the COG members as well as peculiarities of individual members and key references.

HomoloGene is a database of both curated and calculated orthologs and homologs for the human, mouse, rat, zebrafish and cow genes represented in NCBI's UniGene and LocusLink databases. Curated orthologs include gene pairs from the Mouse Genome Database (MGD) at the Jackson Laboratory, the Zebrafish Information (ZFIN) database at the University of Oregon and from published reports. Computed orthologs and homologs are identified from BLAST nucleotide sequence comparisons between all UniGene clusters for each pair of organisms. HomoloGene also contains a set of triplet clusters in which orthologous clusters in two organisms are both orthologous to the same cluster in a third organism.

The whole genomes of over 800 organisms can now be found in Entrez Genomes. The genomes represent both completely sequenced organisms and those for which sequencing is in progress. All three main domains of life--bacteria, archaea, and eukaryotes--are represented, as well as many viruses, viriods, plasmids and eukaryotic organelles. Data can be accessed hierarchically starting from either an alphabetical listing or a phylogenetic tree for complete genomes in each of six principle taxonomic groups. One can follow the hierarchy to a variety of graphical overviews, including that of the whole genome of a single organism, a single chromosome, or even a single gene. At each level one has access to multiple views of the data, pre-computed summaries and links to analyses appropriate for that level. In addition, any gene product (protein) that is a member of a COG is linked to the COGs database. A summary of COG functional groups is also presented in tabular and graphical formats at the genome level.

For complete microbial genomes, pre-computed BLAST neighbors for protein sequences--including their taxonomic distribution and links to 3-D structures--are given in TaxTables and PDBTables, respectively. Pairwise sequence alignments are presented graphically and linked to the NCBI's Cn3D macro molecular viewer that allows the interactive display of three-dimensional structures and sequence alignments.

NCBI's Structure Group, in collaboration with NCBI taxonomists, has undertaken taxonomy annotation for the three-dimensional structure data stored in the Molecular Modeling Database (MMDB). A semi-automated approach has been implemented, in which a human expert checks, corrects, and validates automatic taxonomic assignments in MMDB. The PDBeast software tool was developed by NCBI for this purpose. It pulls text-descriptions of "Source Organisms" from either the original entries or user-specified information, and looks for matches in the NCBI taxonomy database to record taxonomy assignments.

The Importance of Molecular Phylogenetics

The field of molecular phylogenetics has grown, both in size and in importance, since its inception in the early 1990's, due mostly to advances in molecular biology and more rigorous methods for phylogenetic tree building. The importance of phylogenetics has also been greatly enhanced by the successful application of tree reconstruction, as well as other phylogenetic techniques, to more diverse and perplexing issues in biology. Today, a survey of the scientific literature will show that molecular biology, genetics, evolution, development, behavior, epidemiology, ecology, systematics, conservation biology and forensics are but a few examples of the many disparate fields conceptually united by the methods and theories of molecular phylogenetics. Phylogenies are used essentially the same way in all these fields either by drawing inferences from the structure of the tree or from the way the character states map onto the tree. Biologists can then use these clues to build hypotheses and models of important events in history. Broadly speaking, the relationships established by phylogenetic trees often describe a species' evolutionary history and, hence, its phylogeny--the historical relationships among lineages or organisms or their parts, such as their genes. Phylogenies may be thought of as a natural and meaningful way to order data, with an enormous amount of evolutionary information contained within their branches. Scientists working in these different areas can then use these phylogenies to study and elucidate the biological processes occurring at many levels of life's hierarchy.


12870_2009_423_MOESM1_ESM.pdf

Additional file 1: Bayesian tree of 39 Arabidopsis, 6 peach and 48 poplar MIKC C -type MADS-box genes. The tree was constructed using nucleotide sequences considering the positions in each codon differently and an HKY evolution model. The AGL28 sequence was used as the outgroup. The numbers for each interior branch indicate Bayesian posterior probabilities. Branches with less than 50% bootstrap support are collapsed. Branch lengths are proportional to the number of nucleotide changes. (PDF 63 KB)

12870_2009_423_MOESM2_ESM.pdf

Additional file 2: Maximum parsimony tree of 39 Arabidopsis, 6 peach and 48 poplar MIKC C -type MADS-box genes. The tree was constructed using nucleotide sequences. The AGL28 and PtMADS63 sequences were used as outgroups. The numbers for each interior branch indicate bootstrap support of 1000 replicates. Branches with less than 50% bootstrap support are collapsed. Branch lengths are proportional to the number of nucleotide changes. (PDF 63 KB)

12870_2009_423_MOESM3_ESM.pdf

Additional file 3: Maximum parsimony rooted tree of 6 peach MIKC C -type MADS-box genes. The tree was constructed using nucleotide sequences. The PtMADS27 sequence was used as the outgroup. The numbers for each interior branch indicate bootstrap support of 1000 replicates. Branch lengths are proportional to the number of nucleotide changes. (PDF 27 KB)


Ver el vídeo: El código genético nucleótidos y aminoácidos (Julio 2022).


Comentarios:

  1. Hrothrehr

    Confirmo. Estoy de acuerdo con todo lo anterior. Discutamos este tema.

  2. Jorden

    ¿Interesado en ganar dinero para un webmaster?

  3. Bernon

    Creo que no tienes razón. Puedo defender la posición. Escríbeme en PM, nos comunicaremos.

  4. Kajikazahn

    ¡Es la felicidad!

  5. Macdomhnall

    ¿Y dónde se pueden contar?

  6. Ossian

    Pido disculpas por interferir ... Soy consciente de esta situación. Escribe aquí o en PM.

  7. Grozuru

    Bravo, qué palabras adecuadas ..., el pensamiento magnífico



Escribe un mensaje