Cartilla Prácticos 2024
Cartilla Prácticos 2024
Cartilla Prácticos 2024
Filogenias
Introducción
Los chimpancé, Pan troglodytes, de la región centro-oeste del continente Africano son
reconocidos como un reservorio de virus de inmunodeficiencia en Simios (SIVcpzPtt), los
cuales han cruzado la barrera específica en al menos dos oportunidades, resultando en la
pandemia provocada por el Síndrome de Inmuno Deficiencia Adquirida (HIV-1, grupo M) y
por otro lado en la infección aislada de unos pocos individuos en Camerún (HIV-1, grupo N).
Un tercer linaje de virus HIV-1 (grupo 0), también de la región centro-oeste de África, cae
igualmente dentro de la radiación de los virus de tipo «SIVcpzPtt». Más de 30 especies de
primates son portadores de virus que provocan inmunodeficiencia en Simios, pero los
chimpancés son los principales portadores de los tipos cercanamente emparentados al
HIV-1. Con la finalidad de establecer el origen de la cepa HIV-1 (grupo 0) se secuenciaron
algunos genes de varias muestras de chimpancés (SIVcpz) y gorilas (Gorilla gorilla, SIVgor)
de Camerún. El objetivo de esta actividad consiste, mediante un análisis filogenético de
secuencias de ADN, investigar el posible origen y relacionamiento de las diferentes cepas
de HIV-1 presentes en chimpancés, gorilas y humanos.
La base de datos a analizar consiste en secuencias de los genes env –que codifica
proteínas de la envoltura– y pol –que codifica la transcriptasa inversa– del virus HIV-1. Las
secuencias ya se encuentran alineadas (las homologías posicionales entre las distintas
secuencias ya están establecidas), por lo que ya están listas para ser analizadas.
El programa que se usará para generar las hipótesis filogenéticas es el MEGA11. Éste es
un programa que se baja gratis de la red en http://www.megasoftware.net y que tiene varias
prestaciones, incluyendo el estudio descriptivo de las secuencias y reconstrucciones
filogenéticas mediante métodos de basados en distancias genéticas, máxima parsimonia y
máxima verosimilitud.
4) Compare los valores de bootstrap con los obtenidos por otros compañeros. ¿Por qué
difieren?
Basado en:
Hillis, D. 2010. Phylogenetic Progress and Applications of the Tree of Life, 421-449 p. En: Evolution
since Darwin: The first 150 years, Editado por: Bell, M.; Futuyma, D.; Eanes, W.; & Levinton, J.;
688pp.
Van Heuverswyn et al. 2006. Human immunodeficiency viruses: SIV infection in wild gorillas. Nature
444:164, doi:10.1038/444164a.
Práctico 2
Por lo tanto, cabe preguntarse si hay cambios genéticos que han sido favorecidos por la
selección natural y que permiten a especies y poblaciones que viven a altas elevaciones
adaptarse mejor a dichas condiciones. Tanto en humanos como en especies animales (y
muchas otras), hay estudios orientados a identificar estos cambios.
Puesto que la afinidad de la sangre por el oxígeno es un factor clave para la vida en altura,
y dicha afinidad depende fuertemente de las características de la hemoglobina (recordemos
que la estructura cuaternaria de la hemoglobina combina dos cadenas de tipo alfa y dos de
tipo beta en un tetrámero, en torno a un núcleo de hierro), esta proteína ha sido el blanco de
muchos estudios.
Algunas de las ideas del artículo son: - Realizar un estudio comparando múltiples especies
de aves, procurando elegir pares de especies cercanamente relacionadas, de modo que
una de las especies de cada par viva en tierras altas y otra en las tierras bajas cercanas. -
Para cada una de estas especies, aislar la hemoglobina y estudiar su afinidad con el
oxígeno en el laboratorio.
El estudio incluye un análisis de los cambios en las secuencias de las hemoglobinas, que
usaremos más adelante en el curso. Por el momento, extraemos del artículo los siguientes
datos para cada una de las 56 especies estudiadas:
Utilizaremos los siguientes paquetes de R, los cuales deben ser previamente instalados:
tidyverse: una colección de paquetes que facilitan el análisis de datos. broom: para
formatear salida de modelos de ajuste de estos datos phytools: varias funciones para
análisis filogenéticos, principalmente orientado a la biología comparada.
El bloque de código siguiente lee solamente los datos de elevación y los de P50 de la HbA.
# activamos paquetes
library("phytools")
library("tidyverse")
library("formattable")
Pregunta 2
La tabla de datos incluye varios pares de especies de un mismo género. Elegir algunos de
esos pares para discutir:
1. ¿De qué especies se trata? Averiguar algo de los nombres comunes, familias a las
que pertenecen, distribución geográfica.
2. ¿Qué tendencias se observan al examinar en varios de esos pares la relación entre
altura y P50?
# Análisis exploratorios
class(Datos) # que tipo de objeto es? Puede ser vector, list, matrix, data
frame, etc...
## [1] "spec_tbl_df" "tbl_df" "tbl" "data.frame"
# Datos %>% formattable() # imprimo en pantalla toda la tabla formateada
summary(Datos) # Resumen de número y tipo de variables y nro de observaciones
## Familia Especie Elevacion P50
## Length:56 Length:56 Min. : 39.0 Min. :17.07
## Class :character Class :character 1st Qu.: 370.5 1st Qu.:27.77
## Mode :character Mode :character Median :2774.0 Median :31.67
## Mean :2548.0 Mean :32.04
## 3rd Qu.:4318.8 3rd Qu.:37.58
## Max. :4800.0 Max. :44.69
## Elev.cat
## Length:56
## Class :character
## Mode :character
# cual es la media de P50 y Elevación en este dataset
summarise(Datos, mean(P50)) # veo un estadístico de una variable en particular
## # A tibble: 1 × 1
## `mean(P50)`
## <dbl>
## 1 32.0
summarise(Datos, mean(Elevacion)) # veo un estadístico de una variable en
particular
## # A tibble: 1 × 1
## `mean(Elevacion)`
## <dbl>
## 1 2548.
Datos %>% count(Familia) # cuantas observaciones de cada Familia
## # A tibble: 10 × 2
## Familia n
## <chr> <int>
## 1 Anatidae 16
## 2 Caprimulgidae 2
## 3 Columbidae 2
## 4 Emberizidae 2
## 5 Fringillidae 2
## 6 Furnariidae 2
## 7 Hirundinidae 2
## 8 Thraupidae 8
## 9 Trochilidae 18
## 10 Troglodytidae 2
3. Identificar y explicar los parámetros relevantes del modelo y el p-valor asociado a cada
uno. ¿Qué sugieren estos resultados sobre la hipótesis de trabajo?
4. Examinar la gráfica, incluyendo la predicción obtenida por regresión lineal. ¿Qué sugiere
la gráfica y cómo se relaciona con los puntos discutidos más arriba?
Las especies, y por lo tanto sus rasgos, no pueden ser tratadas como variables
independientes desde el punto de vista estadístico dado que comparten una historia
evolutiva en común.Este problema se hace aún más evidente en taxa cercanamente
emparentados. La respuesta a tal problema fue propuesta por Felsenstein (1985) mediante
el cálculo de Contrastes Filogenéticos Independientes (PIC por sus siglas en inglés),
mediante el cual se transforma a los rasgos analizados en variables independientes,
empleando la filogenia de las especies como marco de análisis. En la siguiente sección,
vamos a abordar este problema y analizaremos nuevamente la correlación entre la P50 y la
Altura, pero esta vez corrigiendo la falta de independencia de los datos, utilizando los PIC
como nuevas variables, independientes de la historia evolutiva compartida entre las
diferentes especies de aves.
#Paso necesario para que los datos y los taxa terminales se asocien
correctamente
names(VP50) <- row.names(P50_2)
names(Velevacion) <- row.names(elevacion_2)
# ContrasteVP50.var
# ContrasteVelevacion.var
summary.lm(RegresionP50_elevacion)
##
## Call:
## lm(formula = ContrasteVP50 ~ ContrasteVelevacion)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.4792 -1.6509 -0.0061 2.1798 10.1324
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.17539 0.60601 -0.289 0.773392
## ContrasteVelevacion -0.00146 0.00037 -3.947 0.000235 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.671 on 53 degrees of freedom
## Multiple R-squared: 0.2271, Adjusted R-squared: 0.2126
## F-statistic: 15.58 on 1 and 53 DF, p-value: 0.0002347
broom::tidy(summary(RegresionP50_elevacion)) # %>% formattable() # tabla
formateada
## # A tibble: 2 × 5
## term estimate std.error statistic p.value
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 (Intercept) -0.175 0.606 -0.289 0.773
## 2 ContrasteVelevacion -0.00146 0.000370 -3.95 0.000235
broom::glance(summary(RegresionP50_elevacion)) # %>% formattable() # tabla
formateada
## # A tibble: 1 × 8
## r.squared adj.r.squared sigma statistic p.value df df.residual nobs
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <int> <dbl>
## 1 0.227 0.213 3.67 15.6 0.000235 1 53 55
broom::glance(summary(Regresion)) # %>% formattable() # tabla formateada
## # A tibble: 1 × 8
## r.squared adj.r.squared sigma statistic p.value df df.residual nobs
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <int> <dbl>
## 1 0.146 0.130 6.48 9.23 0.00367 1 54 56
# broom::glance(summary(Regresion)) %>% formattable() # tabla anterior
#
Contraste <- bind_cols(enframe(ContrasteVP50), enframe(ContrasteVelevacion)) %>%
rename(CVP50 = `value...2`, CElevacion = `value...4`)
## New names:
## • `name` -> `name...1`
## • `value` -> `value...2`
## • `name` -> `name...3`
## • `value` -> `value...4`
ggplot(Contraste, aes(CElevacion, CVP50)) + geom_point() +
geom_smooth(method='lm') + theme_classic() +
ggtitle("Relación entre contrastes de P50 de HbA y de elevación")
## `geom_smooth()` using formula = 'y ~ x'
#Veamos ahora cómo se distribuyen los caracteres sobre la filogenia
#primero definimos el nombre de los datos
P50_2<-setNames(P50_2[,1],rownames(P50_2))
elevacion_2<-setNames(elevacion_2[,1],rownames(elevacion_2))
Pregunta 4
¿Según los resultados obtenidos, la historia filogenética compartida de las especies parece
haber influido en la evolución de P50? ¿La inercia filogenética (o tendencia en la historia del
rasgo P50) parece haber impedido la adaptación en algunos pares de spp?
Práctico 3
Procesos de diversificación
La explosión de las filogenias moleculares en las últimas tres décadas (!) han
contado las historias detrás de la diversificación de innumerables clados y ha
proporcionado la materia prima para un renacimiento de los estudios de radiación
adaptativa (1). Las filogenias moleculares han ofrecido descubrimientos
sorprendentes sobre la historia y la magnitud de muchas radiaciones adaptativas,
como las vángidas de Madagascar (Vangidae), las córvidos de Australia (Corvidae),
los cíclidos del lago Victoria (Cichlidae), las lobelias de Hawaii (Lobelioideae) etc. En
cada uno de estos casos, se pensaba que la gran diversidad ecológica y
morfológica de un grupo era el resultado de eventos de colonización independientes
de múltiples linajes ancestrales adaptados de manera diferente. En cambio, nuevas
filogenias moleculares revelaron que la gran diversidad en estos grupos es el
resultado de la evolución in situ, es decir, una radiación adaptativa.
Objetivos
Paso 1
Paso 2
Ver esta otra fuente adicional de datos de Aves (la usaremos luego)
https://www.worldbirdnames.org/new/classification/family-index-2/
Ver tabla Excel online o Google spreadsheet con las familias disponibles acá
https://tinyurl.com/3jvx6afa
Paso 3 en R
Paso 4 …seguimos en R
¿Cuál es la región que acumula más linajes a través del tiempo? Entonces, ¿influyó
la región en la diversificación de los picaflores?
Citas
1. Losos, Jonathan B., and D. Luke Mahler. "Adaptive radiation: the interaction of
ecological opportunity, adaptation, and speciation." Evolution since Darwin: the first
150 (2010): 381-420.
2. Harmon, Luke J., James A. Schulte, Allan Larson, and Jonathan B. Losos. "Tempo
and mode of evolutionary radiation in iguanian lizards." Science 301, no. 5635
(2003): 961-964.
3. Jetz, Walter, Gavin H. Thomas, Jeffrey B. Joy, Klaas Hartmann, and Arne O. Mooers.
"The global diversity of birds in space and time." Nature 491, no. 7424 (2012):
444-448.
4. McGuire, Jimmy A., Christopher C. Witt, J. V. Remsen, Ammon Corl, Daniel L.
Rabosky, Douglas L. Altshuler, and Robert Dudley. "Molecular phylogenetics and the
diversification of hummingbirds." Current Biology 24, no. 8 (2014): 910-916.
Práctico 4
Deriva genética
Las predicciones de Heterocigosidad, para múltiples alelos, estarán dadas por la siguiente
ecuación:
E(H) = 1 – Σpi2
Las simulaciones se pueden hacer para uno o varios loci no ligados cada uno con dos
alelos, lo que también se puede interpretar como varios ensayos sucesivos independientes
para un solo locus con dos alelos (Genetic Drift → Number of finite populations to simulate).
En cualquiera de los casos, el programa grafica la frecuencia de uno de los dos alelos del
locus, y el otro alelo será el complemento de esa. El botón “Run Again” en la ventana
gráfica de la derecha permite realizar nuevas simulaciones.
Anotar por lo menos para una simulación de cada tipo las frecuencias finales de los alelos
¿Cuántos alelos se fijan o eliminan? ¿en cuántas generaciones? Comparar y discutir tus
resultados con los de tus compañeros. ¿Son estos resultados coherentes con tus
predicciones?
Reflexione acerca de con qué frecuencia inicial se encontrará una mutación que recién
surge en un población. ¿Cuál será su probabilidad de fijarse?
Nuevamente registre para al menos una corrida, cuántos alelos se fijan o eliminan y en
cuántas generaciones. Comparar los resultados obtenidos en esta última simulación con los
de la simulación A. ¿Son estos resultados coherentes con sus predicciones?
Ahora introduciremos una fuente de variación abandonando otro de los supuestos de los
modelos de Hardy-Weinberg y de Fisher-Wright. Permitiremos el surgimiento de mutaciones
neutrales (sin selección) a una tasa μ por alelo por generación. Consideramos que cada
variante nueva puede surgir por mutación una única vez.
Ejercicio 4
Opcional
Para visualizar una manera de cómo pueden realizarse algunas de estas simulaciones a
partir de la distribución binomial, usaremos nuevamente el entorno de programación R con
el archivo “Deriva genética.rmd'', en donde también podremos cambiar algunos parámetros,
pero sabiendo cuál es la base del cálculo.
Práctico 5
Agutís 46 38
Melánicos 28 19
Ejercicio
¿Qué conclusión es posible sacar sobre la mortalidad diferencial de los dos fenotipos por
causa de la depredación a partir de estos datos?, ¿cuáles serían sus limitaciones?
¿Qué utilidad tienen estos resultados para entender la eficacia darwiniana general de
ambos fenotipos? Razone sobre las posibles limitaciones.
¿Cómo podría explicarse la persistencia del fenotipo melánico? ¿Qué estudios podrían
realizarse para avanzar en la comprensión del problema?
Opcional
Ingresa los valores de eficacia relativa obtenidos en el simulador de AllelleA1 utilizado en el
práctico anterior (https://faculty.washington.edu/herronjc/a1/).
1
Vasquez Herrera, A. 2003. Posible depredación diferencial sobre individuos agutís y melánicos de Ctenomys
rionegrensis, reflejada en bolos de Athene cunicularia. Informe de Pasantía, Licenciatura en Ciencias Biológicas,
Facultad de Ciencias, Universidad de la República, 35 pp.
2
Datos adicionales: De los 50 bolos estudiados, 26 contenían restos de tucu-tucus. De estos, fue posible
determinar el color del pelaje en 17.
2. Selección Sexual
La selección sexual resulta en variación en el éxito reproductivo entre individuos del mismo
sexo y típicamente actúa más fuertemente sobre los machos. Puede ser dividida en
intrasexual e intersexual y, aunque la evolución de ciertos rasgos de los machos puede ser
promovida exclusivamente por uno de los dos componentes, a menudo actúan en forma
simultánea. La evidencia empírica sugiere que podrían actuar en direcciones opuestas y el
resultado neto reflejaría el equilibrio entre esos dos procesos. Sin embargo, en muchos
casos la selección intra e intersexual tienen efectos complementarios, promoviendo la
expresión de los mismos rasgos en machos.
3
Passos C, B Tassino, M Loureiro y GG Rosenthal. 2013. Intra- and intersexual selection on male body size in
the annual killifish Austrolebias charrua . Behavioural Processes 96, 20–26 .
Tabla 1. Tiempo que la hembra interactuó con cada macho (en segundos), la frecuencia de
actividades de cortejo realizada por cada macho y el índice de apariencia del macho (2-6). Se
muestran 3 casos y se presenta un promedio (última fila) para 30 casos.
Indiv\Variable Tamaño Prop. tiempo Cortejo Apariencia Macho
(medido como tiempo) (medido como prop. tiempo)
Introducción
Ctenomys rionegrensis es una de las tres especies de este género de roedores
subterráneos reconocidas en Uruguay. Su distribución geográfica para nuestro país está
restringida a un área de aproximadamente 60 x 50 km al suroeste del departamento de Río
Negro (fig. 1).
Figura 1. Distribución geográfica de Ctenomys rionegrensis en Uruguay. Los sitios que se detallan
corresponden a las localidades de muestreo.
Bajo estas premisas, y dado que hasta el momento no se ha encontrado ninguna posible
explicación seleccionista que explique la fijación del pelaje melánico en algunas
poblaciones, se ha planteado la hipótesis de una posible fijación del melanismo por deriva
genética.
Métodos y Resultados
Para poner a prueba esta hipótesis, se analizaron 11 loci de microsatélites en 150 individuos
de C. rionegrensis pertenecientes a 8 poblaciones donde se encuentran representados los
tres tipos de pelaje, tanto en alopatría como en simpatría (ver mapa).
FIS
Los niveles de flujo génico, globales y entre pares de poblaciones fueron estimados de dos
formas:
Además, para el gen del citocromo b se obtuvieron las distintas variantes de las secuencias
(haplotipos) y se estudió su frecuencia, su relación con la procedencia de la muestra y la
relación entre ellas (fig 3).
Figura 3. Red de distancias mínimas para los 15 haplotipos de citocromo b encontrados. Cada
haplotipo se representa con un círculo, cuya área es proporcional a la frecuencia. Sobre las líneas
que conectan haplotipos, los cambios están marcados como rayas transversales. Cada trama
representa una población (ver referencia).
Actividad 2) ¿Qué sugiere el gráfico de la Fig. 2 de flujo génico en función de distancias
geográficas para pares de poblaciones? (vea también la Fig. 3)
Un estudio anterior que considera algunas de las mismas poblaciones y que emplea
marcadores alozímicos, propone una estimación de Nm ≈ 6 a 10 y los siguientes valores de
FIS:
Localidad
Abrojal Guarida Mafalda Las Cañas Nuevo Berlín
FIS 0,365 0,577 0,312 0,349 0,242
Bibliografía
Wlasiuk, G., Garza, J. C. y Lessa, E. P. 2003. Genetic and geographic differentiation in the
Río Negro Tuco-tuco (Ctenomys rionegrensis): inferring the roles of migration and drift from
multiple genetic markers. Evolution, 57 (4), pp. 913-926.
Práctico 7
Selección natural: análisis a nivel molecular
Introducción
Cuando la selección natural actúa sobre las poblaciones deja huellas que pueden ser
reconocidas en el ADN. Para identificar esas huellas se han desarrollado diferentes pruebas
aplicables a secuencias nucleotídicas codificantes de proteínas. Una aproximación robusta
y sencilla desarrollada por McDonald y Kreitman es considerar que, bajo neutralidad, la
relación entre la tasa de cambio nucleotídico sinónimo (dS) y no sinónimo (dN) o de
reemplazo aminoacídico será la misma dentro y entre poblaciones. Cualquier desviación
sugiere un apartamiento de la neutralidad, incluyendo algún tipo de selección positiva. Si no
se cuenta con información poblacional, otra aproximación muy utilizada aunque exigente es
considerar que, bajo neutralidad estricta, ambas tasas deberían ser iguales, por lo que
dN/dS, también conocido como ω será 1. Si dN supera ampliamente dS, es decir si ω>1, se
asume que actuó selección positiva (el caso inverso, ω<1 indicaría selección purificadora).
En este práctico aplicaremos ambas aproximaciones.
Actividad
La Tabla 1 muestra el resumen de los sitios variables de las secuencias de Adh incluidas en
la base de datos.
- Interprete la Tabla 1: ¿qué hay en las filas y las columnas?
- Completar los siguientes cuadros a partir de los datos de la tabla.
- Utilizando los cuadros completados, realizar el test de McDonald y Kreitman (MK) y sacar
conclusiones.
D. simulans vs. D. yakuba
Polimorfismos Sustituciones
Reemplazo
Sinónimos
En este ejercicio usaremos las secuencias de la Hemaglutinina (HA) del virus de la gripe.
Esta proteína es una glucoproteína antigénica que se encuentra en la superficie del virus y
es la mayor responsable de la unión del virus a la célula infectada. Esta proteína es muy
estudiada en el diseño de vacunas, porque presenta una evolución asimétrica que sugiere
una fuerte selección de aquellas variantes que son las que mejor escapan al sistema
inmune del hospedero. Además, el análisis de los cambios nucleotídicos sinónimos y no
sinónimos muestra que muchos residuos aminoacídicos en la HA concentrados en el
extremo distal y externo de la proteína (que son aquellos sitios que interactúan con el
sistema inmune del hospedero) están siendo seleccionados positivamente (Fig. 1).
Fig 1. A) Modelo tridimensional de la Hemaglutinina del virus de la gripe, mostrando los sitios aminoacídicos
seleccionados positivamente para cambiar. B) Filogenia de cepas del virus aisladas desde 1985 a 1996, basada
en el análisis de las secuencias nucleotídicas de ese gen (Tomado de Hillis, 2009).
Actividad
- Interprete los resultados. ¿Existe algún sitio y/o linaje seleccionado? ¿Qué sitio presenta
una fuerte evidencia de selección positiva? ¿Qué valores de dN y dS tiene ese sitio? ¿Qué
cambios aminoacídicos se registran en ese sitio? ¿Dónde cree que se ubicará ese sitio en
la proteína dados los antecedentes planteados?
-En la sección "SLAC Phylogenetic Alignment" visualizar los sitios con más evidencia de
selección.
- Ahora probemos otro enfoque. Podemos usar MEME (Mixed Effects Model of Evolution),
que permite estimar selección donde solo algunas de las ramas han experimentado
presiones selectivas. Como dice el portal permite "Detectar sitios individuales bajo selección
episódica diversificadora". En caso que haya dificultades puede ver los resultados en el
siguiente link: https://www.datamonkey.org/meme/651b2acc353125059b639850 .
-De forma similar probemos FUBAR (Fast, UnconstrainedBayesian AppRoximation). En
caso que haya dificultades puede ver los resultados en el siguiente link:
https://www.datamonkey.org/fubar/651b2d03353125059b6398c0
Referencias
1. McDonald, J., Kreitman, M. Adaptive protein evolution at the Adh locus in Drosophila
. Nature 351, 652–654 (1991). https://doi.org/10.1038/351652a0
2. Hillis, DM. (2009). Phylogenetic Progress and Applications of the Tree of Life. En:
Evolution since Darwin: The First 150 Years, pp. 421-449. Eds: MA Bell, DJ Futuyma,
WF Eanes, JS Levinton. Sinauer Associates, Inc. • Publishers Sunderland,
Massachusetts U.S.A.
3. Kosakovsky Pond, SL and Frost, SDW. "Not So Different After All: A Comparison of
Methods for Detecting Amino Acid Sites Under Selection." Mol. Biol. Evol. 22,
1208--1222 (2005).
4. Murrell, B et al. "Detecting individual sites subject to episodic diversifying selection."
PLoS Genetics 8, e1002764 (2012).
Práctico 8
Patrones de evolución molecular
Objetivos: A partir del análisis del patrón de sustituciones nucleotídicas de una secuencia
codificante en un grupo taxonómico particular: 1) visualizar patrones generales de evolución
molecular y 2) discutir la validez y el alcance de la idea de “reloj molecular”, identificando
factores que pueden producir desviaciones aparentes del mismo.
Datos
El archivo Primates_datos.meg contiene los 1000 primeros sitios del gen del citocromo b del
ADN mitocondrial de 13 especies de primates.
Tiempos de divergencia
Datos paleontológicos sugieren los siguientes tiempos de divergencia4 desde el ancestro
común (dados en millones de años desde el presente):
58 Lemúridos vs. los restantes primates
40 Platirrinos vs. Catarrinos
15 Orangután vs restantes homínidos
6 Gorila vs. Chimpancés y Humanos
Actividades
1) Usar el programa Mega X
Una vez abierta la base de datos “primates_datos.meg” en el programa, realizar las
siguientes actividades.
- ¿Por qué será útil indicarle al programa el carácter codificante de la secuencia? ¿y que el
origen de la secuencia sea ADN mitocondrial de mamíferos?
4
En la discusión sobre el reloj molecular y temas relacionados se habla de “divergencia” para referirse al cambio
total que ha ocurrido en la evolución de dos especies desde su ancestro común. Este cambio se cuenta, por
tanto, a lo largo de dos líneas evolutivas; bajo la hipótesis del reloj molecular la “tasa de divergencia” de un gen
o región cualquiera es el doble que la “tasa de evolución”.
- ¿Las secuencias aminoacídicas son más o menos informativas que las secuencias
nucleotídicas?
- Obtener una filogenia usando el criterio de Máxima Parsimonia (utilizando las opciones
que vienen por defecto). Definir como grupo externo a Lemuridae, reportar el índice de
consistencia (en i > general). ¿Qué información aporta este índice acerca de la filogenia?
- Representar el árbol anterior como filograma (por defecto aparece un cladograma).
Reportar si existen diferencias entre grupos en la tasa de evolución y reflexionar las
posibles causas que pueden producirlas.
- Obtener una tabla de distancias absolutas pareadas. Escoger en el menú la opción
Distances, Compute Pairwise y elegir la opción Model / Nucleotide / No. of Differences.
Visualizar las otras opciones.
- Observar la copia de la matriz obtenida anteriormente que se encuentra a continuación.
Luego: a) Completar la información ausente, b) en la matriz reconocer los recuadros para
las 2 comparaciones con que se cuenta con información paleontológica.
➔ Selecciones y copie (ctr + c) la región conservada (al menos 50 aa.) en una de las
secuencias y haga un blastp (blast de sec. aminoacídicas) contra la base de datos
en UniProt (https://www.uniprot.org/blast). ¿A qué corresponde dicha región?
Cargue los datos en el programa MEGA (File / Open Data / globinas_nt.meg). Esta base
de datos tiene las secuencias codificates (ADNc) reportadas de genes miembros de la
familia de las globinas en los siguientes primates: Homo sapiens, Gorilla gorilla, Pongo
abelii, Macaca mulatta, Callithrix jacchus, Papio anubis, Pan troglodytes, Microcebus
murinus y Otolemur garnettii (ver Figura 2).
➔ ¿Qué información adicional sería útil para establecer el origen de un nuevo gen de
globinas?
➔ ¿Cuál espera sea el resultado dentro y entre clases? ¿Por qué? ¿Qué relación tiene
esto con el árbol reconstruido? ¿Cómo piensa que será la estimación de la tasa
sinónima y por qué?
Genómica Comparada
Introducción
Saccharomyces cerevisiae ('levadura de fermentador' o 'levadura de horneado') es una
especie de levadura (hongo unicelular). La especie ha sido fundamental en la elaboración
del vino y cerveza y en el horneado desde la antigüedad. Saccharomyces fue el primer
eucariota cuyo genoma fue completamente secuenciado (¡1996!). Es un organismo modelo
dado su corto tiempo de generación, la posibilidad de hacer transformación por
recombinación homóloga y su relevancia económica. También se la utiliza en estudios de
envejecimiento, reparación de ADN, entre otros usos.
El artículo en el que nos basamos (Giorello et al. 2018) detectó que Hanseniaspora vineae
no forma parte de una ronda de duplicación que abarca un linaje de 6 especies dentro de la
radiación de estas levaduras, donde se encuentra Saccharomyces (ver figura). Este trabajo
encontró numerosos genes relevantes (ej., ejemplo aminotransferasas y descarboxilasas)
que son resultado de duplicaciones génicas.
Más recientemente se encontró que dentro del género Hanseniaspora, H. vinae es parte de
un linaje de evolución lenta (slow evolving lineage, SEL), de aparición más reciente (ver
figura, Steenwyk et al, 2019). Esta literatura sugiere una rica historia evolutiva en estos dos
géneros y más en general en la clase Saccharomycetes, la cual incluye a todas estas
especies.
Objetivo
Compararemos la riqueza funcional dentro de este grupo de levaduras analizadas en estos
dos artículos, identificar qué clados sufrieron más duplicaciones y tener un panorama de la
función que cumplen los genes duplicados a lo largo de la historia de este grupo y en
especial en Hanseniaspora.
Metodología
Tomaremos algunas de las especies utilizadas en el trabajo de Steenwyk et al. y
realizaremos un análisis genómico, incluyendo anotación funcional, análisis de ortología
sumado a análisis de pérdida y ganancia de genes. Se considerarán Hanseniaspora
guilliermondii, H. occidentalis, H. osmophila, H. valbyensis, H. vineae, Cyberlindnera jadinii,
Kazachstania servazzii, Saccharomyces cerevisiae, Wickerhamomyces anomalus.
a) Localizar uno de los dos genomas de levadura de uva de vino Tannat de Uruguay (ir a
https://www.ncbi.nlm.nih.gov/assembly/ y buscar en la barra de búsqueda).
ARO8
ARO9
ARO10
ATF2
SLI
a) En FungiDB para ver sintenia buscar código Ensembl > primer resultado >
'Synteny'. Ir al link que aparece a la derecha de Ortholog Group ¿Qué genomas
están anotados y mantienen ortología para este gen?
b) En Genomicus, buscar código Ensembl. De nuevo identificar qué especies estamos
comparando y cuánto se mantiene la sintenia. Ya que la visualización es más
amigable, identificar duplicaciones génicas en alguno de estos genes (nodos rojos:
duplicación; nodos azules: especiación). ¿Aproximadamente, cuántos genomas
logramos comparar por este método? También podemos centrar la visualización en
otros genes o comparaciones. ¿De qué dependemos para usar este tipo de
comparación o visualización en estos sitios?
Con la herramienta BUSCO, vemos cuán completo está cada cada genoma a partir de una
base de datos de genes ortólogos de copia única. Si sólo consideramos genes de este tipo,
¿cómo se han originado estos genes? Cuando hacemos "Benchmarking Universal
Single-Copy Orthologs" (BUSCO) logramos cuantificar la completitud de un genoma ya que
la expectativa es encontrar estos genes en el genoma como "copia única".
Observando los resultados de BUSCO (a) ¿Qué genoma se encuentra mejor representado
(i.e. más completo)? (b) ¿Qué desventaja tiene incluir genomas poco completos?
Con los resultados de la anotación funcional de H. vineae y S. cerevisiae (carpeta Parte3 >
tablas '*emapper.xlsx'). (c) ¿Cuántos genes en total anotamos con eggNOG para cada
especie?
(d) ¿Hay diferencias entre estas spp. al fijarnos en estos genes anotados en las tablas xlsx?
Ejemplo busquemos OLE, URA9, MP65 y URA1 en la columna "Preferred_name"
Por un lado, OrthoFinder nos permitió estimar los ortólogos entre 10 genomas de
levaduras. eggNOG nos permitió hacer la anotación funcional o conocer qué función
cumplen los genes presentes en estos genomas.
# los números usados debajo -con este formato '(#1)'- están asociados en el script de R.
Teniendo en cuenta el análisis global de ortología nos podemos fijar en algunos resultados
que ayudan a describir 'el éxito' de recuperar distintos ortólogos.
¿Qué especies comparten más ortólogos? Para esto vemos la tabla en R o excel donde se
compara cada especie y sus ortólogos compartidos. ¿A qué se debe este patrón? (#4)
Tenemos acceso a la estadística de ortólogos por cada genoma. Grafiquemos los siguientes
resultados. (#5)
Con esta información “extra” podemos hacernos otras preguntas...como por ejemplo buscar
entre todos los genes anotados cierta gen o función de interés en estas levaduras que
sabemos que tienen todo un 'arsenal' de genes asociados a la fermentación.
Recordando el resumen del artículo, hay genes señalados como relevantes en estas
levaduras. Nos concentramos en un gen en particular…
¿Cuántos genes 'ARO' hay en los Ortólogos? (#9)
¿Cuántos genes 'ARO' se encuentran duplicados? (#10)
Si agrego detalle de qué genes se duplicaron en qué especies tengo otra dimensión de la
historia del grupo, podemos hacer otras preguntas. De esta forma podemos entender si la
diversidad de genes responde a duplicaciones en el ancestro de estos grupos de levaduras
o duplicaciones dentro de cada especie.
¿Cuántas duplicaciones hay en todo el género Hanseniaspora? Para esto buscamos antes
qué nodo es el ancestro común más cercano de este grupo (recordar paso #1). (#11)
Podemos buscar qué función que cumplen estos genes duplicados (podemos dividir la tarea
en distintas máquinas)
Finalmente, ahora podemos visualizar las duplicaciones de algunos genes para poner en
contexto cuáles son ortólogos y parálogos.
Visualice las duplicaciones para algunos genes como los ARO, PDC1, descarboxilasas,
GTPasas o aminotransferasas (#16)
¿Qué genomas agregarían para entender aún más la diversidad funcional de estas
levaduras? ¿Qué genes o grupo de genes se podrían explorar con más detalle? Haga el
ejercicio volviendo a la parte '2b' con 'Genomicus + PDC1' como "punto de partida".
Parte 5.
Categorías COG: en la base de datos "Clusters of Orthologous Groups" (COG), cada COG
incluye proteínas que se cree que son ortólogas. El propósito de la base de datos COG es
servir como plataforma para la anotación funcional de genomas recién secuenciados y para
estudios sobre la evolución del genoma. Para facilitar los estudios funcionales, los COG se
clasificaron en 17 categorías funcionales amplias.
Genes de copia única (o ortólogos copia única): marcadores universales presentes sólo
una vez en cada genoma (para un grupo dado, ejemplo vertebrados o fungi).
GTPasas: una superfamilia de proteínas que regulan muchos procesos celulares, como la
señalización celular, el transporte vesicular y la regulación de la forma y motilidad celular.
BIBLIOGRAFÍA
Giorello, Facundo, et al. "Genomic and transcriptomic basis of Hanseniaspora vineae's
impact on flavor diversity and wine quality." Applied and Environmental Microbiology
85.1 (2019): e01959-18.
Steenwyk, Jacob L., et al. "Extensive loss of cell-cycle and DNA repair genes in an ancient
lineage of bipolar budding yeasts." PLoS Biology 17.5 (2019): e3000255.