6 - Manejo Bases de Datos
6 - Manejo Bases de Datos
6 - Manejo Bases de Datos
Naturales Departamento de
Biología
Objetivos de aprendizaje
Con el desarrollo de esta guía, los estudiantes podrán familiarizarse con la información disponible en algunas
bases de datos públicas y su interpretación, y la aplicación de algunas herramientas bioinformáticas de amplio
uso en biología molecular para identificar marcos abiertos de lectura y diseñar cebadores para PCR.
Esta sesión está diseñada para familiarizar al estudiante con la información que provee GenBank respecto a
secuencias biológicas. Explore y reconozca TODA la información que se encuentra disponible para un gen en
GenBank (esta misma información está disponible para proteínas). Para esto utilice los siguientes enlaces:
1. Link # 1 https://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html
2. Link # 2 https://www.ncbi.nlm.nih.gov/nuccore/MN975262
El link #1, brinda un molde de toda la información disponible y detallada que provee GeneBank de secuencias
biológicas, se pueden ver como DNA, mRNA o proteínas. Explore toda la información relevante para cada
categoría, por ejemplo, locus name, accesion, version, keywords, reference, author etc. Revisar la página hacia
el final, allí se encuentra la explicación de cada categoría de información ligada a una secuencia biológica.
Ya habiendo revisado esta información, ahora utilice el link #2, el cual contiene una secuencia de un gen de
un virus que afecta humanos:
El identificador único para un registro de secuencia. Un número de acceso se aplica al registro completo y
suele ser una combinación de letras y números, como una sola letra seguida de cinco dígitos o dos letras
seguidas de seis dígitos. Algunas accesiones pueden ser más largas, según el tipo de registro de secuencia.
incluye una traducción de aminoácidos. Los autores pueden especificar la naturaleza del CDS utilizando el
Facultad de Ciencias
Naturales Departamento de
calificador "/evidence=experimental" o "/evidence=not_experimental".
Biología
También se alienta a los remitentes a anotar la característica del ARNm, que incluye la región no traducida 5'
(5'UTR), las secuencias de codificación (CDS, exón) y la región no traducida 3' (3'UTR).
R//Publicaciones de los autores de la secuencia que discutan los datos reportados en el registro. Las
referencias se ordenan automáticamente dentro del registro según la fecha de publicación, mostrando primero
las referencias más antiguas.
Como ustedes se dieron cuenta, En NCBI/GenBank se puede tener acceso a secuencias de ácidos nucleicos y
proteínas de múltiples especies. A partir de esta información se pueden diseñar cebadores (primers) o sondas
para detectar secuencias de ADN/ARN específicas, realizar amplificaciones de ADN (PCR en sus diferentes
modalidades) y poder entonces encontrar cambios en nucleótidos (polimorfismos/mutaciones) en nucleótidos
(y su efecto en la proteína) y determinarlos con un experimento de PCR-RFLP.
2. Es importante conocer el nombre de la proteína/gen en inglés para realizar la búsqueda en las bases de
datos disponibles para tal fin. También es útil conocer el “accession number”
3. Ingresar a la página del NCBI: http://www.ncbi.nlm.nih.gov/, escribir el nombre de la proteína/gen que
han seleccionado en la barra de búsqueda y seleccionar “protein” o "gene" (según hayan seleccionado) de
las bases de datos:
4. En los resultados obtenidos, hacer click sobre el nombre de la proteína seleccionada. Obtenga la secuencia
FASTA (secuencia de aminoácidos o nucleótidos) de la proteína (o gen) que seleccionó y busque
secuencias homólogas con la herramienta para alineamientos BLAST.
5. Ejecutar BLAST con los parámetros ofrecidos por la herramienta y dar click en BLAST
Facultad de Ciencias
Naturales Departamento de
Biología
Responda:
a. ¿Qué es y qué hace BLAST? ¿Qué resultados se obtienen con esta herramienta?
R// La herramienta básica de búsqueda de alineación local (BLAST) encuentra regiones de similitud local
entre secuencias.
El programa compara secuencias de nucleótidos o proteínas con bases de datos de secuencias y calcula la
importancia estadística de las coincidencias. BLAST se puede utilizar para inferir relaciones funcionales y
evolutivas entre secuencias, así como para ayudar a identificar miembros de familias de genes
R//Nuestra secuencia pregunta o la secuencia que hemos enviado para la búsqueda de homología es la
secuencia query (query) y la secuencia encontrada o la secuencia que coincide con la secuencia query es la
secuencia subject (subject).
Básicamente lo que hace el programa BLAST es comparar una secuencia pregunta (query) contra una gran
cantidad de secuencias que se encuentren en una base de datos (subject).
Facultad de Ciencias
Naturales Departamento de
Biología
Los investigadores que trabajan en biología molecular utilizan recursos bioinformáticos que les ayudan a
diseñar cebadores (primers) que luego emplearán en PCRs. En ejercicios anteriores indagamos como se
pueden obtener secuencias nucleotídicas a partir de bases de datos. Cada grupo deberá diseñar un par de
primers que apoyen el diagnóstico de un parasito que produce malaria: Plasmodium vivax.
1. Usaremos como gen para establecer el diagnóstico el gen que codifica para la citocromo B.
Facultad de Ciencias
Naturales Departamento de
Biología
2. Ir a la página del NCBI y obtener la secuencia del gen seleccionado:
http://www.ncbi.nlm.nih.gov/
3. En la pestaña All Databases, seleccionen la opción Nucleotide y en la barra de búsqueda introduzcan
“Plasmodium vivax cytochrome b “
4. Seleccione el primer resultado, cuya accesión es AY791692.1 y obtenga la secuencia de ADN relacionada
con dicho gen (haga click en “FASTA”). Familiarice bien con el formato FASTA.
5.
R/ secuencia de ADN:
TTCCACTACCAAAATATAATCTCCTGTTCTAATGTTCTAGGGTTTTTCGCGTTTTTTCAGGAGAAATCCG
TATATCGATGTTTTTAAAATCTACGCTATTGGATTCAACGTCCAGGACTTCCTGACGTTTAATAACGATT
TCTACTTCCAGCAGCCATTTTGGTTCAGCTACAAGTTCACTGTCAACTACCATGTTACGACTTCGCACCG
ACTGTTTTCTTTTACCTCACGAGTCGATCAGGAAGGTTTCATCCTTAAATCTCGTAACCATGCCAACACA
TAAGAACTTTTTAGGGAAGTTAAGGTGCTCAGGGTCTTACCGTCGGGCCGTATGATTCCACATATTCATG
Facultad de Ciencias
Naturales Departamento de
GATAATTCTATTTATTAGGAGTCTCACACTAGCGCAAATGGGGAAGTCGTTACACCGTTCATGCAGGACG
Biología
GAGATTACCCGACAAGGAATTTTGCTACCTTAGGACCGTTTACGATACAGCCGCCGTTTATCATTGATGC
CGGGCAGATGTCAGTAACTTGAACTATTCATCGGAATTATCAGTGACTTGTGTTGTAACCTTACAGACGC
TTCCAGAATATAACTTCTTATAAATGGTAGCGCCGGTTTCCCGGGTATCCAATCCAGTGCTCCATTCAAG
GCATAGAGACTCAGCCTGTGTTCAACTTTGTAGGATATATAATATAGCTTTTGGTATCTCGTAATGTAGA
ACAATAATGGGTTGACCGTCAAATCCTTTTCATTAAAAGAGTGGACTAATGCCCAGCCAACACCATCCAA
TTTGATTGGGAATAATCTGTGTTACAATACTTTTTGATCCCAGGCTGGTAAAAAATGTAAACTTTTAGCC
CAAAAGAATAGAAACAGATGCCAGGCCAAAAACCCAAAAATAGAGCTATGACGCTATCAATTTGACAAGG
CAGATAAATTCTTTCATAGAACTTAACGTTTCATCCTCCATACATAAATAAAACGGTAGATAGGGAACAA
ACTGCCTCAAGACGTTCTTAACCCAGCTCACGCATCGCTTCTAACGGTGAACTCTCATTCCAATGGAACC
TTGTTCAAGTTCAAATAGATTGGTAAGGTATAGCGTTTACTATCGAATGAAACAATGTATTCCACCGCTA
GTGTTTGCTTCTAACATTCCACTTGCTTATAACTGTATGGACGTAACCTCCAGGCAAAGAAAATGACCGG
TCAAAACGGAATCAGTTAACTATGGATAGCTGATACTAACAATTTATCATTACTCAAGTCAGCATAGTCT
ATATGAAGGTTTCTATGGAAACACACTTCCCTTCTCGCCATTTGATAGCGGTTAACCTTTCTTTTTTCCTT
ACGTACTCTAGCTTTTAACACAATATTATTGTCTATACTAGATACTATAGTTGAAACAGGACATATACAT
ATATTCATTATTCTGAATAGAAAAAGAACTCTATAAATAACCATACAATTTCAACAAAATGCCAGTATAA
TATTGTAATTTGATCAGTATGAGGTAATACAATATAAGATATACCATATAATGAATATGACCATTCACTA
TTAGTATCATACATTTCAACTATTCTTATAAAATATATTAATAATAATAATAAAACCAACTATAACATGTG
AAAAATGTAAACCTGTAACACAATAAAATAATGTACCAGATATAGCATCATTTATACAATATCCTAAATG
TAAGTATTCAGTTGTTTGAAGTGATGCAAAACATTCTCCAAGTAAGTATATTATAAATACAATACTAGAA
ATTTCTAAACTCATTCCTTTTTCTATTAGAAATTGTAAACATGCTGTCATACATGATGCACTTGCTAAAA
TAAATGTAATAGTTAGAATTAACATTCTTGATGATGTTAAAATAATTCCTTCATTATATAATGGATATGG
AGATAAACTAAAATGTAAAATACCCCAAAAATATGTAATAAATAATTGCTTCAGATATAATTATAGAT
AACATTCCTGATACTAATGATGAAAATATAGAATAAAAACTTTCTCTAATAGAATATACAAATATTATAA
AAATAATAGGATTGAATGTAAATAAGATACCCACAGAAAAATATTTTAAAGATGTTCCATATAATGATGT
TAATGAAGGATAAGATACTAAATGTGCTTTAATATTATTATAGTTACTAAATATAAAAAATATATTTATA
AGAACGGTGATTTTGTGTGCCGTTAACATATAACGGTAAGAAGGTTCGCCGGGGATAACAGGTTATAGTA
TATATAGAGCTCAAATCTTTATATACTATTGGCACCTCCATGTCGTCTCATCGCAGCCTTGCAATAAATT
AATATTATTTAGCGTGTATTGTTGCCTTGTACACACCGCTCGTCACGCAAATTTATTACTAAGATAAA
GAACTCCAGGCGTTAACCTGTAGAGTTGAGATGGAAACAGCCGGAAAGGAAATATTACGTCCAAATGATA
AGAATATATATGAAATATACTAGCATGGGACTAAAAAATGTTATGTTGTTGGTTTAAGCCCCTTTTACCAT
ACAAGAGATCGCGTACTTTGGACTGAAAAAAGCTGTGAGGAAACTACATTAAAGGAACTCGACTGGCCTA
CAATATAAGAACGAACGCTTTTAACGCCTGACATGGATGGATAATACTCGACTTTTCCAAAGTATAACCG
CTTGTCGCTGGGACTGTATGGATCGAATCTTACTTATTCATATCCAAGCCTCACTTATTGTTAATTATATA
TTATANNTTTTTTTTTGTTTTCAATAGATATACACTTATTACAAATTGCAATCATAAAACTTTAGGTCTA
TACTATTTATGGTTTTCATTTTTATTTGGTAGTTATGGTTTTTTATTATCTGTTATTTTACGTACAGAAT
TATATTCTTCTTCTTTAAGAATAATTGCACAAGAAAATGTTAACTTATATAATATGATATTTACATTACA
TGGAATTATTATGATATTCTTTAATATAATGCCAGGATTATTTGGAGGATTCGGTAATTACTTCCTACCA
ATTTATGTGGTTCTCCAGAACTTGCATATCCAAGAATTAATAGTATATCTTTATTATTACAACCAATAG
CTTTTATATTAGTCATTTTATCTACAGCAGCAGAATTTGGAGGAGGTACTGGATGGACTTTATATCCACC
ATTAGTACATCACTTATGTCTTTATCTCCTGTTGCAGTAGATGTTATCATTGTTGGTCTTTTAGTATCT
GGTATTGCTAGTATTATGTCTTCTTTAAATTTTATTACTACTGTAATGCATCTAAGATCTAAAGGTTTAA
CACTTGGTATATTAAGTGTATCTACATGGTCATTAATAATTACATCTGTAATGCTATTATTAACATTACC
TGTTTTAACAGGTGGTGTTTTAATGTTATTATCAGATTTACATTTTAATACATTGTTTTTTGATCCTACA
TTTGCTGGAGATCCTATTTTATATCAACATCTATTTTGGTTTTTTGGACATCCTGAAGTGTATATTTTAA
TATTACCAGCATTTGGTGTTATTAGTCATGTAATATCTACAAATTATTGTGAAAGTTTATTTGGTAATCA
ATCTATGATTTTAGCAATGAGTTGTATTGCTATATTAGGAAGTGTTGTATGGGCTCATCATATGTATACT
ACAGGTTTAGAAGTAGATACAAGAGCATTTTTTACATCTACAACTATATTAATATCTATACCTACTGGAA
CAAAAATATTTAATTGGATATGTACATATATGGGTAGTAATTTTGGTATAACTCATAGTTCATCTTTATT
ATCATTACTATTTATATGTACATTTACTTTTGGTGGTACTACAGGAGTAATATTAGGTAATGCAGCTATT
GATATTGCATTACATGATACTTACTATGTAATCGCTCATTTCCATTTTGTATTATCTATAGGTGCAATTA
TTGGATTGTTTACATTAGTAAGTAGTTTTCAAGAAAACTTTTTTGGTAAACATTTACGTGAAAATTCTAT
AATAATATTATGGTCAATCTTATTTTTTATTGGAGTTGTATTAACATTCTTACCTATGCATTTTCTTGGA
TTTAATGTAATGCCTAGACGTATTCCTGATTATCCAGACGCTTTAAATGGATGGAATATGATTTGTTCAA
TTGGATCAACAATGACTTTATTTGGTTTATTTATTTTTAAATAATATAAAATATTTTTTGTTTATATGAA
TTATTATTCTATTAATTTAGCAAAAGCACATTTATTAAATTACCCATGCCCATTAAATATTAATTTCTTA
TGGAATTATGGATTTCTTTTTAGGTATTATATTCTTTATACAAATATTAACAGGTGTATTTTTAGCAAGTC
GTTATACTCCAGAAATATCTTATGCATATTATAGTATACAACATATTTTAAGAGAATTATGGAGTGGATG
GTGTTTTAGATATATGCATGCTACAGGTGCATCTCTTGTATTCTTATTAACTTATTTACACATTTTAAGA
GGATTAAATTATTCATATTTTATATTTACCATTATCATGGATATCAGGATTAATCATATTTGCATTATTTA
TAGTTACAGCTTTTATAGGTTACGTTTTACCTTGGGGACAAATGAGTTATTGGGGTGCAACTGTTATAAC
TAATTTATTATCTTCAATTCCAGTATTAGTAATTTGGTTATGTGGAGGATATACTGTAAGTGATCCTACA
ATTAAAGATTTTTTGTATTACATTTTATACTTCCTTTTGTAGCATTATGTATTGTATTTATACATATAT
Facultad de Ciencias
Naturales Departamento de
TCTTTTTACATTTACATGGTAGCACAAATCCTTTAGGGTATGATACAGCTTTAAAAATACCCTTCTATCC
Biología
AAATCTATTAAGTCTTGATGTAAAAGGATTTAATATATTTATATTATTCTTATTACAAAGTATTTTT
GGTATAATTCCATTATCTCATCCAGATAATGCTATATTAGTTAATACATATGTTACACCAATTCAAATTG
TTCCTGAATGGTACTTTTTACCATTTTATGCAATGTTAAAAACAATACCTAGTAAAACAGCAGGTTTATT
AATTGTTTTAGCATCTTTACAATTATTATTTTTATTAGCTGAACAAAGAAGTTTAACTACTATAATACAA
TTTAAAATGACATTTGGTGCTAGAGAATATTCAGTACCAATGATATGGTTCATGTGTTCATTCTATGCTT
TATTATGGATTGGATGTCAGTTACCACAAGATATTTTTATTTTATATGGTCGTTTATTTATAATATCATT
CTTCTCTAGTGGATTATTTGCACTTGTTCATTATAAAAGAACACATTATGATTACAGCTCCCAAGCAAAC
ATTTAATTACAAGGCTACGATAAGACGATATCTCTGAATATTGAGCAGAACAATACAGACCGTAAGGTT
ATAATTATGTTAAAAGTTAGGATAATGAAATTATAGTTACCATAGCTGTAGATGGATGCTTCGATATATT
ATATATTTAAGTATTAATCGAGATTACATGCTCAGCCGCCAAAAATATAACGATATTATTACCGTACAAG
CCGTTAGCAAGACATGATAGGGAGTTGACAAGTTAAAGAAGTTCTGGTTTATAATAGATACGTTTTTAAA
GTTAGGATGTATGGGATAATTGTAGTACACCTTAATTGGTTTAACTTTATTTGGTTTATAGATATTATGT
TCGGTATTGCATGCCTGGTGTTTTTAATTAAGACGCTGACTTCCTGGCTAAACTTCCCAATGATATATCT
TCCAAATAGATTTCGCAGAAAACCGTCTATATTCATGTTTGATTGACCTTTAACCGCTAATTACGAATCT
TCCAAGAATATTTCAAGAGTCCAAGGTTCGGTCTATTATTTTCCTGTTCTGTAATTAGATCACATGTTTT
ATAGTTCATGGAGATATGACTATACCACTATTCATAGAGAC
6. En otra pestaña abran nuevamente la página del NCBI y en la parte inferior de la página puede encontrar el
link para ingresar a la herramienta para el diseño de primers: primer-BLAST.
Facultad de Ciencias
Naturales Departamento de
Biología
La herramienta es muy clara y precisa para llevar a cabo el proceso. En primer lugar, familiarícense con la
herramienta (explórela) y posteriormente copie la secuencia de nucleótidos del gen de interés, asegúrese de
que su fragmento amplificado sea, en lo posible, mayor a 400 bases, y haga click en “get primers”.
6) Interprete los resultados con primer-BLAST. Puede consultar en Internet al respecto. Hagan su
interpretación considerando:
i. la posición de los primers respecto al ADN (indique cuantos fragmentos podría amplificar):
R/ se tienen 10 pares de primers (por lo que se podrían amplificar 10 fragmentos) y sus posiciones respecto al
ADN son:
primer par 1 → Forward primer: inicia en el nucleótido 1282 y termina en el 1301, Reverse primer: inicia desde
el nucleótido 2192 y termina en el 2173.
primer par 2 → Forward primer: inicia en el nucleótido 2175 y termina en el 2194, Reverse primer: inicia desde
el nucleótido 2670 y termina en el 2651.
primer par 3 → Forward primer: inicia en el nucleótido 2173 y termina en el 2192, Reverse primer: inicia desde
el nucleótido 2620 y termina en el 2601.
primer par 4 → Forward primer: inicia en el nucleótido 2202 y termina en el 2221, Reverse primer: inicia desde
el nucleótido 2684 y termina en el 2665.
primer par 5 → Forward primer: inicia en el nucleótido 1283 y termina en el 1302, Reverse primer: inicia desde
el nucleótido 2221 y termina en el 2202.
primer par 6 → Forward primer: inicia en el nucleótido 1293 y termina en el 1312, Reverse primer: inicia desde
el nucleótido 2226 y termina en el 2207.
primer par 7 → Forward primer: inicia en el nucleótido 2209 y termina en el 2228, Reverse primer: inicia desde
el nucleótido 2621 y termina en el 2602.
primer par 8 → Forward primer: inicia en el nucleótido 2203 y termina en el 2221, Reverse primer: inicia desde
el nucleótido 2632 y termina en el 2613.
primer par 9 → Forward primer: inicia en el nucleótido 2174 y termina en el 2193, Reverse primer: inicia desde
el nucleótido 2593 y termina en el 2574.
primer par 10 → Forward primer: inicia en el nucleótido 2175 y termina en el 2195, Reverse primer: inicia
desde el nucleótido 2681 y termina en el 2662.
ii. el tamaño del fragmento amplificado (indique el tamaño de cada fragmento amplificado):
R/
primer par 1 → el tamaño del fragmento es de 911 nucleótidos
primer par 2 →el tamaño del fragmento es de 496 nucleótidos
primer par 3 →el tamaño del fragmento es de 448 nucleótidos
primer par 4 →el tamaño del fragmento es de 483 nucleótidos
primer par 5 →el tamaño del fragmento es de 939 nucleótidos
primer par 6 →el tamaño del fragmento es de 934 nucleótidos
primer par 7 →el tamaño del fragmento es de 413 nucleótidos
Facultad de Ciencias
Naturales Departamento de
primer par 8 →el tamaño del fragmento es deBiología
430 nucleótidos
primer par 9 →el tamaño del fragmento es de 420 nucleótidos
primer par 10 →el tamaño del fragmento es de 507 nucleótidos
7) Están los cebadores (primers) incluidos dentro de la secuencia del producto de amplificación? Justifique
la respuesta.
R/ si, puesto que la ADN polimerasa reconoce estos fragmentos (primers) y comienza a sintetizar desde el
extremo 3’ del nucleótido del primer.
Bibliografía