Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Descubre millones de libros electrónicos, audiolibros y mucho más con una prueba gratuita

Desde $11.99 al mes después de la prueba. Puedes cancelar en cualquier momento.

Entorno de trabajo bioinformático para RNA-Seq
Entorno de trabajo bioinformático para RNA-Seq
Entorno de trabajo bioinformático para RNA-Seq
Libro electrónico267 páginas1 hora

Entorno de trabajo bioinformático para RNA-Seq

Calificación: 0 de 5 estrellas

()

Leer vista previa

Información de este libro electrónico

En este libro el lector encontrará una guía de la construcción y posterior uso de un entorno de trabajo bioinformático para el procesamiento RNA-Seq. El libro está dividido en cuatro capítulos: el primero proporciona las instrucciones para la instalación del sistema operativo, los paquetes y las librerías necesarias; el segundo contempla tanto la instalación como el uso de todas las herramientas bioinformáticas que harán parte del entorno. El tercero da un ejemplo de la ejecución de estas herramientas sobre datos de pruebas reales; finalmente, el cuarto da al lector las nociones básicas sobre los formatos de archivos necesarios para la ejecución de las herramientas.
IdiomaEspañol
Fecha de lanzamiento1 abr 2016
ISBN9789587875720
Entorno de trabajo bioinformático para RNA-Seq

Relacionado con Entorno de trabajo bioinformático para RNA-Seq

Libros electrónicos relacionados

Tecnología e ingeniería para usted

Ver más

Artículos relacionados

Categorías relacionadas

Comentarios para Entorno de trabajo bioinformático para RNA-Seq

Calificación: 0 de 5 estrellas
0 calificaciones

0 clasificaciones0 comentarios

¿Qué te pareció?

Toca para calificar

Los comentarios deben tener al menos 10 palabras

    Vista previa del libro

    Entorno de trabajo bioinformático para RNA-Seq - Luis Miguel Gutierrez Ramírez

    Capítulo 1.

    Sistema operativo

    El sistema operativo base del entorno de trabajo bioinformático que se va a utilizar es Linux Debian (figura 2), debido a que la mayoría de herramientas bioinformáticas utilizadas en el procesamiento RNA-Seq tienen versiones disponibles para este sistema operativo. Adicionalmente, su fácil uso, junto con la baja demanda de recursos físicos, hace que sea un sistema operativo ideal para la construcción del entorno de trabajo aquí propuesto. El sistema operativo Linux Debian necesariamente debe instalarse en una máquina con una arquitectura de 64 bits (debido a que la mayoría de las herramientas así lo demandan).

    Figura 2. Logo de Debian

    Figura 2. Logo de Debian

    Fuente: Debian. Logotipos de Debian. Recuperado de: https://www.debian.org/logos/

    Descarga del sistema operativo

    Para la instalación de Debian, es necesario tener un CD/DVD (o su imagen virtual correspondiente) con el instalador. Se puede encontrar la lista de descargas de Debian en el siguiente enlace: http://www.debian.org/releases/stable/debian-installer/

    Como se mencionó, es necesario usar Debian de 64 bits, y es recomendable utilizar alguno de los full DVD sets, ya que estos cuentan con muchas herramientas básicas preinstaladas y facilitarán el proceso de acondicionamiento de la máquina, tanto para los prerrequisitos de los paquetes generales como de las bibliotecas (informáticas).

    Instalación del sistema operativo

    Se puede encontrar la guía de instalación de Debian de 64 bits en el siguiente enlace: http://www.debian.org/releases/stable/amd64/

    Esta cuenta con toda la información que necesita para la instalación de Debian, incluido un preámbulo sobre Linux y sistemas operativos de 64 bits, una guía sobre el proceso de instalación y una orientación para usuarios nuevos en Linux. Si tiene conocimientos básicos puede leer directamente el capítulo 5 de la guía, llamado Arranque del sistema de instalación.

    Requisitos para el sistema operativo

    Cada una de las herramientas bioinformáticas tiene ciertos prerrequisitos en cuanto a bibliotecas y paquetes; por lo tanto, se recomienda instalar previamente dichas dependencias antes de proseguir con las herramientas. La mayoría de los paquetes generales y bibliotecas se pueden instalar directamente desde los repositorios de Debian, y muchos de estos ya vienen preinstalados con la instalación completa de Debian. A continuación se listan los paquetes generales y las bibliotecas necesarias para el acondicionamiento del entorno de trabajo.

    Paquetes generales

    •Screen: Gestión de sesiones de terminal

    https://packages.debian.org/wheezy/screen

    •Nmap: Utilidades para red

    https://packages.debian.org/wheezy/nmap

    •Vim: Edición de archivos

    https://packages.debian.org/wheezy/vim

    •Htop : Gestión de procesos

    https://packages.debian.org/wheezy/htop

    •Build-essential : Compilación de programas (gcc, make, g++)

    https://packages.debian.org/wheezy/build-essential

    •Alien : Conversión RPM a DEB

    https://packages.debian.org/wheezy/alien

    •phpmyadmin : GUI for mysql

    https://packages.debian.org/stable/web/phpmyadmin

    •mysql-server : Servidor mysql

    https://packages.debian.org/wheezy/mysql-server

    •python-pip : Gestión de bibliotecas de python

    https://packages.debian.org/stable/python/python-pip

    •python-dev : Código de fuente de python. (Útil para compilar bibliotecas)

    https://packages.debian.org/wheezy/python-dev

    •libncurses-dev cmake-curses-gui : Bibliotecas de Curses (para compilar RSEM)

    https://packages.debian.org/wheezy/libncurses-dev

    https://packages.debian.org/wheezy/cmake-curses-gui

    •sysstat : Estadísticas de procesos

    https://packages.debian.org/stable/admin/sysstat

    •python-psutil : Utilidades del sistema para python

    https://packages.debian.org/wheezy/python-psutil

    •python-gnuplot : Paquete de graficación

    https://packages.debian.org/wheezy/python-gnuplot

    Bibliotecas

    •zlib1g-dev : Biblioteca de compresión (instalada para TRINITY)

    https://packages.debian.org/wheezy/zlib1g-dev

    •libperlio-gzip-perl : Biblioteca de compresión (instalada para TRINITY)

    https://packages.debian.org/it/source/wheezy/libperlio-gzip-perl

    •Bioperl : Bibliotecas de perl para bioinformática

    https://packages.debian.org/wheezy/bioperl

    •Biopython : Bibliotecas de python para bioinformática

    https://packages.debian.org/wheezy/python-biopython-sql

    •python-mysqldb : Conector python con mysql

    https://packages.debian.org/wheezy/python-mysqldb

    •python-reportlab : Biblioteca para generar reportes en PDF

    https://packages.debian.org/wheezy/python-reportlab

    •pygal : Biblioteca python para SVG

    http://pygal.org/

    •libxml2-dev: Biblioteca de XMLpara compilar

    https://packages.debian.org/wheezy/libxml2-dev

    •libxslt-dev : Biblioteca de XLS para compilar

    https://packages.debian.org/source/wheezy/libxslt

    •libglib2.0-dev libglib2.0-bin : Bibliotecas glib2 (para compilar)

    https://packages.debian.org/wheezy/libglib2.0-0

    https://packages.debian.org/wheezy/libglib2.0-bin

    •libffi-dev : Biblioteca para compilar cairoSVG

    https://packages.debian.org/wheezy/libffi-dev

    •Cairosvg : Biblioteca para manejar SVG

    https://packages.debian.org/hu/source/wheezy/python/cairosvg

    •libforks-perl : Forks para perl (Maker)

    https://packages.debian.org/wheezy/libforks-perl

    •libboost-signals-dev : Biblioteca para manejar señales en c++

    https://packages.debian.org/wheezy/libboost-signals-dev

    •texlive-latex-base: Biblioteca para LateX

    https://packages.debian.org/wheezy/texlive-latex-base

    •unsafe-signals-perl : Biblioteca para Maker

    http://search.cpan.org/~rgarcia/Perl-Unsafe-Signals-0.02/Signals.pm

    •Inline-perl : Biblioteca para Maker

    https://packages.debian.org/ca/source/wheezy/perl/libtest-inline-perl

    •libbam-dev: Biblioteca para procesamiento del formato bam

    https://packages.debian.org/wheezy/libbam-dev

    •libboost-thread-dev: Biblioteca para gestión de hilos

    https://packages.debian.org/wheezy/libboost-thread-dev

    •libboost-dev : Biblioteca de boost

    https://packages.debian.org/wheezy/libboost-all-dev

    Capítulo 2.

    Herramientas bioinformáticas

    Figura 3. Computador con software bioinformático

    Figura 3. Computador con software bioinformático

    Fuente: freevector.com

    Control de calidad

    Actualmente los secuenciadores de alto desempeño pueden generar decenas de millones de secuencias en una sola corrida; esta gran cantidad puede tener errores, debido a problemas generados por las máquinas y a procesos de secuenciación. Las secuencias con errores generan una baja en la calidad de la muestra, y esto puede llevar a resultados erróneos o inconclusos en análisis posteriores. Para resolver este problema, se hace un análisis estadístico mediante la asociación de las lecturas y los índices de calidad arrojados por el secuenciador. A continuación se describen las herramientas que se utilizarán en el entorno de trabajo para el análisis de calidad.

    FastQC

    Figura 4. Logo de FAstQC

    Figura 4. Logo de FAstQC

    Fuente: página web oficial del proyecto de FastQC.

    FastQC tiene como objetivo proporcionar una forma sencilla de hacer algunas verificaciones de control de calidad de datos sobre secuencias crudas procedentes de los pipelines de secuenciación de alto rendimiento (Andrews, 2010). FastQC proporciona un conjunto modular de análisis con el cual dar una vista rápida a los datos que tengan algún problema y así tenerlos en cuenta antes de hacer un análisis más profundo. Dentro de los resultados del análisis de calidad de las lecturas es posible encontrar:

    •Estadísticas básicas.

    •Calidad de secuencia por base.

    •Puntaje de calidad por secuencia.

    •Contenido de secuencia por base.

    •Contenido de GC por base.

    •Contenido de GC por secuencia.

    •Contenido de N por base.

    •Distribución de longitud de secuencia.

    •Secuencias duplicadas.

    •Secuencias sobrerrepresentadas.

    K-mer sobrerrepresentados.

    Datos técnicos de la herramienta:

    A continuación se describe el proceso de instalación y uso de la herramienta FastQC.

    Requisitos

    FastQC cuenta con dos requisitos para su correcta instalación: el primero es un adecuado Java Runtime Environment (JRE) para el sistema operativo Debian de 64 bits; el segundo es la biblioteca informática PICARD, para el procesamiento de archivos BAM/SAM, que se puede encontrar junto con la descarga de FastQC.

    Descarga

    La herramienta se descarga por medio del navegador desde la página de proyectos del Instituto Babraham (http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc) o por medio del terminal, introduciendo el siguiente comando:

    Instalación

    Para la instalación de esta herramienta se debe descomprimir el archivo que se descargó en el paso anterior, lo cual se hace con el comando unzip, seguido del nombre del archivo descargado:

    Luego se accede a la carpeta resultante de la descompresión y se deben cambiar los permisos de la carpeta en su interior llamada fastqc por medio del comando chmod a permisos 755:

    Finalmente, se crea un enlace simbólico que le permitirá al usuario acceder a esta herramienta sin importar en qué directorio se encuentre:

    Nota. El enlace simbólico apunta a la ubicación donde se descomprime la herramienta; por este motivo, después de crear el enlace, no se debe cambiar de ubicación la herramienta.

    Guía de uso

    FastQC se ejecuta por medio del terminal, utilizando el comando fastqc más el nombre del archivo que se va a analizar. Para los ejemplos de uso se va a asumir que el archivo se llama sequences.fastq.

    Para la ejecución básica de FastQC, el usuario se debe ubicar en la carpeta donde se encuentra el archivo que se va a analizar e introducir el siguiente comando:

    Al ejecutar este comando, FastQC muestra en consola el resultado del análisis y, adicionalmente, genera un reporte en html que muestra de una manera amigable los resultados con datos e imágenes. Además, FastQC cuenta con opciones que ayudan al usuario a ejecutar el análisis según sus necesidades. A continuación se explica el uso de cada una de estas opciones:

    Opción -o: sirve para especificar el directorio donde el usuario desea que se ubiquen los archivos de salida. Este directorio debe ser creado previamente, ya que el programa no lo creará. Si no se especifica esta opción al ejecutar fastqc, la salida de los archivos se ubicaran en la misma carpeta donde se encuentra el archivo que se va a analizar.

    Para especificar esta opción se debe escribir -o seguido de la ubicación donde se desea la salida de los archivos. En este ejemplo se va a usar la ubicación /home/user/resultados:

    Opción --extract: FastQC crea un reporte en html junto con un archivo comprimido que contiene las imágenes y los datos adicionales del reporte. Esta opción descomprime este archivo automáticamente.

    Para especificar esta opción se debe escribir --extract:

    Opción -j: le permite al usuario especificar la ubicación del binario de JAVA que se va a usar; si no se usa esta opción, el programa utilizará el binario de JAVA configurado en el PATH.

    Para especificar esta opción se debe escribir -j seguido de la ubicación del binario de JAVA:

    Opción --nogroup: deshabilita la agrupación de bases para las lecturas de más de 50 bp, lo que causa que los reportes muestren la información para cada base en la lectura.

    Para especificar

    ¿Disfrutas la vista previa?
    Página 1 de 1