Entorno de trabajo bioinformático para RNA-Seq
()
Información de este libro electrónico
Autores relacionados
Relacionado con Entorno de trabajo bioinformático para RNA-Seq
Libros electrónicos relacionados
Instalación y configuración del software de servidor web. IFCT0509 Calificación: 0 de 5 estrellas0 calificacionesAprende a programar en C# Calificación: 5 de 5 estrellas5/5Desarrollo y optimización de componentes software para tareas administrativas de sistemas. IFCT0609 Calificación: 0 de 5 estrellas0 calificacionesUF1271 - Instalación y configuración del software de servidor web Calificación: 0 de 5 estrellas0 calificacionesAdministración de Sistemas Gestores de Bases de Datos (2ª Edición) Calificación: 0 de 5 estrellas0 calificacionesComputadores para bases de datos. IFCT0310 Calificación: 0 de 5 estrellas0 calificacionesUF1275 - Selección, instalación, configuración y administración de los servidores de transferencia de archivos Calificación: 0 de 5 estrellas0 calificacionesProgramación de microcontroladores paso a paso: Ejemplos prácticos desarrollados en la nube Calificación: 0 de 5 estrellas0 calificacionesGestión auxiliar de archivo en soporte convencional o informático. ADGG0408 Calificación: 0 de 5 estrellas0 calificacionesCurso de programación Bash Shell Calificación: 0 de 5 estrellas0 calificacionesAdministración de sistemas operativos Calificación: 4 de 5 estrellas4/5Asterisk El Inicio De Un Gran Emprendimiento Calificación: 0 de 5 estrellas0 calificacionesOperaciones auxiliares con Tecnologías de la Información y la Comunicación. IFCT0108 Calificación: 0 de 5 estrellas0 calificacionesDesarrollo de componentes software para el manejo de dispositivos. IFCT0609 Calificación: 0 de 5 estrellas0 calificacionesAprende a Programar ASP .NET y C# - Segunda Edición Calificación: 0 de 5 estrellas0 calificacionesAprende a Programar en R Calificación: 4 de 5 estrellas4/5Paquete de programas: Revolucionando la visión por computadora con el paquete de software definitivo Calificación: 0 de 5 estrellas0 calificacionesProgramación Java - Una Guía para Principiantes para Aprender Java Paso a Paso Calificación: 3 de 5 estrellas3/5UF0513 - Gestión auxiliar de archivo en soporte convencional o informático Calificación: 1 de 5 estrellas1/5Manual de Supervivencia del Administrador de Bases de Datos Calificación: 0 de 5 estrellas0 calificacionesMF0221_2 - Instalación y configuración de aplicaciones informáticas Calificación: 0 de 5 estrellas0 calificacionesAprende a Programar en R - 2ª Edición Calificación: 0 de 5 estrellas0 calificacionesAprende a Programar para Android Calificación: 5 de 5 estrellas5/5Dimensionar, instalar y optimizar el hardware. IFCT0510 Calificación: 0 de 5 estrellas0 calificacionesProcessing: Desarrollo de interfaces de usuario, aplicaciones de visión artificial e IoT para Arduino y ESP8266 Calificación: 5 de 5 estrellas5/5Selección, instalación, configuración y administración de los servidores multimedia. IFCT0509 Calificación: 5 de 5 estrellas5/5Servicios en Red (GRADO MEDIO) Calificación: 0 de 5 estrellas0 calificacionesTesteo y verificación de equipos y periféricos microinformáticos. IFCT0108 Calificación: 0 de 5 estrellas0 calificacionesGestión de bases de datos (2ª Edición) (GRADO SUPERIOR) Calificación: 0 de 5 estrellas0 calificacionesFundamentos de Programación y Bases de Datos Calificación: 0 de 5 estrellas0 calificaciones
Tecnología e ingeniería para usted
Manual Técnico del Automóvil - Diccionario Ilustrado de las Nuevas Tecnologías Calificación: 5 de 5 estrellas5/5Emprende tu propio negocio digital con éxito: Abre tu empresa (LLC) en Estados Unidos desde cualquier sitio y gana dinero con Amazon Calificación: 0 de 5 estrellas0 calificacionesMecatrónica - Control y automatización Calificación: 5 de 5 estrellas5/5Inteligencia Artificial Calificación: 3 de 5 estrellas3/5Las Edades del Automóvil (historia del automóvil) Calificación: 4 de 5 estrellas4/5Guía práctica en gestión de proyectos + plantillas editables Calificación: 4 de 5 estrellas4/580 Siglos de Invenciones - Diccionario de los Inventos Calificación: 4 de 5 estrellas4/5Recablea tu cerebro Calificación: 5 de 5 estrellas5/5Curso de dibujo para niños de 5 a 10 años Calificación: 4 de 5 estrellas4/5PANADERÍA Y PASTELERÍA COMERCIAL Calificación: 5 de 5 estrellas5/5Gestión de proyectos aplicada al PMBOK 6ED Calificación: 5 de 5 estrellas5/5Un verdor terrible Calificación: 5 de 5 estrellas5/5Ingeniería estructural. 3 ediciones Calificación: 4 de 5 estrellas4/5Scrum Las Estrategias del Juego: Es Póker, No Ajedrez Calificación: 5 de 5 estrellas5/5Juegos para viajes Calificación: 0 de 5 estrellas0 calificacionesIngeniería de Sonido. Conceptos, fundamentos y casos prácticos: CINE, TELEVISIÓN Y RADIO Calificación: 4 de 5 estrellas4/5PHP - Creación de páginas Web dinámicas 2a edición Calificación: 0 de 5 estrellas0 calificacionesGuía de aplicacion de la ISO 9001:2015 Calificación: 5 de 5 estrellas5/5100 circuitos de shields para arduino (español) Calificación: 4 de 5 estrellas4/5Me desconecto, luego existo: Propuestas para sobrevivir a la adicción digital Calificación: 4 de 5 estrellas4/5Confección de cojines y ropa de hogar. TCPF0309 Calificación: 0 de 5 estrellas0 calificacionesCafé: Un recorrido de la semilla a la taza Calificación: 3 de 5 estrellas3/5Mecatrónica - sistemas de control electrónico en la ingeniería mecánica y eléctrica Calificación: 5 de 5 estrellas5/5Radiocomunicaciones Calificación: 5 de 5 estrellas5/5HTML5 y CSS3 - Para diseñadores Calificación: 5 de 5 estrellas5/5Manual para el diseño de instalaciones manufactureras y de servicios Calificación: 5 de 5 estrellas5/5INGENIERÍA INDUSTRIAL - Métodos y tiempos con manufactura ágil Calificación: 3 de 5 estrellas3/5La humanización de la era digital: Cómo enfrentarnos a un mundo de algoritmos Calificación: 0 de 5 estrellas0 calificacionesMetalurgia práctica Calificación: 5 de 5 estrellas5/5Design Thinking para principiantes: La innovación como factor para el éxito empresarial Calificación: 4 de 5 estrellas4/5
Categorías relacionadas
Comentarios para Entorno de trabajo bioinformático para RNA-Seq
0 clasificaciones0 comentarios
Vista previa del libro
Entorno de trabajo bioinformático para RNA-Seq - Luis Miguel Gutierrez Ramírez
Capítulo 1.
Sistema operativo
El sistema operativo base del entorno de trabajo bioinformático que se va a utilizar es Linux Debian (figura 2), debido a que la mayoría de herramientas bioinformáticas utilizadas en el procesamiento RNA-Seq tienen versiones disponibles para este sistema operativo. Adicionalmente, su fácil uso, junto con la baja demanda de recursos físicos, hace que sea un sistema operativo ideal para la construcción del entorno de trabajo aquí propuesto. El sistema operativo Linux Debian necesariamente debe instalarse en una máquina con una arquitectura de 64 bits (debido a que la mayoría de las herramientas así lo demandan).
Figura 2. Logo de Debian
Figura 2. Logo de DebianFuente: Debian. Logotipos de Debian. Recuperado de: https://www.debian.org/logos/
Descarga del sistema operativo
Para la instalación de Debian, es necesario tener un CD/DVD (o su imagen virtual correspondiente) con el instalador. Se puede encontrar la lista de descargas de Debian en el siguiente enlace: http://www.debian.org/releases/stable/debian-installer/
Como se mencionó, es necesario usar Debian de 64 bits, y es recomendable utilizar alguno de los full DVD sets, ya que estos cuentan con muchas herramientas básicas preinstaladas y facilitarán el proceso de acondicionamiento de la máquina, tanto para los prerrequisitos de los paquetes generales como de las bibliotecas (informáticas).
Instalación del sistema operativo
Se puede encontrar la guía de instalación de Debian de 64 bits en el siguiente enlace: http://www.debian.org/releases/stable/amd64/
Esta cuenta con toda la información que necesita para la instalación de Debian, incluido un preámbulo sobre Linux y sistemas operativos de 64 bits, una guía sobre el proceso de instalación y una orientación para usuarios nuevos en Linux. Si tiene conocimientos básicos puede leer directamente el capítulo 5 de la guía, llamado Arranque del sistema de instalación
.
Requisitos para el sistema operativo
Cada una de las herramientas bioinformáticas tiene ciertos prerrequisitos en cuanto a bibliotecas y paquetes; por lo tanto, se recomienda instalar previamente dichas dependencias antes de proseguir con las herramientas. La mayoría de los paquetes generales y bibliotecas se pueden instalar directamente desde los repositorios de Debian, y muchos de estos ya vienen preinstalados con la instalación completa de Debian. A continuación se listan los paquetes generales y las bibliotecas necesarias para el acondicionamiento del entorno de trabajo.
Paquetes generales
•Screen: Gestión de sesiones de terminal
https://packages.debian.org/wheezy/screen
•Nmap: Utilidades para red
https://packages.debian.org/wheezy/nmap
•Vim: Edición de archivos
https://packages.debian.org/wheezy/vim
•Htop : Gestión de procesos
https://packages.debian.org/wheezy/htop
•Build-essential : Compilación de programas (gcc, make, g++)
https://packages.debian.org/wheezy/build-essential
•Alien : Conversión RPM a DEB
https://packages.debian.org/wheezy/alien
•phpmyadmin : GUI for mysql
https://packages.debian.org/stable/web/phpmyadmin
•mysql-server : Servidor mysql
https://packages.debian.org/wheezy/mysql-server
•python-pip : Gestión de bibliotecas de python
https://packages.debian.org/stable/python/python-pip
•python-dev : Código de fuente de python. (Útil para compilar bibliotecas)
https://packages.debian.org/wheezy/python-dev
•libncurses-dev cmake-curses-gui : Bibliotecas de Curses (para compilar RSEM)
https://packages.debian.org/wheezy/libncurses-dev
https://packages.debian.org/wheezy/cmake-curses-gui
•sysstat : Estadísticas de procesos
https://packages.debian.org/stable/admin/sysstat
•python-psutil : Utilidades del sistema para python
https://packages.debian.org/wheezy/python-psutil
•python-gnuplot : Paquete de graficación
https://packages.debian.org/wheezy/python-gnuplot
Bibliotecas
•zlib1g-dev : Biblioteca de compresión (instalada para TRINITY)
https://packages.debian.org/wheezy/zlib1g-dev
•libperlio-gzip-perl : Biblioteca de compresión (instalada para TRINITY)
https://packages.debian.org/it/source/wheezy/libperlio-gzip-perl
•Bioperl : Bibliotecas de perl para bioinformática
https://packages.debian.org/wheezy/bioperl
•Biopython : Bibliotecas de python para bioinformática
https://packages.debian.org/wheezy/python-biopython-sql
•python-mysqldb : Conector python con mysql
https://packages.debian.org/wheezy/python-mysqldb
•python-reportlab : Biblioteca para generar reportes en PDF
https://packages.debian.org/wheezy/python-reportlab
•pygal : Biblioteca python para SVG
http://pygal.org/
•libxml2-dev: Biblioteca de XMLpara compilar
https://packages.debian.org/wheezy/libxml2-dev
•libxslt-dev : Biblioteca de XLS para compilar
https://packages.debian.org/source/wheezy/libxslt
•libglib2.0-dev libglib2.0-bin : Bibliotecas glib2 (para compilar)
https://packages.debian.org/wheezy/libglib2.0-0
https://packages.debian.org/wheezy/libglib2.0-bin
•libffi-dev : Biblioteca para compilar cairoSVG
https://packages.debian.org/wheezy/libffi-dev
•Cairosvg : Biblioteca para manejar SVG
https://packages.debian.org/hu/source/wheezy/python/cairosvg
•libforks-perl : Forks para perl (Maker)
https://packages.debian.org/wheezy/libforks-perl
•libboost-signals-dev : Biblioteca para manejar señales en c++
https://packages.debian.org/wheezy/libboost-signals-dev
•texlive-latex-base: Biblioteca para LateX
https://packages.debian.org/wheezy/texlive-latex-base
•unsafe-signals-perl : Biblioteca para Maker
http://search.cpan.org/~rgarcia/Perl-Unsafe-Signals-0.02/Signals.pm
•Inline-perl : Biblioteca para Maker
https://packages.debian.org/ca/source/wheezy/perl/libtest-inline-perl
•libbam-dev: Biblioteca para procesamiento del formato bam
https://packages.debian.org/wheezy/libbam-dev
•libboost-thread-dev: Biblioteca para gestión de hilos
https://packages.debian.org/wheezy/libboost-thread-dev
•libboost-dev : Biblioteca de boost
https://packages.debian.org/wheezy/libboost-all-dev
Capítulo 2.
Herramientas bioinformáticas
Figura 3. Computador con software bioinformático
Figura 3. Computador con software bioinformáticoFuente: freevector.com
Control de calidad
Actualmente los secuenciadores de alto desempeño pueden generar decenas de millones de secuencias en una sola corrida; esta gran cantidad puede tener errores, debido a problemas generados por las máquinas y a procesos de secuenciación. Las secuencias con errores generan una baja en la calidad de la muestra, y esto puede llevar a resultados erróneos o inconclusos en análisis posteriores. Para resolver este problema, se hace un análisis estadístico mediante la asociación de las lecturas y los índices de calidad arrojados por el secuenciador. A continuación se describen las herramientas que se utilizarán en el entorno de trabajo para el análisis de calidad.
FastQC
Figura 4. Logo de FAstQC
Figura 4. Logo de FAstQCFuente: página web oficial del proyecto de FastQC.
FastQC tiene como objetivo proporcionar una forma sencilla de hacer algunas verificaciones de control de calidad de datos sobre secuencias crudas procedentes de los pipelines de secuenciación de alto rendimiento (Andrews, 2010). FastQC proporciona un conjunto modular de análisis con el cual dar una vista rápida a los datos que tengan algún problema y así tenerlos en cuenta antes de hacer un análisis más profundo. Dentro de los resultados del análisis de calidad de las lecturas es posible encontrar:
•Estadísticas básicas.
•Calidad de secuencia por base.
•Puntaje de calidad por secuencia.
•Contenido de secuencia por base.
•Contenido de GC por base.
•Contenido de GC por secuencia.
•Contenido de N por base.
•Distribución de longitud de secuencia.
•Secuencias duplicadas.
•Secuencias sobrerrepresentadas.
•K-mer sobrerrepresentados.
Datos técnicos de la herramienta:
A continuación se describe el proceso de instalación y uso de la herramienta FastQC.
Requisitos
FastQC cuenta con dos requisitos para su correcta instalación: el primero es un adecuado Java Runtime Environment (JRE) para el sistema operativo Debian de 64 bits; el segundo es la biblioteca informática PICARD, para el procesamiento de archivos BAM/SAM, que se puede encontrar junto con la descarga de FastQC.
Descarga
La herramienta se descarga por medio del navegador desde la página de proyectos del Instituto Babraham (http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc) o por medio del terminal, introduciendo el siguiente comando:
Instalación
Para la instalación de esta herramienta se debe descomprimir el archivo que se descargó en el paso anterior, lo cual se hace con el comando unzip, seguido del nombre del archivo descargado:
Luego se accede a la carpeta resultante de la descompresión y se deben cambiar los permisos de la carpeta en su interior llamada fastqc
por medio del comando chmod a permisos 755:
Finalmente, se crea un enlace simbólico que le permitirá al usuario acceder a esta herramienta sin importar en qué directorio se encuentre:
Nota. El enlace simbólico apunta a la ubicación donde se descomprime la herramienta; por este motivo, después de crear el enlace, no se debe cambiar de ubicación la herramienta.
Guía de uso
FastQC se ejecuta por medio del terminal, utilizando el comando fastqc más el nombre del archivo que se va a analizar. Para los ejemplos de uso se va a asumir que el archivo se llama sequences.fastq
.
Para la ejecución básica de FastQC, el usuario se debe ubicar en la carpeta donde se encuentra el archivo que se va a analizar e introducir el siguiente comando:
Al ejecutar este comando, FastQC muestra en consola el resultado del análisis y, adicionalmente, genera un reporte en html que muestra de una manera amigable los resultados con datos e imágenes. Además, FastQC cuenta con opciones que ayudan al usuario a ejecutar el análisis según sus necesidades. A continuación se explica el uso de cada una de estas opciones:
Opción -o: sirve para especificar el directorio donde el usuario desea que se ubiquen los archivos de salida. Este directorio debe ser creado previamente, ya que el programa no lo creará. Si no se especifica esta opción al ejecutar fastqc, la salida de los archivos se ubicaran en la misma carpeta donde se encuentra el archivo que se va a analizar.
Para especificar esta opción se debe escribir -o seguido de la ubicación donde se desea la salida de los archivos. En este ejemplo se va a usar la ubicación /home/user/resultados
:
Opción --extract: FastQC crea un reporte en html junto con un archivo comprimido que contiene las imágenes y los datos adicionales del reporte. Esta opción descomprime este archivo automáticamente.
Para especificar esta opción se debe escribir --extract:
Opción -j: le permite al usuario especificar la ubicación del binario de JAVA que se va a usar; si no se usa esta opción, el programa utilizará el binario de JAVA configurado en el PATH.
Para especificar esta opción se debe escribir -j seguido de la ubicación del binario de JAVA:
Opción --nogroup: deshabilita la agrupación de bases para las lecturas de más de 50 bp, lo que causa que los reportes muestren la información para cada base en la lectura.
Para especificar