UF1890 - Desarrollo de componente software y consultas dentro del sistema de almacén de datos
()
Información de este libro electrónico
Para ello, se analizará la carga de datos, la extracción de datos, y se profundizará en las herramientas de obtención de información.
Tema 1. Carga de datos .
1.1 Exploración del sistema de almacén de datos Estructuras de información, cubos y multicubos.
1.2 Procesos de carga de datos al sistema de almacén de datos.
Tema 2. Extracción de datos (data warehouse).
2.1 Herramientas para la carga y extracción de datos de sistemas de almacén de datos.
2.2 Creación de extractores de datos.
Tema 3. Herramientas de obtención de información
3.1 Herramientas de visualización y difusión.
Relacionado con UF1890 - Desarrollo de componente software y consultas dentro del sistema de almacén de datos
Libros electrónicos relacionados
Tecnologías de Virtualización Calificación: 0 de 5 estrellas0 calificacionesSalvaguarda y seguridad de los datos. IFCT0310 Calificación: 0 de 5 estrellas0 calificacionesAnálisis del mercado de productos de comunicaciones. IFCT0410 Calificación: 0 de 5 estrellas0 calificacionesUF1466 - Sistemas de almacenamiento Calificación: 0 de 5 estrellas0 calificacionesUF1888 - Operaciones de mantenimiento y consulta de datos Calificación: 0 de 5 estrellas0 calificacionesUF1887 - Operaciones de seguridad en sistemas ERP-CRM y almacén de datos Calificación: 0 de 5 estrellas0 calificacionesSistemas de almacenamiento. IFCT0310 Calificación: 0 de 5 estrellas0 calificacionesUF1306 - Pruebas de funcionalidades y optimización de páginas web Calificación: 0 de 5 estrellas0 calificacionesUF1884 - Almacenamiento de datos en sistemas ERP-CRM Calificación: 0 de 5 estrellas0 calificacionesComputadores para bases de datos. IFCT0310 Calificación: 0 de 5 estrellas0 calificacionesUF1467 - Aplicaciones microinformáticas e internet para consulta y generación de documentación Calificación: 0 de 5 estrellas0 calificacionesUF1472 - Lenguajes de definición y modificación de datos SQL Calificación: 0 de 5 estrellas0 calificacionesUF1882 - Instalación de sistemas operativos y gestores de datos en sistemas ERP-CRM Calificación: 0 de 5 estrellas0 calificacionesUF2218 - Desarrollo de un CMS Calificación: 0 de 5 estrellas0 calificacionesPruebas de funcionalidades y optimización de páginas web. IFCD0110 Calificación: 0 de 5 estrellas0 calificacionesMF0221_2 - Instalación y configuración de aplicaciones informáticas Calificación: 0 de 5 estrellas0 calificacionesUF2176 - Definición y manipulación de datos Calificación: 0 de 5 estrellas0 calificacionesMF0952_2 - Publicación de páginas web Calificación: 0 de 5 estrellas0 calificacionesUF1889 - Desarrollo de componente software en sistemas ERP-CRM Calificación: 0 de 5 estrellas0 calificacionesAlmacenamiento de la información e introducción a sgbd. IFCT0310 Calificación: 0 de 5 estrellas0 calificacionesUF1885 - Administración del sistema operativo en sistemas ERP-CRM Calificación: 0 de 5 estrellas0 calificacionesDISEÑO Y GESTIÓN DE INTRANETS Calificación: 0 de 5 estrellas0 calificacionesDesarrollo del proyecto de la red telemática. IFCT0410 Calificación: 0 de 5 estrellas0 calificacionesSelección, instalación, configuración y administración de los servidores de transferencia de archivos. IFCT0509 Calificación: 0 de 5 estrellas0 calificacionesMF1209_1 - Operaciones auxiliares con tecnologías de la información y la comunicación Calificación: 0 de 5 estrellas0 calificacionesUF1473 - Salvaguarda y seguridad de los datos Calificación: 0 de 5 estrellas0 calificacionesUF2405 - Modelo de programación web y bases de datos Calificación: 0 de 5 estrellas0 calificacionesUF0852 - Instalación y actualización de sistemas operativos Calificación: 5 de 5 estrellas5/5UF0864 - Resolución de averías lógicas en equipos microinformáticos Calificación: 0 de 5 estrellas0 calificacionesAdministración de sistemas operativos Calificación: 4 de 5 estrellas4/5
Negocios para usted
Secretos judíos del dinero Calificación: 5 de 5 estrellas5/5El año de 12 semanas: Logra en 12 semanas lo que otros hacen en 12 meses Calificación: 5 de 5 estrellas5/5Ideas que pegan (2ª Edición): Por qué algunas ideas sobreviven y otras mueren Calificación: 5 de 5 estrellas5/523 Hábitos Anti-Procrastinación Cómo Dejar De Ser Perezoso Y Tener Resultados En Tu Vida. Calificación: 4 de 5 estrellas4/5Colección De Hábitos. 97 Pequeños Cambios De Vida Que Toman 5 Minutos O Menos. Calificación: 4 de 5 estrellas4/5Padre Rico, Padre Pobre de Robert Kiyosaki (Análisis de la obra): La riqueza al alcance de todos Calificación: 4 de 5 estrellas4/5Frases que Venden: Descubre cómo promocionar tus productos, atraer clientes y cerrar las ventas Calificación: 4 de 5 estrellas4/5MBA: Guía visual. Todo lo que aprendí en dos años en la escuela de negocios Calificación: 5 de 5 estrellas5/5Planeación estratégica. Fundamentos y casos Calificación: 5 de 5 estrellas5/5Rica mente: El juego interior de la riqueza Calificación: 5 de 5 estrellas5/525 maneras de ganarse a la gente: Cómo hacer que los demás se sientan valiosos Calificación: 5 de 5 estrellas5/5Estuche Good to great + Girando la rueda Calificación: 5 de 5 estrellas5/5Resumen de El poder del hábito de Charles Duhigg Calificación: 5 de 5 estrellas5/5Cómo Hacer Jabones Caseros Calificación: 4 de 5 estrellas4/5El Arte de las Ventas: Descubre los Secretos de los Mejores Vendedores del Mundo e Incrementa tus Ganancias más Allá de lo que Pensabas Posible Calificación: 0 de 5 estrellas0 calificacionesCómo Invertir En El Mercado De Valores Para Principiantes Calificación: 4 de 5 estrellas4/5El secreto de los grandes empresarios Calificación: 4 de 5 estrellas4/5Inglés Sin Esfuerzo: Aprende A Hablar Inglés Como Nativo Del Idioma Calificación: 5 de 5 estrellas5/5Tu Mentor de Negocios: Despega en tu emprendimiento Calificación: 5 de 5 estrellas5/5Buena estrategia / Mala estrategia: Cómo definir y ejecutar una estrategia de éxito en el mundo real Calificación: 0 de 5 estrellas0 calificacionesSecretos para cerrar la venta Calificación: 5 de 5 estrellas5/5Libertad financiera: Los cinco pasos para que el dinero deje de ser un problema Calificación: 5 de 5 estrellas5/5Magia mental y juegos de azar. Calificación: 5 de 5 estrellas5/5
Comentarios para UF1890 - Desarrollo de componente software y consultas dentro del sistema de almacén de datos
0 clasificaciones0 comentarios
Vista previa del libro
UF1890 - Desarrollo de componente software y consultas dentro del sistema de almacén de datos - Jorge Martínez Mostazo
1.1. Exploración del sistema de almacén de datos. Estructuras de información cubos y multicubos
1.1.1. Identificación de tipos de estructuras de información y sus relaciones para almacenar información
1.2. Procesos de carga de datos al sistema de almacén de datos
1.2.1. Identificación de orígenes de datos para la carga de datos
1.2.2. Creación de componentes de software para extraer información de un sistema de almacén de datos
1.1.Exploración del sistema de almacén de datos. Estructuras de información cubos y multicubos
ETL: Extraer Transformar y Cargar. Es un proceso donde se obtienen datos de una fuente, los datos son cambiados y cargados en un almacenamiento. Este tipo de proceso es muy usado en distintos tipos de situaciones:
–Datawarehouse. Creación de un almacén de datos, nos va a facilitar acceder a la información mediante informes. Este es el caso que nos ocupa.
–Migración de datos. Pasar los datos de una base de datos a otra en el mismo sistema.
–Migración de datos a otro sistema. Cuando se crea un ETL, se crea un vínculo con dicho ETL, siendo parte de la empresa de forma que cualquier proceso queda recogido y formará parte de los negocios.
El uso de una herramienta ETL es un movimiento estratégico importante independientemente del tamaño del proyecto.
Se pueden considerar varias áreas que nos pueden ayudar a elegir nuestra herramienta ETL:
1.Conexión de datos. Debería ser versátil y ser capaz de conectarse con cualquier fuente de datos. La fuente de datos puede cambiar en nuestra empresa más adelante.
2.Performance. El movimiento y el cambio de datos son procesos potentes que pueden consumir recursos. Es importante disponer de los recursos necesarios para afrontar dichos procesos.
3.Transformación de datos. Sencillez y simplicidad a la hora de transformar los datos.
4.Calidad datos. Una herramienta ETL debe permitir comprobar y validar los datos con los que se va trabajar. Los datos deben ser consistentes.
5.Obtención de datos. Debe ser flexible a la hora de obtener los datos ya cambiados:
∙Obtener un subconjunto de datos.
∙Obtener datos en un intervalo de tiempo.
∙Obtener informes.
Una vez decidido es importante tener en cuenta la empresa que nos va a suministrar la herramienta, de forma que siempre tengamos el soporte adecuado.
Los procesos ETL también se pueden utilizar para la integración con sistemas antiguos de la empresa. Microsoft SQL Server Integration Services (SSIS) permite utilizar ETL para el almacenar datos.
Proceso SSIS.
ETL en SQL Server
El proceso de ETL en SQL Server ser realiza mediante la herramienta SISS (Integration Services).
Definición
Un paquete es una unidad de trabajo en la que vamos a indicar los distintos elementos que van a participar en el proceso ETL. Los paquetes se crean junto con un proyecto en SISS.
El primer paso al crear un paquete en Integration Services es crear un proyecto que incluye las plantillas para los objetos que se utilizan en una solución de transformación de datos.
La implementación del proceso ETL puede ser realizada de dos formas distintas:
–Un paquete por cada fuente de datos. Cada paquete maneja de forma independiente los datos de la fuente. Es recomendable cuando:
∙La fuente de datos es independiente.
∙Fuentes de datos que cambian.
–Paquetes separados en cada paso (ETL). Requiere una base de datos staging. Es una buena opción cuando:
∙Tenemos poco tiempo para la carga de datos.
∙Fuentes de datos diferentes que necesitan ser integradas.
Proyecto SSIS.
∙Paquete por cada fuente de datos.
∙Paquetes separados por cada paso.
∙ETL. Extract Transform Load.
Carga
La fase de carga se produce cuando los datos son cargados en el sistema destino. Dependiendo de las necesidades de la organización, este proceso puede llevar una amplia variedad de diferentes procesos.
Existen dos formas de desarrollar un proceso de carga:
–Single Acumulation. Es la más utilizada. Realiza un extracto de todas las transacciones que se encuentran en una fase de tiempo adecuado y lleva el resultado como una transacción al DW, guardando un valor calculado que será en un sumatorio o un valor medio.
–Rolling. Se utiliza en los casos en que se desea mantener varios grados de granularidad. Para ello se guardan datos resumidos en distintos niveles, que se corresponden a distintos grupos de la unidad de tiempo o distintos niveles subordinados.
La fase de carga actúa de forma directa con la base de datos final. Realizando esta operación se aplican todas las constraints y disparadores que se hayan definido en ella. Estos disparadores consiguen que se obtenga la calidad de los datos en el proceso de ETL.
Proceso de carga.
∙Acumulación. Resumen de todas las transacciones y las envía al DW.
∙Rolling. Resume por niveles.
∙Interacciona con la BD destino.
Sistema de almacén de datos. Introducción
DW o sistema de almacén, es el eje de la construcción de los SI. Permite realizar un análisis en base a unos datos antiguos o históricos DW. Permite la unión de sistemas no integrados. Dispone y guarda los datos necesarios para el procesamiento ordenado en función del tiempo.
Un DW es un conjunto de información orientado a temas, integrado, no variable, de tiempo variable, que se usa para sostener la fase de toma de resoluciones en una empresa.
Se puede caracterizar un data warehouse haciendo un contraste de cómo los datos de un negocio que son almacenados en un data warehouse, difieren de los datos operacionales usados por las aplicaciones de producción.
La inserción de datos en el DW proviene principalmente del sistema de operaciones. DW posee información transformada y en un lugar físico diferente al que se encuentran los datos del sistema de operación.
Recuerda
El sistema de almacén se utiliza en la toma de decisiones en la empresa.
Definición de Data warehouse
Un almacén de datos es un sistema que recupera y consolida datos periódicamente de los sistemas de fuente en un almacén de datos dimensionales o normalizados. Generalmente se mantiene años de historia y se consulta para inteligencia de negocios u otras actividades analíticas. Normalmente se actualiza en lotes, no cada vez que ocurre una transacción en el sistema de origen.
El ETL (extract, transform, load) aporta datos de varios sistemas de fuente en un área. ETL es un sistema que tiene la capacidad para conectarse a los sistemas de fuente, leer los datos, transformar los datos y cargarlos en un sistema de destino (el sistema de destino no tiene que ser un almacén de datos). El sistema ETL entonces integra, transforma y carga los datos en un almacén de datos dimensionales (DDS).
Un DDS es una base de datos que almacena los datos en un formato diferente de OLTP. La razón para meter los datos desde el sistema de origen en el DDS y luego consultar la DDS en lugar de consultar directamente el sistema de origen es que en un DDS se arreglan los datos en un formato tridimensional que es más conveniente para el análisis. La segunda razón es porque un DDS contiene datos integrados de varios sistemas de origen.
Sistema Data warehouse.
El sistema de almacén de datos contiene solamente un sistema ETL y un almacén de datos dimensionales. El sistema de origen no es parte del sistema del almacén de datos. Este es básicamente la unidad mínima. Si se toma sólo un componente más, no se puede llamar sistema de almacén de datos. Aunque no hay ninguna aplicación front-end como informes o aplicaciones analíticas, los usuarios todavía pueden consultar los datos de la DDS mediante la emisión de directas instrucciones select de SQL usando herramientas de consulta de base de datos genéricos como la que organizó en SQL Server Management Studio.
Obtención de datos en DW
La recuperación de datos se realiza mediante un conjunto de rutinas ampliamente conocido como un sistema ETL, que es una abreviatura de extracto, transformación y carga. El sistema ETL es un conjunto de procesos que recuperan datos de los sistemas de fuente, transformar los datos y carga en un sistema de destino. La transformación puede utilizarse para cambiar los datos según el formato y criterios del sistema de destino, para derivar nuevos valores para ser cargados en el sistema de destino, o para validar los datos desde el sistema de origen. Sistemas ETL no sólo se utilizan para cargar los datos en el almacén de datos. Son ampliamente utilizados para cualquier tipo de movimientos de datos.
La mayoría de los sistemas ETL también tienen mecanismos para limpiar los datos desde el sistema de origen antes de ponerlo en el almacén. Limpieza de datos es el proceso de identificar y corregir datos sucios. Esto es implementado usando reglas de calidad de datos que definición están qué datos sucios.
Después se extrajeron los datos desde el sistema de origen, pero antes de carguen los datos en el almacén, los datos se examinan por medio de estas reglas. Si la regla determina los datos son correctos, entonces está cargado en el almacén. Si la regla determina que la información es incorrecta, entonces hay tres opciones: puede ser rechazado, corregido o puede ser cargado en el almacén.
No hay otra alternativa a ETL, conocido como extraer, cargar y transformar (ELT). En este enfoque, los datos se cargan en el almacén de datos. Las transformaciones, las búsquedas, y así sucesivamente, se realizan dentro del almacén de datos. A diferencia del enfoque ETL, el enfoque ELT no necesita un servidor de ETL. Este enfoque es generalmente aplicado para aprovechar las ventajas del almacén de datos potentes motores de base de datos tales como sistemas de procesamiento masivamente paralelo (MPP).
ETL:
∙Recupera datos de un sistema fuente y lo envía a un sistema destino.
∙Corrección y limpieza de datos.
∙Si los datos son correctos se cargan en el almacén.
Consolidación de datos
Una empresa puede tener muchos sistemas transaccionales. Por ejemplo, un banco puede utilizar 15 diferentes aplicaciones para sus servicios, uno para procesamiento de préstamos, uno para el servicio al cliente, uno para cajeros / cajeras, uno de los cajeros automáticos, uno para bonos para ISA, uno para el ahorro, uno para privatebanking, uno para el parquet, uno para seguros de vida, seguros de hogar, uno de las hipotecas, uno para la llamada centro, uno para las cuentas internas y otro para la detección de fraude. Sería muy difícil realizar (por ejemplo) Análisis de rentabilidad de clientes a través de estas aplicaciones.
Un almacén de datos consolida muchos sistemas transaccionales. La diferencia clave entre un almacén de datos y un sistema transaccional de front-office es que los datos en el almacén de datos está integrados. Esta consolidación o integración debe tener en cuenta la disponibilidad de los datos (algunos datos están disponibles en varios sistemas pero no en otros), el tiempo gamas (datos en distintos sistemas tienen períodos de validez diferentes), diversas definiciones (el término semanal los ingresos totales en un sistema que tenga un significado diferente del total de los ingresos semanal en otros sistemas), conversión (diferentes sistemas que tenga una unidad de medida o moneda diferente) y congruentes (fusión de datos basados en identificadores comunes entre los distintos sistemas).
Conceptos a tener en cuenta para la consolidación de datos:
∙Disponibilidad de datos. Rango de tiempo.
∙Conversión de datos. Comparación de datos.