ETL Untels
ETL Untels
ETL Untels
INTELIGENCIA DE NEGOCIOS
INTEGRANTES:
Hernández Sánchez, Lisseth
PROFESOR:
M.Sc. Leónidas Asto
LIMA – PERÚ
Diciembre, 2019
1
INDICE DE CONTENIDOS
.....................................................14
2. Análisis de requerimientos..................................................................15
2.1 Modelo de Negocio....................................................................................15
2.1.1 Descripción de los procesos de negocio....................................................15
2.1.2 Los problemas del Negocio.......................................................................15
2.1.3 Objetivos, Estrategias, Indicadores o KPIs................................................15
2.2 Resumen de los requerimientos obtenidos en la entrevista.......................16
2
2.2.1 Catálogo de Requisitos..............................................................................16
2.2.2 Definición de Medidas...............................................................................18
De acuerdo a los requerimientos definimos dos medidas:.........................................18
3. El modelo lógico: modelo dimensional................................................18
3.1 Selección del Data Mart.............................................................................18
3.2 Definir las dimensiones..............................................................................18
3.2.1 Mapeando las dimensiones del negocio en las tablas de dimensión.........19
3.2.2 Agregando las claves primarias a cada dimensión....................................19
3.2.3 Identificando las jerarquías analíticas........................................................20
3.2.4 Agregar las claves a cada atributo jerárquico............................................20
3.2.5 Determinar la granularidad de cada dimensión..........................................21
3.3 Definir la tabla de hechos..........................................................................21
3.3.1 Mapeando las medidas del negocio en las tablas de hechos....................22
3.4 Definiendo las claves primarias y las relaciones entre tabla de hecho y
dimensiones..................................................................................................................23
3.5 Definiendo el Modelo de Estrellas o Modelo de Copo de nieves...............23
4. Diseño técnico de la arquitectura........................................................25
4.1 Descripción de la fuente de datos transaccional........................................25
4.1.1 Modelo de la Fuente de datos...................................................................25
4.1.2 Descripción breve del modelo....................................................................25
4.2 Infraestructura: servidores, equipos...........................................................25
4.3 Flujo técnico de la arquitectura: back room, front room.............................26
5. Procesos de extracción, transformación y carga.................................27
5.1 Identificar fuentes y destinos detallados....................................................27
5.2 Selección de herramienta de ETL..............................................................27
5.3 Cargar dimensiones...................................................................................28
5.4 Carga dimensiones y tabla de hechos incrementales................................29
6. Diseño físico.......................................................................................30
6.1 Trasladar el modelo dimensional al modelo físico. Aplicando nombre s y
estándares de la base de datos, identificar el tipo de datos y la longitud de las
columnas, etiquetar atributos como Nulos y No nulos...................................................30
6.1.1 Diseño fisico de la dimension cliente.........................................................30
6.1.2 Diseño fisico de la dimension vendedor.....................................................31
6.1.3 Diseño fisico de la dimension Articulo........................................................32
6.1.4 Diseño fisico de la dimension tiempo.........................................................32
6.2 Determinar la longitud de la BD del DWH..................................................33
6.3 Determinar la estrategia de indexación......................................................33
6.4 Sentencias SQL para crear el modelo.......................................................33
7. Aplicaciones para usuarios finales: características.............................33
7.1 Elegir la herramienta para procesamiento analítico...................................33
7.2 Lista los resúmenes de información requeridos por los usuarios...............33
7.3 Determinar los cubos.................................................................................33
3
7.4 Diseñar los reportes a mostrar...................................................................33
7.5 Selección de herramienta de aplicación para usuario final: Puede usar Ms.
Excel u otra herramienta...............................................................................................33
7.6 Implementación de la herramienta Ms Excel u otra herramienta..............33
7.6.1 Crear las tablas dinámicas.........................................................................33
7.6.2 Construir los gráficos dinámicos................................................................33
7.6.3 Crear interface para navegador web.........................................................33
8. Conclusiones y recomendaciones.......................................................33
4
INDICE DE TABLAS
Tabla 1. Beneficios de la implementación de una solución BI......................9
Tabla 2. Cronograma del proyecto.............................................................11
Tabla 3. Requerimiento 01.........................................................................13
Tabla 4. Requerimiento 02.........................................................................13
Tabla 5. Requerimiento 03.........................................................................13
Tabla 6. Requerimiento 04.........................................................................14
Tabla 7. Requerimiento 05.........................................................................14
Tabla 8. Requerimiento 06.........................................................................14
Tabla 9. Requerimiento 07.........................................................................14
Tabla 10. Requerimiento 08.......................................................................15
Tabla 11. Detalles del modelo dimensional................................................15
Tabla 12. Claves primarias........................................................................16
Tabla 13. Definiendo jerarquías por dimensión..........................................17
Tabla 14. Clientes_dim..............................................................................18
Tabla 15. Proveedor_dim...........................................................................18
Tabla 16. Articulo_dim................................................................................18
Tabla 17. Vendedor_dim............................................................................18
Tabla 18. Factura_dim...............................................................................18
Tabla 19. Medidas del negocio..................................................................19
5
INDICE DE FIGURAS
6
1. Planeación y administración del proyecto
7
muestran las orientadas al área de venta, almacén y finanzas, que son
las estudiadas en esta investigación.
8
o El modelo multidimensional de la solución logro abarcar
las necesidades de información identificadas y fue
presentada utilizando diagramas de fácil comprensión.
o Los procesos de extracción, transformación y carga de
los datos fueron correctos y coherentes
o La elección de las herramientas de exploración fue la
adecuada, debido a que permitió una fácil interacción.
o El datamart cubrió las necesidades de los usuarios
estratégicos logrando así que la gerencia de ventas
tenga ahora una herramienta para el análisis de ventas.
[ CITATION Ale14 \l 10250 ]
- Descripción de la organización
- Razón Social: “Distribuidora Caserita”.
- Ubicación: Villa el Salvador.
- Rubro: venta de productos de primera necesidad, golosinas, y
bebidas al por mayor y menor.
- Clientes: Los principales clientes de esta empresa están las
amas de casa, y los propietarios de bodegas ya que compran los
productos por mayor a bajo precio.
- Competidores: Los supermercados son una fuerte competencia
ya que tienen mayor publicidad y en algunos casos dan ofertas
que iguala los precios actuales que tiene la empresa.
- Organigrama.
9
Figura 1. Organigrama de la empresa
Gerente
general
Jefe de Jefe de
ventas almacen
Vendedores
Fuente: propia
1.5 Objetivos
10
- Desarrollar un data mart que permita ver que productos se
vendieron.
- Desarrollar un data mart que permita hacer una comparación
entre los vendedores.
1.6 Justificación
11
a
Teclado y 1 100
mouse
Total 2850
Cantidad Costo
MS SQL server 1 $0
Bizagi 1 $0
Pentaho 1 $0
Total $0
1.8 Beneficios
Tabla 4. Beneficios de la implementación de una solución BI
Beneficios
Humano - Equipo de trabajo efectivo capaz de tomar
las decisiones apropiadas
- Enriquecer el proceso de análisis de la
información por parte de la gerencia
- Optimizar la gestión dentro de la
institución
12
- Realizar entrevistas a los encargados de las áreas en
gestión.
Modelado dimensional:
- Elegir el proceso de negocio.
- Elegir las dimensiones.
- Establecer el nivel de granularidad.
- Identificar medidas y tabla de hecho.
Diseño físico
Diseño e implementación del ETL
Mantenimiento y crecimiento del DWH
13
Tabla 5. Cronograma del proyecto
Fuente: propia
14
CAPITULO 2
2. Análisis de requerimientos
2.1 Modelo de Negocio
La empresa distribuidora caserita se dedica a la venta por mayor y
menor de productos de primera necesidad, como también golosinas y
bebidas.
15
- Ventas totales (por semana, mes, año).
- Ganancias (Por semana, mes y año).
Tabla 6. Requerimiento 01
Tabla 7. Requerimiento 02
Tabla 8. Requerimiento 03
16
Prioridad Alta Tipo Funcional
Descripción: Se requiere tener el detalle de productos vendidos
por funcionario, además del porcentaje de ventas por producto.
Fuente propia
Tabla 9. Requerimiento 04
17
Figura 2. Base de datos transaccional de la empresa
18
3.2.1 Mapeando las dimensiones del negocio en las tablas de
dimensión
Se identificaron las siguientes tablas de las dimensiones
definidas anteriormente:
Fuente propia
19
Dimensión Descripción Jerarquía
Clientes_dim Esta dimensión 1. Cli_Nombre,
contiene datos de
los clientes
Articulo_dim Esta dimensión 1. Art_nombre,
abarca los 2. Art_stock,
productos en venta 3. Art_PrecioCompra,
4. Art_PrecioVenta.
Factura_dim Esta dimensión 1. FechaFactura,
contiene los 2. MontoNeto,
detalles de los 3. MontoIgv,
comprobantes de 4. MontoTotal,
pago 5. utilidad
Vendedor_dim Esta dimensión 1. Ven_Nombre,
contiene los datos
de los vendedores
Fuente propia
20
Fuente propia
Fuente propia
Medida Descripción
MontoIgv Monto igv de cada factura
MontoNeto Monto neto de cada factura
Utilidad Utilidad recibida por cada venta
Fuente propia
21
- MontoTotal: Suma se las medidas MontoIgv y MontoNeto
- Utilidad:Monto ventas – Monto compras
3.4 Definiendo las claves primarias y las relaciones entre tabla de hecho y
dimensiones.
Una clave primaria de una tabla es la columna cuyos valores son
diferentes y en cada fila. Debido a esta diferenciación hacen que cada fiila
sea exclusiva . Cada tabla debe tener una clave primaria.[ CITATION
IBM19 \l 10250 ]
Las claves primarias de la tabla de hecho y sus relaciones son las
siguientes:
22
dimensiones. Un esquema estrella puede tener cualquier numero de tablas
dimensionales. [ CITATION IBM19 \l 10250 ]
23
CAPITULO 4
Fuente: Google.com
Figura 5. Pentaho
Fuente: Google.com
24
Hardware:
- Procesador Core i3
- Memoria RAM 6 GB
- Memoria interna 700 GB
25
5. Procesos de extracción, transformación y carga
5.1 Identificar fuentes y destinos detallados
Se identifico como origen a la base de datos transacional “cowapi” y
en la a continuacion se muestran las tablas de origen para el proceso de
extracción de datos:
- dbo.cliente
- dbo.factura
- dbo.vendedor
- dbo.articulo
Como destino se creó la base de datos “etlfinal”, en la siguiente tabla
se detalla las tablas y la relación con la tabla de origen
Tabla 22,Rrelacion de tablas de origen y destino
Origen Destino
dbo.CLIENTE cliente
dbo.FACTURA ventas
dbo.VENDEDOR vendedor
dbo.ARTICULO articulo
Fuente propia
26
Crearemos las tablas para cada dimension
Figura 7. creacion de las tablas de dimension
fuent
e propia
27
Figura 8. Carga de dimensiones
Fuente propia
Fuente propia
28
6. Diseño físico
6.1 Trasladar el modelo dimensional al modelo físico. Aplicando nombre s y
estándares de la base de datos, identificar el tipo de datos y la longitud de
las columnas, etiquetar atributos como Nulos y No nulos.
Fuente propia
29
Fuente propia
Fuente propia
30
6.1.4 Diseño fisico de la dimension tiempo
La dimensión tiempo la creamos para generar las consultas
posteriores a la tabla de hechos.
Para esto se extrae la fecha de las facturas, se genera una fila nueva
y se transforma dichas fechas en dia, mes, año.
31
Figura 11. Agregando claver foranea a la dimension vendedor
32
7.1 Elegir la herramienta para procesamiento analítico.
8. Conclusiones y recomendaciones
33
34
ANEXOS
ANEXO N° 1: ENTREVISTA AL GERENTE DE LA
EMPRESA
Preguntas realizadas:
¿De que manera se realizan los reportes en la empresa actualmente?
¿siente usted que es correcto el uso que se le esta dando al sistema por parte de
sus trabajadores?
¿considera que esta nueva implementación ayudara al crecimiento y expansión de
su empresa?
Resumen:
Actualmente los reportes se hacen por medio del sistema que utiliza la empresa,
pero demoran mucho en cargar y solo generan datos especifico que no son muy
útiles para el entrevistado.
El gerente indica que sus empleados ven el sistema poco amigable por lo que su
trabajo les resulta pesado.
Para el gerente esta implementación le será de mucha ayuda porque podrá tener
la información exacta de su empresa.
35
ANEXO N°2: Entrevista al encargado de almacén
Preguntas realizadas:
¿De qué manera estima la cantidad a comprar de los productos?
¿Considera que esta nueva implementación ayudara realizar mejor su trabajo?
Resumen:
Actualmente no cuenta con reportes o pronósticos para realizar las compras, el
encargado tiene en una libreta los productos mas vendidos y revisa semanalmente
el almacén para verificar si ya es momento de realizar la compra, por otro lado, los
vendedores le informan cuando un producto se está terminando para que él pueda
realizar la compra.
Considera que esta implementación de una solución BI le ayudara a realizar su
trabajo desde su oficina y de manera mas exacta en cuanto a las cantidades de
compras.
36
GLOSARIO DE TERMINOS
- Jerarquias de dimensiones: Es un constructor de datos utilizado para
agrupar datos en intervalos basados en valores. Una jerarquía de
dimensiones puede contener varios niveles, cada uno de los cuales con su
propio conjunto de grupos. Los grupos de cada nivel inferior se deben
acumular en grupos en niveles superiores. [ CITATION IBM191 \l 10250 ]
- ETL: Son las siglas en inglés de Extraer, Transformar y Cargar (Extract,
Transform and Load). Es el proceso que permite a las organizaciones mover
datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en
otra base de datos, data mart, o data warehouse para analizar, o en otro
sistema operacional para apoyar un proceso de negocio. [ CITATION
Esp19 \l 10250 ]
- OLP
- Datamining
- Pentaho: Es una herramienta desarrollada en Java, lo que le permite ser
compatible con cualquier sistema operativo. Esta diseñado para atudar
enlos procesos ETL´s , facilita la construcción, actualizacon y mantenimiento
del Data Warehouses.[ CITATION Pen19 \l 10250 ]
-
37
REFERENCIAS BIBLIOGRAFICAS
38
9. CAPÍTULO 5
39
Figura 14: ETL
Fuente: Propia.
40
Figura 16: ETL y flujo de datos de la tabla de hechos PRODUCCION.
Fuente: Propia
Fuente: Propia
41
Fuente: Propia
Fuente: Propia
Fuente: Propia
42
Fuente: Propia
Fuente: Propia
Fuente: Propia
43
Figura 24: Código SQL generado en la herramienta BI PENTAHO.
Fuente: Propia
Fuente: Propia
Fuente: Propia
44
1.11.1.5 ETL y flujo de datos de la dimensión TURNO_DIM.
Figura 27: ETL y flujo de datos de la dimensión TURNO.
Fuente: Propia
Fuente: Propia
4.5.
45
11. CAPÍTULO 5
46
13. ANEXOS
14. BIBLIOGRAFÍA
47
Alfaro Mendoza, L. A., & Paucar Moreyra, D. A. (2016). Construcción
de un Datamart que apoye en la toma de decisiones de la gestión de
incidencias en una mesa de ayuda: caso Consorcio Peruano de
Empresas. Lima, Perú.
48