Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Informe Pentaho Data Integration - Torrejon Kevin

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 20

CURSO: INTELIGENCIA DE NEGOCIOS

TEMA:

Herramientas para Integración de Datos:

Pentaho Data Integration

PROFESOR:

DANYER ALAIN VALENCIA LLAMOCA

ALUMNO:

Torrejon Mundaca Kevin - U19206947

2022
INDICE:

1. Software…………………………………………………………....(2)

2. Empresa encargada………………………………………………...(5)

3. Versiones…………………………………………………………..(7)

4. Costo……………………………………………………………….(9)

5. Cursos y Certificaciones…………………………………………...(9)

6. Ejemplo Practico…………………………………………………(11)

7. Bibliografía……………………………………………………….(20)

2
1. Software:

• ¿Qué es?:

Pentaho Data Integration (PDI) también se conoce como Kettle. La cual es una poderosa

herramienta ETL basada en Java. Que en sí mismo refleja su significado, KETTLE

significa Kettle Extraction Transformation Transport Load Environment. El consultor

independiente de BI, Matt Custer, fue quien diseño y publico este Software con código

abierto en 2005. Posteriormente fue adquirida por la empresa Hitachi Vantara en 2006 y

rebautizada como Pentaho Data Integration. Dentro de este tipo de Software hay muchos

componentes como Spoon, Pan, Kitchen, Carte - todos estos nombres son metáforas

culinarias dadas a estas ofertas.

En la actualidad, es uno de los programas más utilizados de la actualidad para mejorar la

toma de decisiones a partir del análisis de datos, además forma parte de la suite

multiplataforma de inteligencia empresarial Open Source Pentaho.

• Funcionalidad:

Incluye todo tipo de herramientas que están dirigidas principalmente a mejorar el proceso

de toma de decisiones empresariales: software de gestión de almacenes de datos,

herramientas de integración y análisis de datos, software para gestores y herramientas de

Data Mining. De acuerdo con el artículo de Gestión y Productividad de Entel Community:

Con el paso de los años, la tecnología ha ido avanzando de tal forma que los datos

que recolectan diariamente las empresas a través de sus ERP o cualquier otro tipo

de programa de gestión, pueden ser analizados para extraer información

3
realmente útil para tomar decisiones. A esta técnica se le ha llamado Business

Intelligence o simplemente BI. (Entel Community, 2022)

Por lo tanto, al usar este software de gestión avanzada de datos, que utiliza técnicas ETL

(Extract, Transform y Load) podemos analizar y extraer un gran volumen de datos con el

objetivo de transformar números ininteligibles para el ser humano en informes gráficos

más sencillos de entender, y que bien interpretados, se convierten en conocimiento muy

útil y valioso para las empresas.

• Características:

Sus principales características son:

➢ Software multiplataforma.

➢ Diseño liviano.

➢ Intuitivo

➢ Open code o código abierto

➢ Usa tecnología estándar (Java, XML o JavaScript).

➢ Instalación y configuración muy sencilla.

➢ Flexibilidad y escalabilidad

➢ Potente.

➢ Gran comunidad a su alrededor

4
• Herramientas integradas en Pentaho Data Integration:

En Pentaho Data Integration está conformado por una serie de componentes que nos

permiten aplicar técnicas ETL de una forma sencilla. Los principales componentes de

PDI son:

➢ Spoon: es la interfaz gráfica de usuario (GUI) que permite diseñar todo tipo de

soluciones de transformación de datos. Se utiliza para crear transformaciones

(flujos de datos elementales) y trabajos (secuencias de ejecución de

transformaciones y otros trabajos)

➢ Kitchen: ejecuta las transformaciones modeladas en Spoon.

➢ Pan: ejecuta los trabajos diseñados en Spoon.

➢ Carte: un sencillo servidor web utilizado para ejecutar y supervisar las tareas de

integración de datos.

2. EMPRESA ENCARGADA:

• Hitachi Vantara (Pentaho):

Hitachi Vantara, S.A. de C.V. es un reconocido proveedor de servicios y soluciones

de tecnologías de la información que colabora con negocios para mejorar los costos

de TI y la agilidad de los negocios, con el objetivo de maximizar la recuperación de

la inversión. Enfocándose en grandes cantidades de datos, actualmente integra lo

mejor de las tecnologías de la información y la tecnología operativa para ofrecer ideas

que ayuden a transformar los negocios y la sociedad en su conjunto. Al aportar nuevas

soluciones basadas en datos y servicios al mercado, Hitachi Vantara ayuda a sus

clientes a alcanzar resultados tangibles que impulsen el negocio y el avance de la

sociedad de manera positiva.

La oportunidad de mercado para las soluciones de datos fundamentales nunca ha sido

mayor. Los datos se han convertido en el mayor activo de su negocio, si se pueden

extraer perspectivas viables. Los datos son la clave de nuevos flujos de ingresos,

mejores experiencias a sus clientes, perspectivas mejoradas del mercado y menores

5
costos de la actividad. Sin embargo, hasta ahora no ha surgido una oferta completa

que combine la experiencia en OT e IT para revelar su verdadero potencial.

• Datos de la Empresa:

Empresa Hitachi Vantara SA DE CV

Santa Clara, California, U.S.


Sedes Mexico, Distrito Federal, DF 01376
Hitachi, Ibaraki, Japan

Tel +52-55-52-58-39-70

Fax +52-55-52-92-81-91

Sitio web https://www.hitachivantara.com/es-latam/home.html

Sectores Servicios de TI y consultoría de TI

Tipo Empresa pública

Soluciones de almacenamiento empresarial, Internet de las cosas, Big Data,


Especialidades Almacenamiento Flash, Infraestructura de la nube, Movilidad de contenido,
Transformación digital y Software de almacenamiento

• Sedes:

➢ Mexico:

6
➢ JAPON:

➢ USA:

3. Versiones:
• Modelo de negocio con respecto a las versiones:

Pentaho sigue un modelo de negocio de núcleo abierto. Ofrece dos ediciones diferentes de

Pentaho Business Analytics: una edición comunitaria y una edición empresarial. La edición

empresarial debe adquirirse mediante un modelo de suscripción. El modelo de suscripción incluye

soporte, servicios y mejoras del producto a través de una suscripción anual. La edición enterprise

está disponible bajo una licencia comercial. La licencia empresarial va acompañada de 3 niveles

de soporte de Pentaho Enterprise: Enterprise, Premium y Standard.

7
CUADRO DE VERSIONES MAS RECIENTES:

8
4. Costos:

• Pentaho Data Integration (Community Version):

Kettle es una herramienta gratuita y de código abierto de Extracción-Transformación-

Carga (ETL) hecha por Pentaho. La herramienta es similar a Safe FME en el sentido de

que proporciona los medios para extraer y transformar datos de una variedad de fuentes

de datos como MySQL, PostgreSQL, Oracle, SQL Server, una variedad de NoSQL, APIs,

archivos de texto, etc.

• Pentaho Data Integration (Enterprise Version):

Todos los nuevos usuarios obtienen una prueba ilimitada de 14 días. Los planes estándar

oscilan entre 100 y 1.250 dólares al mes, dependiendo de la escala, con descuentos por

pagar anualmente. Los planes de empresa para organizaciones más grandes y casos de

uso de misión crítica pueden incluir funciones personalizadas, volúmenes de datos y

niveles de servicio, y tienen un precio individual.

5. Cursos y Certificaciones:

• Pentaho for ETL & Data Integration Masterclass 2022 - PDI 9

Uso de la herramienta Pentaho Data Integration para ETL y Data warehousing. Hacer el

desarrollo de ETL utilizando PDI 9.0 sin fondo de codificación

Características del Curso y detalles de la Certificación:

o Comprensión de todo el proceso de integración de datos mediante PDI

o Extracción de datos de todas las fuentes de datos populares, incluyendo

Excel, JSON, archivos comprimidos, archivos TXT e incluso

almacenamiento en la nube

o Limpieza de los datos utilizando Pentaho Data Integration

o Aplicación de reglas de negocio sobre los datos en PDI

o Diferentes tipos de transformaciones de datos

o Cargar los datos en diferentes formatos

9
o Gestión de bases de datos SQL con PDI

o Inyección de Metadatos - una poderosa herramienta ofrecida por PDI

o Comprensión de los conceptos de data marts y data warehouse

• Pentaho Online Training Certification 2021

Conceptos de Business Intelligence y Data Warehousing, junto con la cobertura en

profundidad de Pentaho Data Integration (Kettle).

Características del Curso y detalles de la Certificación:

o Arquitectura de la suite Pentaho BI

o Pentaho Analytics y la creación de informes utilizando Pentaho BI

Server

o Realización de múltiples integraciones, transformaciones y análisis de

datos

o Pentaho Dashboard y Pentaho Business Analytics

o Uso de PDI/Kettle y patrones de diseño ETL para poblar el esquema

estrella del almacén de datos

o Creación de informes complejos y cuadros de mando para el análisis

o Desarrollo de esquemas Mondrian Cube OLAP con Pentaho workbench

o Integración de Pentaho con Big Data Stack como HDFS y MapReduce

o Ajuste de rendimiento de trabajos y transformaciones PDI

o Uso de Pentaho Kettle para construir y desplegar informes de forma

automatizada

10
6. Ejemplo Práctico:

o Ejercicio de procesos ETL (Extract, Transform and Load) con Pentaho Data
Integration:
Para poder poner en practica la herramienta PDI, usaremos en este ejercicio la
transformación de la tabla Clientes perteneciente a la Base de datos Northwind,
implementando la condicional “if field value is null”, el cual nos ayuda a evaluar si el valor
de algún campo en la tabla es “NULL”, reemplazando ello por un valor que nosotros
predefinamos. Y a su vez transfiriendo los datos transformados a otra tabla perteneciente a
una nueva BD.

• Creamos un nuevo proyecto de ETL y transformación:

• Creamos las conexiones:

11
• Conexión al BD “Northwind” y “Prueba” de SQL Server y completamos los datos:

12
• Testeamos la conexión sea exitosa:

• Insertamos la tabla de origen y la configuramos:

13
• Nombramos la conexión, y seleccionamos la conexión de la bd y damos click a “get
SQL select statement”, y elegimos la tabla que usaremos.

• Seleccionamos la condicional “if field value is null” para reemplazar los valores null

dentro de la tabla.

14
• Configuramos esta condicional:

• Marcamos la opción de seleccionar columna manualmente:

• Colocamos el nombre de la columna y el valor que reemplazara a los registros


“NULL”, en este caso “Region” y “Perú respectivamente. Ponemos OK.

15
• Usamos ahora “Select values” :

• Seleccionamos “Get fields to select” para seleccionar los campos de la tabla a


transferir:

16
• Usamos la opción tabla de salida:

• Configuramos la interfaz, seleccionando la conexión, la nombremos y colocamos la


tabla que almacenara la transformación:

• Relacionamos las los componentes y el esquema queda de esta forma:

17
• Dentro de la bd de destino revisamos la tabla que recibirá los datos este vacía para
recibir los datos de Northwind:

• Ahora podemos correr el proyecto:

18
• Si se realizó correctamente todo el proyecto debería salir de esta manera:

• Revisamos si se realizó la transformación y transacción de datos correctamente:

TABLA NORTHWIND:

19
TABLA PRUEBA:

7. Bibliografía:

➢ Entel Community (2022) ¿Qué es y para qué sirve Pentaho Data Integration? Entel.
Recuperado de: https://ce.entel.cl/grandes-empresas/articulos/pentaho-data-integration/

➢ Linkedin. Hitachi Vantara LATAM. Recuperado de:


https://mx.linkedin.com/company/hitachi-vantara-latam

➢ Piperlab. Glosario, Pentaho Data Integration (PDI). Recuperado de:


https://piperlab.es/glosario-de-big-data/pentaho/

➢ Source Forge (2022) Pentaho from Hitachi Vantara Files. Recuperado de:
https://sourceforge.net/projects/pentaho/files/

20

También podría gustarte