Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Dama BOOK Cap. 8

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 19

Integración de Datos e

Interoperabilidad
Capacitación

Bluetab

27 Mayo del 2022


Capítulo VIII
1. Introducción
2. Actividades
3. Herramientas
4. Tecnicas
5. Guías de implementación
6. Gobierno de DII
7. Menti
1.INTRODUCCION

Definición
Motivadores de negocio:
• necesidad de gestionar los datos de manera
eficiente
• las adquisiciones de nuevos software en vez
de desarrollos de aplicaciones propias
• la administración de los costos
Metas
CONCEPTOS GENERALES
• EXTRAER, TRASNFORMAR, y CARGAR.
1. Extracción: proceso de seleccionar los datos requeridos y
extraerlos desde su origen,
2. Transformación: proceso que hace que los datos
seleccionados de origen sean compatibles con la estructura del
almacén de los datos de destino.
3. Carga: es almacenar físicamente o presentar los resultados
de las transformaciones en el sistema de destino.
4. ELT: permite que las transformaciones ocurran después de la
carga al sistema de destino.
5. Mapeo: es tanto el proceso de desarrollo de la matriz de
búsqueda desde el origen hacia las estructuras de destino,
como el resultado de ese proceso en desarrollo
CONCEPTOS GENERALES
• LATENCIA: es la diferencia de tiempo entre la generación de los datos del sistema de origen y cuando están
disponibles para su uso en el sistema de destino.
1. Lote: es el movimiento de datos entre aplicaciones y organizaciones en grupo de archivos.
2. Captura de datos de cambio: Es un método para reducir el ancho de banda utilizado, mediante
un filtrado que solo incluye los datos que se han cambiado dentro de un lapso definido.
3. Casi tiempo real e impulsada por eventos: los datos se procesan en conjuntos mas
pequeños distribuidos a lo largo del día de acuerdo con una cronología definida, o bien los datos son
procesados cuando ocurre un evento, como una actualización de datos.
4. Asincrónico: el sistema que proporciona datos no espera a que el sistema receptor acuse de recibida la
actualización, antes de continuar el procesamiento
5. En tiempo Real, Sincrónico: Es cuando los datos de origen y de destino deben estar sincronizados.
6. Baja latencia o transmisión: grandes avances en el desarrollo de soluciones de integración de
datos extremadamente rápidas.
CONCEPTOS GENERALES
• REPLICACION: sirve para proporcionar un mejor tiempo de respuesta a los usuarios ubicados
alrededor del mundo, algunas aplicaciones mantienen copias exactas de conjuntos de datos en múltiples
ubicaciones físicas

• ARCHIVADO: los datos que se utilizan con poca frecuencia o que no se utilizan de forma activa, se
pueden mover a una estructura de datos o solución de almacenamiento alternativo, que sea menos
costosa para la organización

• FORMATO DE MENSAJE / MODELO CANONICO: es un modelo común utilizado por


una organización o grupo de intercambio de datos, que hace homogéneo el formato en el que se
compartirán los datos.

• ESTANDARES DE INTERCAMBIO DE DATOS: son reglas formales para la estructura de


los elementos de datos.
CONCEPTOS GENERALES
• MODELOS DE INTERACCION: los modelos de interacción describen formas de establecer
conexiones entre sistemas con el propósito de transferir datos.

1. Punto a punto: Los sistemas se pasan los datos directamente entre si.
2. Modelo de rueda (concentrado en radios): consolida los datos compartidos en un
nodo de datos que muchas aplicaciones pueden usar. Todos los sistemas que quieran intercambiar datos
lo hacen a través de sistema central común de control de datos y no directamente entre si (punto a
punto).

3. Publicar – Suscribir: es un modelo que implica sistemas que empujan datos hacia afuera
(publican) y otros que jalan estos datos (suscribirse).
CONCEPTOS GENERALES
• Conceptos de arquitectura
1. Acoplamiento de la aplicación: describe el grado en que dos sistemas se entrelazan.

1. Orquestación y controles de procesos: es el termino utilizado para describir como se organiza y ejecuta múltiples procesos en un sistema.
2. Integración empresarial de aplicaciones (EAI): es un modelo en donde los módulos de software interactúan entre si solo a través de llamadas de interfaz bien
definidas (interfaz de programación de aplicaciones -API).

3. Bus de servicio empresarial (ESB): es un sistema que actúa como intermediario entre sistemas, pasando mensajes entre ellos.

1. Arquitectura orientada a servicios: es una idea donde la funcionalidad de proporcionar datos o actualizar datos puede ser provista a través de llamadas de servicios
bien definidas entre aplicaciones

2. Procesamiento de eventos complejos (CEP): es un método de seguimiento y análisis de flujos de información sobre cosas que suceden(eventos), para derivar una
conclusión a partir de ellos.

3. Federación de datos y virtualización: la federación de datos proporciona acceso a una combinación de almacenes de datos individuales, independientemente de la
estructura. La virtualización de datos permite que las bases de datos distribuidas, así como múltiples almacenes de datos heterogéneos, se accedan y se vean como una sola base de datos.

4. Datos-como-un-servicio (DaaS): son los datos licenciados de un proveedor y proporcionados bajo demanda, en lugar de ser almacenados y mantenidos en el centro de
datos de la organización que este licenciando.

5. Integración basada en la nube(IpaaS: es una forma de integración de sistemas entregada como servicio en la nube que se ocupa de los datos, procesos, arquitectura
orientada a servicios (SOA) y casos de uso de integración de aplicaciones
2. ACTIVIDADES
1. Planificar y Analizar:
1.1 Definir los Requerimientos de la Integración de Datos y del Ciclo de Vida:
Implica entender los objetivos de negocio de la organización, así como los datos necesarios y las iniciativas tecnológicas
propuestas para alcanzar esos objetivos.
1.2 Realizar el Descubrimiento de Datos:
El descubrimiento de datos debe realizarse antes de la fase de diseño. El objetivo del descubrimiento de datos es
identificar posibles fuentes de datos para el esfuerzo de integración de datos.
1.3 Documentar Linaje de Datos:
El proceso de descubrimiento de datos también revelará información sobre cómo fluyen los datos a través de una
organización. Esta información se puede usar para documentar el linaje de datos a alto nivel: cómo la organización
adquiere o crea los datos que se están analizando, a dónde se mueven y dónde se modifican dentro de la organización,
y cómo la organización utiliza los datos para el análisis, la toma de decisiones o la activación de eventos.
1.4 Perfilar los Datos:
Entender el contenido y la estructura de los datos es esencial para la integración exitosa de los datos. La elaboración
de perfiles de datos contribuye a este fin. La estructura y contenidos reales de los datos siempre difieren de lo que se
supone. A veces las diferencias son pequeñas; otras veces son lo suficientemente grandes como para descarrilar un
esfuerzo de integración.
1.5 Recopilar Reglas de Negocio:
Las reglas de negocio son un subconjunto crítico de los requerimientos. Una regla de negocio es una declaración que
define o acota un aspecto del procesamiento de negocio. Las reglas de negocio tienen el propósito de reafirmar la
estructura del negocio, o de controlar o influir el funcionamiento del negocio.
2. ACTIVIDADES
2. Diseñar Soluciones de Integración de Datos:
2.1 Arquitectar el Diseño de la Integración de Datos:
Las soluciones de integración de datos deben especificarse tanto a nivel empresarial como a nivel de solución
individual. Al establecer estándares empresariales, la organización ahorrará tiempo en la implementación de soluciones
individuales, porque las evaluaciones y las negociaciones se han realizado antes de ser necesarias.

2.2 Modelar Núcleos de Datos, Interfaces, Mensajes y Servicios de Datos:


Las estructuras de datos necesarias para la Integración de Datos y la Interoperabilidad incluyen aquellas en que los
datos persisten, tales como los nodos de Gestión de Datos Maestros, data warehouses, data marts, y los almacenes de
datos operacionales; así como los que son transitorios y son utilizados sólo para mover o transformar datos, tales como
interfaces, plantillas de mensajes y modelos canónicos.

2.3 Mapear Fuentes de Datos hacia los Destinos:


Casi todas las soluciones de integración de datos incluyen la transformación de datos de las estructuras de origen hacia
las estructuras de destino. El mapeo de orígenes a destinos involucra especificar las reglas para transformar los datos
desde una ubicación y darle el formato para otra.

2.4 Diseñar la Orquestación de Datos:


El flujo de datos en una solución de integración de datos debe ser diseñado y documentado. La orquestación de datos
es el patrón de los flujos de datos de principio a fin, incluyendo pasos intermedios, necesarios para completar la
transformación y/o la transacción.
2. ACTIVIDADES
3. Desarrollar Soluciones de Integración de Datos:
3.1 Desarrollar Servicios de Datos:
Se deben desarrollar servicios para acceder, transformar y entregar datos según lo especificado, de acuerdo con el
modelo de interacción seleccionado. Para implementar soluciones de integración de datos, tales como la transformación
de datos, Gestión de Datos Maestros, data warehouses, etc., se utilizan con mayor frecuencia herramientas o suites de
proveedor.
3.2 Desarrollar Flujos de Datos:
Los flujos de datos de integración, o de ETL, se desarrollarán normalmente dentro de herramientas especializadas para
manejar esos flujos en una manera exclusiva del fabricante de la herramienta. Los flujos de datos por lotes se
desarrollarán en un planificador de tareas (normalmente el planificador estándar de la empresa) que gestionará el
orden, la frecuencia y dependencias de la ejecución de las piezas de integración de datos que se han desarrollado.
3.3 Desarrollar el Enfoque de Migración de Datos:
Los datos deben moverse cuando se implementan nuevas aplicaciones, o cuando las aplicaciones se retiran o se
fusionan. Este proceso implica la transformación de los datos al formato de la aplicación que los recibirá. Casi todos los
proyectos de desarrollo de aplicaciones involucran cierta migración de datos, incluso si todo está en la población de
Datos de Referencia.
3.4 Desarrollar un Enfoque de Publicación:
Los sistemas en los que se crean o mantienen datos críticos necesitan poner esos datos a disposición de otros sistemas
de la organización. Los datos nuevos o modificados deben ser impulsados por las aplicaciones que los producen, hacia
otros sistemas (especialmente, a los nodos de datos y a los buses empresariales de datos), ya sea en el momento del
cambio de datos (conducido por eventos) o con base en una programación periódica.
2. ACTIVIDADES
3.5 Desarrollar Flujos de Procesamiento de Eventos Complejos:
El desarrollo de soluciones de procesamiento de eventos complejos requiere de:
• Preparación de datos históricos sobre un individuo, organización, producto o mercado y llenado previo de los
modelos predictivos.
• Procesamiento del flujo de datos en tiempo real para poblar completamente el modelo predictivo e
identificar eventos significativos (tales como oportunidades o amenazas)
• Ejecutar la acción desencadenada como respuesta a la predicción.

3.6 Mantener los Metadatos de DII:


Como se señaló anteriormente (ver Sección 2.1), una organización creará y descubrirá Metadatos valiosos durante el
proceso de desarrollo de soluciones DII. Estos Metadatos deben ser manejados y mantenidos para asegurar un
entendimiento apropiado de los datos en el sistema, y para evitar la necesidad de redescubrirlos para soluciones futuras.
Los Metadatos confiables mejoran la capacidad de una organización para gestionar riesgos, reducir costos y obtener más
valor de sus datos.

4. Implementar y Monitorear:
Se deben activar los servicios de datos que se han desarrollado y probado. El procesamiento de datos en tiempo real requiere
monitoreo en tiempo real para encontrar los problemas. Se deben establecer parámetros que indican posibles cuestiones con
el procesamiento, así como la notificación directa de los problemas. Debe establecerse un seguimiento, tanto automatizado
como humano, de los problemas, especialmente a medida que aumenta la complejidad y el riesgo de las respuestas
desencadenadas.
3. HERRAMIENTAS

• Motor de transformación de datos/herramientas ETL


• Servidor de virtualización de datos
• Bus de servicio empresarial
• Motor de reglas de negocio
• Herramientas de modelado de datos y procesos
• Herramientas de perfilamiento de datos
• Repositorio de metadatos
4. TECNICAS
Varias de las técnicas importantes para diseñar soluciones de integración de datos se describen en la sección
“Conceptos Esenciales” de este capítulo. Los objetivos básicos son mantener las aplicaciones acopladas
débilmente, limitar el número de interfaces desarrolladas y que requieran administración, mediante el uso
de un enfoque de modelo de rueda y la creación de interfaces estándares (canónicas).
5. GUIAS DE IMPLEMENTACIÓN

• Evaluación de preparación /evolución del Riesgo: debe ser alrededor


de la implementación de la herramienta empresarial de integración, o cerca de cómo mejorar las
capacidades para permitir la interoperabilidad

• Cambio organizacional y cultura: Muchas organizaciones desarrollan un centro


de excelencia especializado en el diseño y despliegue de las soluciones empresariales de
integración de datos.
6. GOBIERNO DE DII
Las decisiones sobre el diseño de mensajes de datos, modelos de datos y reglas de transformación de datos, tienen un
impacto directo sobre la capacidad de una organización para usar sus datos. Estas decisiones deben ser conducidas por el
negocio. Aunque hay muchas consideraciones técnicas en la implementación de reglas de negocio, un enfoque puramente
técnico de DII puede llevar a errores en los mapeos y transformaciones de datos, a medida que los datos fluyen a través y
fuera de una organización.

6.1 Acuerdos de Compartición de Datos:


Antes del desarrollo de interfaces o del suministro de datos por vía electrónica, se debe elaborar un acuerdo de compartición de
datos, o memorándum de entendimiento (MOU), que estipule las responsabilidades y el uso aceptable de los datos a ser
intercambiados, aprobado por los data stewards de los datos en cuestión; estos data stewards deben provenir de un área de
negocio.

6.2 DII y Linaje de Datos.


El linaje de datos es útil para el desarrollo de soluciones DII. A menudo también se requiere para que los consumidores de datos
los utilicen, pero se está volviendo aún más importante a medida que los datos se integran entre organizaciones. El gobierno es
necesario para garantizar que el conocimiento de los orígenes de los datos y el movimiento está documentado. Los acuerdos de
compartición de datos pueden estipular limitaciones a los usos de los datos, y para cumplirlas es necesario saber por dónde se
mueven y en dónde perduran los datos.
6. GOBIERNO DE DII
6.3 Métricas de Integración de Datos

Para medir el alcance y los beneficios de implementar soluciones de Integración de Datos, se debenincluir métricas de disponibilidad,
volumen, velocidad, costo y uso:

• Disponibilidad de Datos.
• Disponibilidad de los datos requeridos.
• Volúmenes de Datos y Velocidad.
• Volúmenes de datos transportados y transformados.
• Volúmenes de datos analizados.
• Velocidad de transmisión.
• Latencia entre actualización y disponibilidad de datos.
• Latencia entre el evento y la acción desencadenada.
• Tiempo de disponibilidad de nuevas fuentes de datos.
• Costos y Complejidad de la Solución.
• Costo de desarrollo y de gestión de soluciones
• Facilidad para adquirir nuevos datos
• Complejidad de soluciones y operaciones
• Número de sistemas que utilizan soluciones de integración de datos
Ahora, pongamos a prueba lo aprendido…

3
2
1
Gracias…

También podría gustarte