dbo:abstract
|
- Data-Lineage bzw. Datenherkunft (auch Data Provenance oder Data Pedigree, deutsch auch Datenabstammung und -stammbaum) bezeichnet in einem Data-Warehouse-System (Datenlager) die Fragestellung, zu gegebenen aggregierten Datensätzen die ursprünglichen Datensätze zu bestimmen, aus denen sie entstanden sind. Üblicherweise werden in einem Data-Warehouse-System Daten aus verschiedenen Quellen extrahiert, nach bestimmten Regeln transformiert und zur Analyse bereitgestellt (siehe ETL-Prozess). Beim Data-Lineage muss der umgekehrte Weg beschrieben werden (siehe auch E-Pedigree), um von Analyseergebnissen zu den Quellen zu gelangen. Dazu werden die Transformationen mathematisch modelliert, um für gegebene Ausgabewerte einer Transformation die dazugehörenden Eingabewerte zu bestimmen (siehe auch EVA-Prinzip). (de)
- Data lineage includes the data origin, what happens to it, and where it moves over time. Data lineage gives visibility while greatly simplifying the ability to trace errors back to the root cause in a data analytics process. It also enables replaying specific portions or inputs of the data flow for step-wise debugging or regenerating lost output. Database systems use such information, called data provenance, to address similar validation and debugging challenges. Data provenance refers to records of the inputs, entities, systems, and processes that influence data of interest, providing a historical record of the data and its origins. The generated evidence supports forensic activities such as data-dependency analysis, error/compromise detection and recovery, auditing, and compliance analysis. "Lineage is a simple type of why provenance." Data lineage can be represented visually to discover the data flow/movement from its source to destination via various changes and hops on its way in the enterprise environment, how the data gets transformed along the way, how the representation and parameters change, and how the data splits or converges after each hop. A simple representation of the Data Lineage can be shown with dots and lines, where dot represents a data container for data points and lines connecting them represents the transformations the data point undergoes, between the data containers. Representation broadly depends on scope of the metadata management and reference point of interest. Data lineage provides sources of the data and intermediate data flow hops from the reference point with backward data lineage, leads to the final destination's data points and its intermediate data flows with forward data lineage. These views can be combined with end-to-end lineage for a reference point that provides complete audit trail of that data point of interest from sources to its final destinations. As the data points or hops increases, the complexity of such representation becomes incomprehensible. Thus, the best feature of the data lineage view would be to be able to simplify the view by temporarily masking unwanted peripheral data points. Tools that have the masking feature enables scalability of the view and enhances analysis with best user experience for both technical and business users. Data lineage also enables companies to trace sources of specific business data for the purposes of tracking errors, implementing changes in processes, and implementing system migrations to save significant amounts of time and resources, thereby tremendously improving BI efficiency. The scope of the data lineage determines the volume of metadata required to represent its data lineage. Usually, data governance, and data management determines the scope of the data lineage based on their regulations, enterprise data management strategy, data impact, reporting attributes, and critical data elements of the organization. Data lineage provides the audit trail of the data points at the highest granular level, but presentation of the lineage may be done at various zoom levels to simplify the vast information, similar to analytic web maps. Data Lineage can be visualized at various levels based on the granularity of the view. At a very high level data lineage provides what systems the data interacts before it reaches destination. As the granularity increases it goes up to the data point level where it can provide the details of the data point and its historical behavior, attribute properties, and trends and data quality of the data passed through that specific data point in the data lineage. Data governance plays a key role in metadata management for guidelines, strategies, policies, implementation. Data quality, and master data management helps in enriching the data lineage with more business value. Even though the final representation of data lineage is provided in one interface but the way the metadata is harvested and exposed to the data lineage graphical user interface could be entirely different. Thus, data lineage can be broadly divided into three categories based on the way metadata is harvested: data lineage involving software packages for structured data, programming languages, and big data. Data lineage information includes technical metadata involving data transformations. Enriched data lineage information may include data quality test results, reference data values, data models, business vocabulary, data stewards, program management information, and enterprise information systems linked to the data points and transformations. Masking feature in the data lineage visualization allows the tools to incorporate all the enrichments that matter for the specific use case. To represent disparate systems into one common view, "metadata normalization" or standardization may be necessary. (en)
- Data Lineage en français "lignée des données" est un processus qui vise à fournir une cartographie du système d'information. Il permet une visualisation du cycle de vie de la donnée en vue de répondre aux questions suivantes : de quelle source provient cette donnée, et quelles transformations a-t-elle subies. Cette thématique prend de l'importance avec l'arrivée du RGPD. Le data Lineage comprend l’origine des données, ce qui leur arrive et où elles se déplacent au fil du temps. La traçabilité des données offre de la visibilité tout en simplifiant considérablement la possibilité de retracer les erreurs jusqu’à la cause première dans un processus d’analyse de données. Il permet également de relire des parties ou des entrées spécifiques du flux de données pour un débogage par étapes ou la régénération de la sortie perdue. Les systèmes de base de données utilisent ces informations, appelées provenance des données, pour relever des problèmes similaires de validation et de débogage. La provenance des données fait référence aux enregistrements des entrées, des entités, des systèmes et des processus qui influencent les données d’intérêt, fournissant un enregistrement historique des données et de leurs origines. Les preuves générées prennent en charge les activités telles que l’analyse de la dépendance des données, la détection et la récupération des erreurs /compromissions, l’audit et l’analyse de la conformité. La lignée des données peut être représentée visuellement pour découvrir le flux /mouvement des données de sa source à sa destination via divers changements et sauts sur son chemin dans l’environnement de l’entreprise, comment les données sont transformées en cours de route, comment la représentation et les paramètres changent, et comment les données se divisent ou convergent après chaque saut. Une représentation simple de la lignée de données peut être montrée avec des points et des lignes, où point représente un conteneur de données pour les points de données et les lignes les reliant représente les transformations subies par le point de données entre les conteneurs de données. La représentation dépend largement de la portée de la gestion des métadonnées et du point d’intérêt de référence. La lignée de données fournit des sources de données et des sauts de flux de données intermédiaires à partir du point de référence avec une lignée de données en amont, conduit aux points de données de la destination finale et à ses flux de données intermédiaires avec une lignée de données directe. Ces vues peuvent être combinées avec une lignée de bout en bout pour un point de référence qui fournit une piste d’audit complète de ce point de données d’intérêt des sources à ses destinations finales. Au fur et à mesure que les points de données ou les sauts augmentent, la complexité d’une telle représentation devient incompréhensible. Ainsi, la meilleure caractéristique de la vue de lignage de données serait de pouvoir simplifier la vue en masquant temporairement les points de données périphériques indésirables. Les outils dotés de la fonction de masquage permettent l’évolutivité de la vue et améliorent l’analyse avec la meilleure expérience utilisateur pour les utilisateurs techniques et professionnels. La traçabilité des données permet également aux entreprises de tracer des sources de données d'activités métiers spécifiques à fins de suivi des erreurs, de mise en œuvre de modifications des processus et de mise en œuvre de migrations de systèmes pour économiser beaucoup de temps et de ressources, améliorant ainsi considérablement l’efficacité de la BI. L’étendue de la lignée de données détermine le volume de métadonnées requis pour représenter sa lignée de données. Habituellement, la gouvernance et la gestion des données déterminent la portée de la lignée des données en fonction de leurs réglementations, de leur stratégie de gestion des données d’entreprise, de leur impact sur les données, de leurs attributs de reporting et des éléments de données critiques de l’organisation. La lignée de données fournit la piste d’audit des points de données au niveau granulaire le plus élevé, mais la présentation de la lignée peut être effectuée à différents niveaux de zoom pour simplifier les vastes informations, similaires aux cartes Web analytiques. Le Data Lineage peut être visualisé à différents niveaux en fonction de la granularité de la vue. À un niveau très élevé, la lignée de données fournit les systèmes avec lesquels les données interagissent avant d’atteindre leur destination. Au fur et à mesure que la granularité augmente, elle monte au niveau du point de données où elle peut fournir les détails du point de données et son comportement historique, les propriétés des attributs, les tendances et la qualité des données transmises par ce point de données spécifique dans la lignée de données. La gouvernance des données joue un rôle clé dans la gestion des métadonnées pour les lignes directrices, les stratégies, les politiques et la mise en œuvre. La qualité des données et la gestion des données de référence contribuent à enrichir la lignée des données avec plus de valeur commerciale. Même si la représentation finale de la lignée des données est fournie dans une interface, la façon dont les métadonnées sont récoltées et exposées à l’interface utilisateur graphique de la lignée de données pourrait être entièrement différente. Ainsi, la lignée de données peut être largement divisée en trois catégories en fonction de la manière dont les métadonnées sont collectées : la lignée de données impliquant des progiciels pour les données structurées, les langages de programmation et le Big Data. Les informations de lignée des données comprennent les métadonnées techniques impliquant des transformations de données. Les informations enrichies sur la lignée des données peuvent inclure les résultats des tests de qualité des données, les valeurs des données de référence, les modèles de données, le vocabulaire commercial, les gestionnaires de données, les informations de gestion de programme et les systèmes d’information d’entreprise liés aux points de données et aux transformations. La fonction de masquage dans la visualisation de la lignée des données permet aux outils d’incorporer tous les enrichissements importants pour le cas d’utilisation spécifique. Pour représenter des systèmes disparates dans une vue commune, une « normalisation des métadonnées » ou une normalisation peut être nécessaire. (fr)
|