Projet Decisionnel
Projet Decisionnel
Projet Decisionnel
http://jean.marie.gouarne.online.fr
Le Projet Dcisionnel
Enjeux, Modles, Architectures du Data Warehouse
6 novembre 1997
Cet ouvrage a t initialement publi en 1997 par les ditions Eyrolles
Avant-Propos
Issu de la pratique et de la rflexion, ce livre sadresse tous ceux qui, en tant que responsables informatiques, consultants, matres douvrage ou chefs de projets, sont amens affronter, par volont ou par ncessit, la problmatique complexe du data warehouse. Son objectif est de prsenter une vision synthtique, concrte et critique des fins et des moyens de linformatique dcisionnelle. Dans tous les domaines de lactivit des organisations contemporaines, la russite des projets est souvent compromise, dit-on, par une propension gnrale laborer les solutions avant davoir identifi et formul les problmes1. Cette remarque sapplique tout particulirement aux Systmes dInformation Dcisionnels. En outre, dans ce domaine, la cacophonie des concepts immatures et des produits mergents, lappropriation du discours par les fournisseurs de technologie, contribuent largement masquer la ralit des enjeux et des risques. Un projet dcisionnel est donc trop souvent approch par lexploration dun ventail de solutions techniques. Bien que ce livre soit un ouvrage dinformatique crit par un informaticien, son but principal est de tenter de mettre la typologie des solutions en relation avec lventail des problmes. Dans un univers en construction, dans lequel rien nest fig, il a pour ambition daider le lecteur, lheure des choix, dterminer plus facilement par lui-mme le vocabulaire, les catgories, les technologies et les mthodes applicables, et valuer les risques, plutt que de lui prsenter une panoplie de recettes. Parmi les outils informatiques particulirement destins aux applications dcisionnelles, chaque jour plus nombreux, certains sont naturellement cits dans cet ouvrage. Mais ils ne le sont qu titre dillustration, sans intention dexhaustivit ni apprciation comparative, et sans oublier quen matire danalyse de produits de haute technologie, imprim rime avec prim. De plus, lintention est ici de prsenter les alternatives essentielles, plutt quun catalogue des offres du moment.
1
Jean-Marie Gouarn
Le Projet Dcisionnel
Linformation dcisionnelle est, dans toutes les entreprises, un domaine sensible. Les exemples voqus dans ce livre sont donc transposs et amnags de manire ne vhiculer aucune information indiscrte sur les situations relles dont ils sont inspirs2. Je tiens remercier ici tous ceux qui, divers titres et chacun sa manire, ont contribu la gense et llaboration de ce livre, et notamment : les professionnels managers, utilisateurs, informaticiens avec lesquels jai loccasion de collaborer au sein de grandes entreprises, dans le cadre de chantiers dcisionnels petits et grands ; mes collgues de GENICORP consultants, chefs de projets, concepteurs, ralisateurs qui, jour aprs jour, capitalisent une exprience concrte et prcieuse sur le terrain ; Laurent Maury, qui a bien voulu en assurer une relecture dexpert. Jean-Marie Gouarn septembre 1997
Mais ceci nempchera pas ncessairement ceux qui les ont vcues de les reconnatre...
Jean-Marie Gouarn
Le Projet Dcisionnel
6. ARCHITECTURE GNRALE............................................................................................................................72
6.1 Systmes intermdiaires........................................................................................................................................73 6.2 Larchitecture de rfrence du SID.......................................................................................................................77 6.3 Architecture et Modles de Donnes....................................................................................................................78
7. ALIMENTATION............................................................................................................................................84
7.1 7.2 7.3 7.4 7.5 7.6 7.7 8.1 8.2 8.3 8.4 9.1 9.2 9.3 9.4 9.5 Transformation des donnes.................................................................................................................................85 Collecte, migration et rplication..........................................................................................................................93 Les deux modes de capture...................................................................................................................................94 Le rafrachissement dynamique et ses limites......................................................................................................95 La plate-forme dintgration.................................................................................................................................97 Alternatives techniques dalimentation..............................................................................................................102 Fonctions et outils de collecte et dintgration...................................................................................................105 Les limites de lapproche oriente outil..............................................................................................................111 Modalits daccs linformation......................................................................................................................113 Modle Relationnel de Diffusion........................................................................................................................120 Les avatars de lhypercube.................................................................................................................................128 Raisons et justifications......................................................................................................................................139 Linformation dcisionnelle dans lorganisation................................................................................................142 Facteurs de succs et risques majeurs.................................................................................................................144 Organisation........................................................................................................................................................147 Choix des outils..................................................................................................................................................158
Jean-Marie Gouarn
Le Projet Dcisionnel
1. Introduction
Lindustrie informatique possde une tendance notoire produire plus de concepts que de ralits et cultiver un dcalage permanent aussi bien entre annonces et produits quentre technologie et march. Bien que les professionnels y soient habitus, cette tendance constitue, pour les dcideurs fonctionnels comme pour les responsables des systmes dinformation, un facteur non ngligeable de confusion, donc de cot et de risque, notamment dans la priode de turbulence que nous traversons actuellement. Face lapparition dune mode, le rejet dfinitif et ladoption prcoce sont deux attitudes extrmes et aussi dangereuses lune que lautre. Si les modes informatiques sont gnralement prmatures, elles peuvent se transformer, terme, en ralits incontournables. Le relationnel, le client-serveur, et plus rcemment lobjet, sont l pour en tmoigner. En fait, lorsquon examine dun point de vue critique les concepts qui sous-tendent une mode informatique, on saperoit assez rapidement que la nouveaut est moins dans ces concepts eux-mmes que dans la manire dont ils sont prsents, agencs et coupls avec la technologie et la culture managriale. Linnovation tend tre dramatise par ses promoteurs qui mettent laccent sur son potentiel rvolutionnaire plutt que sur ses lments de continuit. La continuit est pourtant une condition essentielle pour que linnovation soit la fois possible et acceptable. En matire de management en gnral et de systmes dinformation en particulier, les ruptures radicales ne produisent jamais les rsultats escompts. Cest lorsque la fume des annonces se dissipe et lorsque le tapage mdiatique sapaise que lon peut voir, ventuellement, les projets se mettre en place. Linnovation arrive sur le terrain au moment o elle quitte la scne. Toutes ces remarques sappliquent au data warehouse qui, prcisment, est parvenu un tournant de son histoire, et dont le contenu commence se prciser suffisamment pour contribuer, parmi dautres phnomnes, adapter les systmes dinformation au nouvel environnement dans lequel voluent les organisations. Formalis au dbut des annes 19903, ce concept dentrept de donnes est devenu la cl de vote de ce que nous appelons linformation dcisionnelle, et a produit un effet de mode dautant plus important que presque tous les fournisseurs du march informatique constructeurs et intgrateurs de systmes, diteurs de logiciel lont aussitt enfourch comme un cheval de bataille. Le succs mdiatique du data warehouse na eu dgal que celui qua connu lInternet peu prs au mme moment. Les systmes dinformation ont connu, au cours des quinze dernires annes, une longue suite dinnovations concernant tant les infrastructures (client-serveur, internet/intranet) que les outils (relationnel, langages de
3
Voir notamment W.H. Inmon, Building the Data Warehouse (1992), qui constitue la rfrence la plus connue en la matire.
Jean-Marie Gouarn
Le Projet Dcisionnel
quatrime gnration, objets). Mais lentrept de donnes ne sinscrit en aucun cas dans cette squence, car linnovation nest pas ici de mme nature. En effet, le data warehouse nest pas une nouvelle plate-forme technologique. Ce principe nest pas suffisamment peru aujourdhui. Les utilisateurs, en effet, abordent frquemment les projets relatifs linformation dcisionnelle par une dmarche de dcouverte et dexprimentation doutils. Certains professionnels spcialiss semblent mme considrer que lexpertise, dans ce domaine, consiste principalement dans la connaissance comparative des produits du march. Cette connaissance, essentielle pour la slection dun fournisseur, nest cependant pas la vritable cl de la russite. Limportance exagre quon donne aux produits tient au dtournement de la problmatique de lentrept de donnes par un marketing particulirement agressif en rapport avec la concurrence frntique que se livrent les fournisseurs. Cette problmatique a t accapare principalement par trois catgories dacteurs du march informatique : Pour les constructeurs, la vogue dcisionnelle est arrive point nomm pour faciliter le lancement dune architecture matrielle particulire, dite massivement parallle, qui couvait depuis longtemps dans les laboratoires mais qui navait pas encore rencontr, dans les systmes de gestion traditionnels, des opportunits suffisantes pour un vritable dmarrage commercial ; Les grands diteurs de systmes de gestion de bases de donnes relationnelles (SGBDR) sont, depuis quelques annes, affects par un phnomne de banalisation et de baisse de prix. Leurs produits sont gnralement considrs comme interchangeables, et les utilisateurs sont plus regardants, fonctionnalit quivalente, sur les cots dacquisition. Le data warehouse, dans la mesure o il peut introduire de nouveaux besoins techniques (requtes complexes, gros volumes de donnes, adaptation des configurations matrielles puissantes), redonne vie aux arguments comparatifs sur les performances et permet la commercialisation de versions de haut de gamme ; Les diteurs de logiciels de prsentation de donnes, ns dans le dferlement du client-serveur, mais qui semblaient au dpart confins dans un march de niche, ont saisi loccasion pour souligner limportance stratgique de leurs produits. Ces produits peuvent en effet occuper une grande place dans la partie visible dun systme dinformation dcisionnel, de sorte quil est tentant de leur attribuer la vedette. En dehors mme de ces trois groupes qui sont les plus directement concerns, il nest pas un fournisseur de technologie qui nait annonc dune manire ou dune autre une stratgie en rapport avec le data warehouse, et ceci ne fait quaugmenter la confusion. Les choix techniques dimplmentation sont importants, mais ils ne doivent pas clipser le contenu fonctionnel. Cette remarque, qui semble dune vidence primaire, et qui pourrait sappliquer nimporte quel type de projet, ne semble malheureusement pas simposer demble dans le domaine dcisionnel. De la dfinition du data warehouse, le public a retenu lide dune interface de prsentation associe une base de donnes. Cette ide nest pas fausse ; elle exprime un point de vue dutilisateur tout fait pertinent. Elle devient cependant extrmement rductrice, donc dangereuse, du point de vue du concepteur, dans la mesure o elle porte croire que les performances daccs aux donnes et la richesse de linterface de prsentation sont les facteurs principaux du succs. Ces facteurs jouent un trs grand rle dans la qualit des solutions, mais la vritable cl est dans la pertinence du contenu, cest--dire dans ladquation des donnes aux mcanismes de la dcision. Une adquation qui nest jamais acquise davance et qui, en ralit, reprsente la majeure partie de la complexit, des cots et des risques. Un Systme dInformation Dcisionnel (SID) viable implique, avant tout, un modle de donnes spcifique et volutif ainsi quune infrastructure dalimentation. Comme on la dj crit fort justement, un tel systme se construit et ne sachte pas. Son laboration est une uvre de gnie logiciel et dintgration, et non une simple affaire de cblage et de paramtrage. Un autre malentendu viter concerne lenvergure et la porte de linformation dcisionnelle. A loppos des simplifications techniciennes, qui minimisent la complexit des projets, est apparue simultanment la tentation maximaliste de dfinir lentrept de donnes comme un projet obligatoirement global, engageant en bloc la Direction Gnrale et toutes les forces vives de lentreprise, et rserv aux trs grandes
Jean-Marie Gouarn
Le Projet Dcisionnel
organisations. Une telle approche implique naturellement la mise en uvre de trs importants volumes de donnes, qui se comptent en centaines de gigaoctets voire en traoctets, et donc de dispositifs matriels et logiciels extrmement puissants. Cette faon de voir nest sans doute pas sans rapport avec la promotion commerciale des nouvelles offres des fournisseurs. Elle a peut-tre mme servi, accessoirement, justifier des prestations de conseil de trs haut niveau. Elle sexplique principalement, bien sr, par des antcdents culturels sur lesquels nous reviendrons. Cependant, la dfinition maximaliste nest pas en phase avec la ralit des projets daujourdhui. Un Systme dInformation Dcisionnel est bien, par dfinition, un projet stratgique. Mais la stratgie, ainsi que les mcanismes de la dcision, connaissent depuis quelques annes une volution telle que les informations qui les sous-tendent nont plus lieu dtre entirement et exclusivement consolides au sommet. En outre, il nest plus permis de considrer quune entreprise ne peut avoir de stratgie qu partir dune certaine taille. Cette volution fondamentale qui, de manire plus ou moins rapide et plus ou moins consciente, affecte toutes les organisations, implique et impliquera de plus en plus une distribution beaucoup plus large de linformation dcisionnelle, et nous oblige repenser lentrept de donnes dans des termes plus souples et plus ouverts. En ralit, parmi les projets relatifs linformation dcisionnelle, ceux qui impliquent directement lensemble des processus de lentreprise ne reprsentent quune infime minorit. La presse na pas manqu dattirer lattention sur les traoctets de donnes brasss par certains systmes dinformation, mais il ne sagit que de cas aussi exceptionnels que sensationnels : la grande majorit des projets dcisionnels mettent en uvre des volumes largement infrieurs la centaine de gigaoctets. Ces chiffres, quoique respectables, ne correspondent pas des bases de donnes globales et nimpliquent pas des configurations matrielles extraordinaires. Lide selon laquelle un Systme dInformation Dcisionnel ne peut tre que global et destin exclusivement au management suprme, non seulement correspond un modle dentreprise obsolte, mais peut aussi avoir une influence paralysante. Pour beaucoup dutilisateurs potentiels, cette ide est dissuasive et peut favoriser limmobilisme. Elle risque en outre davoir des consquences perverses sur lvolution des systmes dinformation. Sur le terrain, les utilisateurs ne peuvent pas toujours attendre la mise en uvre dune plate-forme informationnelle globale (qui ne viendra peut-tre jamais). Les besoins de plus en plus incompressibles en informations de type dcisionnel suscitent donc parfois la greffe dexcroissances non planifies sur des applications de gestion existantes, notamment des ditions spcifiques. Ces verrues coteuses, sans jamais vraiment rpondre des besoins toujours changeants, ne peuvent que dtriorer, terme, la qualit du systme dinformation. En fait, un systme dinformation ne se dfinit comme dcisionnel ni par des moyens techniques, ni par des volumes, ni par la position hirarchique de ses utilisateurs. De propos dlibr, nous navons pas cherch, dans cet ouvrage, dfinir linformation dcisionnelle en une seule phrase. Cet exercice de style ne correspond pas notre objectif, qui est de donner au lecteur une ide la fois prcise et pratique du sujet. Lorsquon est, comme lauteur de ces lignes, confront des projets rels, les dfinitions acadmiques, en admettant quelles soient vraies, sont gnralement dun pitre secours. Les Systmes dInformation Dcisionnels possdent cependant quelques caractristiques fondamentales, sur lesquelles les experts semblent aujourdhui unanimes, et quil est utile de souligner : Un vritable Systme dInformation Dcisionnel est, par rapport aux applications de production, la fois spar dans sa conception et dpendant pour son alimentation ; Linformation dcisionnelle est conditionne dune manire intgre et indpendante de ses sources dalimentation. En dautres termes, les caractristiques techniques des applications de production et des supports externes dans lesquels le systme dcisionnel puise ses donnes ninfluent pas sur les modalits selon lesquelles lutilisateur accde linformation ; Linformation dcisionnelle est, dans son contenu et dans sa forme, indpendante des structures et des procdures courantes de la production. Elle porte sur le mtier de lutilisateur, sans tre confine dans le
Jean-Marie Gouarn
Le Projet Dcisionnel
cadre organique dexercice de ce mtier. Cest, comme on la maintes fois rpt, une information oriente sujet 4 ; Parmi les traitements queffectue un Systme dInformation Dcisionnel, beaucoup ne sont pas dtermins par des algorithmes prtablis, ne comportent pas de transactions au sens habituel du terme, et ont pour but de permettre lutilisateur dtablir lui-mme, entre les donnes, des rapprochements et des consolidations non prdfinis. Le modle de donnes de diffusion, qui est llment cl de la dfinition du systme, doit tre conu dans cette perspective selon une approche multidimensionnelle ; Linformation dcisionnelle est chronologique. Elle est voue, non pas au contrle dune situation instantane, mais lanalyse de phnomnes voluant dans le temps. Le traitement du temps est un aspect distinctif essentiel, mais aussi un facteur de complexit ; Les spcifications dun Systme dInformation Dcisionnel sont hautement instables, pour deux sortes de raisons : dune part les objectifs stratgiques atteindre sont des cibles mouvantes, et dautre part le dploiement du systme a lui-mme pour effet de modifier lexpression des besoins. Ceci implique un mode de conduite de projet particulier. Ces quelques lments cls ont des implications multiples qui seront examines au cours des chapitres suivants. La raison dtre dun Systme dInformation Dcisionnel est ltablissement de ponts entre oprations et stratgie, entre automatisation et conduite, entre dtail et synthse, entre situation et volution. On lui demande, en quelque sorte, de faire le grand cart entre des notions indpendantes ou opposes. On peut se demander pourquoi un tel besoin apparat aujourdhui avec une telle ampleur. En ralit, linformation dcisionnelle est une notion ancienne : lide de Systme dAide la Dcision (Decision Support System) est en effet ge dun bon quart de sicle5. Elle est donc largement plus ancienne que toutes les techniques auxquelles on lassocie aujourdhui. Elle a toutefois fondamentalement volu depuis sa naissance. Cette volution a t rendue possible, mais non pas provoque, par linnovation technologique. En particulier, lexpansion actuelle des entrepts de donnes dcoule presque directement des nouvelles caractristiques de l cosystme dans lequel vivent les organisations. Dans un univers marqu par des phnomnes de drglementation et de mondialisation, mme si la porte de ces phnomnes a t jusqu prsent largement exagre, la comptition et le changement imposent un nouveau cadre de prise de dcisions et une nouvelle conception de la stratgie. Cette nouvelle donne affecte en premier lieu les entreprises intervenant dans les secteurs les plus concurrentiels, pour lesquelles ladaptation au changement est une question de survie immdiate. Le modle du commandement central, de lautomatisation et du contrle a posteriori, qui correspondait lenvironnement plus stable des prcdentes dcennies, nest pas assez souple pour ce nouveau contexte. Cest aujourdhui la logique de la dtection avance et de ladaptation rapide qui tend prvaloir, de manire ingale mais relle. Tout ceci implique ncessairement une redistribution de la responsabilit dcisionnelle. Il en rsulte une gigantesque dissmination de linformation dcisionnelle et un foisonnement de projets aussi varis dans leur envergure que dans leur contenu. Les raisons pour lesquelles les applications informatiques de production ne sont pas mme de fournir cette information dcisionnelle, et qui justifient donc le dploiement de systmes spcifiques, mritent quelques dveloppements qui nous permettront au passage didentifier les lments distinctifs dun Systme dInformation Dcisionnel. Le cur dun Systme dInformation Dcisionnel rside dans son modle de donnes. Cest un message majeur que nous souhaitons faire passer dans cet ouvrage, qui donne une place relativement importante la problmatique de construction de ce modle et prsente les grandes lignes de notre approche mthodologique, sans toutefois sgarer dans le foisonnement des dtails techniques dimplmentation.
4 5
Son acte de naissance officiel est le fameux article de G.A. Gorry et M.S. Scott-Morton, A framework for management information systems , Sloane Management Review 1971.
Jean-Marie Gouarn
Le Projet Dcisionnel
Un modle de donnes sans donnes ne serait bien entendu quune coquille vide. A la problmatique de la modlisation succde donc naturellement celle de lalimentation. Or lalimentation dun entrept de donnes dcisionnel nest pas quun problme de connectique et de transfert physique. Cest mme le problme politique, conceptuel et architectural le plus dlicat du systme, et le plus susceptible de dcider de la russite dun projet. Le march met progressivement notre disposition un certain nombre doutils et de composants susceptibles de jouer un rle dans la construction des solutions dcisionnelles. Nous croyons utile de rsumer ici les grandes alternatives technologiques. Mais nous nous abstenons dlibrment, en revanche, de toute prsentation comparative de produits. Une telle tude comporterait ncessairement des choix et des liminations plus ou moins arbitraires, et serait dj partiellement prime avant mme de paratre. Et surtout, elle ne sintgrerait pas parfaitement la perspective dans laquelle se situe cet ouvrage. Enfin, il nous a sembl indispensable de prsenter les principes et les contraintes essentiels qui caractrisent la conduite de projet en matire dcisionnelle, dans un contexte qui donne une coloration insolite aux notions de cahier des charges, de recette et de cycle de vie, tant il est vrai quun Systme dInformation Dcisionnel nest compltement spcifi que quand il cesse dtre utilis.
Jean-Marie Gouarn
Le Projet Dcisionnel
Le potentiel que reprsenteraient, si elles taient unifies et accessibles, des informations parses et incohrentes, est depuis toujours un vaste sujet de rflexion.
Une somme de connaissances en constante accumulation est aujourdhui parpille de par le monde. Elle suffirait probablement rsoudre toutes les grandes difficults de notre temps, si elle ntait disperse et inorganise. 6
Le dveloppement des Systmes dInformation Dcisionnels est, en matire de management, lcho le plus rcent de cette rflexion. Et il est li, avant tout, une insuffisance notoire et, semble-t-il, insurmontable, des systmes dinformation traditionnels de gestion et de production. Le concept de data warehouse, lorsquil est apparu, a connu une popularit aussi large quimmdiate. Curieusement, celui dinformation warehouse7, apparu un peu avant, est demeur beaucoup plus confidentiel. Lide dinformation, dans un sens qui se distingue de celui de donne, est pourtant centrale dans cette matire. Toutes les rflexions qui ont produit la dfinition actuelle de linformation dcisionnelle proviennent du constat simultan dune surabondance de donnes et dun dficit dinformation. Or, une poque o la connaissance a pris la place du capital en tant qulment moteur des organisations , il nest plus temps de confondre donnes et connaissance, informatique et information 8. Le rle fondamental de lentrept... de donnes, est justement, comme son nom ne lindique pas, de fournir des informations. Cet apparent paradoxe terminologique qui ne provient pas uniquement de lineptie des informaticiens mrite quelques explications. Les concepts initiaux de calcul (computing) et de traitement lectronique de donnes (electronic data processing) ont depuis trs longtemps cd le pas celui de systme dinformation. La construction mme du mot franais informatique9 contraction des mots information et automatique est significative cet gard. Cependant, depuis plusieurs annes dj, il est gnralement admis que, si lobjectif dautomatisation a bien t atteint, linformation ntait pas au rendez-vous. Cette relative dfaillance a tout dabord t mise sur le compte de limperfection des systmes dinformation existants, ce qui a motiv, partir des annes 1970, un effort mthodologique fondamental.
6 7 8 9
H.G. Wells, 1940 Cette notion, plus large que le data warehouse, a t prsente par IBM en 1991. P.F. Drucker, Managing in a Time of Great Change (The Post-Capitalist Executive) , Penguin 1995.
Le fait que ce mot ait t cr et adopt dans un milieu culturel latin et non anglo-saxon mriterait lui seul une tude sociologique.
Jean-Marie Gouarn
Le Projet Dcisionnel
Cet effort a sans doute fortement amlior la conduite des projets au cours de la dcennie suivante, mais il na pas produit tous les rsultats attendus, et ce relatif chec a donn lieu ce que certains ont appel une crise de linformation . Un constat dramatique a fini par simposer : en matire de management, un dispositif technique conu pour automatiser est structurellement incapable dinformer. Ce point de vue rcent, aussi peu satisfaisant sur le plan intellectuel que sur le plan financier, aurait sans doute provoqu un toll dindignation au dbut des annes 1980, lors de lexpansion des mthodes unificatrices comme MERISE. Le ralisme et la clairvoyance limposent cependant aujourdhui. Lexistence de systmes dinformation qui ninforment pas provient de limites plus politiques, culturelles et organisationnelles que techniques. Il serait donc tout fait vain de rechercher, sur ce point, des solutions qui ne sexprimeraient quen termes de puissance de calcul, de vitesse de transmission et de capacit de mmorisation, et qui relveraient de la seule comptence des informaticiens. Sil y a crise de linformation, ce nest dailleurs que lune des manifestations dune crise plus gnrale que dnonce la sociologie des organisations, dans des termes parfois outranciers mais qui contiennent sans aucun doute une part de vrit :
Les organisations, conues pour un autre ordre, patinent, drapent sur cette nouvelle ralit inverse de ce pourquoi on les avait imagines : entreprises pyramidales, incapables de vivre en rseaux ; administrations passives et poussives, incapables de transformer des agents en acteurs, collectivits territoriales vivant encore lheure de leurs clochers quand la concurrence des villes et des rgions est devenue mondiale [...] 10
La carence informationnelle, qui, dans la priode prcdente, ntait juge que regrettable, est prsent ressentie comme insupportable, compte tenu des mutations de lenvironnement conomique. Les acteurs concerns, renonant attendre lhypothtique systme dinformation intgr du futur, jouent dsormais la carte du systme spcialis, ddi la prise de dcision, susceptible espre-t-on dtre dploy ds prsent. Pour ne pas retomber dans des impasses fatales et comprendre ce que les utilisateurs expressment ou non attendent du data warehouse, il est indispensable de prendre du recul et de rexaminer certains aspects fondamentaux des systmes dinformation, en relation avec lvolution de lenvironnement stratgique.
Jean-Marie Gouarn
10
Le Projet Dcisionnel
de produire linformation de pilotage tant attendue de nos jours, cela ne provient ni derreurs de conception ni de dysfonctionnements techniques. Cest tout simplement parce quils nont pas t labors pour cela. Lautomatisation du traitement des donnes a toujours t, dans la pratique, conue et ralise application par application, sans cohrence globale, comme si chacune des fonctions de lentreprise constituait un systme isol du reste du monde. Une application informatique est un ensemble de fonctions que les utilisateurs peroivent comme lies entre elles et qui ont probablement t dveloppes dune manire intgre 11. Dans la structure classique de lentreprise, lutilisateur nest pas concern par les fonctions non directement lies ses affaires courantes, et linformaticien qui est cens tre son service na aucune raison de voir plus haut et plus loin. Bien sr, il arrive tt ou tard que plusieurs applications soient amenes manipuler les mmes donnes physiques. Mais plutt que de partager une base de donnes commune (dont la conception aurait ncessit une vue densemble a priori), les applications communiquent entre elles, dans limmense majorit des cas, par des interfaces. Ces interfaces, dveloppes au coup par coup, sont bases sur des transferts priodiques de donnes, excuts gnralement dans les intervalles dinactivit. Elles prsentent des inconvnients multiples : Les canaux logiques et physiques de communication sont conus point point , sans planification densemble, ce qui produit, lchelle de lentreprise, un rseau compliqu dinterdpendances et un foisonnement de formats de fichiers temporaires ; Chaque interface ncessite un dveloppement logiciel spcifique et une technique de transmission particulire ; Les copies physiques entre applications gnrent une forte redondance de donnes ; La cohrence entre deux applications lies aux mmes donnes nest rtablie que priodiquement, aux moments o sont excuts les transferts. Cela signifie que, en priode dactivit, un instant quelconque, le systme dinformation est globalement incohrent. Ce phnomne pouvait sexpliquer initialement par des motifs technico-conomiques. Le cot exorbitant des quipements, leurs faibles capacits de traitement et de mmorisation de donnes, leur lourdeur (au propre comme au figur), nen autorisaient lusage que pour quelques sous-ensembles particuliers des organisations. Par la suite, cette limitation a peu peu disparu. Les vagues technologiques qui se sont succdes une cadence acclre dans les annes 1970 et 1980 ont permis de gnraliser les quipements informatiques la plupart des fonctions de lentreprise. Pourtant, les entreprises et les administrations ont continu automatiser le traitement de linformation en-dehors de toute perspective densemble. Les mises en garde nont cependant pas manqu. En effet, lide de Systme dInformation de Gestion (Management Information System), avec la vision intgre quelle comporte, est trs ancienne. La dnonciation du dfaut de cohrence et de planification des projets, et llaboration dapproches mthodologiques intgres, ont commenc ds les environs de 1970. La notion de pilotage a mme t associe ds cette poque celle de systme dinformation. Un projet dcisionnel tant un projet intgrateur par essence, il est indispensable, pour viter de dangereux mcomptes, de comprendre dans quelles circonstances lintgration a jusqu' prsent chou dans les systmes de production. Ces circonstances qui, bien entendu, ne sont pas essentiellement techniques, sont loin davoir disparu.
Jean-Marie Gouarn
11
Le Projet Dcisionnel
permanente entre trois sous-ensembles spcialiss qui changent entre eux des flux informationnels et dcisionnels. Ces sous-ensembles sont : le Systme Oprant (SO) ; le Systme dInformation (SI) ; le Systme de Pilotage (SP).
Systme de Pilotage
Objectifs
Environnement
Systme d'Information
Ecarts
Dcisions
Systme Oprant
Ce cadre de reprsentation, toujours valable, a eu une grande influence sur la culture informatique sans pour autant produire tout ce quon attendait de lui, et ceci mrite rflexion. Le Systme Oprant reprsente lorganisation en tant que processeur physique changeant des flux de matire et dnergie13 avec le monde extrieur. Il est rgul par le Systme de Pilotage par lintermdiaire du systme dinformation. Avant daller plus loin, il est intressant de noter dans quelles limites sinscrit la dfinition du pilotage, telle quelle est perue dans les annes 1980 :
[...] un systme de gestion ou systme de pilotage procde au pilotage ( la rgulation et au contrle) du systme oprant en dcidant du comportement de celui-ci en fonction des objectifs fixs.14 Le pilotage dun systme de gestion ou dune activit peut tre dfini comme lensemble des processus qui permettent de matriser et de guider les tches oprationnelles dans ce systme, en vue de raliser les objectifs assigns.15
Le pilotage semble alors identifi comme une fonction de contrle oprationnel en relation avec des objectifs prdtermins. Certes, la fixation des objectifs est aussi une tche du SP ; mais les bases sur lesquelles elle est faite sont extrieures au modle. Dun tel Systme de Pilotage, on pourrait dire, sil tait charg de diriger un vhicule, quil sintresse bien au rgime du moteur, la pression dhuile et lusure des plaquettes de freins, mais que le choix de la destination nest pas forcment de sa comptence. On est plus proche du pilotage automatique que de la conduite. Dans ce schma, le systme dinformation est linterface par laquelle le Systme de Pilotage rgule et contrle le Systme Oprant. Il actionne le SO, au moyen de signaux de commande rpercutant les dcisions en provenance du SP. Il change aussi des informations avec lextrieur de lorganisation, mais cet change na rien voir avec une observation stratgique de lenvironnement : il nest que la contrepartie des changes matriels extrieurs du SO (par exemple des commandes et des factures en relation avec des
12
Parmi les rfrences franaises initiales sur ce sujet figurent J.-L. Lemoigne, La thorie du systme gnral , Presses Universitaires de France 1977, et J. Mlse, LAnalyse Modulaire des Systmes , Hommes et Techniques 1972. Les principes ont t repris et actualiss depuis, notamment par J.-L. Lemoigne, La modlisation des systmes complexes , Dunod 1990.
13 14 15
Parmi les flux physiques on inclut bien entendu les flux financiers et les services, bien quils soient souvent immatriels. J.-P. Matheron, Comprendre MERISE , Eyrolles 1987. Groupe CIC, Guide dutilisation dAXIAL, T.1 , Editions dOrganisation 1989.
Jean-Marie Gouarn
12
Le Projet Dcisionnel
livraisons et des paiements). Dautre part, il capte les informations de fonctionnement retournes par le SO pour les mettre la disposition du SP ; certaines de ces informations, dites variables essentielles de lorganisation, sont les indicateurs cls qui permettent de connatre lcart entre lactivit oprationnelle et lobjectif. Les variables essentielles, susceptibles de fournir la substance des tableaux de bord dont le rle est de rendre le Systme Oprant pilotable, ont sans aucun doute un caractre dinformations dcisionnelles. Mais leur association troite avec les structures organiques de lentreprise limite beaucoup leur porte. Ces compteurs ne refltent que lefficacit de sous-ensembles fonctionnels par rapport des valeurs de rfrence (volumes dentres-sorties, ratios de productivit, etc.). Or lefficacit globale dun Systme Oprant, et surtout son adaptation lenvironnement, qui sont les cls de sa survie et de son dveloppement, ne se rduisent pas aux performances respectives de chacun de ses organes composants. Il est bien vident, par exemple, que le calcul des quantits produites et du prix de revient par unit dans une chane dassemblage de botes de vitesse ne peut gure contribuer clairer le management stratgique dun constructeur automobile sur lvolution de sa part de march, sur les caractristiques de sa clientle, sur les risques de cannibalisation dune gamme par une autre. Lapproche systmique, si elle avait t pratique de manire totalement consquente, aurait certainement contribu rsorber en grande partie le dficit informationnel, dans la mesure o elle implique lide du systme dinformation conu comme un tout, lchelle de lorganisation conue elle-mme comme un systme. Elle a dailleurs sans doute donn, ponctuellement, des rsultats tangibles en sensibilisant les utilisateurs et les informaticiens lutilit dune vision cohrente de linformation travers les diffrentes activits. Mais la cohrence informationnelle globale est demeure un idal hors datteinte. Deux sortes de phnomnes ont contribu empcher le SI, dans son acception classique, de jouer un rle dcisionnel significatif : Quil ait t ou non envisag au dpart selon une approche systmique globale, et quelle quait pu tre la qualit de son (ventuel) schma directeur, le SI na jamais pu, dans sa conception, reflter autre chose que la structure organique du SO. La dfinition descendante (top-down) du SI a toujours t calque sur la dcomposition du SO en domaines, activits, fonctions, sans tenir compte des processus fondamentaux. Ceci dcoule invitablement de la structure traditionnelle pyramidale, stratifie et compartimente de lentreprise. Dispers auprs des organes, le SI ne voit pas les missions, et encore moins lenvironnement ; Lobjectif unificateur na jamais t atteint. Si la conception de chaque application informatique comme un lment inscrit dans un modle dentreprise intgr, comme un composant dans un systme, a souvent ralli les esprits, elle a rarement dpass le stade des intentions. Elle a mme parfois t rejete comme une vision de thoriciens au nom de considrations qui se voulaient pragmatiques . Le respect intgral de la dmarche aurait dabord impliqu la dfinition fondamentale dun modle dentreprise, projet ambitieux qui, jusqu' prsent, a sembl difficile justifier conomiquement et conduire politiquement. En outre, la vision est reste presque toujours focalise, pour lutilisateur, sur la fonction applicative, et, pour linformaticien, sur la technique. La cohrence informationnelle lchelle de lentreprise, dans limmense majorit des cas, na pas t intgre dans les projets en tant que vritable objectif contractuel. Au hasard des modes technologiques, des influences personnelles, des dcoupages organisationnels, les entreprises ont donc construit, en guise de systmes dinformation, des archipels informationnels disjoints et incohrents. Face un tel existant, on peut se poser la question : et demain ? . Il est dautant plus difficile dy rpondre que les SI sont aujourdhui lobjet de pressions discordantes. Dun ct, la culture de la cohrence (notamment avec MERISE en France) a gagn beaucoup de terrain ; on pourrait donc croire que les projets venir intgreront mieux lide du modle informationnel dentreprise. Mais dun autre ct, la succession rapide des techno-modes signe extrieur certain dimmaturit de lindustrie informatique, de ses professionnels et de ses utilisateurs contribue focaliser lattention et lnergie sur la technique tout en accroissant lhtrognit. Sil est vrai que la technologie relationnelle est de nature rendre les donnes plus accessibles et plus faciles administrer, le modle client-serveur tel quil est pratiqu aujourdhui contribue au contraire rendre le systme dinformation de plus en plus incohrent et incontrlable, et parpiller les gisements de donnes. Les standards fdrateurs ns dans la mouvance de lInternet et du World Wide Web amlioreront-ils la tendance ? Il est beaucoup trop tt pour y croire, une innovation
Jean-Marie Gouarn
13
Le Projet Dcisionnel
technologique pouvant parfaitement produire des effets exactement opposs ceux quon en attendait 16. Dailleurs, la dispersion informationnelle est un problme de culture et dorganisation plus que de technique.
Daucuns affirmaient encore aux environs de 1990, par exemple, que le client-serveur tait de nature favoriser une rduction des cots informatiques. Depuis...
Jean-Marie Gouarn
14
Le Projet Dcisionnel
Les organisations se sont jusqu' prsent plus ou moins rsignes cet tat de fait parce quil tait parfaitement compatible avec les normes socio-culturelles classiques de la dcision, elles-mmes adaptes un monde sensiblement diffrent de celui de la dcennie actuelle. Notre propos nest pas de dcider si le monde, dans les annes 1990, change plus vite que dans la priode prcdente. Les organisations humaines ont eu faire face au changement depuis toujours. Avec des succs mitigs, dailleurs : on remarque par exemple que, sur les douze plus grandes entreprises industrielles rpertories aux tats-Unis en 1900, une seule a survcu17. Manifestement, les turbulences ont commenc trs longtemps avant quon parle de data warehouse. Cependant, quelles que soient les raisons du phnomne, il est gnralement admis que la nature actuelle du changement donne un rle accru linformation dans la prise de dcision. Cest sur le terrain de linformation, et non plus sur celui de lautomatisation, que se joue dsormais la comptition. Pendant trs longtemps, la grande entreprise a vcu sur la base dun modle de dveloppement impliquant linvestissement de marchs de masse par labaissement des cots de production. Ce modle se caractrise notamment par les principes fordiens et tayloriens de la gestion et de lorganisation du travail. Dans le mme temps, les administrations publiques, nes en Europe dans la mouvance de lEtat-Nation centralisateur et militaire, ont insensiblement volu vers une culture de la rgularit budgtaire, du formalisme procdural et des situations statutaires. Les objectifs dominants taient (et demeurent souvent) la conservation et le renforcement des positions acquises. Les moyens taient loptimisation des fonctions existantes, par lorganisation et par la technique. Dans ce contexte, la logique de la dcision, et donc de linformation dcisionnelle, ne pouvait tre que celle de lautorit, de la rgulation et du contrle. Les organisations concurrentes tant toutes pilotes, quelques variantes idologiques prs, selon des principes semblables, ladaptation rapide au changement ntait pas impose par la comptition extrieure. Evoluer signifiait mieux faire la mme chose et non pas faire autre chose. Les dcisions dont la porte se limite loptimisation de fonctions existantes ne ncessitent, comme informations, que des indicateurs defficacit relatifs ces fonctions. Les SI cloisonns que nous venons de dcrire sont parfaitement mme de les fournir. Toutefois, si linformation est bien approprie chaque fois que la dcision porte sur une fonction particulire, il nen est pas de mme lorsque le champ de cette dcision implique une combinaison de fonctions, ou une prise en compte de facteurs externes. En dautres termes, ds que le dcideur a besoin de prendre de la hauteur et du recul, linformation pertinente devient rare et incertaine. Mais ce nest pas peru comme une difficult majeure dans un monde de la continuit o lon distingue les besoins informationnels selon les niveaux de dcision : Les dcisions oprationnelles, qui sont parfois qualifies de programmes , ou encore structures 18, sont essentiellement informes , en ce sens quelles reposent sur lanalyse dinformations exhaustives et dtailles sur les fonctions du Systme Oprant et sont labores dans un espace dalternatives limit ; Les dcisions stratgiques, rserves aux dirigeants, sont rputes fondes autant, sinon davantage, sur les connaissances, lexprience et lintuition des intresss que sur des informations au sens prcis du terme. Le manque dinformations trans-fonctionnelles et environnementales, quoique gnant, nest pas considr initialement comme dangereux dans la mesure o il naffecte que des dcisions dont on considre dune part quelles sont exceptionnelles et dautre part quelles nont pas besoin dtre informes au sens prcis et rigoureux du terme. Dans cet univers stable , les dcisions de porte stratgique sont rputes rares et non urgentes, parce quelles sont lies lide de changement et que le changement lui-mme est rput exceptionnel et lent. Dailleurs, il est communment admis que le manager avis est celui qui sefforce avant tout de dcider le moins possible :
17
Information cite par M. Crozier, H. Srieyx et J.-M. Salvet, Du management panique lentreprise du XXIme sicle , Maxima 1993.
18
H.A. Simon, The New Science of Management Decision , Harper & Row 1960.
Jean-Marie Gouarn
15
Le Projet Dcisionnel
Lart subtil de la dcision, pour le dirigeant, consiste ne pas prendre de dcisions qui ne soient pas pertinentes sur le moment, ne pas prendre de dcisions prmatures, ne pas prendre de dcisions qui pourraient tre prises par dautres. 19
La tendance viter autant que possible les dcisions non programmes est dailleurs un phnomne humain qui affecte les hauts responsables tout autant que le commun des mortels, tant il est vrai que la peur de prendre une mauvaise dcision est souvent plus dissuasive que les consquences possibles de labsence de dcision 20. La dcision est donc, le plus souvent, ractive et dfensive ; elle est prise sous la pression de contraintes directes et immdiates, et de manire provoquer le moins deffets possibles. Dans cette culture de la non-dcision, le gaspillage informationnel ne semblait pas entraner de sanctions immdiates. De ce fait, malgr lagacement des managers, les limites inhrentes un systme dinformation clat et introspectif ont t longtemps tolres. Les nouvelles normes dcisionnelles qui tendent irrsistiblement simposer ne peuvent pas saccommoder de ces limites.
C.I. Barnard, The Functions of the Executive , Harvard University Press 1938. H.H. Albers, Organized Executive Action , John Wiley & Sons 1961. Information Strategy, 1996.
En Nouvelle-Zlande, des pans importants de ladministration dEtat sont tenus de respecter des objectifs contractuels ngocis avec le pouvoir politique et sont systmatiquement mis en concurrence avec des solutions prives. Leur comptabilit est contrle par des auditeurs externes. Il est a peu prs certain que cet exemple qui est celui dune russite ne restera pas isol.
Jean-Marie Gouarn
16
Le Projet Dcisionnel
repose, se dveloppe prsent sous le signe de lurgence. Ses effets peuvent tre rapides et irrversibles. Labsence de dcision, face une menace ou une opportunit imprvue, est plus que jamais la pire des dcisions. Il est de plus en plus ncessaire de dcider souvent, vite et bien. Le temps manque pour procder par essais et erreurs, et les ides subjectives des dirigeants, lies leur formation ou des situations passes, ne constituent plus une base solide. Ladaptation implique aussi une dconcentration des responsabilits dcisionnelles : la distinction entre ceux qui dfinissent la stratgie, ceux qui la transmettent et ceux qui lexcutent nest plus aussi nette quelle la t. Les managers du terrain ne peuvent plus sen remettre systmatiquement au pouvoir central pour toutes les dcisions non programmes . En matire dinformation, ce phnomne comporte trois sortes de consquences : Le pilotage ncessite prsent une signalisation rapide et prcise base sur des faits ; Les variables essentielles sont celles qui concernent les forces et les faiblesses de lorganisation, les menaces qui psent sur elle et les opportunits qui sont sa porte, et non celles qui mesurent les performances oprationnelles ; Linformation stratgique concerne un nombre croissant dutilisateurs nappartenant pas ncessairement au management central. Le climat est donc, plus que par le pass, favorable aux efforts dintgration et de diffusion informationnelles. Mais les conditions ne sont plus les mmes quil y a dix ou quinze ans. On a pratiquement bascul dun extrme lautre : hier envisages par des dirigeants distants comme un objectif luxueux et perfectionniste, la disponibilit et la cohrence de linformation sont soudain devenues des urgences immdiates. La moins mauvaise faon de faire face lvolution semble tre, aujourdhui, le dveloppement dun Systme dInformation Dcisionnel (SID) distinct du Systme dInformation Oprationnel (SIO) de lorganisation. Au premier abord, on pourrait penser que la meilleure rponse aurait consist poursuivre plus nergiquement leffort mthodologique entrepris il y a plus de 25 ans, pour unifier et normaliser les systmes dinformation. Mais lhritage du pass est tel que cette unification est encore largement hors de porte. Malgr les embches dont elle est seme, la route du data warehouse est plus courte que celle du systme dinformation intgr, et donc mieux mme de rpondre la demande actuelle. Il faut donc soigneusement distinguer deux objectifs parallles : Lintgration du systme dinformation, qui est un objectif long terme englobant tous les traitements et donnes oprationnels de lorganisation ; La construction du Systme dInformation Dcisionnel qui, avec lentrept de donnes, est un objectif beaucoup plus rapproch dintgration des donnes sous une forme approprie un usage dcisionnel23. Dans lhypothse mme o le premier objectif serait atteint, le SID ne serait pas ncessairement un accessoire jetable. En effet, mme intgre et normalise grande chelle, une base de donnes oprationnelle nen demeure pas moins oriente vers lautomatisation et le contrle, et se prte mal une exploitation dcisionnelle directe. Il existe une profonde diffrence de structure entre linformation dcisionnelle et linformation oprationnelle24, et cette diffrence a un impact conceptuel et technique considrable. Puisquil faut tablir une ligne de dmarcation terminologique, on aurait pu la faire passer entre information et automatisation. Mais ce choix quivaudrait, implicitement mais ncessairement, dnier le caractre de systmes dinformation limmense majorit des ensembles organiss de moyens humains, financiers et techniques que l'usage a dsigns comme tels. Il est donc prfrable ne serait-ce que par opportunisme dtablir la distinction entre information dcisionnelle et information oprationnelle.
23 24
S. Kelly, Data Warehousing - The Route to Mass Customization , John Wiley & Sons 1996.
Dans le vocabulaire militaire, dont il est issu, le mot oprationnel dsigne tout ce qui se rapporte aux oprations actives et soppose donc aux affaires ordinaires. Il sapplique ainsi notamment linformation et la dcision stratgiques et tactiques. Au sens du management des organisations civiles, que nous employons ici, loprationnel dsigne tout ce qui se rapporte au fonctionnement courant par opposition au dcisionnel.
Jean-Marie Gouarn
17
Le Projet Dcisionnel
Par information dcisionnelle, on entend donc ici toute linformation destine principalement ou exclusivement matriser le devenir de lorganisation, donc sa propre volution et lvolution de son environnement.
Jean-Marie Gouarn
18
Le Projet Dcisionnel
Un Systme dInformation Dcisionnel est, par essence et par dfinition, un outil destin recueillir, organiser, mettre en forme et diffuser des donnes de manire en faire des informations. Sa conception repose donc avant tout sur des Modles de Donnes. La modlisation des donnes est un lment fondamental dans la dmarche de spcification dun systme dinformation quel quil soit. Bien quappliqu de manire ingale, ce principe est a peu prs gnralement admis. Il simpose de manire particulirement imprative en matire dcisionnelle. Do lutilit, pour ceux qui envisagent un embarquement prochain pour laventure du data warehouse, dune parfaite matrise de la modlisation des donnes, mais aussi dune apprciation critique des normes traditionnellement utilises dans cette discipline.
Cette dfinition, qui est celle du savant et de lingnieur, ne semble pas franchement identique celle du langage courant. Car enfin, peut-on qualifier de reprsentation une personne en chair et en os qui pose dans un atelier dartiste en tant que modle pour tre elle-mme reprsente sur une toile ? Mais ce dbat nous carterait de notre sujet. Tout en renonant prudemment la considrer comme universellement valable, nous adoptons ici, pour des raisons pratiques, lide de reprsentation, en la considrant simplement comme utile pour notre propos et conforme au jargon professionnel des systmes dinformation. Le rle pratique dun modle consiste permettre ou faciliter la pense et la communication relativement un objet.
25
R.E. Shannon, Systems Simulation, the art and science , Prentice Hall 1975.
Jean-Marie Gouarn
19
Le Projet Dcisionnel
Le modle permet dapprhender un objet qui, pour toutes sortes de raisons, nest pas directement la porte de nos facults sensorielles et mentales ; Le modle permet plusieurs utilisateurs de construire une pense cohrente relativement un mme objet, grce une reprsentation commune. La conception et la ralisation dun systme dinformation objet par nature complexe et impalpable ncessitent de toute vidence le recours des modles. Un modle ainsi dfini sous toutes rserves peut reprsenter quelque chose de rel ou dimaginaire ; il peut donc notamment reprsenter : un systme dinformation qui nexiste pas (imaginaire) mais qui est raliser ; un systme dinformation existant (rel). Tandis que le savant utilise gnralement les modles pour comprendre et dcrire des phnomnes existants ou supposs tels, lingnieur sen sert plutt dans le but de modifier lexistant, notamment en crant des systmes artificiels26. Cest ce second usage qui nous intresse en matire de systmes dinformation. Il existe cependant une infinit de modles possibles pour un mme objet. Quelles que soient la rigueur, la clart et la compltude dun modle, sa valeur ne sapprcie que relativement un point de vue. Considrons par exemple quatre plans (cest--dire quatre modles) de Paris : le plan des rues, le plan du mtro, le plan des catacombes et le plan des pistes cyclables. Lequel est le vrai plan de Paris ? Lineptie de la question montre bien quel point la valeur dun modle est relative. Comme chacun sait, la carte nest pas le territoire , et la validit dune cartographie dpend du point de vue quon a sur le territoire. Un modle est une reprsentation conventionnelle et partielle. Lide de reprsentation fidle et intgrale de lobjet par le modle, mme si elle avait un sens, naurait aucun intrt pratique. Un modle ne saurait tre cr quen vue dune utilisation spcifique, et son adquation ou sa validit nest apprciable que selon cette utilisation 27. La pertinence dun modle dpend donc des objectifs de celui qui le conoit et de celui qui sen sert. Elle dpend autant du projet que de lobjet. La principale difficult dlaboration et la source essentielle dinadquation des modles aux objectifs tiennent au manque de rgles de modlisation28 a priori, et au rle dominant de lempirisme et de lintuition. Chaque mthode de conception de systmes dinformation tend proposer un corps de principes de modlisation. Mais ces principes ont une efficacit variable selon ltape laquelle on se situe. Un projet dingnierie implique presque toujours llaboration de plusieurs modles dans la mme dmarche. Les mthodes mettent notre disposition des algorithmes permettant de vrifier dune part la conformit de chaque modle aux rgles de la dmarche et dautre part la cohrence entre les diffrents modles du projet. Il est donc relativement ais de sassurer a posteriori de la validit intrinsque dun modle ou dun ensemble de modles. Mais les lments subjectifs reprennent le dessus ds lors quil sagit de faire la liaison entre le modle et le rel. Il nexiste pas dalgorithme qui, partir de lobjet et du projet, dtermine le modle. La traduction de lexistant en modle, ainsi que la dfinition dune solution technique de mise en uvre partir dun modle, font trs largement appel lintuition. Les bons ouvrages mthodologiques contiennent bien sr des chapitres de recettes tendant dduire des rgles systmatiques partir dune compilation dexpriences. Linconvnient de ces fiches-cuisine, cest quelles sont labores partir dune vue a posteriori sur les projets, vue qui procde toujours dune reconstitution logique des vnements et qui ne rend pas compte de leur succession relle. La faon de modliser ne peut pas tre prdtermine, surtout dans le contexte dun projet rel, qui comporte toujours des faux dparts, des rvisions dchirantes, des retours en arrire et des avances imprvues. La diversit des points de vue, la subjectivit des acteurs, sont donc des lments ne jamais perdre de vue quand on sengage dans la construction dun systme dinformation.
26 27 28
J.W. Forrester, Industrial Dynamics , Massachussetts Institute of Technology Press 1961. R.E. Shannon, op. cit.
Les anglo-saxons nont pas eu besoin de distinguer modlisation de modelage : ils en sont rests au mot le plus simple (modeling). En France, o prvaut le culte du mot le plus long, le modelage ntait pas compatible avec le standing intellectuel des professionnels concerns.
Jean-Marie Gouarn
20
Le Projet Dcisionnel
Deux rgles de conduite en dcoulent : Ne jamais considrer un modle de systme dinformation comme le bon modle ; Ne jamais considrer les cadres de modlisation qui, jusqu prsent, ont t utiliss pour concevoir les applications informatiques de production comme obligatoirement valables pour le Systme dInformation Dcisionnel.
Jean-Marie Gouarn
21
Le Projet Dcisionnel
29
La prsentation de cette approche a fait lobjet de trs nombreuses publications. On peut citer parmi les principales rfrences actuelles G. Booch et J. Rumbaugh, Unified Method for Object-Oriented Development , Rational Software Company 1995.
30 31
A. Flory, Bases de Donnes, conception et ralisation , Economica 1987. A. Flory, op. cit.
Jean-Marie Gouarn
22
Le Projet Dcisionnel
Analyse Spcification
Vues informationnelles V1 V2 V3
Intgration Normalisation
Optimisation Dnormalisation
Mise en uvre
Une reprsentation technique de donnes nest pertinente que si elle est structure de manire permettre den tirer linformation utile de la manire la plus directe et la plus efficace possible. La pertinence dun MLD et dun MPD tient donc la faon dont ils mettent le jeu des possibilits et des contraintes de la technique en accord avec le MCD. Mettre en uvre un systme de gestion de bases de donnes en labsence de MCD (ou dun modle quivalent sous une forme ou une autre) quivaut dvelopper une application informatique sans cahier des charges ni spcification fonctionnelle. Cette rgle est valable quel que soit le domaine dutilisation, et nest donc pas rserve linformatique de gestion. Les modles logique et physique ne se dduisent pas dune manire totalement prdtermine du MCD : il reste toujours une place pour le jugement du concepteur de systme 32. Pour un MCD, il y a donc plusieurs MLD potentiels. Mais le MLD quel quil soit nest valable que sil prsente une conformit au MCD vrifie par des procds formels. Le MCD est donc le modle de donnes le plus fondamental, celui qui dtermine tous les autres.
32
Les outils de gnie logiciel proposent souvent une gnration automatique de modles logiques et physiques partir des modles conceptuels, mais les modles ainsi produits doivent presque toujours faire lobjet dajustements ultrieurs.
33
On dit plus gnralement entit-relation, mais nous prfrons viter le mot relation dont le sens diffre selon quil sagit de modle conceptuel ou de modle relationnel.
34 35 36
P. Chen, The Entity-Relationship Model toward a unified view of data , ACM Transactions on Database Systems 1976. H. Tardieu, A. Rochfeld et R. Coletti, La Mthode Merise, T.1 : Principes et outils , Editions dOrganisation 1983.
Une association peut aussi lier une entit elle-mme. Si par exemple un employ peut tre mari avec un autre employ, il existe une association rflexive Mariage sur lentit Employ .
Jean-Marie Gouarn
23
Le Projet Dcisionnel
Entit E1
Proprit P11 Proprit P12 Proprit P13
Entit E2 Association
Proprit P21 Proprit P22 Proprit P23
Une entit peut par exemple reprsenter un employ, un client, un produit, un contrat, un vhicule, un tablissement, ou tout autre objet ayant un sens et une utilit dans le systme. Lentit, qui est la reprsentation abstraite et gnrique dune collection dobjets de mme structure, doit tre soigneusement distingue de chacun des exemplaires identifis de cette collection. Ainsi, les employs Martin, Lebrac et Duranteau sont trois occurrences de lentit Employ . Une entit possde des proprits qui sont des informations lmentaires susceptibles de dcrire chaque exemplaire ou occurrence de lentit. Lentit Employ peut par exemple avoir comme proprits un salaire , un matricule , une couleur de cheveux . Lentit Vhicule peut avoir un numro dimmatriculation , une puissance fiscale , un nombre de places et un type de carburant . Employ et Vhicule sont dans ce cas deux entits du systme. Si les employs utilisent des vhicules, on pourra dire, selon les normes de construction convenues pour le modle, ou bien que le Vhicule est un attribut de lentit Employ , ou bien quil existe une association entre les deux entits. En fait, cest la seconde forme (illustre par la Figure 3-3) qui est la forme normale dans les MCD lis des Systmes dInformation Oprationnels.
Employ
Matricule Salaire Fonction
Vhicule Affectation
Date Immatriculation Puissance Marque
Dans cette exemple, on peut sintresser la date laquelle chaque vhicule est affect un employ. La proprit date ne peut alors pas tre considre comme une caractristique appartenant lemploy ou au vhicule ; elle ne se comprend que par lassociation entre les deux. On dit alors quil sagit dune proprit de lassociation. Les proprits sont les informations lmentaires du SI, cest--dire en quelque sorte les atomes du MCD.
Jean-Marie Gouarn
24
Le Projet Dcisionnel
La premire erreur fondamentale qui puisse tre commise, ce sujet, consiste rduire la conception dune application dcisionnelle une stratgie doptimisation logique et physique, cest--dire principalement des choix de dnormalisation. Cette erreur est cependant commune lheure actuelle. La culture des analystes et des concepteurs de bases de donnes tant domine par lexprience des applications de gestion, la normalisation des donnes est gnralement conue, de manire plus ou moins consciente, dans la perspective dune utilisation oprationnelle. Les principes de normalisation en usage depuis une vingtaine dannes dans le domaine de linformation oprationnelle sont donc parfois rputs tort seuls valables quelles que soient les applications. Or un modle nest quune reprsentation conventionnelle adapte un besoin spcifique. La notion de forme normale ne saurait se dfinir en loccurrence que par rapport un objectif, et non dans labsolu. La normalit dun modle ne dcoule pas des donnes elles-mmes mais de lusage quon en fait. La constitution dun entrept dinformations dcisionnelles est donc un problme conceptuel avant dtre un problme technique. Le problme technique est celui de la mise disposition des donnes. Le problme conceptuel est celui de la dfinition des entits et des associations qui structurent ces donnes. Pour le rsoudre, les concepts de modlisation sont fondamentalement les mmes dans le SID que dans le SIO. Ce sont les normes dassemblage qui diffrent. Pour comprendre et apprcier la particularit des normes adaptes aux bases de donnes dcisionnelles, il faut dabord examiner les raisons dtre, qui sont en mme temps les limites, des normes communment pratiques dans lunivers oprationnel.
Jean-Marie Gouarn
25
Le Projet Dcisionnel
indique le dpartement de domiciliation du propritaire, ou le numro de scurit sociale qui indique notamment le sexe, lanne et le lieu de naissance). Cela dit, les formes normales en usage dans les SIO sont beaucoup plus directives. Cest plus particulirement lune dentre elles, dite troisime forme normale (3FN), qui est consacre comme le critre de validit formelle dun MCD. Lorsquon parle de dnormalisation, cest presque toujours pour dsigner une drogation volontaire par rapport la 3FN. La 3FN fait partie dun groupe dune demi-douzaine de formes normales 37, dont il est inutile de rappeler ici la dfinition, qui sont toutes fondes sur la notion de dpendance fonctionnelle (DF). La dpendance fonctionnelle peut elle-mme se dfinir ainsi :
Nous dirons quil existe une dpendance fonctionnelle entre G1 et G2 (ou que G1 dtermine G2, ou que G2 est fonctionnellement dpendant de G1) si, toute valeur de G1 on ne peut associer [...] quune seule et mme valeur de G2 un instant donn. 38
En dautres termes, une dpendance fonctionnelle est un lien smantique entre deux informations ou groupes dinformations, tel que la connaissance de lune dtermine de faon non quivoque la connaissance de lautre. Ainsi, par exemple, on connat le nombre de jours dun mois condition de connatre le numro du mois et, pour le cas de fvrier, le numro de lanne. On peut donc dire que le nombre de jours du mois est en DF du couple [numro danne, numro de mois]. De mme, on pourrait dire que le montant de la taxe annuelle sur les automobiles est en DF du triplet [puissance fiscale, dpartement dimmatriculation, ge du vhicule]. Une dpendance fonctionnelle entre deux proprits ou groupes de proprits G1 et G2 est directe si la valeur de G1 dtermine immdiatement celle de G2. Si G1 dtermine G2 qui son tour dtermine G3, on dit alors quil y a dpendance fonctionnelle indirecte (ou transitive) entre G1 et G3. Par exemple, en connaissant le modle dun vhicule, on peut connatre sa puissance fiscale, qui a son tour dtermine le montant de la taxe ; il y a donc une DF indirecte entre le modle et le montant de la taxe. Une entit est dite en 3FN si les conditions suivantes sont runies : Elle est normalise (i.e. elle possde une structure fixe) ; Toutes les proprits sont en DF directe de lidentifiant ; Il nexiste dans lentit aucune autre DF que celles qui manent de lidentifiant. Une entit Employ caractrise par un identifiant Matricule et des proprits Nom , Prnom , Fonction et Nom du service est sans doute en 3FN. Si on lui ajoute une proprit supplmentaire Nom du chef de service , elle nest plus en 3FN car il existe une DF entre Nom du service et Nom du chef de service . Pour respecter la 3FN tout en insrant cette nouvelle donne, il faudrait alors crer une nouvelle entit Service , en association avec Employ . Linventaire exhaustif des dpendances fonctionnelles dtermine donc la constitution des entits et des associations, et par l la structure complte du MCD. Si la dmarche est intgralement respecte, chaque information lmentaire trouve sa place au sein dune entit ou dune association, et aucune information ne se trouve plus dune fois dans tout le modle. La Figure 3-4 est la reprsentation graphique dun lment de MCD comportant quelques entits fonctionnellement connectes lentit Employ . Conformment aux conventions de notation propres MERISE, on a donn chaque association un nom symbolique en rapport avec la liaison de gestion quelle reprsente. Les cardinalits39 figurent galement sur le graphique.
37
Numrotes de 1 5 (1FN 5FN), plus une variante restrictive de la 3FN (dite 3FN de Boyce-Codd ). Ces formes normales ont t prconises plus spcialement pour les bases de donnes relationnelles, mais leur validit est indpendante de la technologie.
38 39
Les cardinalits dune association entre deux entits A et B indiquent le nombre minimal et le nombre maximal doccurrences de B pouvant tre lies une occurrence de A, et vice-versa, le symbole n signifiant un nombre quelconque suprieur zro. Ainsi, dans la Figure 3-4, les cardinalits (1,1)-(0,n) de lassociation dirige entre Service et Employ signifient quun Service est dirig par un et un seul Employ et quun mme Employ peut ne diriger aucun Service, en diriger un ou en diriger plusieurs.
Jean-Marie Gouarn
26
Le Projet Dcisionnel
Service
Code Nom Chef
1,1 1,1
Employ
dirige
0,n
Vhicule
0,n
0,n
1,n
est implant
0,n
Lieu
Adresse Code postal Localit
0,n
habite
Qualification
0,n
Intitul Mention
On peut remarquer au passage, dans ce graphe, la prsence de deux associations entre Service et Employ , indiquant quun Employ peut tre li de deux faons diffrentes un Service : il peut tre simplement rattach au Service, mais il peut aussi diriger le Service (les cardinalits prcisent que chaque Service est dirig par un seul Employ, mais que plusieurs Employs peuvent lui tre rattachs). Lexistence de ces deux associations permet de grer toutes les informations relatives au chef de chaque Service, sans avoir intgrer une copie de lentit Employ dans la structure de lentit Service . Ceci introduit dans le modle une boucle smantique, cest--dire un circuit ferm, li une alternative de cheminement dune entit une autre. On trouve dans le mme schma une autre boucle, plus large, entre Employ et Lieu : il existe en effet deux chemins smantiques (lun passant par lentit Service , lautre direct avec la relation habite ) entre ces deux entits. Les boucles sont des phnomnes extrmement frquents dans des bases de donnes oprationnelles parfaitement normalises. La normalisation par les DF produit invitablement des graphes cycliques. Il sagit l, comme on le verra, dun point sensible en cas dutilisation dcisionnelle de ces bases de donnes. La normalisation ainsi conue est lie la poursuite des objectifs suivants : Elimination des redondances de donnes, qui induisent des problmes de cohrence lors des mises jour ; Performances lexcution des mises jour transactionnelles ; Simplification des contrles dintgrit rfrentielle40. La logique des dpendances fonctionnelles a notamment pour consquence technique le groupement en un voisinage associatif de la totalit ou du moins de la plus grande partie des informations lmentaires (proprits) susceptibles dtre impliques dans le cadre dune mme transaction de production. Rappelons quune transaction est une opration ou un enchanement indissociable doprations ayant pour effet de modifier ltat dune base de donnes tout en respectant sa cohrence, conformment une rgle prdtermine. La transaction est le constituant lmentaire des applications informatiques oprationnelles. Par exemple, une transaction de virement entre deux comptes comporte une opration de dbit et une opration de crdit indissolublement lies lune lautre. Dune manire gnrale, une transaction est donc une squence ininterruptible doprations. Un Systme dInformation Oprationnel doit prcisment tre organis de manire telle que : Les transactions conformes ses rgles de gestion, et celles-l seulement, puissent tre excutes dans les meilleures conditions defficacit et de scurit ; Toute transaction commence soit, coup sr, entirement excute ou, dfaut, entirement annule. Les transactions sont gnralement excutes par des programmes dapplication, et ne sont donc normalement jamais improvises linitiative des utilisateurs. Par consquent, dans un SIO, les accs aux
40
Lintgrit rfrentielle est le respect des rgles dinterdpendance entre donnes. Par exemple, sil est convenu que tout employ est rattach un service, le contrle dintgrit rfrentielle doit garantir que dans la base de donnes, tout instant, chaque occurrence de lentit Employ est bien associe une occurrence de lentit Service .
Jean-Marie Gouarn
27
Le Projet Dcisionnel
bases de donnes sont systmatiquement rptitifs et prdtermins. Il y a donc un intrt vident ce que ces bases de donnes soient conues et organises ds le modle conceptuel dans la perspective de ces transactions. Lapproche par les dpendances fonctionnelles est minemment justifie cet gard, dans la mesure o le schma qui en rsulte reflte directement la structure oprationnelle de lentreprise. Le rle du SIO est, fondamentalement, celui dun automate de contrle. Il est chaque instant dans un certain tat. Il passe dun tat un autre par lintermdiaire dune transition (en loccurrence une transaction) qui reflte un flux rel du Systme Oprant. Chaque transition sexcute selon une procdure pr-programme conforme une rgle de gestion. Cette vocation se reflte dans le modle de donnes sousjacent, dont les entits sont des objets de gestion41 lis entre eux par des associations de gestion42. Le MCD a beau tre un modle de donnes, sa construction porte nanmoins la marque des traitements quil est destin subir. Autant il est rationnel, dun point de vue mthodologique, de modliser les donnes sparment des traitements, autant il est vrai que les donnes nont aucun sens indpendamment des traitements. Selon un point de vue gnralement admis, un modle de donnes reprsente un ensemble de concepts qui permet de construire une reprsentation organisationnelle de lentreprise 43. Compte tenu de ce que nous venons de voir, ce point de vue est et demeure valable dans les limites du Systme dInformation Oprationnel. Le Systme dInformation Dcisionnel, quant lui, est focalis non pas sur lorganisation elle-mme mais sur les processus fondamentaux et sur lenvironnement de cette organisation.
A ce sujet, il est intressant de relever que, dans la mthode AXIAL, la reprsentation graphique du MCD est appele Diagramme des Objets de Gestion (DOG) . Voir sur ce point Ph. Pellaumail, La mthode Axial, Conception dun Systme dInformation , Editions dOrganisation 1986.
42 43
Lusage merisien de dsigner par des verbes les associations traduit bien le caractre oprationnel des liaisons entre objets. A. Flory, op. cit.
Jean-Marie Gouarn
28
Le Projet Dcisionnel
cultes paens du pass. La normalisation par les DF possde en outre, juste titre dailleurs, une image de perfection intellectuelle. Il est donc facile de perdre de vue sa raison dtre et de lappliquer par principe sans tenir compte du caractre spcifique de linformation dcisionnelle. Il existe notamment une tentation permanente de concevoir les MCD du data warehouse selon une approche par les sources . Cette approche consiste examiner les donnes disponibles indpendamment de lusage auquel elles sont destines, en rechercher les dpendances fonctionnelles telles quelles sont observables dans une perspective oprationnelle, et construire un MCD sur cette base. Le rsultat est alors un modle aussi parfaitement normalis quinadapt. Pour ladapter , on doit alors sengager dans une dmarche de dnormalisation intense, de manire produire un modle logique qui permettra certaines requtes dcisionnelles connues davance de sexcuter avec des performances satisfaisantes. Or comme dans tout SID qui se respecte, la satisfaction de chaque besoin amne lexpression dun nouveau besoin, de nouvelles requtes apparaissent, ncessitant de nouvelles stratgies doptimisation, et donc de nouvelles dnormalisations. Le rsultat, terme, est un schma de base de donnes de plus en plus charg et rigide, dcevant en termes de performances, coteux en maintenance, et totalement incomprhensible pour lutilisateur. Dans le domaine du SIO, lapproche par les sources (cest--dire la normalisation par dtection des DF a priori) est acceptable. Quand les circonstances du projet ne permettent pas dassurer compltement la collecte et la consolidation des vues externes des utilisateurs, cest une solution de repli correcte. En revanche, la dfinition dun Modle de Donnes Dcisionnel doit imprativement se faire par les vues et non par les sources. Cest partir de ces vues, et en utilisant une norme sans rapport direct avec les dpendances fonctionnelles classiques, quon doit crer le MCD Dcisionnel. La premire raison de cette exigence plus stricte tient au fait que, dans un SID, le modle de donnes joue le rle principal. Dans le SIO, la structure des donnes concerne avant tout le concepteur, ladministrateur et le programmeur. Cette structure, quand le systme fonctionne, nest vue que par les programmes dapplication. Dans le SID, la structure des donnes nest masque que par une couche logicielle beaucoup plus transparente. Le modle de donnes, sil est appropri au besoin, est un outil pour lutilisateur ; sil est mal adapt, il devient un obstacle. Il est donc ncessaire de prendre en considration les diffrents lments qui distinguent le point de vue dcisionnel du point de vue oprationnel sur les donnes.
Jean-Marie Gouarn
29
Le Projet Dcisionnel
En pratique, il est vrai que les bases de donnes dcisionnelles contiennent gnralement des donnes calcules et ne conservent pas toujours trace de chaque opration lmentaire. Ce dgraissage ne dcoule pas, toutefois, de raisons de principe ; il rsulte gnralement dun compromis entre les besoins et les cots de stockage. Le vritable critre distinctif est ailleurs. Les donnes enregistres dans un SID peuvent tre dun niveau de dtail aussi fin quon le veut, mais les informations prsentes sont des agrgats portant chaque fois sur un certain nombre de donnes lmentaires. Ces agrgats peuvent tre calculs dynamiquement, au moment o le systme reoit la requte, si les performances de la technique et la patience de lutilisateur le permettent. Ils peuvent ventuellement tre calculs et enregistrs lavance pour raccourcir les dlais dattente, condition toutefois de tenir compte de la problmatique complexe lie la gestion des agrgats, que nous abordons plus loin. Dans tous les cas, quel que soit le niveau de dtail des informations enregistres, ces informations sont destines, dans le SID, faire lobjet dune utilisation ensembliste. Dans le SIO, par comparaison, les informations lmentaires sont utilises telles quelles, de faon lmentaire, par les applications. Cette diffrence dutilisation implique dj une diffrence de mthode daccs, et donc de modle.
3.5.2 Navigation
Naviguer dans un systme dinformation quel quil soit, cest suivre un cheminement qui mne une donne partir dune autre. Ce concept de navigation est directement apparent dans les applications utilisant lhypertexte, notamment dans le World Wide Web. Quoique moins visible pour lutilisateur final, il nest pas moins important dans le monde des bases de donnes. Quand la technologie relationnelle est apparue, on la communment oppose dautres technologies de gestion de bases de donnes, qui ont alors t qualifies de navigationnelles . En ralit, les bases de donnes relationnelles et le SQL44 qui leur est associ prsentent lavantage de masquer aux utilisateurs et aux programmes dapplication la complexit des algorithmes de navigation, mais elles sont cependant tout aussi navigationnelles que les autres. La navigation relationnelle est smantique et dclarative. Elle met la disposition de lutilisateur un langage permettant de dcrire les chemins daccs de manire indpendante de la position des donnes dans les fichiers et de la structure technique de ces fichiers. Lutilisation dun SGBD relationnel dispense donc de dcrire physiquement les chemins. Mais il ne dispense pas de les indiquer, et nlimine pas les problmes de performances lis la navigation. On peut illustrer ce propos laide du schma de la Figure 3-5, qui reprsente un MCD normalis45 de structure assez classique pour une application dadministration des ventes.
44
Structured Query Language, langage de commande et dinterrogation, originaire dIBM. Bien que le SQL soit probablement le plus limit et le plus grossier des langages invents pour la gestion des bases de donnes relationnelles, il a le double mrite dexister et dtre une norme.
45
Pour allger lcriture, on na pas nomm les associations et on a omis les proprits. En outre, pour ce type dapplication, un modle raliste aurait comport des entits plus nombreuses.
Jean-Marie Gouarn
30
Le Projet Dcisionnel
Catgorie
1,n 1,1
Gamme
1,n 1,1
Produit
0,n
0,n
0,n
Client
0,n 1,1
Livraison
0,n 1,n 1,1 0,n
Usine
1,n 0,n
1,1
Entrept
1,1
Facture
1,1
1,1
0,n
Contrat
0,n 1,1 1,1
0,1
1,1
0,n
Type contrat
0,n 0,n 0,n 0,n 0,n
Vendeur
1,1 0,n
Agence
1,1 0,n
Site
Ce modle prsente une structure de donnes adapte un certain nombre doprations courantes allant de la prise de commande la facturation, dont lorientation oprationnelle est vidente. Lentit Contrat , par exemple, est directement connecte aux entits impliques dans la cration et le suivi de chaque contrat (Client, Vendeur, Agence, Produit, etc.). Imaginons maintenant quun stratge , dans le cadre dune dmarche doptimisation logistique, souhaite connatre le volume des ventes dune certaine catgorie de produits ralises auprs des clients dune certaine rgion et pour lesquelles les livraisons auraient t effectues partir des entrepts dun certain site gographique. Supposons, pour simplifier, que toutes les donnes sont dans le modle et quil nest pas ncessaire daller interroger dautres bases de donnes (par rapport la plupart des situations relles, cest dj une chance inoue !). La structure de ce modle est telle que, quelle que soit la simplicit syntaxique du langage dinterrogation, la question est en ralit trs difficile formuler. Linformation demande ne peut en effet tre construite quen associant de nombreuses entits selon des conditions prciser lien par lien. De plus, les boucles smantiques prsentes dans le modle sont autant de piges dans la dfinition de la question. Pourtant, celle-ci nest pas intrinsquement complique. Dans la pratique, une application de gestion moyenne comporte de quelques dizaines quelques centaines dentits, et les requtes dcisionnelles comme celle-ci peuvent impliquer des parcours beaucoup plus longs et tortueux. Il en rsulte un certain nombre dobstacles pour ce type dutilisation : Les chemins de navigation sont complexes et ne peuvent donc pas tre exploits directement par un utilisateur final. Le caractre fortement cyclique du modle cre des risques dambigut de cheminement. La formulation des requtes ncessite des dveloppements techniques appropris, comportant ncessairement des cots et des dlais ; Compte tenu du nombre de fichiers ou de tables impliqus dans chaque requte, les performances lexcution sont douteuses, voire catastrophiques. Les SGBD relationnels, en particulier, supportent trs mal les jointures sur plus dune demi-douzaine de tables 46. Or, une requte dcisionnelle de complexit moyenne portant sur un modle de donnes en 3FN peut couramment mobiliser de 10 25 tables, voire plus. Il est donc souvent ncessaire de dcomposer chaque requte en une squence de requtes plus
46
La probabilit dincident bloquant (absence de rponse une requte, ou mme arrt anormal du systme) devient leve partir dune dizaine de tables dans une mme jointure. De plus, certains SGBD imposent une limite absolue au nombre de tables invoques dans une requte.
Jean-Marie Gouarn
31
Le Projet Dcisionnel
simples, ce qui augmente les efforts de dveloppement spcifiques et rduit encore la souplesse du systme. On voit donc comment un modle de donnes conu pour rduire les cots de dveloppement et amliorer les performances des applications oprationnelles produit des effets opposs si on cherche lappliquer tel quel dans la sphre dcisionnelle.
47
La notion de date est prendre ici avec une prcision aussi fine quon veut (jour, heure, minute, seconde, ...).
Jean-Marie Gouarn
32
Le Projet Dcisionnel
Vhicule
Marque Modle Puissance ... 1,n
Priode Immatriculation
Numro 0,n Dbut Fin ...
Si le propritaire change de dpartement, le numro dimmatriculation change. Par dfinition, deux identifiants distincts ne peuvent pas identifier le mme objet ; or nous avons deux numros dimmatriculation et pourtant un seul vhicule. Cette situation nest possible que parce que le numro dimmatriculation nest identifiant que dans un modle de donnes statique : un instant donn, deux numros dsignent bien deux vhicules. Dans un modle de donnes dynamique (ou historique), le numro dimmatriculation, non seulement nest pas un identifiant, mais ne peut mme pas appartenir une entit Vhicule normalise. En effet, un vhicule pouvant recevoir plusieurs numros successifs, lentit aurait une structure variable si elle devait contenir cette proprit. La proprit numro dimmatriculation appartient donc ncessairement une association entre lentit Vhicule et une autre entit quon pourrait nommer Priode (Figure 3-6). Citons comme autre exemple, pour une entreprise cote, la capitalisation boursire. Ce montant peut, dans un modle statique de donnes, tre considr comme une caractristique de lentit Entreprise . Dans un modle historique, la reprsentation de la capitalisation boursire diffrentes priodes ne peut tre reprsente quau moyen dune association entre Entreprise et, l encore, une entit Priode . En gnralisant ces exemples, on comprend rapidement que, en dfinitive, aucune des informations quil peut tre intressant de tirer dun entrept de donnes ne peut se dfinir sans avoir recours une association smantique, en rapport avec le temps, et qui naurait pas de sens dans un environnement purement oprationnel. Lintgration du temps sous forme dentits spcialises, et non pas sous forme de dates distribues comme des proprits ordinaires dans diverses entits, affecte de manire fondamentale la structure des modles de donnes. Dans un modle oprationnel, le rseau des dpendances fonctionnelles est fond en grande partie sur une rfrence implicite linstant prsent (ce qui permet de considrer le numro dimmatriculation comme une proprit du vhicule). Dans un modle dcisionnel, linstant auquel on se rfre doit tre dsign explicitement, le prsent ntant quun instant parmi dautres, ce qui a pour effet de sortir des entits toutes les caractristiques sujettes des variations dans le temps. Est-ce dire que le MCD dun data warehouse se caractrise ncessairement par la prsence dentits priodiques ? Pas exactement. Une histoire nest pas forcment reprsente comme une succession de priodes. La succession des oprations ponctuelles ayant provoqu des dbits ou des crdits sur un compte courant est une reprsentation de lhistoire de ce compte. Chaque opration ponctuelle comporte une date, ce qui dtermine bien une chronologie, sans pour autant que cette chronologie soit priodique. Comme on la dj dit, le SIO peut tre vu comme un automate. Par consquent, son histoire peut aussi bien tre prsente comme une succession de transitions que comme une succession de priodes. Chaque transition est un vnement pouvant affecter une ou plusieurs variables et vhiculer un ou plusieurs flux. Lobservateur peut aussi bien focaliser son analyse sur les transitions significatives que sur des intervalles de temps. On peut donc conclure que, dans un modle de donnes dcisionnel, les mesures significatives se dfinissent toujours en relation avec des priodes ou avec des vnements. Ces objets particuliers, priodiques ou vnementiels, ne sont certes pas totalement absents des modles de donnes associs des applications de production48. Mais ils ne constituent pas des lments de structure fondamentaux pour ces modles. Pour des raisons lies au contrle interne, la lgislation ou des obligations contractuelles, la plupart des applications de gestion produisent des historiques dtats
48
Lentit Date est mme assez frquente dans les MCD oprationnels.
Jean-Marie Gouarn
33
Le Projet Dcisionnel
priodiques et de transactions. Mais ce sont des donnes produites et non utilises. Pour un SIO, dune manire gnrale, les sries chronologiques ne sont que des sous-produits du fonctionnement. Pour un SID, elles constituent la matire premire.
49
Un script est un enchanement pr-enregistr de commandes de plus haut niveau que de simples instructions de programme, destines tre interprtes et excutes par un dispositif logiciel labor, tel quun systme dexploitation, un progiciel ou un systme de gestion de bases de donnes (on utilise gnralement des scripts en SQL pour crer des structures de donnes dans un SGBD relationnel).
Jean-Marie Gouarn
34
Le Projet Dcisionnel
typedef struct sVehicule { unsigned VeId ; char szImmat[11] ; byte bPuissance } ; typedef struct sEmploye { unsigned EmpId ; float Salaire } ; typedef struct sEmpVeh { unsigned VeId, EmpId ; time_t DateAffect } ;
CREATE TABLE T_VEH001 ( VE_ID INTEGER NOT NULL, VE_IMMAT VARCHAR(10)NOT NULL, VE_PUISS SMALLINT ) ; CREATE TABLE T_EMP001 ( EM_ID INTEGER NOT NULL, EM_SALR FLOAT(8) ) ; CREATE TABLE T_EMVE01 ( VE_ID INTEGER NOT NULL, EM_ID INTEGER NOT NULL, EMVEDATE DATE ) ;
Avec laide de certains outils de gnie logiciel du march, on peut dans certains cas effectuer une rtroconception de manire reconstituer des modles logiques partir des modles physiques de donnes, et obtenir ainsi des mta-donnes sous une forme plus lisible. Mais de telles dmarches de reverse engineering ne sauraient restituer le sens des donnes. Dans un environnement dcisionnel, lutilisateur a presque directement affaire au modle de donnes. Pour exploiter ce modle, il lui faut une carte, une boussole, une signalisation au sol et un manuel de navigation. En dautres termes, il lui faut une documentation informationnelle complte sur les donnes. Cette documentation, quelle que soit la forme matrielle quelle prendra, ne peut pas tre labore endehors dune dmarche de modlisation conceptuelle.
Jean-Marie Gouarn
35
Le Projet Dcisionnel
Un modle de donnes sapplique gnralement une application ou un ensemble dapplications dont le primtre et la dfinition sont arrts en amont du projet. Ceci est valable pour toute application informatique. Mais ce principe dapplique dune manire particulire dans les projets dcisionnels. Consommateur de donnes et producteur dinformations, un SID est ncessairement un dispositif double face puisque : il combine des donnes dorigines diverses, gnralement oprationnelles ; il met des donnes disposition selon des objectifs informationnels. Par rapport aux sources de donnes qui lalimentent, le data warehouse est sous-tendu par un modle fdrateur ou intgrateur. Mais ce modle nest pas directement reprsentatif des points de vue informationnels ventuellement multiples et changeants des utilisateurs du SID. Or le SID ne vaut que pour les restitutions informationnelles quil offre. Le vritable modle de donnes dcisionnel est donc celui qui reflte la mise disposition ou encore la diffusion des donnes, et non leur concentration. Cette mise disposition se conoit par domaines, sachant que le primtre dun domaine dcisionnel ne concide pas avec les frontires dune application de production. Un domaine applicatif concerne un utilisateur ou un ensemble cohrent dutilisateurs, et implique un vocabulaire commun et une manire commune dapprhender linformation. Cest en quelque sorte lunivers du discours. Quelles que soient les modalits de conduite de projet et les ventuels raccourcis qui seront pris certaines tapes, le Modle Conceptuel des Donnes (MCD) du domaine dapplication est un passage oblig. Les modles drivs du MCD (MLD et MPD) sont ensuite labors en liaison troite avec la technique, selon une dmarche fortement tributaire des produits. Quant au MCD lui-mme, rappelons que sa structure ne dpend que de la smantique des donnes et de la vue quen ont les utilisateurs. Lanalyste doit par consquent rsister deux sortes dinfluences pernicieuses qui psent, divers degrs, sur tous les projets : les structures oprationnelles dans lesquelles le SID puise ses donnes ; les modalits de fonctionnement des outils de gestion et de prsentation. Les seules bases sur lesquelles il convient de sappuyer pour spcifier les objectifs du SID sont les vues externes des utilisateurs. Ces vues doivent donc tre collectes et intgres dans le modle.
Jean-Marie Gouarn
36
Le Projet Dcisionnel
Un SID comporte donc en ralit au moins deux Modles Conceptuels de Donnes (cf. section 6.3). Lun des deux reprsente lintgration des sources oprationnelles partir desquelles salimente le systme. Il se conoit et se normalise selon une dmarche traditionnelle de gnie logiciel 50, qui na pas lieu dtre dveloppe ici. Lautre, celui que nous examinons dans ce chapitre, correspond la structure informationnelle destine supporter les requtes des utilisateurs. Cest le MCD de diffusion. Cest ce dernier qui reprsente la structure selon laquelle linformation doit tre mise disposition ; il constitue la spcification fonctionnelle du SID. La collecte des vues est une affaire de conduite de projet, dont nous nignorons pas la difficult pratique. La qualit de cette collecte auprs des utilisateurs est cependant un facteur critique de succs, et on ne peut pas en faire lconomie sans prendre un gros risque. De point de vue de la modlisation proprement dite, lintgration des vues nest pas une simple opration de juxtaposition. Elle passe par une normalisation. Les normes dintgration du MCD, dans un domaine dcisionnel, reposent sur les principes fondamentaux suivants : Compte tenu de la nature consultative et non transactionnelle des applications, la structure des vues externes se dduit directement des requtes des utilisateurs, et non des connexions oprationnelles possibles entre les entits ; A lintrieur dun domaine, il existe un ou plusieurs sous-ensembles de vues lies entre elles par certains critres de cohrence smantique et structurelle. Cest sur lidentification et la validation formelle de ces sous-ensembles, appels contextes, que repose toute la dmarche de construction du MCD ; Une requte dcisionnelle a pour objet dtablir un rapprochement non programm entre des entits conceptuelles plus ou moins nombreuses. De ce fait, les rsultats attendus sont systmatiquement dtermins par des associations51. La structure des vues reflte celle des associations possibles. Chaque vue a pour lment central une association autour de laquelle gravitent deux ou plusieurs entits, et correspond une reprsentation des informations sous forme de tableau deux ou plusieurs dimensions ; La liste exhaustive des requtes possibles nest jamais fige. Celle des vues qui en dcoulent ne lest donc pas non plus. La normalisation du MCD doit permettre danticiper et dintgrer automatiquement dans chaque contexte le plus grand nombre possible de vues probables daprs la structure des vues connues ; Entre deux entits intervenant dans une mme vue, il doit exister un et un seul chemin de navigation smantique, et ce chemin doit tre le plus court possible. La porte pratique de ces principes mrite dtre examine en dtail, exemples lappui.
Sur cette dmarche, nous renvoyons aux ouvrages classiques traitant de la modlisation des donnes dans les SI oprationnels (voir notamment les notes 34 et 35 page 23).
51
Jean-Marie Gouarn
37
Le Projet Dcisionnel
Commercial , ou si commercial est lune des valeurs possibles dune proprit appartenant une entit plus gnrale, telle que Employ . Si notre interlocuteur avait dit les employs ayant des fonctions commerciales , nous pourrions en dduire lexistence dune entit Employ , mais nous ne serions pas encore fixs, car cette seconde formulation introduit son tour un doute : la fonction est-elle une proprit de l Employ ou une entit associe ? De mme, la rgion pourrait tre soit une proprit de l Employ , soit une entit distincte. La connaissance gnrale du domaine, cest--dire des entits fondamentales du mtier de lutilisateur, est donc ncessaire pour une analyse correcte des requtes. Cette connaissance sacquiert ou senrichit notamment en proposant et en validant auprs des utilisateurs des formulations diffrentes des mmes requtes, et en oprant des recoupements entre requtes. Sous rserve de ces quelques remarques, on admettra que la question pose ci-dessus associe les quatre entits suivantes : Employ , Vhicule , Rgion , Mois . Les rsultats demands sont frais de dplacement et kilomtrage . Cependant, les quatre entits dont lassociation dtermine le rsultat ne sont pas toutes invoques de la mme manire. Dans notre exemple, Rgion et Mois sont indiques chacune par sa proprit identifiante : il ny a quun seul mois de juillet 1996, et une seule rgion Rhne-Alpes. En revanche, Employ et Vhicule sont slectionns sur des proprits descriptives, respectivement la fonction et la puissance . La structure de la requte, ainsi analyse, dtermine ce que nous appelons une vue, et qui peut se noter de la manire suivante :
frais de dplacement, kilomtrage par Employ (fonction) par Vhicule (puissance) par Rgion par Mois
ou encore
frais de dplacement, kilomtrage / Employ (fonction) / Vhicule (puissance) / Rgion / Mois
Employ
Fonction
Vhicule
Puissance
0,n
Faits
Frais de dplacement Kilomtrage
0,n
Rgion
0,n 0,n
Mois
La Figure 4-1 est la reprsentation graphique de cette vue, dans le formalisme entit-association que nous connaissons. On remarque immdiatement la configuration en toile de ce schma, qui comporte une association unique et quatre entits.
Jean-Marie Gouarn
38
Le Projet Dcisionnel
Les cardinalits (0,n) qui qualifient chacun des liens ont ici une valeur par dfaut, qui peut ventuellement tre corrige par lanalyse. Ici, on admet par exemple quun mme Vhicule peut tre associ aucune, une ou plusieurs combinaisons Employ-Mois-Rgion , quune mme Rgion peut tre associe aucune, une ou plusieurs combinaisons Employ-Mois-Vhicule , etc. Dans la pratique, les cardinalits qui caractrisent les vues dcisionnelles sont gnralement (0,n) et parfois (1,n). Un lien quantifi (0,n) signifie que lassociation nest pas dfinie pour toutes les occurrences de lentit. Par exemple, si le lien de lentit Employ est marqu (0,n) comme cest le cas ici, cela traduit le fait que la notion de frais de dplacement par Rgion/Mois/Vhicule na pas de valeur dfinie pour chaque employ (parce que certains employs ne se dplacent pas, ou parce quils nont pas de vhicule, ou pour toute autre raison). Cela dit, la question des (0,n) et des (1,n) ne mrite pas quon y consacre trop de temps et dnergie dans les projets, sachant que son impact pratique est insignifiant, voire nul. Les proprits centrales, dont la valeur est dtermine par la combinaison des quatre entits, sont des faits, et toutes les autres proprits sont des conditions. Dune manire gnrale, un fait, une mesure, ou encore un indicateur, est une information dtermine par la combinaison de deux ou plusieurs entits, susceptible de constituer le rsultat ou un lment du rsultat dune requte ; une condition est une caractristique dentit susceptible dintervenir comme critre de dfinition dune requte. Structurellement, une vue52 comporte donc toujours une association et deux ou plusieurs entits. Tous les faits sont des proprits de lassociation, et toutes les conditions sont des proprits des entits. Une requte implique ncessairement une vue. Mais plusieurs requtes peuvent sappliquer la mme vue. Les requtes portant sur une mme vue se diversifient non seulement par les valeurs possibles attribues aux variables conditionnelles, mais aussi et surtout par linformation demande en retour. Dans notre exemple de requte, lutilisateur ne demande que les faits eux-mmes, savoir les frais de dplacement . Encore peut-il les demander sous la forme dun simple cumul, ou sintresser plutt au dtail pour chaque commercial. Toutes ces variantes affectent naturellement le contenu et la prsentation des tats de sortie, et peut-tre les performances du systme, mais elles sappliquent au mme schma conceptuel. On peut noter cependant que la vue de la Figure 4-1 nautoriserait pas, en ltat, une requte qui demanderait, en regard des frais de dplacement, le nom et le matricule de chaque employ. Or, si des requtes de ce type apparaissent dans lanalyse, il faut les satisfaire. Do la rgle suivante : Si une proprit dentit non expressment spcifie comme critre de slection dans une requte apparat dans la liste des rsultats demands, il faut lintgrer la vue comme sil sagissait dune condition. Ainsi, si nous reformulons notre exemple de la manire suivante : Je veux la liste des noms des commerciaux de la rgion Rhne-Alpes ayant des vhicules de 12 14 CV avec, pour chacun, les frais de dplacement, le kilomtrage et la marque du vhicule, pour juillet 1996. la vue approprie devient :
frais de dplacement, kilomtrage / Employ (nom, fonction) / Vhicule (marque, puissance) / Rgion / Mois
Cette variante nous amne enrichir le schma de la vue (voir Figure 4-2).
52
La notion de vue a ici un sens plus restrictif et plus spcialis que dans les mthodes de conception orientes vers les Systmes dInformation Oprationnels. Par ailleurs, cette notion na rien voir avec le mot vue qui apparat, avec un sens technique particulier, dans le langage des bases de donnes relationnelles.
Jean-Marie Gouarn
39
Le Projet Dcisionnel
Employ
Nom Fonction
Vhicule
Marque Puissance
0,n
Faits
Frais de dplacement Kilomtrage
0,n
Rgion
0,n 0,n
Mois
Dans cet exemple, on a intgr dans le modle en tant que conditions, et non en tant que faits, des informations qui, pourtant, apparaissent dans la requte comme des rsultats demands et non comme des critres de slection. Ce choix nest ni arbitraire ni intuitif. Ce nest pas parce quune information est demande en rponse une requte quelle constitue un fait. Comme on la dit, un fait nest pas seulement un lment de rsultat ; cest un lment de rsultat dtermin par une association. Une information qui caractrise en propre une entit indpendamment de toute association ne peut tre quune proprit de cette entit. Par consquent, parmi les informations demandes en sortie dune requte, certaines sont des faits, et dautres peuvent tre des proprits descriptives dentits. Ces dernires peuvent tre catalogues demble comme des conditions, car toute proprit descriptive appartenant en propre une entit et intressant lutilisateur dcisionnel est un critre de slection potentiel. Lutilisation dune base de donnes dcisionnelle, si elle est effective, ne se limite jamais aux requtes prvues lors de la phase initiale danalyse. Or, les caractristiques descriptives dentits dabord cites comme lments de rsultats sont prcisment les plus susceptibles dintervenir, dans des requtes ultrieures, comme critres de slection. La base de donnes dcisionnelle tant prcisment un instrument destin favoriser les comportements exploratoires non programms, rien ne doit, dans le modle de donnes qui la reprsente, suggrer une diffrence de nature, au sein des entits, entre proprits descriptives et proprits de filtrage. Toute proprit attache une entit doit donc tre indiffremment utilisable comme critre de slection ou comme lment de rsultat. De mme que des conditions peuvent apparatre dans les rsultats dune requte, de mme les requtes peuvent comporter des restrictions de prsentation sur des faits. La requte ci-dessus pourrait par exemple restreindre les rsultats aux 10 commerciaux ayant parcouru le plus grand nombre de kilomtres, cest-dire comporter un filtre sur le fait kilomtrage . Les filtres sur les faits, toutefois, nont aucune incidence sur la structure des donnes, ni mme dailleurs sur les cadres de prsentation externe des rsultats. Il existe enfin des faits dun type particulier, quon peut qualifier dimplicites en ce sens quils napparaissent pas expressment comme des proprits nommes dans les vues. Ces faits sont des lments de rsultat pour les requtes comportant des comptages. Par exemple, une question telle que : Combien de commerciaux de la rgion Rhne-Alpes se sont-ils dplacs avec des vhicules de 12 14 CV en juillet 1996 ? ne fait pas appel une proprit de lassociation entre les quatre entits, mais demande un comptage des occurrences demploys ayant la fonction de commercial et pour lesquels lassociation avec les trois autres entits existe dans les conditions dfinies. On pourrait reformuler la question ainsi : Pour combien de commerciaux de la rgion Rhne-Alpes existe-t-il un kilomtrage et/ou des frais de dplacement non nuls avec des vhicules de 12 14 CV en juillet 1996 ?
Jean-Marie Gouarn
40
Le Projet Dcisionnel
Un utilisateur ordinaire ne sexprime pratiquement jamais de cette manire, mais cette reformulation suggre bien lide que le fait demand est une proprit binaire implicite (un ou zro, vrai ou faux, prsent ou absent) dont le contenu ne fait que reflter lexistence ou linexistence dun lien pour chaque occurrence. Pour se donner une ide intuitive des notions de faits et de conditions, il suffit dimaginer la configuration des tats de sortie correspondant aux requtes. Les conditions ont naturellement tendance y apparatre comme libells des lignes et des colonnes dun tableau, alors que les faits remplissent plutt les cellules internes du tableau. La reprsentation tabulaire des requtes nest pas seulement thorique. Elle correspond prcisment lune des formes sous lesquelles les utilisateurs envisagent et utilisent linformation53. Une vue correspond en fait une matrice dont chaque dimension est dcrite par une entit et dont le contenu est dcrit par lassociation de ces entits. Les combinaisons de conditions sont les coordonnes qui dterminent des valeurs de faits, comme une combinaison de valeurs numriques peut dterminer la position dun point dans lespace. Lun des aspects les plus intressants de la modlisation des vues en toile est son aptitude dcrire sous une forme simple une matrice virtuelle comportant un nombre quelconque de dimensions. La Figure 4-3 est une mtaphore de ce que pourrait tre une prsentation tabulaire des donnes de notre exemple quadridimensionnel, avec seulement deux rgions, quatre employs, trois vhicules et trois mois. Les graphismes de ce type peuvent tre utiliss comme exemples de restitution dtats, mais certainement pas comme des documents de modlisation de donnes. En outre, la prsentation tabulaire, dj assez laborieuse partir de trois dimensions, oblige recourir, partir de la quatrime dimension, des artifices trs lourds (tels que des tableaux de cubes).
Employ
Vhicule
Employ
Vhicule
Mois
Mois
Rgion 1
Rgion 2
Lanalyse de faits identifis (explicitement ou non) par des dimensions est prcisment la forme dutilisation la plus gnrale du data warehouse, mme si ce nest pas la seule. Lapproche dimensionnelle est le cadre danalyse le plus gnral des MCD dcisionnels.
Parmi ces utilisateurs, on remarque que beaucoup ont dj lhabitude des tableurs.
Jean-Marie Gouarn
41
Le Projet Dcisionnel
Client
Rgion
Pays
Vue 2
Marque
Produit
Vue 1 marge
revenu
Jour
Mois
Canal
Vue 3 ventes
Gamme
Mois
Marque
Vue 4 revenu
Canal
Trimestre
En oprant un recoupement superficiel entre ces vues, on dtecte deux sortes dlments de rapprochement : Certaines informations entits ou faits se retrouvent dans plusieurs vues ; Certaines entits, appartenant des vues diffrentes, sont fonctionnellement lies les unes aux autres.
Jean-Marie Gouarn
42
Le Projet Dcisionnel
Nous verrons plus loin quelles sont les rgles de compatibilit qui permettent de dcider dans quelle mesure plusieurs vues peuvent appartenir au mme contexte. Considrons pour linstant ces quatre vues comme intgrables. Le contexte correspondant leur intgration comporte une association porteuse des faits :
marge, revenu, ventes
4.2.2 Hirarchies
Parmi les entits de notre exemple, certaines sont rattaches dautres par des liens dappartenance ou de groupement hirarchique. Certains de ces chemins sont a priori vidents (Jour, Mois, Trimestre), dautres doivent tre reprs par une analyse prcise du vocabulaire des utilisateurs. On admet ici que, aprs cette analyse, on a identifi les trois hirarchies symbolises dans la Figure 4-5.
...
Jour Mois Trimestre
Temps
...
Produit
Gamme
Marque
Produit
...
Rgion
Pays
Territoire
Les hirarchies sont des lments fondamentaux de la structure dun contexte. Elles reprsentent, pour lutilisateur, des chemins de consolidation dindicateurs. Dans une simple vue, chaque entit correspond une dimension de la matrice des rsultats. Mais dans un contexte, le nombre de dimensions peut tre infrieur au nombre dentits de toutes les vues intgres, parce que plusieurs entits distinctes, provenant de vues distinctes, peuvent correspondre des niveaux de dtail diffrents dans une mme dimension. Lidentification conceptuelle des hirarchies nest pas toujours aussi vidente que dans les exemples de la Figure 4-5. Toutes les consolidations rencontres au hasard des requtes ne correspondent pas des chemins et des niveaux hirarchiques structurels. Dans une hirarchie formelle, chaque niveau est reprsent par une entit. Une entit conceptuelle est un objet ayant une existence, une identit et des caractristiques propres dans le mtier de lutilisateur (cf. 3.3.2). Or un critre de groupement ne correspond pas ncessairement une entit. Un utilisateur peut momentanment, par exemple, sintresser au cumul des ventes de produits lectromnagers auprs des clients de 25 35 ans. Dans lune des dimensions impliques, on invoque une catgorie identifie de produits, alors que dans lautre, on applique une restriction sur une proprit, en loccurrence lge du client. Si lanalyse des autres requtes du domaine confirme lexistence dun concept de catgorie de produits identifiable et possdant des caractristiques descriptives, ce concept correspond bien un niveau structurel de consolidation, et doit donc apparatre comme une entit dans un chemin hirarchique. En revanche, si les tranches dge de la clientle sont toujours invoques sous la forme client g de A1 A2 , et ne sont jamais dfinies autrement que par leurs deux bornes, ces tranches nont
Jean-Marie Gouarn
43
Le Projet Dcisionnel
pas dexistence perue en tant quentits ; elles ne correspondent qu des conditions de slection sur une entit Client . Une consolidation peut tre considre comme structurelle, donc comme une entit, si elle correspond un objet nomm, dont la dfinition est la mme pour tous les utilisateurs du domaine, possdant au moins une proprit caractristique indiquant que cet objet existe indpendamment de son rle de nud de consolidation. A la limite, un intervalle de valeurs sur un critre (comme la tranche dge) peut tre considr comme une entit si lanalyse de lensemble des requtes confirme lexistence dun dcoupage stable, sans aucun chevauchement entre les tranches. Dans ce dernier cas, en pratique, on trouve toujours un nom pour caractriser chaque tranche. Lexistence dune entit se justifie par le fait quelle est porteuse dinformations qui ne se retrouvent dans aucune autre entit du mme contexte. Ainsi, la raison dtre de chaque entit dune hirarchie dimensionnelle est la reprsentation de proprits qui napparaissent pas aux niveaux infrieurs54. Dans chacun des exemples de la Figure 4-5, une dimension concide avec une hirarchie. Il sagit dailleurs dun cas frquent, tel point que les deux notions sont parfois confondues. Pourtant, une mme dimension peut comporter plusieurs chemins hirarchiques. Si une entit A est rattache une entit B et une entit C, mais quil nexiste aucun rattachement hirarchique entre en B et C, alors il existe deux chemins de consolidation possibles pour A. Lexemple le plus classique apparat dans le calendrier. On peut grouper des jours en semaines, en mois ou en saisons, mais chacun de ces points de groupement est situ sur une voie hirarchique distincte (Figure 46).
Semaine
Numro
...
Jour
Date
Saison
Nom
Mois
Num ro
Trimestre
Numro
Anne
Num ro
En fait, cet exemple est plutt un cas dcole, car il est rare que, dans le mme contexte danalyse, on sintresse rellement des chemins de consolidation calendaires divergents. En revanche, les hirarchies multiples sont frquentes dans les dimensions lies par exemple lorganisation, la clientle ou aux produits.
54
Les critres de consolidation qui apparaissent dans les requtes doivent toutefois tre relevs mme sils ne correspondent pas des entits conceptuelles. Ces critres, par la suite, ont en effet un rle majeur dans les choix de conception et doptimisation des modles logique et physique de donnes.
Jean-Marie Gouarn
44
Le Projet Dcisionnel
CSP
Code Libell
...
Client
Code Client Nom Date naissance Adresse
Rgion
Numro Nom
Pays
Nom
Cial
Matricule Nom
Agence
Code Agence Nom Adresse
Dans la Figure 4-7 on voit trois modes de consolidation possibles pour une entit Client : selon la catgorie socio-professionnelle (CSP), selon le lieu de rsidence et selon la structure commerciale laquelle il est rattach. De mme, on imagine facilement, dans une chane de grande distribution, une entit Produit consolide dune part selon le fournisseur ou la marque et dautre part selon la catgorie ou le type de produit. Une hirarchie multiple ne doit cependant pas tre modlise a priori parce quelle a une existence potentielle dans la structure des donnes. Une dimension peut comporter plusieurs chemins de consolidation potentiels dans un domaine mais nen comporter quun seul dans chaque contexte.
Ce contexte, reprsent graphiquement par la Figure 4-8, comporte donc 5 dimensions pour 10 entits.
Jean-Marie Gouarn
45
Le Projet Dcisionnel
Client
Produit
Marque
Canal
Client Gamme
Canal Activit
marge revenu ventes
Produit
Rgion
Pays
Territoire Temps
Malgr limpression que peuvent donner les cas dcole comme celui-ci, beaucoup plus simples que les contextes du monde rel, il ne faut pas confondre hirarchie et dimension. On peut parfois employer un mot pour lautre dans un but de simplification pdagogique, mais condition de distinguer nettement les deux concepts dans une vraie dmarche de modlisation. Comme on le voit au 4.2.2, une dimension peut en effet comporter plusieurs hirarchies. Lexprience montre que certains types de dimensions se retrouvent trs frquemment, sous des dnominations varies, dans des projets concernant de nombreux domaines, bien que leur prsence ne soit en aucun cas obligatoire. Ces types sont notamment en rapport avec les priodes calendaires, le grain le plus fin tant trs frquemment le jour, les niveaux de regroupement tant souvent le mois et lanne ; lorganisation, cest--dire les divisions et subdivisions hirarchiques de lentreprise ; la gographie, cest--dire le dcoupage territorial des activits ; loffre de lentreprise, cest--dire les produits et services et leurs diffrents regroupements (lignes de produits, gammes, marques, etc.) ; la clientle et/ou le march, avec des regroupement par segments (clientle de particuliers) ou par secteurs conomiques (clientle dentreprises) ; les circuits de distribution, la logistique et/ou les modalits de fourniture des biens et services ; les contrats, oprations ou transactions conus comme des units lmentaires dactivit, ventuellement susceptibles dtre groupes par catgories. La domination de ces dimensions-types provient du fait que, historiquement, lapproche dimensionnelle a dabord t pratique dans des domaines lis au marketing et au contrle de gestion. Avec la pntration du data warehouse dans des secteurs plus directement lis la production industrielle (la gestion de la qualit ou le suivi de fabrication, par exemple), dautres dimensions-types seront prendre en considration, telles que la technologie ou le procd de fabrication utilis ; les mesures et contrles effectus pendant le cycle de vie des produits ; la matire premire ;
Jean-Marie Gouarn
46
Le Projet Dcisionnel
lorigine des composants ou pices dtaches ; la sous-traitance implique dans le processus de fabrication ; le conditionnement et les modalits de livraison ; les conditions dutilisation des produits. Quel que soit le mtier de lutilisateur, la recherche de dimensions a priori est viter soigneusement. Les dimensions doivent tre dtectes partir de la dfinition des entits et de leurs ventuels liens de composition. Lun des aspects les plus directement utiles des contextes est leur effet multiplicateur de vues. En effet, un contexte supporte implicitement dans sa structure un nombre de vues thoriquement au moins gal mais pratiquement toujours largement suprieur au nombre de vues initiales qui ont servi le composer. Cet effet multiplicateur provient videmment de lexpansion des possibilits combinatoires dues la mise en commun des faits et des conditions. La liste exhaustive des vues autorises par un contexte est la liste de toutes les combinaisons possibles de faits et dentits, en prenant au moins deux dimensions. Le contexte de la Figure 4-8 nous permet par exemple denvisager, parmi beaucoup dautres, des vues telles que
marge revenu ventes revenu / / / / Canal Rgion Client Marque / / / / Pays Mois Gamme Gamme / / / / Produit / Trimestre Produit / Client / Canal Jour Mois / Rgion
Cette multiplication des vues rpond prcisment lobjectif danticipation des requtes qui caractrise les bases de donnes danalyse. A partir dun petit nombre de vues initiales repres par ltude du domaine, on est immdiatement en mesure, sans modification du modle de donnes, de produire un grand nombre de vues drives. Ceci se traduit concrtement par des conomies considrables en termes de maintenance logicielle et dadministration de bases de donnes, condition, toutefois, que les vues drives correspondent effectivement des informations pertinentes pour lutilisateur, ce qui implique que les contextes soient intgrs selon des normes prcises.
Jean-Marie Gouarn
47
Le Projet Dcisionnel
Il est impossible dvaluer prcisment, lavance, lutilit que pourra avoir une vue laquelle lutilisateur na pas encore pens. On peut en revanche dterminer, en connaissant les liaisons smantiques entre les entits du mtier, si une question combinant certaines entits est sense ou non. A cet gard, il faut viter l encore de se fier des considrations de prtendu bon sens, en interdisant a priori certaines combinaisons parce quelles associent des entits qui, pour nous, nont aucun rapport : lune des fonctions du SID est prcisment de rapprocher des variables qui nont aucun rapport connu entre elles. Ce sont justement, comme on va le voir, les dimensions qui sont trop lies entre elles qui nont pas figurer dans les mme contextes.
On emploie ici le mot nul au sens propre, cest--dire comme synonyme de gal zro . Dans le jargon informatique, ce mot possde dautres significations. Une variable nulle est, dans une base de donnes, une variable qui existe mais dont le contenu nest pas dfini. Dans un langage de programmation, cest une variable dont lexistence est dclare mais qui na pas despace rserv en mmoire.
Jean-Marie Gouarn
48
Le Projet Dcisionnel
produit un certain client sont toujours nulles et le seront peut-tre toujours, la vue [ventes / Client / Produit] peut avoir une dfinition pertinente. Cependant, le phnomne des influences entre dimensions, mme sil est formellement acceptable, nest pas sans impact pratique. La proportion de valeurs nulles crot avec le degr dinfluence entre dimensions. Les aspects purement techniques de ce problme sont voqus plus loin, propos des techniques dimplmentation des bases de donnes dcisionnelles. Dans les bases de donnes dcisionnelles relles, la proportion de valeurs nulles est toujours trs importante, ce qui traduit le fait quil existe toujours une certaine influence entre les dimensions. Un contexte multidimensionnel est donc gnralement une matrice creuse. Si lutilisateur ne veut pas avoir chercher ses chiffres significatifs au milieu dun ocan de zros sur ses tats de sortie, cest lui de formuler des requtes pertinentes ; la mission du concepteur de SID sarrte la mise en uvre de contextes valides. Dans le doute, cest lutilisateur de dcider si une influence est suffisamment forte et stable dans le temps pour tre assimile une DF. Le moyen le plus simple de lamener se prononcer sur ce point est de lui proposer des exemples de requtes combinant de diffrentes faons les dimensions entre lesquelles on souponne lexistence dune DF.
Intuitivement, on peut douter du bien-fond de la prsence dun indicateur de production dans un contexte coloration plutt commerciale. Mais lintuition ne suffit pas. Cette vue nimplique que les dimensions Temps et Territoire qui existent dj. Cependant, elle apporte un nouveau fait qui devient donc disponible dans le contexte pour toutes les autres vues, initiales et drives, dont par exemple :
cot de recherche et dveloppement / Produit / Jour / Client / Rgion
Ce qui autorise des requtes telles que : Quel a t le cot de recherche et dveloppement des fers repasser le 28 fvrier 1997 pour le client Martin en Haute-Normandie ? Cette dernire requte est trange. En gnral, les dpenses de R & D sont lies la conception dun nouveau produit, et non sa distribution. A moins que lutilisateur nimagine un moyen dimputer les cots journaliers de R & D dun produit des couples Client / Rgion, la requte na aucune signification. Le fait cot de R & D nest pas dfini dans les vues impliquant la dimension Client . Ce fait na donc pas le mme comportement que les autres. La prsence de faits qui ne sont dfinis que pour certaines dimensions, ou dont la dfinition change selon les combinaisons dimensionnelles, est un lment au moins aussi perturbateur que la dpendance fonctionnelle entre dimensions. Do la rgle suivante : Rgle 2 : Tous les faits dun contexte doivent tre dfinis dune manire cohrente pour toutes les combinaisons dimensionnelles de ce contexte. Deux faits qui ne supportent pas les mmes approches dimensionnelles appartiennent donc des contextes diffrents.
Jean-Marie Gouarn
49
Le Projet Dcisionnel
Jean-Marie Gouarn
50
Le Projet Dcisionnel
dun point de vue physique, plusieurs agences peuvent cohabiter dans un mme tablissement, mme si elles relvent de divisions diffrentes ; les activits de toutes les divisions sont coordonnes par des directions rgionales communes auxquelles, par ailleurs, les tablissements sont rattachs. Cette organisation, vue comme une dimension danalyse dans un contexte dcisionnel, est reprsente par la Figure 4-9.
Divsion Ciale
...
Agence
Dir Rgionale
Organisation
Etablissement
Si les consolidations de faits sont pertinentes aussi bien par filiale que par tablissement, les deux chemins doivent apparatre dans la dimension Organisation . Mais le regroupement au niveau rgional pose un problme plus dlicat. En effet, une consolidation par rgion implique une alternative de cheminement. Dans cet exemple, on pourrait dire que le rsultat sera peut-tre le mme, mais le modle prsente cependant une fragilit vidente. Si par hasard une agence dpendant dune division de la rgion A tait loge dans un tablissement de la rgion B, le rsultat dune requte sur la rgion dpendrait du chemin de consolidation choisi, ce qui nest pas acceptable. Aucune vue ne doit comporter de chemin alternatif, et aucune requte ne doit comporter de choix de navigation dans les donnes. Ceci sexprime par la rgle : Rgle 4 : Le graphe de chaque dimension doit tre acyclique. Ce qui est une autre faon de rappeler que le dcisionnel a horreur des boucles . Les chemins cycliques sont ncessaires et peu gnants dans les modles de donnes oprationnels. Ici, ils sont un signe parmi dautres de malentendu conceptuel. Dans le cas qui vient dtre prsent, la prsence dune boucle montre presque coup sr que le malentendu provient de lutilisation du mme terme 56 ( rgion ou direction rgionale ) pour dsigner deux concepts informationnels distincts, en loccurrence un groupement rgional dtablissements et un groupement rgional de divisions . Le risque de confusion est dautant plus lev que, en pratique, la configuration complte dune dimension peut provenir de vues manant dutilisateurs diffrents.
56
La dtection des polysmes (mots utiliss pour dsigner des ralits ou des ides diffrentes) est lune des tapes pralables llaboration des modles de donnes. Cest aussi vrai dans le domaine oprationnel que dans le domaine dcisionnel.
Jean-Marie Gouarn
51
Le Projet Dcisionnel
Division Ciale
...
Agence
Organisation
Etablissement Dir Admin Rgionale
La Figure 4-10 reprsente une rgularisation possible de cette situation. Dune manire gnrale, une dimension multi-hirarchise doit avoir une structure strictement arborescente ; deux hirarchies ne peuvent avoir de consolidation commune.
Jean-Marie Gouarn
52
Le Projet Dcisionnel
C1
C2
C3
La reprsentation du MCD intgr correspondant un domaine dcisionnel prsente donc laspect dune constellation dont chaque lment est un schma contextuel en toile. Un tel modle, comme on peut le remarquer dans la Figure 4-11, nest pas un graphe connect57. Chaque contexte semble indpendant des autres. En outre, un mme fait ou une mme entit peut apparatre dans plusieurs contextes. On ne doit pas pour autant en conclure que le groupement de plusieurs contextes est artificiel et ne constitue pas un MCD. En effet, le processus dlaboration des contextes prend place partir de la dlimitation des domaines. Mme si les diffrentes vues initiales dun domaine donnent lieu, aprs consolidation, la dfinition de plusieurs contextes, lexistence du domaine lui-mme (avec ses utilisateurs, ses concepts et son vocabulaire) demeure une ralit fondamentale. On peut ajouter que le nombre de contextes et la structure de chaque contexte sont susceptibles dvoluer plus rapidement que les contours du domaine. En outre, on peut trs pragmatiquement sattendre dans la plupart des cas associer, lors de limplmentation technique, une base de donnes physique un domaine. Cela dit, la caractristique la plus fondamentale dun domaine normalis est labsence de synonymes et dhomonymes dans les faits et les dimensions. En dautres termes, lintrieur dun mme domaine, chaque fait et chaque entit a un nom et un seul, et deux faits ou entits distincts ont des noms distincts 58. Un mme fait, ou une mme entit dimensionnelle, peut participer plusieurs contextes (cest dailleurs souvent le cas), mais condition de conserver une dfinition unique. Pour lutilisateur, un changement de contexte signifie un changement de combinaison dimensionnelle, de grain et/ou de profondeur, et non un changement de vocabulaire. Cela signifie notamment que toutes les proprits dune entit demeurent accessibles en tant que conditions dans tous les contextes o cette entit apparat. Pour des raisons pratiques, notamment pour obtenir une notation plus lisible du MCD, il est prfrable de reprsenter les contextes sous une forme dconnecte, comme sur la Figure 4-11. Ceci entrane ncessairement une forte redondance graphique, sachant que des entits (voire des dimensions entires), sont frquemment reprsentes lidentique dans plusieurs contextes. Cest le prix payer pour produire
57
Dans un graphe connect, il existe au moins un chemin permettant, directement ou indirectement, datteindre chaque noeud partir de nimporte quel autre.
58
Ceci, naturellement, est valable aussi bien dans un MCD oprationnel que dans un MCD dcisionnel.
Jean-Marie Gouarn
53
Le Projet Dcisionnel
des schmas lisibles. En outre, ce mode de reprsentation traduit bien le fait quil ny a pas de navigation entre deux contextes59. Il convient de noter ici quun contexte en FDN ne doit pas tre compris comme le schma physique dune base de donnes. Cest seulement la dfinition smantique dun sous-ensemble de la base de donnes possdant une forte cohrence smantique. Dans la mise en uvre du SID, le Modle Physique des Donnes sera labor en tenant compte dune part de lensemble des contextes et dautre part de la technologie et des contraintes doptimisation. Ladministrateur de la base de donnes, selon toute vraisemblance, dnormalisera les contextes et, au besoin, intgrera dans la mme structure physique des faits et des entits dimensionnelles appartenant plusieurs contextes. Mais ceci ne concerne pas lutilisateur final. La spcification du modle de donnes dun SID est une tche aussi dlicate que dcisive. Sur le terrain, elle se heurte presque toujours une difficult majeure : la quasi-impossibilit, pour lutilisateur, dexprimer a priori ses besoins. Aucun formalisme, aucun appareil mthodologique, ne saurait fournir de solution totalement satisfaisante ce problme dont la permanence tient deux phnomnes gnraux : Les utilisateurs ont de lapproche dimensionnelle une ide intuitive. Ils ont lhabitude de lutiliser sans le savoir, travers des courbes, des tableaux double entre, et autres reprsentations graphiques qui ont pour objet de faire apparatre linfluence dune combinaison de variables sur un indicateur. Certains utilisent habituellement les tableaux dynamiques que les environnements bureautiques mettent de plus en plus largement leur disposition. Mais lexpression spontane dune requte dans une forme telle quon puisse immdiatement en extraire la structure dimensionnelle est rarissime ; Le dploiement effectif des solutions est seul en mesure de faire prendre conscience aux utilisateurs des relles possibilits que leur offre le SID. La mise en service effective des outils pourvu que les structures de donnes initiales soient dj pertinentes et utiles provoque par consquent une reformulation des besoins existants et lapparition de nouveaux besoins. Il serait donc tout fait vain, et gravement compromettant pour lavenir des projets, de prtendre stabiliser un Modle Conceptuel de Donnes avant de passer la mise en uvre. La spcification dun SID est donc avant tout affaire dexcution et non de thorie. Les techniques utilises pour recueillir et structurer les requtes analyse des tableaux de bord et autres ditions existantes, entretiens dirigs ou informels font appel, comme toujours, au bon sens, la finesse et la diplomatie, qualits qui ne sapprennent dans aucun manuel. Ces remarques ne contredisent pas, toutefois, la ncessit dune dmarche parfaitement rigoureuse de modlisation. Le caractre informel du processus dexpression des besoins ne met pas en question la ncessit dune dmarche formelle de spcification. Par ailleurs, toute option en matire de modlisation de donnes comporte des limites intrinsques, et lapproche dimensionnelle nchappe pas cette rgle. Lorganisation des donnes en contextes dimensionnels cohrents est ncessaire tant pour offrir lutilisateur un rservoir dinformation lisible que pour lui assurer des temps de rponse acceptables. En contrepartie, cette approche implique un compartimentage et une structuration a priori des informations. Selon lexpression consacre, linformation dcisionnelle est oriente sujet , cest--dire conue et organise pour favoriser certaines combinaisons de donnes au dtriment de certaines autres selon un certain parti pris dont la validit est ncessairement relative. Cette dernire observation a une porte fondamentale. Elle entrane au moins deux sortes de consquences : Un mme jeu de donnes peut tre modlis de diffrentes manires, selon le sujet vers lequel on veut lorienter. Cela signifie que les modles dimensionnels de donnes sont rarement figs, et que plusieurs modles peuvent cohabiter un instant donn dans un mme projet ; Il faut imprativement distinguer les modles dimensionnels, conus selon la vision informationnelle des utilisateurs, du modle consolid, unique, de lentrept de donnes. Les premiers permettent de concevoir et de mettre en uvre les moyens de diffusion et de prsentation des informations ; le dernier est indispensable pour lintgration de lentrept de donnes.
59
Une requte au sens strict ne peut porter, par dfinition, que sur un seul contexte. Mais ceci nexclut pas la possibilit, pour une application dcisionnelle, deffectuer des requtes dans plusieurs contextes et den synthtiser les rsultats dans un mme document.
Jean-Marie Gouarn
54
Le Projet Dcisionnel
Lexistence de ces diffrentes sortes de modles de donnes est un lment essentiel de larchitecture dun SID (voir section 6.3).
Jean-Marie Gouarn
55
Le Projet Dcisionnel
Le chapitre prcdent a prsent les principes gnraux dlaboration dun MCD dimensionnel. Cependant, lapplication de ces principes ne suffit presque jamais rendre compte de la complexit des domaines danalyse rels. Au sein dun mme contexte, on peut trouver des dimensions trs diverses, non seulement dans leur contenu mais aussi dans leur structure et dans leur utilisation. En outre, une dimension peut tre affecte par des distorsions et des irrgularits. Chaque projet tant notoirement un cas particulier, il serait vain de chercher dcrire toutes les structures contextuelles imaginables. Il est cependant utile de signaler ici les particularits de structure et les cas dirrgularit quon est peu prs certain de rencontrer dans tous les projets.
60
Le mot statique signifie donc ici en rapport avec ltat et non immobile (car ltat du systme change avec le temps).
Jean-Marie Gouarn
56
Le Projet Dcisionnel
Un fait statique est un indicateur de situation ou de stock mesur ponctuellement un instant donn choisi arbitrairement une et une seule fois pour chaque priode lmentaire. Quelle que soit la dure de la priode de rfrence, un fait statique nest dtermin que pour un point de la priode. En thorie, on peut toujours reconstituer lhistoire dun indicateur statique partir de celle dun indicateur dynamique. A partir de la succession intgrale des oprations effectues sur un compte courant, on peut par exemple retrouver le solde de ce compte nimporte quel instant de son histoire. Dautre part, lintroduction dun indicateur statique dans un contexte priodique suggre un certain degr darbitraire, puisquelle semble tendre une priode entire une valeur mesure en un point de la priode, cette valeur pouvant changer tout instant. On pourrait donc considrer les indicateurs de ce type comme la fois redondants et artificiels. En pratique, les faits statiques apportent, dans certains contextes, une valeur ajoute irremplaable, pour plusieurs sortes de raisons : La reconstitution certaine dun tat partir des flux antrieurs nest possible qu condition de disposer de lhistoire complte, prcise et exacte de ces flux depuis lorigine, ce qui reprsente un contrainte rarement envisageable ; Cette reconstitution, mme si la mmoire intgrale des flux antrieurs a t conserve, implique des cots de recherche et de calcul exorbitants ; Pour certains types danalyse, les utilisateurs ne sintressent qu des chantillonnages priodiques et non aux flux correspondants, ces derniers ntant pas forcment mmoriss ; La valeur priodique dun indicateur statique nest pas forcment si arbitraire quelle parat. Linstant choisi dans la priode pour prendre la mesure peut correspondre une ralit significative. Cet instant peut tre le dbut, la fin ou tout autre point significatif unique pour la priode. Des faits statiques et dynamiques cohabitent donc souvent. Ceci contribue, comme on le prcisera plus loin, lhtrognit de comportement des faits dans les hirarchies.
61
En marge du data warehouse est apparue la notion de magasin de donnes oprationnel ou Operational Data Store (ODS). Bien que prsentant des liens de parent avec le data warehouse, lODS est dabord orient vers le contrle en temps rel ou lgrement diffr. Le temps implicite (i.e. linstant prsent) y joue un grand rle, et la dimension temporelle, si elle existe, y est rduite sa plus simple expression.
Jean-Marie Gouarn
57
Le Projet Dcisionnel
Si la dure de la priode lmentaire (cest--dire le grain temporel) tait la seule caractristique susceptible de diffrencier une dimension temporelle dune autre, on pourrait considrer toutes les dimensions chronologiques comme semblables. En ralit, il nen est rien.
Jean-Marie Gouarn
58
Le Projet Dcisionnel
Dans certaines applications, la date dun vnement peut se rduire un simple numro dordre dans une squence, sans rfrence un calendrier gnral.
Jean-Marie Gouarn
59
Le Projet Dcisionnel
Le phnomne suggr par cet exemple a une porte trs gnrale. Une vue ne peut pas tre conditionne la fois par priode et par vnement, parce quun vnement, sil existe, nest dfini que dans une seule priode. En dautres termes, une dimension vnementielle ne peut pas tre combine avec une dimension priodique dans une mme requte. La priode est fonctionnellement dpendante de lvnement. La premire rgle dintgration en forme dimensionnelle normale (p. 48) interdit par consquent de les invoquer sur deux axes dun mme contexte. Ceci permet de dire quun contexte peut tre priodique ou vnementiel, mais pas les deux la fois. Cette restriction ninterdit pas, cependant, quune entit priodique (ex : Heure, Jour ou autre) apparaisse dans un contexte comportant une entit vnementielle. Autant il est absurde de croiser un axe vnementiel avec un axe priodique, autant il est pertinent de grouper des vnements par date. Un vnement appartient une priode, donc une entit priodique peut constituer un niveau de consolidation hirarchique valable (parmi dautres) pour une dimension vnementielle. La prsence de priodes est donc rgulire dans un contexte vnementiel, mais dans la mme dimension que les vnements. Une entit Priode peut apparatre dans un contexte vnementiel, mais uniquement en tant que niveau de consolidation hirarchique, dans la mme dimension que lentit Evnement , et non dans une dimension spare. La date est en effet un critre pertinent de groupement dvnements. La manire de traiter le temps nest pas la seule consquence de lalternative priode-vnement : Les priodes ne sont pas les seules entits fonctionnellement dpendantes des vnements. Une transaction lmentaire de vente, par exemple, implique gnralement un lieu, un vendeur, un client, un moyen de paiement, une devise, etc. La nature vnementielle dun contexte a donc gnralement pour effet dintgrer sur un mme axe des informations qui, dans un contexte priodique, apparaissent sur des axes indpendants ; Certains faits peuvent navoir de sens que par priode. Le cas le plus vident est celui des compteurs dvnements qui ne peuvent tre quimplicites dans un contexte vnementiel (ainsi, dans notre dernier exemple, le nombre de ventes est une information pertinente pour un jour, mais pas pour une vente). La Figure 5-1 montre comment les informations lies une activit commerciale peuvent tre reprsentes sous la forme dun contexte priodique (partie gauche) ou dun contexte vnementiel (partie droite). Les notations littrales de ces deux contextes sont respectivement :
Activit (1) : ventes, revenu, marge, montant moyen par vente / Clientle : Client(Nom, Adresse) / Organisation : Magasin(Nom, Adresse) / Temps : Jour / Produit : Produit(Libell, Prix unitaire)
Activit (2) : ventes, revenu, marge / Oprations : Vente(Date/Heure, Magasin, Commande) - Client(Nom, Adresse) - Magasin(Nom, Adresse) - Jour / Produit : Produit(Libell, Prix unitaire)
Jean-Marie Gouarn
60
Le Projet Dcisionnel
Produit
Produit
Libell Prix
Temps Produit
Jour
Date
Produit
Libell Prix
Activit (2)
Montant Revenu Marge
Activit (1)
Montant Revenu Marge Moyenne ventes
Vente Client
Nom Adresse Heure Commande
Magasin
Nom Adresse
Magasin
Nom Adresse
Clientle
Jour Client
Nom Adresse Date
Organisation
Oprations
Il existe entre les deux contextes Activit (1) et Activit (2) une diffrence de grain, puisque le premier ne prend en considration que des cumuls par Client / Magasin / Jour / Produit, alors que le second mmorise chaque vente lmentaire. Mais il ne sagit pas seulement dune diffrence de prcision. Le premier contexte est priodique et le second vnementiel, ce qui implique une profonde diffrence de structure. Chaque opration de vente est excute une certaine date, dans un certain magasin, avec un certain client ; les entits Client, Magasin, Jour sont donc en DF de lentit Vente dans Activit (2) . Comme une Vente peut impliquer un ou plusieurs Produits, lentit Produit chappe cette DF 63 et reste donc sur un axe indpendant. En revanche, les dimensions Organisation, Clientle et Temps disparaissent, et les entits quelles supportaient se retrouvent (si elles intressent lutilisateur) dans la dimension vnementielle Oprations. Le nombre de dimensions dun contexte vnementiel en FDN est gnralement rduit, sachant que lentit vnement est la source de nombreuses dpendances fonctionnelles. En revanche, une dimension vnementielle est gnralement beaucoup plus complexe quune dimension priodique, lvnement lmentaire comportant plusieurs proprits pouvant orienter vers des chemins de consolidation diffrents. Une dimension vnementielle est donc frquemment porteuse de hirarchies multiples (cf. 4.2.2). Le caractre vnementiel dun contexte nest pas toujours facile tablir, compte tenu notamment des subtilits du vocabulaire propre chaque mtier. En phase de spcification dun SID, on voit frquemment apparatre, par exemple, des entits dates, qualifies par les utilisateurs doprations, de transactions ou autres termes voisins, qui voquent la notion dvnement. Mais le vocabulaire est parfois trompeur. Dans certains mtiers, une opration ou une transaction correspond en ralit une collection dvnements situs des dates parfois trs loignes les unes des autres. Un phnomne qualifi opration peut donc comporter un vritable cycle de vie, passer par une succession dtats mesurables et produire des flux chelonns dans le temps. Les oprations de ce type ne sont videmment pas des vnements ponctuels, et elles peuvent parfaitement tre croises avec des priodes.
63
Il existe sans doute une influence entre Vente et Produit (cf. 4.3.1 sur la distinction entre dpendance fonctionnelle et influence), mais cest peut-tre justement la mesure de cette influence qui intresse lutilisateur.
Jean-Marie Gouarn
61
Le Projet Dcisionnel
Jean-Marie Gouarn
62
Le Projet Dcisionnel
Ainsi, ce ne sont pas seulement les caractristiques propres dun vhicule qui peuvent voluer. Le vhicule peut notamment changer de conducteur, le conducteur tant, dans la base de donnes, une entit part entire ayant ses propres caractristiques. La reprsentation conceptuelle correcte de cette mobilit dimensionnelle implique deux entits, lune avec les proprits et associations permanentes, lautre avec les proprits et associations mouvantes, la premire tant logiquement connecte la seconde par une relation de cardinalit un plusieurs . En restant sur lexemple du vhicule, illustr par la Figure 5-2, on rpartira les proprits permanentes (n de srie, marque, date de mise en circulation) et les proprits mobiles (immatriculation, couleur) respectivement dans deux entits nommes par convention Vhicule(p) et Vhicule(m). Par ailleurs, cest le Vhicule(m) qui sera associ avec le Propritaire, puisque le vhicule peut aussi bien changer de propritaire que de couleur et dimmatriculation. En revanche, le Constructeur est associ au Vhicule(p), dans la mesure o on admet quun vhicule ne change pas de constructeur aprs avoir t construit.
Propritaire Constructeur
Nom Adresse
0,n
1,n
1,1
1,1
Vhicule (m)
Immatriculation Couleur Date dbut Date fin
Vhicule (p)
1,1 1,n
N de srie Marque Date mise en circ.
Ce procd est le seul permettant de conserver la trace des valeurs successives des proprits changeantes sans renoncer la forme normale du modle de donnes, pour les raisons suivantes : Une entit structure variable (par exemple une entit Vhicule possdant dans sa structure un nombre de proprits numros dimmatriculation augmentant avec le temps) nest pas envisageable (cf. section 3.4) ; La solution de la Figure 3-6, consistant ranger les proprits changeantes dans une association entre lentit de rfrence et une entit priode nest pas non plus possible dans le cadre dun contexte en Forme Dimensionnelle Normale. Le partitionnement dune entit entre une partie fixe et une partie variable permet seul, sans compliquer dmesurment le modle, de mmoriser un nombre quelconque dtats successifs dun mme objet. La structure reprsente par la Figure 5-2 permet en effet dassocier chaque occurrence ou exemplaire de lentit permanente Vhicule(p) un nombre quelconque dexemplaires de Vhicule(m) , la seconde entit comportant toutes les proprits susceptibles de changer dans le temps. Dans cet exemple, chaque fois quun vhicule change de couleur et/ou de numro, il suffit de crer une nouvelle occurrence de Vhicule(m) et de la rattacher un Vhicule(p) existant. Seul le volume de la base de donnes augmente ainsi avec le temps, mais la structure reste stable. Pour tre praticable, ce procd implique la prsence explicite de dates permettant de situer dans le temps chacun des tats successifs de lobjet. Dans la Figure 5-2, ces dates apparaissent comme des proprits supplmentaires du Vhicule(m) ; le couple date dbut date fin dlimite, pour chaque tat, sa priode de validit. Cest cette condition quon pourra savoir, par exemple, que tel vhicule, telle date, appartenait tel propritaire, tait de telle couleur et avait tel numro dimmatriculation.
Jean-Marie Gouarn
63
Le Projet Dcisionnel
Intgr dans un contexte dimensionnel normalis, un tel couple dentits correspond un lment de structure hirarchique. Chaque entit changeante tant rattache une entit permanente et une seule, la seconde peut tre considre comme un niveau de consolidation des indicateurs correspondant la premire.
Priode
Anne Mois
Propritaire
Nom Adresse
Vhicule (m)
Nb Kilomtres Nb Accidents Consommation Immatriculation Couleur
Vhicule (p)
N de srie Marque Date mise en c.
Constructeur
Raison sociale Adresse
La mise en forme dimensionnelle de notre exemple prcdent est reprsente par la Figure 5-3. Le cadre, reprsent seulement pour mmoire, indique le sous-ensemble informationnel qui aurait t group en une seule entit si on navait pas voulu mmoriser les changements dtat de chaque vhicule. Le croisement de la dimension Vhicule ainsi cre avec une dimension temporelle dtermine ici des indicateurs tels que le kilomtrage, le nombre daccidents, etc. Selon le niveau hirarchique auquel on se place, ce contexte permet, pour chaque priode, de savoir dune part quel est le nombre daccidents pour les vhicules immatriculs en Seine-Maritime et dautre part quel est le nombre daccidents pour les vhicules dune certaine marque. Le modle permet denregistrer et de restituer des informations exactes et pertinentes pour les deux sortes de requtes, mme si des vhicules ont chang de dpartement dimmatriculation au cours de la priode explore. Les proprits Date dbut et Date fin , dans le modle dimensionnel normalis, disparaissent de lentit Vhicule(m) , la chronologie tant implicitement mmorise par lassociation avec la dimension priodique. Ainsi, si un vhicule donn a t de couleur rouge de janvier 1992 octobre 1994, loccurrence de Vhicule(m) comportant une valeur Couleur=rouge naura dintersection avec lentit Priode que pour les priodes comprises entre ces deux dates. Lentit Constructeur , dans la mesure o lassociation dun vhicule un constructeur est permanente, o tout vhicule provient dun et dun seul constructeur et o tout constructeur peut avoir produit un ou plusieurs vhicules, correspond un niveau hirarchique au-dessus du Vhicule(p) . En revanche, un vhicule pouvant avoir plusieurs propritaires successifs, mais un et un seul la fois, lentit Propritaire est un niveau de consolidation pour Vhicule(m) mais non pour Vhicule(p) . Si le contexte danalyse comporte des conditions sur le propritaire et sur le constructeur, la dimension Vhicule comporte donc une hirarchie double. La mme ide sapplique notamment aux entits de type Client , trs classiques dans les applications dcisionnelles. Lorsquon dfinit une entit Client , on imagine traditionnellement un ensemble doccurrences dont chacune est un client individualis. Si lun des clients change de profession, de domicile ou dtat civil, dans une application de production, on met jour les proprits correspondantes et on oublie la valeur antrieure de ces proprits. Mais dans un contexte danalyse dimensionnelle, chacun des tats successifs de ce client est intressant, et il ny a aucune raison a priori pour que le dernier tat connu annule et remplace ltat prcdent.
Jean-Marie Gouarn
64
Le Projet Dcisionnel
Quand on parle de Client dans un modle dcisionnel, il sagit en ralit dun Client-tat (ou dun Client dans un certain tat ). Quand un client clibataire se marie, cest un nouveau client qui apparat. Ce nouveau client ne diffre de lautre que par le contenu de la proprit tat civil , mais les deux cohabitent dans la base de donnes. Si, un peu plus tard, ce nouveau client change de profession, cest une troisime occurrence qui est cre, les deux prcdentes continuant exister. Dans un contexte dimensionnel changeant, les occurrences individuelles de lentit Client ne sont pas les clients au sens courant du terme, mais les tats successifs de chacun des clients. Ces tats successifs sont parfaitement reprsentables par une entit comme Client(m) rattache hirarchiquement une entit Client(p) . Naturellement, un client ne peut pas tre clibataire et mari en mme temps. En examinant la liste des clients contenus dans la base de donnes sans tenir compte du contexte, on pourrait donc stonner de voir un Emile Martin clibataire et un autre Emile Martin mari, surtout si les deux portent le mme numro de client. Mais nous sommes prcisment dans un contexte temporel. Ces deux clients coexistent dans la base de donnes, mais pour lun deux (lEmile Martin mari) tous les faits du contexte sont nuls jusqu' une certaine date (la date du mariage), et pour lautre (lEmile Martin clibataire) tous les faits sont nuls depuis cette mme date. Une telle approche garantit par exemple quune requte centre sur le comportement des clients clibataires depuis 3 ans donnera un rsultat correct. Si, au contraire, on avait modifi la proprit Etat civil dEmile Martin sans conserver la trace de sa situation antrieure, ce client serait compt comme mari pour toute la priode, ce qui fausserait irrmdiablement toutes les analyses historiques comportant une contrainte sur cette proprit. Un changement de valeur dans une proprit dimensionnelle implique non pas une mise jour, mais la cration dune nouvelle occurrence de lentit qui contient cette proprit. Chaque entit mmorise est en ralit une entit-tat. Le temps est en quelque sorte contract de telle sorte que les tats successifs de chaque entit semblent avoir une existence simultane. Enfin, il nest pas ncessaire dintgrer, dans les entits-tats, de date de dbut ni de date de fin, la priode de validit de chacun des tats successifs tant implicitement indique par le croisement avec la dimension temporelle du contexte64. Lincorporation de dates limites explicites aurait dailleurs un effet inutilement dnormalisateur, dans un contexte comportant par ailleurs un axe temporel explicite, en crant une redondance et une dpendance fonctionnelle directe entre deux dimensions. Cette approche des dimensions changeantes peut paratre dconcertante au premier abord, compte tenu notamment de notre perception habituelle du temps. Elle revient en effet reprsenter les tats successifs dun objet comme sil sagissait de plusieurs objets. Mais elle rsulte logiquement de la ncessit de mmoriser chaque entit dimensionnelle dans tous ses tats 65. Et surtout, elle permet de conserver lhistorique dimensionnel sans aucun impact sur la structure conceptuelle des contextes, donc sans surcharger le MCD ni compliquer les interrogations. La mmorisation des tats dimensionnels nest pas sans impact, en revanche, sur les identifiants et les hirarchies.
Client (m)
Id-Client-Etat Profession Etat civil
Client (p)
Id-Client Nom Prnom
64 65
Sauf sil sagit dune forme particulire de contexte, dans laquelle le temps nest pas reprsent par une dimension ddie.
Cette problmatique des dimensions changeantes a t introduite et dveloppe par R. Kimball, The Data Warehouse Toolkit , John Wiley & Sons 1996
Jean-Marie Gouarn
65
Le Projet Dcisionnel
Dans notre exemple, lidentifiant initial du client tel quil est utilis dans les applications de production ne suffit pas. Il faut un identifiant pour chaque tat de chaque client. Cet identifiant est normalement constitu de lidentifiant dorigine (par exemple l Identifiant client , et dun code complmentaire qui peut tre un numro chronologique dtat. Si lutilisateur sintresse au comportement de lentit permanente, celle-ci peut tre considre comme un niveau hirarchique o se consolident les informations lies aux entits-tats correspondantes. Ainsi, le fait de mmoriser les tats successifs du client Emile Martin ninterdit pas de suivre ce client en tant quindividu permanent travers les ges. Lentit de consolidation reprsentant lindividu permanent nintgre que les proprits stables (ex. : code client, nom, prnom, sexe, date de naissance), les proprits pouvant voluer appartenant lentit mouvante (ex. : profession, tat civil, adresse, etc.). On peut naturellement sattendre une forte redondance de donnes dans les dimensions si chaque changement de valeur dune proprit dans une entit entrane la cration dun exemplaire complet. Mais on verra plus loin, propos des bases de donnes physiques, que limportance de cette contrainte na quun impact limit.
Jean-Marie Gouarn
66
Le Projet Dcisionnel
Un particulier peut, par exemple, avoir une commune de naissance et une commune de rsidence. Il peut naturellement dmnager un certain nombre de fois, tout en naissant une seule fois. Il existe donc, entre une Personne et une Commune , deux associations.
Naissance Personne
1,1 0,n
Commune
1,1
0,n
Rsidence
En admettant que, un instant donn, une personne nait quune seule rsidence la fois (disons une rsidence principale), on peut reprsenter cette double association selon la Figure 5-5. Mais, ds lors quil sagit dapprhender cette association dans un modle dimensionnel intgrant la fois la commune de naissance et la succession des communes de rsidence, on sexpose un risque dambigut de modlisation. Conformment au principe prsent au 5.3.1, lentit Personne va, dans le contexte dimensionnel normalis, disparatre au profit de deux entits Personne(p) et Personne(m) . Le lieu de naissance tant une proprit fixe, il est lgitime de reprsenter la Commune comme un niveau de consolidation de Personne(p) . Le lieu de rsidence pouvant changer dans le temps, il est galement lgitime de reprsenter la Commune comme un niveau de consolidation de Personne(m) . La mme entit Commune apparat alors, comme on le voit dans la Figure 5-6, deux niveaux hirarchiques la fois, et introduit une boucle, cest--dire une ambigut de cheminement, contraire la 4me rgle de normalisation dimensionnelle (cf. page 51).
...
Personne(m) Personne(m)
Commune
Pour viter cette structure hirarchique anormale, il faut exprimer le problme dans dautres termes, et se poser les questions suivantes dans lordre indiqu : Les vues impliquant des consolidations par commune de naissance et par commune de rsidence appartiennent-elles vraiment au mme contexte ? La commune (de naissance et/ou de rsidence) est-elle vraiment une entit part entire, impliquant une structure distincte de Personne ? La commune de naissance et la commune de rsidence sont-elles vraiment une seule et mme entit ? Autrement dit, invoquera-t-on les mmes attributs conditionnels dans lune et dans lautre ? Une rponse ngative la question (1) limine la difficult : il ny a plus de hirarchie cyclique puisque les deux rles hirarchiques de la commune appartiennent chacun un contexte. Si la rponse la question (2) est ngative, la solution est galement facile puisque, en ralit, la commune de naissance et la commune de rsidence disparaissent et sont remplaces par des proprits intgres respectivement dans Personne(p)
Jean-Marie Gouarn 67 Le Projet Dcisionnel
et Personne(m) . Mais au cas o (1) et (2) appellent indiscutablement des rponses positives, on nchappe pas la ncessit de reprsenter effectivement, dune manire ou dune autre, deux hirarchies comportant chacune une notion de Commune . Il faut alors se demander sil sagit bien dune seule et mme entit, autrement dit si les requtes impliquant la Commune en tant que commune de naissance et/ou en tant que commune de rsidence sont rellement susceptibles dinvoquer les mmes attributs descriptifs de la commune. Si, dans la commune de naissance, on ne sintresse pas aux mmes proprits (pour les slections et la prsentation des rsultats) que dans la commune de rsidence, et vice versa, cest quon a affaire deux structures de donnes, donc deux entits distinctes, situes sur deux voies hirarchiques distinctes. Si la rponse aux trois questions est irrductiblement positive (ce qui malgr tout arrive quelquefois), il faut alors recourir un artifice de modlisation consistant reprsenter deux entits distinctes, nommes diffremment, mme si on sait quelles contiennent les mmes donnes 66. Cet artifice est prsent par la Figure 5-7.
Commune de rsidence
...
Personne(m) Personne(p)
Commune de naissance
Les dveloppements qui viennent dtre faits sur cet exemple ont une porte trs gnrale. Nous avons dlibrment choisi, dans un but pdagogique, de prsenter travers un cas anecdotique simplifi un problme qui, en pratique, apparat souvent et sous une forme plus embrouille. Ce problme est notamment li aux structures de lentreprise et leurs fluctuations. Il est en effet trs frquent, dans une organisation, quun lment soit rattach une mme structure de groupement par plusieurs liens de natures diffrentes, certains de ces liens tant plus permanents que dautres. Dans les modles de donnes oprationnels, o le syndrome de lusine gaz nest pas gnant outre mesure, ces liens sont reprsents sans hsitation par des associations multiples. Dans un modle dimensionnel o la chasse aux boucles smantiques doit tre sans merci, ltablissement dune reprsentation correcte est une affaire plus dlicate. Llaboration dun modle de donnes simple est une affaire complexe.
Cette double reprsentation dune mme entit est conceptuelle. Elle sera reflte pour lutilisateur final dans le Modle de Prsentation. Mais elle nimplique pas, physiquement, un double chargement des donnes.
Jean-Marie Gouarn
68
Le Projet Dcisionnel
en francs, en dollars et en livres sterling ; en valeur prvue ou en valeur ralise ; selon plusieurs units de mesure ; selon plusieurs procds de mesure ; en montant absolu ou en pourcentage dune valeur de rfrence ; etc. Il sagit alors, plutt que de faits diffrents, de faits diffremment qualifis, diffremment reprsents, ou encore exprims selon des mtriques diffrentes. La plupart des indicateurs qualifis sont signals demble par le vocabulaire des utilisateurs, notamment quand plusieurs faits sont dsigns par le mme nom et ne se distinguent que par une expression ou une pithte (ex. : Revenu avant impt et Revenu aprs impt ). La qualification ou la mtrique dun indicateur peut correspondre lexpression de cet indicateur en relation avec plusieurs primtres, au sens du 5.3.2. Ainsi, dans un contexte adapt lexemple htelier de la page 66, on peut avoir plusieurs indicateurs de frquentation, correspondant chacun un certain dcoupage rgional pass ou actuel. Il est utile, sinon indispensable, de distinguer lindicateur fondamental de ses divers modes dexpression ou de reprsentation, et de ne spcifier comme faits, dans un contexte, que les indicateurs vritablement distincts. En effet, La dtermination explicite des faits et des qualifications est un excellent moyen daffiner la dfinition des faits concerns et de prvenir tout malentendu entre lutilisateur et le concepteur du systme ; La prsentation en tant que fait de chaque qualification de fait a pour consquence pratique de multiplier exagrment le nombre de faits, au dtriment de la simplicit de lecture du contexte. La liste des mtriques volue gnralement plus vite que les indicateurs fondamentaux eux-mmes, do lintrt dune description spare des qualifications. Pour dissocier les qualifications des faits tout en conservant la structure en FDN dun contexte, on peut reprsenter les qualifications sous une forme dimensionnelle. En dautres termes, un fait qualifi peut tre not une seule fois en tant que fait, toutes ses qualifications possibles tant dfinies par des dimensions supplmentaires dun type particulier, pouvant se combiner avec les autres dimensions du contexte. Il sagit l de dimensions qualificatives (DQ). Pour chaque requte, une dimension qualificative agit comme un slecteur permettant lutilisateur de choisir un mode dexpression des rsultats parmi une liste de modes dexpression.
Jean-Marie Gouarn
69
Le Projet Dcisionnel
FRF USD DM Y
Prvu Ralis
Devise
Dfinition budgtaire
Produit
Temps
Jour
Produit
Libell Prix
Activit
Montant ventes Revenu Marge Moyenne vente
Magasin
Nom Adresse
Client
Nom Adresse
Organisation
Clientle
La Figure 5-8 est le graphe dun contexte quatre dimensions conditionnelles auxquelles sajoutent deux dimensions qualificatives. Lune dfinit la liste des devises dans lesquelles les faits peuvent tre valus, lautre la dfinition budgtaire. A titre dexemples, la figure indique une liste de valeurs possibles pour chaque qualification. Si, dans le mme contexte, on avait numr en tant que faits toutes les combinaisons possibles, on aurait au total 32 faits (442) dans la structure. La convention prsente ici pour spcifier les indicateurs qualifis ne doit pas faire oublier que les qualifications ne sont pas des dimensions au plein sens du terme. Elles sen distinguent au moins de deux manires : Dans une mme requte, plusieurs occurrences dune qualification peuvent tre spcifies. Cela signifie que les rsultats sont produire simultanment sous plusieurs formes. Plusieurs occurrences dune qualification correspondent par exemple plusieurs colonnes dans un tableau de bord ; La notion de hirarchie na videmment pas de sens dans les dimensions qualificatives. Il serait techniquement possible de rduire la liste des faits de nimporte quel contexte un seul lment, quon appellerait par exemple lindicateur , et quon assortirait des qualifications les plus htroclites. Selon la qualification, un mme indicateur reprsenterait ainsi leffectif de lentreprise, lge du Directeur Gnral ou le bnfice aprs impt. Un contexte modlis selon ce principe, si sduisant quil soit pour le technicien, serait cependant trs loign de la vision informationnelle de lutilisateur. Il est donc indispensable de sappuyer sur des critres rigoureux pour dcider si deux indicateurs apparents correspondent deux faits distincts ou deux qualifications dun fait unique. Ainsi, on considrera toujours comme distincts et indpendants deux indicateurs qui ne sont pas reconnus par les utilisateurs comme reprsentant deux apprciations dune mme grandeur et entre lesquels il nexiste pas de dpendance fonctionnelle connue.
Jean-Marie Gouarn
70
Le Projet Dcisionnel
67
Jean-Marie Gouarn
71
Le Projet Dcisionnel
6. Architecture gnrale
Le Modle Conceptuel des Donnes, dont la problmatique est prsente aux chapitres 3 et 4, est une reprsentation de lobjectif assign au Systme dInformation Dcisionnel. La qualit de cette reprsentation est le premier de tous les facteurs de succs. Mais, en termes de complexit et de cot de mise en uvre, cest larchitecture technique de lentrept de donnes et de tout ce qui gravite autour de lui qui constitue la charge principale de dveloppement et dexploitation du SID. Entre lenvironnement de requte et de prsentation offrant lutilisateur une information conditionne selon son propre point de vue, dune part, et les sources de cette information (principalement les chanes de production, ventuellement compltes par des apports externes) dautre part, il existe une double distance : les donnes sources ne sont ni smantiquement cohrentes, ni synchrones, ni lies entre elles dune manire adapte la perspective dcisionnelle (cf. chapitre 2) ; les environnements gnralement htrognes do proviennent ces donnes sont conus et organiss autour de technologies (anciennes ou rcentes) qui se prtent mal limplmentation directe dapplications dcisionnelles avances. Dautre part, le SID se doit, par rapport au SIO, dadopter un profil bas. Pour la production quotidienne, le dploiement du data warehouse doit tre aussi neutre que possible. Mme si le SID est, terme, un instrument privilgi du changement dans lorganisation, il ne doit pas simposer demble comme une source de contraintes techniques immdiates pour les applications existantes. De mme, les utilisateurs du SID ne doivent pas subir directement les contraintes dexploitation lies la production. Larchitecture du systme doit donc assurer la fois le conditionnement informationnel des donnes en provenance de la production et le cloisonnement entre lenvironnement oprationnel et lenvironnement dcisionnel. Les outils, les modalits dagencement des composants, les performances requises, peuvent varier linfini, selon la taille et le contenu des projets. Mais, quels que soient les volumes traits, les performances requises et les primtres concerns, la chane de mise disposition des donnes implique quatre fonctions 68 fondamentales : collecte ; intgration ;
68
Dans la littrature informatique, quand il sagit de dcomposer quoi que ce soit dans quelque domaine que ce soit, il est de bon ton de trouver un nombre dlments gal 3, 7 ou 12. Nous prions le lecteur de nous pardonner davoir, une fois de plus, manqu cet usage.
Jean-Marie Gouarn
72
Le Projet Dcisionnel
diffusion ; prsentation. Mme si chaque projet prsente des aspects irrductiblement spcifiques, ces quatre fonctions sont toujours prsentes dans un Systme dInformation Dcisionnel. Leur existence implique certaines constantes dans les architectures. En outre, cest toujours par rfrence lune ou lautre de ces fonctions de base que chaque composant doit sinsrer dans le systme. La fonction de collecte est celle qui assure lapprovisionnement du SID en donnes primaires puises dans le SIO et subsidiairement lextrieur ; La fonction dintgration assure la cohrence globale, au moins lchelle dun domaine, des donnes captures, et leur mise disposition en un point unique, conformment un modle unifi et normalis ; La fonction de diffusion puise les donnes dans lentrept central produit et maintenu par la fonction dintgration, et les met la disposition des applications, sous une forme dimensionnelle, contexte par contexte ; La fonction de prsentation gre, au moyen de services logiciels plus ou moins labors et plus ou moins dterministes, laccs de lutilisateur final aux donnes organises par la fonction de diffusion. Lidentification de ces fonctions primaires permet de sappuyer sur un cadre de rfrence de porte gnrale et daborder le choix et lintgration des outils sur des bases plus sres. Il serait toutefois excessivement simpliste et contraignant de dduire de linventaire de ces quatre fonctions lexistence obligatoire dautant de dispositifs techniques (matriels et logiciels) distincts. En fait, il ny a jamais de concidence prcise entre les organes physiques et les fonctions. Avant dexaminer plus prcisment le contenu et lagencement de ces services, il est utile de faire linventaire des architectures intermdiaires ou dgrades qui, sans correspondre de vritables SID, sont souvent mises en uvre pour produire des tableaux de bord et autres prsentations informationnelles de donnes.
Jean-Marie Gouarn
73
Le Projet Dcisionnel
Les contraintes de lexploitation quotidienne prvalent sur les besoins dcisionnels. Lexistence de modules informationnels dans les applications de production, quelle que soit son utilit par ailleurs, ne peut donc rendre un service comparable celui dun SID. Compte tenu des structures budgtaires et mentales dans lesquelles sexerce lactivit informatique, il est beaucoup plus facile dajouter une extension informationnelle une application de production que de prendre linitiative dun data warehouse. Les cots des extensions de ce type ne sont jamais mesurs de faon continue et globale. Pourtant, sur une longue priode, sils apparaissaient consolids sur une ligne comptable, ils contribueraient sans doute relativiser le poids des investissements imputables aux SID ! A ces cots et contraintes directs sajoutent des effets drivs. A partir des ditions htroclites qui leur parviennent, les utilisateurs ont frquemment tendance utiliser des moyens de fortune (tels que des applications personnelles dveloppes laide de tableurs ou de gestionnaires de bases de donnes portatives ) pour obtenir des vues plus informationnelles sur les donnes. Ces outils danalyse parpills, aliments gnralement par des saisies manuelles redondantes, reprsentent des cots impossibles chiffrer. Leur dveloppement et leur utilisation impliquent notamment que les stratges et les analystes dpensent une plus ou moins grande part de leur nergie faire autre chose que leur mtier. Ce type darchitecture, en tout cas, correspond ce quil faut bien considrer comme le niveau zro de linformation dcisionnelle.
Source 1
S ource 2
Source 3
Cette configuration rpond sans doute lun des objectifs dun SID, dans la mesure o elle est thoriquement capable de traiter des requtes non prdtermines. Mais elle laisse subsister les barrires les plus fondamentales. Elle ne lve quun obstacle purement technique, celui de la connexion de lutilisateur aux sources de donnes. Les donnes restent ce quelles sont : htrognes et incohrentes. Loutil de prsentation nest jamais quun extracteur de donnes partir desquelles la vision du contexte informationnel est construire. Ce type denvironnement prsente en outre linconvnient majeur dtre entirement soumis aux contraintes de la production courante. Face aux bases de donnes actives, les transactions de production sont ncessairement prioritaires. Le traitement des requtes dcisionnelles seffectue donc dans le cadre de rgles dexploitation classiques, o les notions de file dattente et de tranche horaire lemportent sur celles dinteractivit et de temps de rponse.
Jean-Marie Gouarn
74
Le Projet Dcisionnel
Inte rface de Re te qu
Colle cte
S rce ou 1
S rce ou 2
S rce ou 3
Cette libration est cependant toute relative : Faute dun vritable outil dintgration, les donnes provenant des diffrentes sources sont simplement juxtaposes. Aucun modle de donnes consolid nest mis en uvre. Lunification est seulement physique ; elle nest pas ralise au niveau conceptuel. Lutilisateur ne peut trouver, dans cet entrept, que des bribes de modles de donnes htrognes et gnralement peu documentes. Si son domaine danalyse dpasse le primtre dune des sources, cest lui de naviguer, sous sa responsabilit et ventuellement sans boussole, dans le flot des donnes disponibles. Lutilisateur est souvent amen choisir entre labandon dune tche danalyse trop complique et lappel lquipe informatique, avec toutes les contraintes et les frustrations que suppose une telle alternative ; Les donnes brutes tant dans la plupart des cas inexploitables, lentrept est aliment, au moins en partie, par des procdures dextraction qui oprent un certain travail de transformation et de mise en forme. Ces mcanismes dalimentation sont gnralement dvelopps sur la base de besoins exprims diffrentes poques par diffrents utilisateurs, sans coordination densemble. Certains dentre eux ne font dailleurs que rpliquer dans des structures diffrentes des donnes dj charges par dautres. Il en rsulte une croissance simultane de la redondance et du dsordre, do une difficult croissante maintenir ce genre de systme ;
69
Le concept dinformation center est apparu aux Etats-Unis au dbut des annes 80. Selon certaines dfinitions, linfocentre se distingue du SID non seulement par son architecture logique (une seule base de donnes, pas de vision informationnelle unifie) mais aussi par sa volatilit (reprsentation de donnes actuelles sans conservation dhistorique). En ralit, linfocentre na jamais eu de dfinition stable et unanimement reconnue.
Jean-Marie Gouarn
75
Le Projet Dcisionnel
En labsence de service de diffusion, toutes les requtes agissent directement sur lentrept central de donnes, lequel doit par ailleurs tre priodiquement recharg. Il y a l, par consquent, un point de contention qui peut faire rapparatre les files dattente et faire obstacle un usage intensif de linfocentre.
Inte rface de Re te qu
Int gration
Colle cte
S rce ou 1
S rce ou 2
S rce ou 3
Il serait dangereux de croire que la seule combinaison dune base de donnes relationnelle et dun outil de requte produise delle-mme un infocentre intgr. Lintgration implique, en aval de la collecte, une activit de transformation (parfois profonde) des donnes captes, et cette activit ne peut tre spcifie que sur la base dun Modle Conceptuel de Donnes. Linfocentre intgr suppose donc une vritable dmarche de gnie logiciel et se distingue en cela des systmes aliments par des extractions la demande. Le gain pour lutilisateur, en matire de lisibilit des informations, est sensible par rapport larchitecture prcdente. Dautre part, lexistence dun modle de donnes densemble est cense viter le dveloppement non planifi de nouvelles procdures dextraction indpendantes les unes des autres.
Jean-Marie Gouarn
76
Le Projet Dcisionnel
Ce modle de donnes, toutefois, ne correspond pas directement la vision dcisionnelle. Dans la pratique, mme si le modle est irrprochablement normalis (ce qui nest pas toujours le cas), il sagit presque toujours dun modle de type oprationnel au sens o on la prsent dans la section 3.4. Ceci sexplique naturellement en partie par la tendance gnrale des administrateurs de donnes normaliser selon les mthodes quils ont apprises (et donc en sinspirant exclusivement de la 3 me Forme Normale). Cette tendance est dailleurs encourage par les diteurs de logiciels de prsentation, qui proclament souvent que les vues dcisionnelles, dans un infocentre, sont du ressort exclusif de leurs produits. Mais cette explication culturelle sen ajoute une autre, plus technique : labsence de distinction entre la fonction dintgration et la fonction de diffusion. Il est en effet difficile de concilier, dans un mme modle de donnes, un objectif dunification de sources oprationnelles avec une approche base de contextes dimensionnels (cf. 6.3). Enfin, comme dans le modle prcdent, les requtes dcisionnelles mettent directement contribution la base de donnes intgre, et sont donc tributaires du mme type de contraintes dexploitation.
Source 1
Source 2
Source 3
Lorganisation en couches, popularise initialement dans le monde des transmissions de donnes 70, a le mrite de sappliquer avantageusement tous les dispositifs techniques destins mettre en relation des
70
Notamment dans le modle dinterconnexion des systmes ouverts de lISO qui, entre autres qualits, possde 7 couches, et respecte donc lusage indiqu dans la note 72.
Jean-Marie Gouarn
77
Le Projet Dcisionnel
environnements htrognes. Elle permet notamment de limiter linterdpendance entre les fonctions, et de mieux matriser la complexit des protocoles et des interfaces. Pour ce qui concerne le SID, elle permet notamment de concevoir les fonctions de diffusion et de prsentation indpendamment des fonctions de collecte et dintgration, et dassurer un maximum disolation entre lutilisateur et les sources de donnes. Cela dit, il nest pas absolument indispensable que les quatre fonctions du SID, telles que nous les avons dfinies, concident prcisment avec quatre couches techniques. Quels que soient le nombre de composants logiques et physiques effectivement mis en uvre et les technologies employes, il convient essentiellement de distinguer dans le SID deux dispositifs distincts : le Systme de Collecte et dIntgration (SCI) ; le Systme de Diffusion et de Prsentation (SDP). Chacun de ces deux sous-ensemble gre comme son nom lindique deux des quatre fonctions vitales que nous avons identifies. Ce dcoupage fondamental est li la cohabitation, dans le systme, de modles de donnes diffrents, de contraintes de fonctionnement diffrentes et des liens dinterdpendance entre les fonctions.
Jean-Marie Gouarn
78
Le Projet Dcisionnel
Modle de Prsentation
Modle de Diffusion
Modle d'Intgration
Le Modle Conceptuel de Donnes qui spcifie et caractrise un domaine danalyse du SID, tel quil est dfini au chapitre 4, correspond au Modle de Diffusion. Ce dernier reprsente en effet la structure dimensionnelle ventuellement multiforme sil existe une pluralit de domaines et de contextes selon laquelle les donnes doivent tre mises la disposition des applications dcisionnelles. Cette structure, naturellement, ne correspond pas au schma selon lequel les donnes sont manipules par le Systme dInformation Oprationnel. De l dcoule la ncessit de distinguer Modle dIntgration et Modle de Diffusion. Pendant et/ou aprs leur concentration physique par la fonction de collecte, les donnes sources sont filtres, transformes et unifies conformment un modle normalis que nous dsignons comme le Modle dIntgration. Ce dernier est le modle conceptuel dune base de donnes logiquement et physiquement cohrente, mais dont la structure reflte les oprations. En effet, la fonction du Modle dIntgration est dunifier les donnes oprationnelles, et non de les structurer en contextes danalyse dcisionnelle. Le MI est le modle conceptuel de toutes les donnes du SID ; lchelle dun projet, il est unique et complet. La dfinition du Modle dIntgration implique une approche mthodologique classique, fonde sur le paradigme entit-association et comportant, notamment, le respect des principes de normalisation appropris aux modles de donnes oprationnels. Le MI est la description smantique complte de lentrept de donnes proprement dit. Il se distingue en cela du MD. Ce dernier, orient vers lutilisateur dcisionnel, peut tre compartiment en domaines distincts et ventuellement disjoints. Chacun de ces domaines peut correspondre une base de donnes particulire alimente partir du data warehouse mais physiquement distincte. Le MD, entendons-nous bien, nest pas seulement un MI en pices dtaches. Le dcoupage du MD en sous-ensembles logiques dcoule de sa construction partir de vues dimensionnelles multiples, et non dun partitionnement technique du MI. Le MD reprsente lensemble des perspectives spcifiquement recherches sur linformation contenue dans lentrept de donnes. Pour employer un terme aussi populaire que mal dfini dans la littrature informatique, on peut parfois concevoir le MD comme le modle conceptuel dune grappe de data marts (magasins de donnes) gravitant autour dun data warehouse. Mais cette assimilation nest acceptable quavec rserve. Le concept de data
Jean-Marie Gouarn
79
Le Projet Dcisionnel
mart voque sans grande prcision une base de donnes dcisionnelle de volume modeste 71. Pour certains, il ne semble y avoir entre data warehouse et data mart quune diffrence dchelle. Or un Modle de Diffusion peut parfaitement tre implment dans une base de donnes unique au moins aussi charge que la base dintgration72. De la boutique au supermarch, les magasins, comme les entrepts, peuvent tre petits ou grands. La distinction intgration-diffusion a t mise en vidence, de faon beaucoup plus pertinente, travers les notions de Business Data Warehouse (BDW) et de Business Information Warehouse (BIW)73. Ces deux concepts relvent dune approche mthodologique qui a le double mrite de distinguer donne et information et den tirer des conclusions prcises en termes darchitecture. La sparation logique (et, si possible, technique) entre le Modle dIntgration et le Modle de Diffusion est une ncessit confirme par lexprience et sur laquelle nous croyons devoir insister. Le Modle dIntgration nest autre, sur le plan conceptuel, quune reprsentation consolide et pure des sources de donnes intressant le SID. A la limite, si la source tait une application oprationnelle unique ayant t conue selon une approche mthodologique impeccable, le Modle dIntgration serait le modle de donnes de cette application, transform de manire rendre compte de lhistorique. En pratique, llaboration du MI est une uvre de rtro-conception qui prend en entre des schmas de donnes htrognes et produit en sortie un schma de donnes unique normalis. La normalisation signifie ici notamment llimination des redondances et lunification du vocabulaire. Lunification concerne aussi bien la dsignation des entits et des proprits que la codification du contenu. Les structures de donnes apparaissant dans le Modle dIntgration doivent tre reprsentes dans leur contexte oprationnel, cest--dire agences les unes par rapport aux autres selon leurs situations respectives dans les processus de production. En effet, mme sil navait pas dautre objectif, le Modle dIntgration, sil tait exhaustif lchelle de lentreprise, serait une reprsentation intermdiaire indispensable pour dcrire lusage de chaque donne dans lorganisation. La connaissance de lusage exact des donnes et de leurs dpendances fonctionnelles dans le SIO est en effet un pralable son insertion dans un contexte dimensionnel du SID. Par consquent, les principes de construction du MI sont les mmes que ceux qui sappliquent aux Modles Conceptuels de Donnes oprationnels (cf. section 3.4). Le Modle dIntgration est donc dabord un MCD en 3me Forme Normale. Un tel Modle dIntgration pourrait tre considr comme un simple document intermdiaire de spcification et navoir dexistence que sur le papier. Mais ce choix, loin de simplifier larchitecture, imposerait des contraintes de conception et de fonctionnement trs lourdes dans le SID. La structure des contextes dcisionnels est trs loigne des structures de donnes traites par les applications oprationnelles. Dautre part, les traitements lis la collecte sont dj gnralement trs lourds. Si lintgration devait tre directement effectue dans la base de donnes de diffusion, il faudrait, dans les mmes chanes de traitement, raliser la fois lintgration et la redistribution des donnes sous forme de contextes dimensionnels. Un tel choix darchitecture serait trs pnalisant en termes de performances, compte tenu de la complexit de ces diffrents traitements. Mais les raisons essentielles de la distinction entre base dintgration et base(s) de diffusion sont dun autre ordre : Les besoins des utilisateurs du SID voluent plus vite que les applications du SIO. Les contextes dimensionnels qui constituent lessence du Modle de Diffusion reprsentent chacun un parti pris danalyse valable un moment particulier. Or, terme, les points de vue changent et se multiplient. A loppos, le Modle dIntgration prsente, au moins en courte priode, une structure invariante. Son volution suit celle des applications de production sur lesquelles il sappuie ; elle est donc beaucoup plus
71
Certains prfrent au data mart la notion, plus significative, de base de donnes thmatique. Mais pour dautres, le data mart semble ntre quun petit data warehouse, ce qui reflte indirectement un dfaut de distinction claire entre les diffrents organes dun SID.
72
Une base de diffusion peut tre physiquement plus volumineuse que la base dintgration qui lalimente, compte tenu des techniques employes pour rduire les temps de traitement des requtes (cumuls pr-calculs, donnes redondantes, index, etc).
73
Ces notions, introduites par IBM, sont prsentes de manire prcise dans louvrage de B. Devlin, Data Warehouse, from Architecture to Implementation , Addison-Wesley 1996.
Jean-Marie Gouarn
80
Le Projet Dcisionnel
lente que celle des applications dcisionnelles. Le MI est donc llment de rfrence le plus stable du SID ; Le Systme de Collecte et dIntgration synchronise des donnes qui, dans le SIO, ne sont pas jour les unes par rapport aux autres (cf. 3.5.3) et, pour sapprovisionner, doit sadapter aux contraintes dexploitation de chacune de ses sources. En revanche, compte tenu des objectifs du SID, la base de donnes de diffusion est obligatoirement dans un tat cohrent tant quelle est ouverte aux consultations. Si la base dintgration et la base de diffusion sont physiquement confondues, ladministration des mises jour est ncessairement plus dlicate ; Les outils et techniques les mieux adapts au traitement des consultations complexes sur des contextes dimensionnels ne sont pas les plus efficaces pour la collecte et lintgration des donnes partir de sources htrognes. Pour ce qui concerne plus particulirement les Systmes de Gestion de Bases de Donnes (SGBD), il convient dutiliser la technologie la mieux approprie chaque fonction, ce qui implique une sparation physique entre bases dintgration et bases de diffusion. Les modles dintgration et de diffusion doivent donc non seulement tre distingus conceptuellement mais encore tre mis en uvre sparment sous forme de bases de donnes distinctes. Lentrept de donnes nest pas lentrept dinformations. Le Modle de Prsentation, lui, nest pas un lment profondment structurant du SID. Il en constitue en quelque sorte le dcor. Toutefois, lutilisateur final lui attribue habituellement la primeur, puisque ce nest qu travers lui quil voit les donnes. En termes darchitecture, le Modle de Prsentation nest quun masque plus ou moins transparent qui recouvre, pour lutilisateur, le Modle de Diffusion. Ce dernier est une reprsentation interne de la vision informationnelle. Un utilisateur final ne raisonne pas en termes de dimensions changeantes, de contextes qualifis et dindicateurs semi-additifs. Il matrise encore moins les langages dinterrogation des SGBD (relationnels ou matriciels) qui contrlent le Modle de Diffusion. Laccs au MD ncessite donc une interface homme-machine, elle-mme dtermine sur la base dun Modle de Prsentation. Le MP, comme le MI, doit tre distingu du MD diffrents gards : Le MP est en ralit multiforme : avec la varit des outils de prsentation actuels et la libert quils laissent lutilisateur, on peut associer une grande varit de cadres de prsentation une mme structure de diffusion ; La structure dun MP (et sa modification ventuelle) nest pas critique pour le data warehouse. A la limite, un utilisateur averti peut crer ou dtruire des Modles de Prsentation personnels sans consquence pour les autres utilisateurs ; Dans les environnements client-serveur les plus gnralement utiliss aujourdhui et sans doute dans lavenir moyen terme pour les projets dcisionnels le MP est normalement mis en uvre sur le poste de travail de lutilisateur (client) tandis que le MD est plutt implment sur un serveur de donnes74. En pratique, un Modle de Prsentation peut tre ouvert ou ferm. Dans un MP ouvert, lutilisateur dispose dune vue gnrale du MD, contexte par contexte, et peut librement composer ses propres requtes. A loppos, un MP ferm prsente un catalogue de requtes prdfinies, que lutilisateur peut seulement paramtrer. Entre les deux, il existe une gradation infinie de possibilits de compromis entre libert et facilit dutilisation. Les Modles de Prsentation sont physiquement grs par des outils trs dissemblables (requteur, tableur, SIAD75, etc.) provenant de nombreux fournisseurs dont les vocabulaires sont fortement htrognes. Une typologie de ces produits est propose au chapitre 8. Concernant le rle du MP dans larchitecture du SID, un pige classique mrite dtre signal ici. La publicit dveloppe autour des outils de prsentation et le fait que ces outils soient associs la partie merge du SID tendent entretenir une certaine confusion, auprs du concepteur naf, sur le rle du Modle de Prsentation, en lui attribuant, de fait, celui du Modle de Diffusion. En dautres termes, on imagine parfois que les outils de prsentation produisent eux seuls des vues dcisionnelles sur des bases de
74 75
La distinction est cependant plus subtile dans une architecture dhypertexte distribu (Web). Systme Interactif dAide la Dcision
Jean-Marie Gouarn
81
Le Projet Dcisionnel
donnes oprationnelles. Ceci revient ignorer les aspects les plus dlicats et les plus dcisifs de lentrept de donnes. Le Modle de Prsentation a pour vocation de dispenser lutilisateur de toute manipulation technique directe sur une base de donnes et de lui offrir un accs ergonomique des vues adaptes son mtier. Ces vues doivent cependant sinscrire dans des contextes pralablement spcifis et mis en uvre dans un Modle de Diffusion : le MP est un complment du MD. Le placage direct dun Modle de Prsentation sur un Modle dIntgration (non organis pour les requtes multidimensionnelles) correspond prcisment larchitecture dinfocentre intgr (voir Figure 6-3) dont on a prsent les limites. En matire daccs physique aux donnes, il comporte en outre deux sortes dinconvnients : Plus le schma de la base de donnes est loign de la structure dimensionnelle de chaque contexte, plus leffort dlaboration du MP est important. Or, dans ltat actuel des outils, et toutes choses gales par ailleurs, le cot de dveloppement dun MP sur une structure de donnes interne inadapte savre, daprs nos observations, la fois considrable et imprvisible ; Les requtes adresses par lutilisateur via le MP sont dynamiquement traduites par des requtes la base de donnes. Si le modle interne de cette base est un schma relationnel dans lequel les informations dun mme contexte sont disperses dans un grand nombre de tables et si les agrgats les plus usuels ne sont pas prcalculs, loutil de prsentation doit laborer une stratgie lourde et soumettre au SGBD des enchanements de requtes faisant appel des jointures complexes. Une requte mettant en jeu trois six tables dans un schma dimensionnel appropri peut parfaitement faire appel dix, quinze ou vingt tables dans un schma classique de type oprationnel. Les temps de rponse peuvent alors devenir intolrables, et les incidents frquents. Lapparente facilit de manipulation et la richesse graphique des outils de requte, ainsi que leur aptitude masquer, pour lutilisateur final, les aspects techniques de la ngociation avec les bases de donnes, ne doivent donc pas faire illusion. Le MP, la diffrence des deux autres modles de larchitecture, nest pas associ une capacit de stockage significative 76. Il nest quun support du dialogue entre lutilisateur et la base de donnes, et son rle nest pas de combler la distance structurelle qui existe entre un modle de donnes oprationnel et un modle de donnes dcisionnel. On voit couramment, dans la pratique, des quipes de conception aborder la construction dune application dcisionnelle par le choix dun outil interactif de requte et de visualisation, et par llaboration de Modles de Prsentation dfinis en fonction des possibilits et des limites de cet outil. Limportance du modle dimensionnel interne, cest--dire du Modle de Diffusion, est alors ignore : on compte sur les astuces de loutil de prsentation pour sadapter un schma de base de donnes quelconque. On se heurte alors, invitablement, des problmes de performances auxquels on fait face en dnormalisant la structure de la base de manire optimiser la prise en charge des requtes connues. Cette dmarche est praticable tant quil ne sagit que de produire des tableaux de bord prdfinis. Elle est bannir sans compromis dans un vritable SID volutif, sachant notamment que : chacune des optimisations successives (faites au coup par coup et sans ide de Modle de Diffusion) a pour effet daugmenter la complexit de la base de donnes dont la maintenance, terme, devient de plus en plus difficile ; plus le schma de la base de donnes est complexe et loign de lide de contexte dimensionnel normalis, plus le dveloppement et la maintenance des Modles de Prsentation sont coteux ; la base de donnes dintgration doit, en priorit, tre rafrachie selon des contraintes dexploitation qui peuvent entrer en conflit avec la stratgie doptimisation des requtes. Lagencement des trois modles de donnes du SID sinscrit parfaitement dans larchitecture de rfrence prsente la section 6.2, sachant que : le Modle de Prsentation ne se conoit pas indpendamment du Modle de Diffusion ;
76
Certains outils de prsentation sont aujourdhui capables de mmoriser des extraits de bases de donnes, sous forme dimensionnelle. Ce procd (par ailleurs trs limit en volume) quivaut en fait dporter un sous-ensemble du Modle de Diffusion.
Jean-Marie Gouarn
82
Le Projet Dcisionnel
les procdures dacquisition des donnes sources dpendent du Modle dIntgration, mais non du Modle de Diffusion ; le Modle dIntgration et le Modle de Diffusion, mme si le second dpend du premier pour son alimentation, correspondent des bases de donnes logiquement distinctes ; les applications dcisionnelles utilisant les Modles de Diffusion et de Prsentation sont asynchrones par rapport aux mcanismes dacquisition des donnes. Il existe donc une ligne de dmarcation assez claire entre, dune part, le SCI, dont la fonction est dalimenter et de maintenir un Modle dIntgration et, dautre part, le SDP charg de la distribution et de la prsentation des donnes dans un format dcisionnel. Que le choix des produits soit arrt lavance sur la base de critres commerciaux et politiques, ou motiv par des critres techniques un stade avanc des projets, il importe que chaque outil soit valu et mis en uvre selon sa place dans cette architecture.
Jean-Marie Gouarn
83
Le Projet Dcisionnel
7. Alimentation
Comme nous lavons dit et rpt, la modlisation des donnes est llment central de la dfinition dun SID. On ne saurait toutefois dduire de cette affirmation que le SID ne comporte que des donnes et soppose en cela au SIO qui comporte des donnes et des traitements. La distinction est en ralit dune autre nature : dans le SIO, les traitements sont apparents pour lutilisateur et sappuient sur un modle de donnes masqu, alors que, dans le SID, lutilisateur voit un modle de donnes aliment par des traitements invisibles. Lessentiel des traitements, dans un SID, se rapporte aux fonctions de collecte et dintgration. Le Systme de Collecte et dIntgration (SCI) est le sous-ensemble le plus complexe dun SID. Sa construction et son exploitation comportent le plus grand nombre dincertitudes techniques. Cest aussi le socle sur lequel repose tout le systme : la base dintgration nest autre, en effet, que lentrept de donnes proprement dit, cest--dire la rfrence commune pour toutes les applications du Systme de Diffusion et de Prsentation. La nature, le nombre, lhtrognit des sources de donnes possibles sont tels que chaque projet, aujourdhui, est un cas particulier, et donc que larchitecture dalimentation doit tre chaque fois rinvente. Lexprience nous dmontrant chaque jour quaucune recette nest gnralisable, nous ne cherchons pas dans ce chapitre en inventer une. Lobjectif est plutt ici dattirer lattention sur les diffrents aspects dune complexit trop souvent sous-estime. Il nest presque jamais possible denvisager une recherche de la solution optimale par exprimentations successives, compte tenu du cot et des dlais de dploiement dune architecture dalimentation complte. Le prototypage, qui est le seul moyen de validation efficace des Modles de Diffusion et de Prsentation, nest donc pas toujours praticable pour ce qui concerne la partie amont du systme. Le droit lerreur et au ttonnement tant restreint, les surprises sont toujours possibles jusqu un stade avanc des projets. La mise en uvre dun SID ne doit pas perturber lactivit oprationnelle. Cela signifie que le SCI doit tre conu en vue dun impact minimal sur les applications de production. Mais en outre, tout en respectant cette contrainte, le SCI doit tre mme dassurer une priodicit de rafrachissement des donnes en rapport avec les exigences des applications du SDP. Comme on la vu, le SCI assure deux fonctions : la capture slective (collecte) et la mise en conformit un modle (intgration). Ces deux fonctions, toutefois, ne correspondent pas ncessairement des tapes de traitement ou des organes techniques distincts. Une mme procdure, un mme outil, peuvent assurer simultanment une activit de collecte et une activit de transformation contribuant lobjectif dintgration. La distinction entre collecte et intgration est donc plus logique que technique.
Jean-Marie Gouarn
84
Le Projet Dcisionnel
Enfin, bien quil constitue la partie la plus stable du SID, le SCI est nanmoins appel voluer beaucoup plus rapidement quune chane de gestion classique. Cette volution est dabord une simple extension de capacit, lie la croissance inluctable de lentrept de donnes. Elle est aussi qualitative, sachant que toute modification intervenant soit dans la structure des sources de donnes, soit dans celle des applications dcisionnelles, peut avoir un impact sur lentrept et sur les traitements dalimentation. Lvolutivit de la plate-forme est donc, plus encore que sa puissance, un critre de choix impratif.
77
Les fonctions du SCI, malgr cette analogie, ne doivent pas tre confondues avec les applications dites de data mining.
Jean-Marie Gouarn
85
Le Projet Dcisionnel
De tels phnomnes sont des facteurs dambigut considrables. Ainsi, une entit dsigne comme un Client dans une application peut aussi bien tre nomme Compte dans une autre et Dossier dans une troisime. Deux grandeurs mesurant des ralits diffrentes peuvent sappeler Chiffre daffaire . Ce problme de vocabulaire est assez classique et se rencontre galement dans tous les grands projets en rapport avec les systmes oprationnels. Il prend cependant ici une importance dautant plus grande que les sources sont des applications spcifies et conues des poques diffrentes, par des quipes diffrentes et au service de mtiers diffrents78. En outre, il est souvent difficile dobtenir la dfinition exacte et prcise de chaque donne dans une application existante. Force est de constater que les prceptes les plus fondamentaux du gnie logiciel, notamment en matire de dictionnaires de donnes, sont rarement mis en uvre. Le concepteur du data warehouse ne peut jamais compter sur la disponibilit de glossaires prcis et exhaustifs. Ce nest donc gnralement quau prix dune enqute systmatique quil peut tablir, dune part, la dfinition des donnes dcisionnelles recherches, et dautre part la liste des donnes oprationnelles ncessaires. Au-del de la normalisation du vocabulaire, qui pse surtout sur les phases dtude et de spcification, se pose le problme de la transformation des structures de donnes auquel doivent rpondre des solutions techniques pendant toute la vie du projet. La structure du Modle dIntgration, bien quelle ait une orientation oprationnelle, nest pas une copie conforme de celle de ses sources. Elle sen diffrencie plusieurs points de vue : Il ny a pas lieu de retenir, dans la composition des entits du MI, toutes les proprits des entits oprationnelles correspondantes. Certaines proprits nont de sens ou dutilit que dans le cadre oprationnel, linstant prsent, et ne sont pas susceptibles de servir de base llaboration dindicateurs ou de variables conditionnelles pertinentes ; Une entit du MI peut intgrer des proprits qui, dans les environnements sources, appartiennent des entits diffrentes, voire des applications diffrentes ; La fusion des donnes fait apparatre entre les entits un rseau dassociations qui napparaissent pas explicitement dans les structures de donnes sources ; Des entits synthtiques, nayant aucune existence a priori dans les sources, peuvent apparatre dans le MI. Pour illustrer ces remarques, on peut voquer le problme classique de la dfinition du Client . Le Client au sens large, notion centrale dans beaucoup de projets dcisionnels actuels, existe, sous des appellations ventuellement diffrentes79, dans les secteurs dactivit les plus divers. Mais, dans la plupart des cas, linformation primaire disponible est plutt lie aux produits et aux activits, et non directement au Client. Cest la consquence logique du fait que lhistoire du Client nest bien sr que lhistoire des relations entre le Client et lorganisation. Le Client gnrique nexiste donc pas dans le SIO ; il y a au contraire une version du Client pour chaque chane de traitement ayant eu affaire lui. Sachant quil passe des commandes, reoit des marchandises livres et paie des factures, le Client peut tre ainsi vu de deux ou trois manires, voire plus. La question nest pas de savoir si le vrai Client est celui de lapplication dadministration des ventes ou celui de la facturation. Elle est de dfinir une nouvelle entit Client comportant une description utile pour le SID. Cette nouvelle entit possdera ventuellement deux proprits Adresse : une adresse de livraison et une adresse de facturation. Linformation quantitative sur le client est souvent obtenue partir de donnes de facturation. Ceci pose un problme particulirement pineux lorsque le lien entre facture et client nest quindirect.
78
Ces applications ont mme parfois t dveloppes dans des organisations diffrentes. Cest le cas par exemple lorsque la structure actuelle de lenterprise rsulte dune fusion, ou plus simplement lorsquon intgre des banques de donnes acquises auprs de fournisseurs extrieurs.
79
Jean-Marie Gouarn
86
Le Projet Dcisionnel
Citons le cas significatif dune entreprise de transport rapide de colis. Un colis peut tre achemin en port pay ou en port d ; la facturation est lie dans le premier cas lexpditeur et dans le second cas au destinataire. Cela signifie notamment que les factures rattaches un expditeur donn peuvent ne reflter quune partie du volume daffaires ralis avec lui, le reste ayant t factur aux destinataires en port d. Pour reconstituer dans lentrept de donnes le chiffre daffaires ralis avec un expditeur indpendamment du mode de paiement, il faut, aprs avoir intgr les montants qui lui ont t facturs, retrancher les montants associs des colis quil a lui-mme reus en port d ; ajouter des donnes de facturation rattaches aux destinataires auxquels il a expdi des colis en port d. Or, la seconde opration oblige tablir des rapprochements entre destinataires et expditeurs, ce qui peut impliquer un cheminement logique compliqu travers des donnes de routage puises dans dautres sources. La ralit est encore plus complexe sil existe des chanes informatiques diffrentes selon les catgories de produits. La description du Client est alors encore plus clate, et son intgration plus dlicate. Lintgration du Client amne parfois rsoudre une difficult dun tout autre ordre. Mme sil est identifi en tant que tel dans le SIO, le Client fait souvent lobjet dune segmentation lie lorganisation de lentreprise et sans rapport avec les ventuels objectifs des utilisateurs du SID. Les clients sont souvent classs en catgories telles que particuliers , professionnels et entreprises , chaque catgorie tant traite selon des modalits distinctes par une branche ddie de lorganisation. Par ailleurs, dans certains systmes, on doit grer, ct des clients rguliers, des clients occasionnels non identifis, chacun nayant dexistence qu travers une Affaire ou un Dossier . Or les objectifs du SID peuvent ncessiter lexistence dun Client gnrique, cest--dire dune entit possdant les proprits communes tous les clients, et dpouille de celles qui nont de sens que pour une catgorie particulire de clients. Un objet peut, la limite, ne pas avoir dexistence a priori dans le systme de production dune entreprise, tout en ayant une importance centrale dans le SID. Le Client du marketing bancaire est un cas typique cet gard. Les donnes primaires sont en effet lies, dans lactivit oprationnelle de la banque, au Compte et non pas au Client. Or ce dernier correspond naturellement laxe danalyse le plus systmatiquement sollicit dans les applications dcisionnelles orientes vers le marketing. Le Client est alors un objet de synthse, principalement construit partir de donnes relatives aux Comptes. La synthse ne sarrte pas, dailleurs, au Client lmentaire titulaire dun ou plusieurs Comptes. Elle se poursuit en effet un niveau hirarchique plus lev : le marketing sintresse au plus haut point des entits correspondant des regroupements de Clients, des fins de segmentation du march et de dtermination de cibles. Ces regroupements, qui se traduisent par des hirarchies multiples dans le Modle de Diffusion du SID, correspondent aux diffrents rles sociaux du Client et aux associations entre Clients qui peuvent en dcouler (par exemple : conjoint, parent, associ, voisin, collgue, etc.). De telles notions sont encore plus trangres au SIO que le Client lui-mme. Plus gnralement, on peut mme dire que plus une information est intressante dans une perspective de segmentation (au sens o on lentend dans le vocabulaire du marketing), moins on a de chance de la trouver sous une forme directe dans les donnes de production de la banque80. Le Client du Modle dIntgration, et les indicateurs dactivit qui sy rapportent, seront donc des donnes de synthse construites partir de proprits recueillies dans diverses entits oprationnelles. La problmatique du Client nest bien entendu quun exemple, cit ici des fins pdagogiques. Des questions tout fait analogues se posent pour la plupart des entits du MI, dans des domaines centrs sur dautres concepts que la clientle. Ils concernent aussi bien lorganisation, les infrastructures, les produits, les oprations, le march, les moyens de production et tous les autres axes potentiels danalyse. Lunification smantique est un premier facteur de rorganisation des donnes. Mais ce nest pas le seul.
Lexemple du marketing bancaire est dautant plus significatif quil sagit dun secteur o les SID connaissent un dveloppement particulirement vigoureux. Des outils coteux et sophistiqus ont t mis au point pour la synthse des Clients et des groupements de Clients en vue de lalimentation des bases de donnes dcisionnelles.
Jean-Marie Gouarn
87
Le Projet Dcisionnel
Dans un entrept de donnes dcisionnel, il est gnralement ncessaire de mmoriser lvolution de toutes les donnes. Cela va de soi pour les faits (ou indicateurs), ou du moins pour les donnes permettant de les reconstituer, dont le SID a prcisment pour but de suivre la trace. Mais cela concerne aussi les conditions (ou variables dimensionnelles). Une analyse historique correcte ncessite en effet la prise en charge des dimensions changeantes (cf. Section 5.3) qui implique son tour la mmorisation, dans lentrept dintgration, des tats successifs de toutes les variables dimensionnelles. Lorsque lune des proprits dun objet (par exemple ltat civil dun Client ou la capacit de production dun Etablissement) change, dans le SIO, lobjet est simplement mis jour, ce qui veut dire que lancienne valeur disparat. Dans lentrept de donnes, lobjet nest pas mis jour ; cest une nouvelle occurrence qui est cre. Il y a donc coexistence, dans la base dintgration, de tous les tats (ou versions) successifs de lobjet. Mais pour que la chronologie soit reprsente, il est ncessaire de mmoriser deux proprits supplmentaires dans la structure de lobjet, savoir la date de dbut et la date de fin de validit de chaque tat. Ces dates ne sont pas des conditions au sens du modle dimensionnel : elles ne sont pas destines servir de critres dans des requtes, et napparaissent donc pas dans les contextes. Ce sont des indications de service lusage du Systme de Diffusion et de Prsentation, permettant de configurer correctement les croisements entre la dimension priodique et la dimension changeante concerne.
Jour
Chiffre d'affaires Units vendues Date
Client (m)
Statut Activit Code postal
Client (p)
Code Client Raison Sociale Date Cration
Client 3857
Code Client Version Date dbut Date fin Raison sociale Date cration Statut Activit Code postal 3857 01 12/06/1995 18/09/1995 SOGELEC 01/01/1987 S.A.R.L. Electro-mnager 78956
Client 3857
Code Client Version Date dbut Date fin Raison sociale Date cration Statut Activit Code postal 3857 02 19/09/1995 31/05/1996 SOGELEC 01/01/1987 S.A.R.L. Electro-mnager 76229
Client 3857
Code Client Version Date dbut Date fin Raison sociale Date cration Statut Activit Code postal 3857 03 01/06/1996 16/02/1997 SOGELEC 01/01/1987 S.A.R.L. Informatique 76229
Client 3857
Code Client Version Date dbut Date fin Raison sociale Date cration Statut Activit Code postal 3857 04 17/02/1997 24/09/1997 SOGELEC 01/01/1987 S.A. Informatique 76229
La Figure 7-1 est un exemple de la reprsentation des tats successifs dun objet Client . Pour mmoire, la partie suprieure de la figure indique la forme dimensionnelle recherche dans lun des contextes du Modle de Diffusion (cf. 5.3.1). La partie infrieure montre sous quelle forme lhistorique ncessaire pour alimenter ce contexte peut tre enregistr dans lentrept de donnes. On a ici reprsent plusieurs occurrences portant le mme identifiant Code client , mais dont certaines proprits descriptives diffrent. Entre la version 1 et la version 2, le client a dmnag : sa proprit Code postal a chang. Puis son Activit a chang, ce qui a eu pour effet de faire apparatre une version 3. Enfin, une modification de Statut a justifi une version 4. La zone grise indique des proprits additionnelles qui nexistent pas dans la description oprationnelle du Client , et qui sont donc cres et renseignes par le Systme de Collecte et dIntgration pour distinguer et caractriser les tats (ou versions) successifs de lobjet. Grce ce jeu de donnes, les outils qui chargent les contextes de diffusion peuvent organiser les intersections dimensionnelles de manire assurer les bonnes connexions entre les dates de la dimension priodique et les tats du Client mouvant . Par exemple, le Client 3857 dans sa version 2 est connect,
Jean-Marie Gouarn
88
Le Projet Dcisionnel
via les indicateurs du contexte, tous les Jours de la dimension temporelle dats du 19/09/95 au 31/05/96 et aucun autre jour. Le dcoupage de lhistoire du Client tant implicitement reprsent par ces connexions dimensionnelles, les dates de dbut et de fin nont pas lieu dtre reportes dans le corps de lentit Client (m) . Ces deux dates, ainsi que le numro de Version, sont donc des informations propres au SCI, puisquelles nexistent explicitement pas plus dans le Modle de Diffusion que dans le modle des sources oprationnelles. La proprit Version, elle, nest mme jamais strictement obligatoire dans le modle dintgration. Son rle est de faciliter lidentification de chaque Objet-tat : un identifiant tel que Client 3857 Version 2 est techniquement plus maniable (dans une base de donnes comme dans le langage courant) que Client 3857 du 19/09/95 au 31/05/96 .
Jean-Marie Gouarn
89
Le Projet Dcisionnel
Lenrichissement consiste crer une donne inconnue dans la source, mais pouvant tre dduite de deux ou plusieurs donnes sources (appartenant ventuellement des fichiers diffrents). On peut par exemple dduire du numro dimmatriculation dun vhicule la rgion o est domicilie son propritaire ; de mme, on peut dduire lge dun salari une date donne de son numro de scurit sociale. La pratique de lenrichissement devient la fois plus complexe et plus systmatique ds lors quil convient de fusionner avec les donnes originaires de la production des informations complmentaires externes, ces dernires provenant de clients, de fournisseurs, dobservatoires conomiques spcialiss et de divers partenaires. Pour une application dcisionnelle dvaluation du risque, une banque souhaitera par exemple complter, laide de fichiers publics dinformations financires sur les socits, les donnes dont elle dispose sur sa clientle dentreprises. Dans ce cas, lentrept de donnes pourra comporter une structure de donnes Client synthtise partir dlments provenant de deux systmes dinformation. Limportation de donnes externes nest pas sans difficult. En effet, il existe gnralement une forte divergence de codification et de classification entre le SI interne et les fournisseurs externes. Dans notre exemple, il peut ne pas y avoir de correspondance immdiate entre les modes de segmentation de clientle pratiqus respectivement par la banque et par le fournisseur de donnes. La synthse raliser peut alors ncessiter un traitement beaucoup plus complexe quun classique appareillage de fichiers.
Jean-Marie Gouarn
90
Le Projet Dcisionnel
Le formatage dune donne peut aller jusqu' la troncature, cest--dire llimination dune partie du contenu. Sil sagit dune donne numrique, on parle plutt darrondi. On peut citer, entre autres exemples le prlvement des deux derniers caractres dans le numro dimmatriculation dun vhicule, ou des deux premiers dans un code postal, pour ne conserver que lidentification dun dpartement ; llimination du jour et du mois pour ne conserver que lanne dans une date ; llimination des centimes dans un montant ; etc. La standardisation formelle des donnes peut ncessiter bien plus que ces manipulation physiques pourtant dj complexes. Elle implique parfois un travail dinterprtation plus ou moins intelligente du contenu. Le problme bien connu de la normalisation des adresses postales en est une parfaite illustration. On sait que cette normalisation nest pas seulement une affaire de concatnation ou de dcoupage de chanes de caractres ; dans un mme cadre physique, une adresse peut tre rdige selon une infinit de variantes. Les raisons sociales sont un autre exemple classique : lentreprise SOGELEC peut en effet tre nomme Groupe SOGELEC , SOGELEC S.A. , Socit Gnrale dElectricit , etc.
81
On sait que cette htrognit constitue par ailleurs, dans les applications oprationnelles, lune des circonstances aggravantes du problme de lan 2000.
Jean-Marie Gouarn
91
Le Projet Dcisionnel
Lintgration de donnes au moins partiellement synthtiques, provenant de sources multiples, dans un modle qui comporte en outre une reprsentation du temps implique la cration de proprits identifiantes qui nexistent pas dans les sources de donnes. Ce besoin dcoule de plusieurs sortes de causes. Dabord, certains objets, comme on la vu au 7.1.1, nont pas dexistence explicite dans les sources de donnes. La cration de ces objets implique videmment la cration de leurs identifiants. Ensuite, lintgration dans lentrept de donnes dune reprsentation des tats successifs de certaines proprits (comme on la vu au 3.5.3 propos du numro dimmatriculation dun vhicule) impose lintroduction de nouveaux identifiants. Cette reprsentation du temps peut mme avoir pour effet, comme on la vu au 7.1.2, de multiplier les occurrences dun objet, raison dune occurrence pour chacun des tats (voir Figure 7-1) ; dans ce cas, lidentifiant de base doit tre complt par un numro de version (ou quivalent) pour caractriser une occurrence et une seule. Dautres objets du Modle dIntgration sont prsents dans plusieurs sources de donnes o ils sont identifis selon des codifications ou des formats diffrents. Il faut alors choisir un format didentifiant fdrateur pour le SID. Enfin, il nest pas rare de trouver dans les sources de donnes des identifiants qui, pour diverses raisons, ne sont pas satisfaisants dans la perspective du SID. Certaines entreprises, par exemple, nattribuent pas leurs clients un identifiant gnral, mais seulement un identifiant relatif une agence, de sorte que deux clients peuvent avoir le mme numro sils sont grs par deux agences. Dans ce cas, lidentification absolue du Client implique le numro de client et le numro dagence. Un identifiant composite nest pas, en soi, une anomalie. Mais, dans la mcanique complexe que reprsente un SID, il ne peut quintroduire un supplment de lourdeur, de complexit et dambigut. Les cls posent un problme du mme ordre que celui des identifiants. Il convient ici de rappeler la nuance qui distingue un identifiant dune cl. Un identifiant, mis part son rle didentification, est une proprit parmi dautres. Cest une proprit qui peut notamment jouer le rle dune condition (cest--dire dune critre de slection ou de tri dans une requte, dans le cadre du Systme de Diffusion et de Prsentation). On peut par exemple sintresser la liste des employs dont le numro matricule est compris entre A et B ; on peut aussi demander une liste de vhicules trie sur le numro de chssis. Une cl est un identifiant dont la valeur na aucune signification et qui, en outre, nest mme pas visible pour lutilisateur. Cest donc un identifiant purement technique, interne lentrept de donnes, dont la valeur est gnralement attribue par un compteur au moment de la cration de chaque nouvel enregistrement. La fonction habituelle dune cl, dans une base de donnes relationnelle, est de matrialiser une liaison entre deux tables.
Client
Numro client Nom Adresse cl agence
Agence
Numro Agence cl agence Ville
La Figure 7-2 montre un exemple de cl technique ( cl agence ) dont le seul rle est de marquer, dans la base de donnes, le lien dappartenance de chaque Client une Agence, sachant que le Client et lAgence ont chacun, par ailleurs, un identifiant. Dans la table Agence , lattribut cl agence est une cl primaire, tandis que dans la table Client cest une cl trangre ou externe82. Il ne sagit plus ici dobjets Client et Agence de niveau conceptuel, mais de tables ou de fichiers physiques. Dans cet exemple
82
Une cl primaire identifie lobjet auquel elle appartient. Une cl trangre est une rfrence ou un renvoi la cl primaire dun objet associ.
Jean-Marie Gouarn
92
Le Projet Dcisionnel
dcole, on aurait pu sabstenir de la cl technique, en intgrant simplement la proprit Numro Agence dans la table Client . Mais en pratique, pour des raisons de performances, il peut tre prfrable de marquer les jointures83 par des cls numriques plus compactes que les identifiants visibles. Lun des objectifs de lintgration tant prcisment de matrialiser des associations entre objets dorigines diverses, lentrept de donnes contient frquemment des cls techniques de jointure spcifiques. La dfinition des identifiants relve du Modle Conceptuel des Donnes du data warehouse ; celle des cls du Modle Logique (qui dcrit la structure des tables). Mais la gnration des identifiants et des cls propres au data warehouse est lune des fonctions et non des moindres des programmes de chargement.
On utilise le mot jointure (plutt que jonction), dans le vocabulaire des bases de donnes, pour dsigner une liaison tablie entre deux ou plusieurs tables daprs les valeurs dune ou plusieurs proprits communes.
84
On a souvent confondu tort, par exemple, la rplication avec la rpartition. Bien que la rplication ait parfois t utilise dans le cadre de solutions de contournement destines pallier les carences des SGBD rpartis, les deux concepts diffrent profondment. Voir sur ce point la note 97 (page 100).
Jean-Marie Gouarn
93
Le Projet Dcisionnel
Il conserve une trace systmatique de tous les vnements ayant modifi la base de donnes originale au cours dune priode, puis rpercute les modifications vers les rpliques la fin de la priode (rplication diffre) ; Il rpercute les modifications de manire immdiate et au fil de leau. La rplication est un processus continu et soppose en cela la migration. Mais la fonction de collecte de donnes dun SID nest pas pour autant une affaire de rplication. La rplication est destine maintenir lidentique plusieurs exemplaires dune mme structure de donnes. Or lalimentation dun SID est faite dinformations labores daprs les donnes oprationnelles, et non pas de copies directes de ces donnes. La fonction de collecte, dans un SID, ne sidentifie en ralit ni une fonction de rplication ni une fonction de migration. Elle tient cependant un peu des deux car : comme la rplication, elle fonctionne de faon rptitive, soit priodiquement, soit de manire continue ; comme la migration, elle met en relation deux plates-formes techniquement dissemblables. Certains lments de la panoplie des techniques de migration et de rplication peuvent donc occasionnellement tre mis en uvre dans le Systme de Collecte et dIntgration, mais ils ne sauraient en constituer lessentiel.
Notons bien que cette distinction technique na rien voir avec lopposition fonctionnelle entre indicateurs statiques et dynamiques signale la section 5.1. La capture dynamique est galement appele incrmentale (voir B. Devlin, note 11 page 11).
Jean-Marie Gouarn
94
Le Projet Dcisionnel
rafrachies mensuellement. Mais, avec la monte des exigences de ractivit des entreprises, ce sont, de plus en plus souvent, les donnes de la veille au soir qui sont rclames. Et on peut sattendre ce que, bientt, un dcalage de plus de quelques heures soit considr comme rdhibitoire dans la plupart des applications. Ds lors que cette contrainte dactualit implique une priodicit de rafrachissement infrieure au mois ou la semaine, la rapidit dexcution devient, dans la conception et la mise au point du SCI, un objectif prioritaire. La collecte dynamique, qui ne traite que les changements, semble premire vue plus efficace que la collecte statique qui implique, chaque mise jour, le rechargement intgral des donnes. Les donnes modifies reprsentent dans la plupart des cas moins dun dixime du volume total des donnes dun SIO. La mise jour dynamique (ou incrmentale) semble donc la solution la plus efficace et, en tout cas, la plus intelligente . Toutefois, elle implique, dune manire ou dune autre, un mcanisme de dtection des changements, ce qui constitue une contrainte majeure.
Jean-Marie Gouarn
95
Le Projet Dcisionnel
Un programme dapplication oprationnel est thoriquement capable, au moment o il excute une opration sur les donnes (cration, modification ou suppression dun enregistrement), de produire, dune manire ou dune autre, un message destin tre exploit immdiatement ou plus tard par le SCI. Dans ce cas, une tche plus ou moins labore, indpendante de son objectif principal de production, est mise la charge du programme. Cette mthode peut thoriquement tre applique sans difficult majeure dans les nouvelles applications oprationnelles en cours de conception. Prvue ds la ralisation initiale dun programme, la signalisation systmatique de tout changement dans ltat des donnes nimplique quune surcharge de dveloppement raisonnable par rapport aux efforts quelle permet dconomiser dans la construction du SCI. Mais la ralit daujourdhui exclut presque toujours cette solution. Dans une grande organisation, les donnes requises sont principalement sinon exclusivement produites par des programmes de production qui existent dj et qui, en outre, sont gnralement anciens. Rexaminer ces programmes de bout en bout et y introduire des modifications reprsenterait un effort long, coteux et dangereux, sans mme parler des rsistances humaines auxquelles on pourrait sattendre. Dailleurs, certains de ces programmes et non des moindres sont des progiciels ferms86, acquis sous licence auprs des diteurs, et ne sont donc pas modifiables. Dailleurs, mme dans les cas favorables o la mise en place du data warehouse concide avec une refonte des applications de production qui lalimenteront, la coopration savre gnralement impraticable. Le bon sens se heurte ici souvent aux attitudes traditionnelles : chaque quipe poursuit la ralisation de ses propres objectifs et la matrise douvrage possde rarement la fois la vision, la volont et le pouvoir dimposer la synergie. La coopration active des applications de production avec le SID est donc plus souvent une vue de lesprit quun scnario darchitecture raliste. Il ne faut pas cependant hsiter y avoir recours lorsque les circonstances le permettent. La technologie actuelle des bases de donnes pourrait permettre dobtenir de manire indirecte lquivalent de cette coopration du SIO. Les SGBD relationnels rcents permettent de dvelopper des mcanismes capables de provoquer automatiquement le dclenchement dune procdure choisie quand ltat dune donne change87. Ces procdures auto-dclenches sont invisibles pour les programmes dapplication. Elles sont actives par les changements qui surviennent dans la base de donnes, mais ne sont pas lies directement aux programmes qui provoquent ces changements. On peut donc envisager, sans intervention dans les programmes oprationnels, la dissmination dans les bases de donnes de dclencheurs-espions dont la seule fonction serait de signaler ou denregistrer les changements en temps rel, pour le compte du SCI. Mais l encore, lenvironnement de production rel exclut lusage grande chelle de cette technique. Les donnes rsident en effet, dans leur trs grande majorit, dans des environnements traditionnels qui noffrent pas cette possibilit88. Les difficults lies aux techniques qui viennent dtre prsentes ont entran le dveloppement dun procd plus sophistiqu, bas sur lexploitation des journaux transactionnels. Ces journaux sont des fichiers spciaux dans lesquels les gestionnaires de transactions 89 enregistrent en squence tous les vnements modifiant ltat des donnes applicatives dont ils ont le contrle. Ils contiennent la trace horodate de toutes les crations, modifications et suppressions de donnes, et sont de ce fait une matire premire de choix pour les procdures de collecte incrmentale de donnes.
86
Cest de plus en plus souvent le cas, notamment, dans les applications financires et comptables, les ressources humaines, la gestion de production.
87
Les dclencheurs (triggers) ont t, lorigine, conus principalement pour faciliter la mise en uvre de procdures incontournables, indpendantes des programmes dapplication, et capables de contrler le respect des rgles dintgrit rfrentielle chaque modification dune structure de donnes.
88
Les triggers sont associs une gnration de SGBD qui, apparue la fin des annes 80, na pas t significativement dploye dans les grands systmes de production.
89
Un gestionnaire de transactions peut tre un moniteur transactionnel proprement dit, ou un SGBD (relationnel ou non). La journalisation transactionnelle na videmment pas t invente pour faciliter lalimentation du data warehouse, mais seulement pour garantir la scurit physique des donnes de production. Elle permet en effet de rejouer les transactions perdues en cas dincident.
Jean-Marie Gouarn
96
Le Projet Dcisionnel
Naturellement, ces journaux nexistent que si les donnes de production sont modifies sous le contrle dun gestionnaire de transactions. Cest le cas des donnes les plus intensivement mises jour dans certains systmes de production. Mais ce nest pas pour autant une rgle gnrale. Toutes ces remarques, dont les consquences pratiques prennent une coloration distincte dans chaque projet, indiquent bien que la rationalit apparente du rafrachissement incrmental des donnes cache souvent une trs grande complexit de mise en uvre. La capture intgrale des modifications de donnes dans le SIO est une tche presque toujours coteuse et parfois impossible.
90
Le mot propritaire, dans le jargon informatique, est une fausse traduction du mot anglais proprietary (spcifique, appropri). Il dsigne, avec une connotation plus ou moins pjorative, tout lment ou ensemble matriel ou logiciel dont les spcifications sont propres un fournisseur et non conformes un standard. La croisade contre les systmes propritaires a culmin la fin de la dcennie 1980 lors de la monte dUnix. A ce jour, elle na abouti qu un bouleversement des rapports de forces et lavnement dun nouveau genre de systmes propritaires .
Jean-Marie Gouarn
97
Le Projet Dcisionnel
dInformation Dcisionnel tel quon lenvisage ici. Cette mise en garde est justifie au moins deux gards : Un entrept de donnes est presque invitablement appel connatre une croissance aussi importante que rapide en volume. Il ne suffit pas de disposer dune plate-forme matrielle suffisante aujourdhui ; encore faut-il prvoir une capacit dextension qui, moyen terme, peut tre un multiple de la capacit actuelle. Or, cet gard, il est clair que le cot compar du gigaoctet supplmentaire ne milite pas en faveur des plates-formes propritaires traditionnelles ; Sous le rapport de la puissance et de la robustesse, les grands systmes propritaires dentreprise possdent toutes les qualits requises pour abriter et administrer de trs grandes bases de donnes. Mais, en tant quenvironnements de dveloppement, ces systmes noffrent ni la mme souplesse ni la mme panoplie doutils que les plates-formes plus rcentes. La ncessit dune maintenance logicielle itrative (pour modifier le schma de la base et les procdures dalimentation), caractristique des projets dcisionnels, est donc de nature entraner des cots rcurrents plus levs dans ces environnements. Malgr ces contre-indications srieuses, il nous arrive de voir ces plates-formes propritaires servir de base des entrepts de donnes dcisionnels significatifs. Mais, en pratique, les bases de donnes quelles supportent semblent ddies une simple fonction de collecte (cf. 6.1.3) et ont des structures relativement figes. Les quipes qui les administrent rpugnent en gnral saventurer dans des oprations de maintenance des structures et des procdures, et encore plus entreprendre une dmarche systmatique de normalisation des donnes. Bien que la porte de ce constat soit naturellement limite aux projets que nous avons connus directement ou indirectement, les entrepts de donnes construits sur des machines transactionnelles de production ne semblent pas destins jouer le rle dun vritable SCI. Ces entrepts rudimentaires, sils existent, sont cependant dune utilit considrable pour un nouveau projet de SID, la seule condition quils soient traits comme des sources de donnes, et non comme des plates-formes dintgration. Le choix dun environnement Unix91 est, lheure actuelle (mais peut-tre provisoirement) la recommandation la plus indique et la plus suivie pour les projets de moyenne ou grande ampleur. Ce type denvironnement cumule aujourdhui quelques avantages dcisifs par rapport aux environnements dits propritaires voqus ci-dessus : Les quipements prsentent un meilleur rapport qualit-prix ; Les gammes offertes sont gnralement plus volutives ; Les cots de possession des logiciels (notamment les systmes de gestion de bases de donnes) sont sensiblement infrieurs ; La mise en concurrence des fournisseurs de matriel et de logiciel est plus facile ; La richesse de lenvironnement de dveloppement logiciel et du parc de progiciels de collecte et dintgration de donnes est considrable ; Les interfaces et protocoles de communication (issus de lunivers du client-serveur et de linternet) facilitent la liaison physique avec le SDP. Cette recommandation ne vaut, bien entendu, que dans les cas o, compte tenu des choix antrieurs rcents, le projet na pas dj sa disposition une plate-forme propritaire supportant un SGBD relationnel robuste92. Il convient de noter aujourdhui que, dans les petites configurations, les systmes Unix sont de plus en plus souvent mis en concurrence avec un environnement propritaire dun nouveau type, issu de linformatique personnelle et de la bureautique. Il sagit bien entendu du systme Windows NT de Microsoft. Ce dernier possde aujourdhui93 toutes les aptitudes ncessaires pour servir de socle technique une base de donnes relationnelle de taille moyenne, et il est assorti dun catalogue doutils de dveloppement trs
91
Rappelons quUnix dsigne aujourdhui davantage un certain type denvironnement, associ une certaine culture informatique et un certain segment du march des quipements matriels et logiciels, plutt quun systme dexploitation particulier.
92
Il sagit par exemple du classique couple MVS/DB2 dIBM ou encore de Non Stop SQL sur Tandem, des anciennes versions de lenvironnement NCR/Teradata, etc.
93
Depuis sa version 4.
Jean-Marie Gouarn
98
Le Projet Dcisionnel
riche. A puissance quivalente, le cot dacquisition initial dune plate-forme Microsoft est sensiblement plus faible que celui dune plate-forme Unix. A lheure actuelle, ce systme na pas encore fait ses preuves en matire de trs grandes bases de donnes, mais cet obstacle pourrait ntre que provisoire. Toutefois, la BCI tant appele devenir un organe vital de lentreprise, une double mise en garde simpose : Mme si, terme, lenvironnement de Microsoft finit par offrir le mme potentiel dvolutivit quun systme ouvert et permet de suivre sans rupture la croissance du data warehouse, rien ne garantit que, dans les configurations puissantes et complexes de lavenir, il restera conomiquement avantageux ; La dpendance excessive envers un diteur en position dominante sur le march et pouvant modifier tout moment sa politique de prix, de gammes et de service aprs-vente peut prsenter un risque stratgique considrable. La plate-forme de Microsoft, au moins court terme, et mis part les projets de porte stratgiquement rduite, est donc plutt rserve au Systme de Diffusion et de Prsentation. Ce nest cependant pas une raison pour lexclure a priori et dfinitivement du Systme de Collecte et dIntgration. Depuis la prcdente dcennie, les systmes Unix des principaux constructeurs sont considrablement monts en puissance et offrent prsent des capacits de traitement et de mmorisation suffisantes pour grer de trs grandes bases de donnes. Cette puissance provient principalement de la gnralisation des diffrentes techniques dites de paralllisation. On a beaucoup parl, ces dernires annes, des rapports entre technologie parallle et data warehouse. La premire est indiscutablement un moyen technique utile, parmi dautres, pour la construction du second. Mais cette option technique, comme les autres, doit tre envisage bon escient et sa place dans larchitecture du SID, et non sur la foi de prjugs gnraux. Parmi les caractristiques du paralllisme, celle qui nous intresse le plus nest pas la puissance immdiatement disponible. Cest lextensibilit du systme. Une machine multi-processeur est en effet avant tout une machine laquelle il est possible dajouter des processeurs supplmentaires un cot trs faible compar au cot dacquisition dune nouvelle machine. Rappelons que le paralllisme (qui nest en aucun cas rserv au monde Unix) se dcline en deux variantes principales : Les plates-formes couplage serr , dans lesquelles les traitements peuvent tre rpartis entre plusieurs processeurs, de manire augmenter la puissance de calcul disponible, tandis que les mmoires (et notamment les supports physiques des bases de donnes) restent gres de faon unifie. Dans ce type de configuration appele symtrique ou SMP94, tous les processeurs accdent des espaces de mmorisation partags ; Les configurations couplage lche , dans lesquelles la machine est organise comme un rseau de processeurs indpendants les uns des autres, bien que capables de cooprer, disposant chacun dun espace de mmorisation et de priphriques rservs. Cette architecture, dite massivement parallle ou MPP95, est cense permettre un accroissement infini de puissance. Les systmes symtriques reprsentent aujourdhui lessentiel de la base installe en matire dquipements multi-processeurs. Mais la multiplication en cours ou prvisible des trs grandes bases de donnes de consolidation, lie aux impratifs de linformation dcisionnelle, a focalis lattention sur loption massivement parallle. Larchitecture SMP nest pas seulement la moins coteuse lachat. Cest, de loin, la plus simple administrer96. Sa capacit dextension, toutefois, est limite. Tous les processeurs partagent un certain nombre de parties communes, et notamment la connectique daccs la mmoire (bus). La puissance de traitement relle naugmente avec le nombre de processeurs installs que dans la mesure o ces parties communes sont capables dabsorber le surcrot de trafic correspondant. Mais au-del dune certaine puissance, la concurrence daccs la mmoire commune devient trop forte et la puissance marginale utile apporte par chaque processeur supplmentaire dcrot inluctablement. Le bus commun est donc un goulot
94 95 96
Symmetric Multi-Processing Massively Parallel Processing En gnral, la charge de calcul est automatiquement rpartie entre les processeurs par le noyau du systme dexploitation.
Jean-Marie Gouarn
99
Le Projet Dcisionnel
dtranglement potentiel pour les machines symtriques. La porte de cette contrainte ne doit pas tre exagre : la phnomne de saturation du bus nintervient qu'au-del de quinze ou vingt processeurs en ligne ce qui reprsente dj une puissance largement suprieure ce qui est ncessaire dans la plupart des projets dcisionnels. Le modle massivement parallle, quant lui, nest thoriquement pas limit dans ses possibilits dextension. Chaque processeur ayant un accs exclusif sa propre mmoire centrale et, au besoin, ses propres priphriques de stockage magntique, via des bus privs, il nexiste aucune concurrence entre processeurs pour laccs aux donnes. Cette architecture en thorie nest donc pas affecte par le phnomne de dcroissance de lefficacit marginale des processeurs, ce qui permet denvisager un potentiel de dveloppement presque infini. Il sagit l prcisment du meilleur argument de vente des promoteurs du modle MPP, puisque la puissance de la machine peut voluer avec la taille de lentrept de donnes. Cet argument doit tre cependant examin avec circonspection, car la solution massivement parallle prsente des difficults et des risques ne pas sous-estimer : A puissance quivalente, les machines MPP sont plus coteuses que les machines SMP. Lavantage dune configuration plus volutive long terme est donc compens, au moins en partie, par un cot immdiat sensiblement plus lev. La justification conomique de loption MPP est cet gard dautant plus difficile que, compte tenu du progrs acclr des techniques et de la baisse des prix des quipements, lintrt de conserver longtemps une machine en la faisant voluer est difficile estimer ; Un systme MPP est assimilable un rseau de calculateurs indpendants. Cette caractristique, qui fait sa force, est aussi un facteur de grande complexit. Lefficacit globale du systme repose sur une rpartition trs fine des donnes et des traitements entre les nuds du rseau, et sur un rglage prcis de la coopration et de la synchronisation entre les processeurs. Malgr les progrs raliss dans les logiciels de base (notamment avec les micro-noyaux distribus sur lesquels sappuient certaines versions dUnix), tout ceci implique une administration complexe, dans laquelle la moindre erreur peut tre sanctionne par des contre-performances catastrophiques. Lutilisation dun systme massivement parallle est donc susceptible dentraner des cots dexploitation rcurrents spcialement levs ; Les performances potentielles de la machine nont pas dimportance pour elles-mmes. Ce sont les performances du SGBD qui comptent. Ces performances dcoulent directement de laptitude du SGBD utiliser correctement la batterie de processeurs mise sa disposition. Dans un environnement SMP, le SGBD peut tirer parti sans le savoir de lquilibrage de charge entre les processeurs, qui est gr de faon quasi-invisible. En revanche, le partage dune base de donnes sur les nuds dun systme MPP entrane le mme type de complexit quune base de donnes rpartie97. Ceci implique lutilisation de versions trs particulires complexes et coteuses de SGBD. Ces quelques rserves expliquent sans doute que les solutions massivement parallles naient connu quune faible diffusion jusqu' prsent. Elles expliquent aussi le fait que les utilisateurs choisissant cette technologie aient opt le plus souvent jusqu' prsent pour des configurations propritaires dans lesquelles le SGBD et le matriel sont intimement lis par construction 98 plutt que pour des systmes Unix : dans ce domaine, ouverture rime fcheusement avec aventure. Dautre part, sans aller jusquau paralllisme intgral, on a dabord intrt puiser les possibilits doptimisation lies la paralllisation des supports magntiques et de leurs contrleurs. Quel que soit lintrt du dbat sur les architectures parallles, il convient toutefois de ne pas perdre de vue quelle est la nature exacte du besoin de puissance dans le Systme de Collecte et dIntgration. Lavantage le plus souvent invoqu en faveur de la paralllisation des bases de donnes est relatif la vitesse de traitement des requtes complexes, caractristiques des applications dcisionnelles. Or, dans un SID conu de manire orthodoxe (cf. chapitre 6), les applications dcisionnelles ne sadressent quaux bases de donnes de diffusion. Lentrept de donnes au sens strict, cest--dire la base de collecte et dintgration
97
Une base de donnes rpartie est un ensemble logique vu comme une base de donnes mais physiquement install sur plusieurs machines animes chacune par son propre SGBD. Lunicit apparente de la base est assure par la coopration entre les SGBD, sous le contrle dun module central de rpartition.
98
Le Teradata DBC/1012 de NCR est lexemple le plus connu de ces machines bases de donnes (Data Base Computers). Toutefois, les rejetons actuels de la ligne ont adopt le systme Unix.
Jean-Marie Gouarn
100
Le Projet Dcisionnel
(BCI) nest pas directement mis contribution par les utilisateurs. Lamlioration des temps de rponse des requtes interactives, en particulier, na pas de sens ici. Les performances requises, pour le Systme de Collecte et dIntgration dun SID de grande envergure, sont : Laptitude grer, le cas chant, de trs grandes bases de donnes 99 sans dtrioration des conditions dexploitation ; Laptitude charger, lors de chaque mise jour priodique, un flot trs important de donnes en un temps limit. Dans lentrept de donnes correspondant un processus fondamental dune trs grande entreprise, certaines tables peuvent comporter des millions, voire des dizaines de millions, denregistrements. Cest plus particulirement le cas dans les systmes qui exigent un niveau de dtail proche de lopration lmentaire. Pour rester maniables, ces tables doivent gnralement tre fragmentes. Dans un environnement multi-processeur symtrique ou mme mono-processeur, un premier niveau de fragmentation est assez facile traiter en rpartissant chaque grande table sur plusieurs disques grs de prfrence par des contrleurs distincts. Les systmes dexploitation permettent de grer cette rpartition de manire trs simple. La fragmentation de deuxime niveau, consistant clater une table dans plusieurs bases de donnes rsidant sur plusieurs nuds dun systme massivement parallle est rarement ncessaire et toujours plus complique administrer. Les SGBD parallles, essentiellement efficaces pour le traitement des requtes complexes comportant des recherches squentielles dans de grandes tables et des jointures sur des tables multiples, ne constituent donc pas forcment une bonne rponse au problme de lintgration des donnes, cest--dire du data warehouse au sens strict100 ; Il est en tout cas certain que, capacit totale quivalente, et sous rserve dune administration adquate, on a gnralement intrt rpartir une base de donnes grande ou moyenne sur un grand nombre de disques de petite capacit101 plutt que de la concentrer sur un petit nombre de supports grande capacit. Cette orientation implique un investissement plus lev mais elle permet au moins, dfaut dun paralllisme intgral, de parallliser les lments mcaniques et leurs dispositifs daccs, qui sont les ressources les plus lentes. Rappelons au passage que le volume dune base de donnes relationnelle est largement suprieur au volume des donnes significatives enregistres. Compte tenu des mcanismes de scurit et doptimisation du SGBD, il est prudent, en premire estimation, de multiplier le volume utile par un coefficient compris entre 2,5 et 3,5102 pour connatre lespace physique rserver. Il faut encore ajouter les espaces de stockage intermdiaire lis, ventuellement, aux traitements dalimentation. Les supports physiques ne doivent pas tre apprcis sous le seul angle de la puissance. La continuit de service est aussi un lment vital. Aujourdhui, on considre lindisponibilit temporaire dun systme dcisionnel comme un vnement moins dramatique que celle dune chane de production. Cette ide, selon toute vraisemblance, est appele devenir de moins en moins vraie. En tout cas, pour ce qui concerne le SCI lui-mme, la rsistance aux incidents est dores et dj de rigueur. Le risque majeur nest pas la perte de donnes en elle-mme, puisque ces donnes qui sont des valeurs drives ou extraites dautres systmes peuvent toujours, thoriquement, tre reconstitues. Cest plutt lindisponibilit du SCI en priode critique de rafrachissement des donnes. Le chargement de lentrept de donnes, puis la mise jour des bases de diffusion qui en dpendent, impliquent des traitements priodiques lourds, excuts dans des tranches horaires prcises, et que les circonstances ne permettent pas, en gnral, de rexcuter volont. Or la multiplication des disques faible capacit, si elle rduit le risque de dfaillance gnrale, augmente le
99
La notion de trs grande base de donnes est videmment relative. La grandeur sapprcie par comparaison avec les applications de production classiques. Aujourdhui, on peut parler de trs grande base de donnes (Very Large Data Base VLDB) partir de quelques centaines de giga-octets. Certains proposent dj, songeant lentrept de donnes multimdia de demain, la notion d extrmement grande base de donnes (Extremely Large Data Base - ELDB), pour des volumes suprieurs 100 traoctets.
100 101 102
B. Devlin, Data Warehouse, from Architecture to Implementation , Addison-Wesley 1996. Les disques de 2 Go dans des units dextension modulaires ont connu un large succs.
Le coefficient multiplicateur est moins lev dans une base relationnelle dintgration que dans une base de diffusion. Dans la BCI, en effet, il nest pas ncessaire de multiplier les index et autres acclrateurs daccs, sachant que les requtes dcisionnelles ne doivent pas sexcuter sur cette base.
Jean-Marie Gouarn
101
Le Projet Dcisionnel
risque de dfaillance partielle. Un grand entrept de donnes reposant sur des units physiques de 2 Go pourra occuper jusqu' plusieurs centaines de disques, ce qui laisse prvoir, en moyenne, une ou plusieurs pannes physiques par semaine103. Il sagit donc, plus que dun simple risque, dune vritable certitude dincident en rgime dexploitation normale. Ceci implique, dans les projets importants, lutilisation de produits offrant au moins les caractristiques suivantes : Redondance des supports et mcanisme garantissant, en cas de dfaillance dune unit, la disponibilit continue de la base de donnes, au prix dune simple dgradation des performances ; Possibilit de remplacer chaud (cest--dire sans arrt du systme) lunit dfaillante. Nous ne dcrirons pas ici les diffrentes offres susceptibles de rpondre ces exigences104, sachant quelles ne sont pas particulirement ddies aux SID. Il est cependant essentiel de noter que, quels que soient les produits retenus, les cots prvisionnels de stockage ne dcoulent pas de la seule volumtrie ; ils doivent tre estims en conjuguant capacit, performances de chargement et niveau de disponibilit. Pour viter dalourdir inutilement ces cots, il est prfrable de ne pas anticiper de trop loin la croissance de la base de donnes, et dviter ainsi dacqurir une trop grande capacit lavance. Sur le march des supports magntiques, pour une capacit donne, les cots diminuent diminuent peu prs de moiti chaque anne. Dun point de vue conomique, lextensibilit est donc un meilleur placement que la capacit.
N. Raden et M. Peterson, Whos Minding the cache ? , Information Week, Juin 1997. Telles que les technologies RAID (Redundant Array of Inexpensive Disks).
Jean-Marie Gouarn
102
Le Projet Dcisionnel
effet, les procdures de collecte produisent des donnes gnralement plus synthtiques que celles quils captent : ils jouent un rle dagrgation primaire et de filtrage. Plus lactivit de synthse est situe en amont, moins le volume de donnes en transit est important. Mais ce postulat est contrebalanc par des contre-indications ou des impossibilits majeures : En cas de pluralit des sources, mme sil reste possible dexcuter les oprations de filtrage et de mise en forme les plus lmentaires sur le site dorigine, les traitements de synthse ne peuvent facilement sexcuter que sur le site dintgration ; Les machines de production sont souvent en limite de charge et ne peuvent donc pas toujours supporter dactivits supplmentaires ; Lexploitation dune chane de traitement destine au data warehouse sur une machine supportant des applications de production sensibles est rarement bien accueillie par les quipes en place, mme si la machine dispose dune rserve de puissance suffisante et si toutes les garanties de scurit sont fournies ; Le dveloppement logiciel est, comme on la dj rappel, plus coteux dans les environnements de production classiques que sont, dans la plupart des cas, les sites sources ; Lorsquune source est un flux de donnes acquis auprs dun fournisseur extrieur, il est naturellement hors de question dagir sur la source, sauf sil existe un partenariat spcial entre les deux parties. Dans la pratique, le choix ne peut donc pas tre arrt sur le seul critre des performances de transfert. Lexcution sur une machine de production de tout module logiciel dvelopp pour le compte du data warehouse peut mme tre un sujet tabou dans certaines organisations. Si, pour une raison ou pour une autre, il nest possible dexcuter aucun algorithme de slection et de calcul sur le site source, la seule solution consiste transfrer, pour traitement intgral sur le site dintgration, des copies brutes des fichiers oprationnels. Un tel mode de fonctionnement nest videmment praticable que si le volume des donnes brutes ne diffre pas dun ordre de grandeur du volume des donnes utiles. Certaines applications de production, mme anciennes, possdent cependant des fonctions dextraction slective de donnes (dveloppes gnralement des fins plus ou moins dcisionnelles). On peut alors en tirer parti pour exporter des donnes dj prslectionnes, voire pr-agrges, ce qui rduit considrablement les transferts inutiles. La situation est encore plus favorable sil existe dj, associ aux applications de production, un infocentre de premier niveau (cf. section 6.1). On peut alors sappuyer sur les outils de slection et dextraction en place105, au prix dun dveloppement minimal. Dautant plus que, dun point de vue culturel , le dveloppement dune nouvelle srie dextractions sur une plate-forme conue ds le dpart pour des oprations analogues ne risque pas de provoquer de ractions dinquitude. Mme si lactivit primaire de slection et dagrgation peut tre traite en partie sur le site originateur des donnes, on doit presque toujours sattendre recevoir, sur le site dintgration, des donnes dont le volume est suprieur au volume des donnes utiles et/ou dont la structure nest pas conforme au Modle dIntgration. Lexcution concrte des traitements du SCI sera donc, au mieux, partage entre les deux extrmits de la liaison. Quelle que soit limportance des traitements effectuer sur le site physique dintgration, les donnes brutes ne doivent en aucun cas tre stockes dans la mme base de donnes logique que les donnes intgres. Tant quune donne na pas subi lintgralit des contrles et des transformations qui lui sont applicables, elle ne doit pas apparatre comme disponible dans lentrept. Dans les projets impliquant des volumes exceptionnels ou des transformations de donnes particulirement complexes, une plate-forme de collecte, distincte de la plate-forme dintgration, peut tre mise en uvre. Cette option luxueuse, qui implique une tape supplmentaire dans le cheminement des donnes, est rarement justifie ; mais elle peut devenir utile, voire indispensable, quand les sources sont trs nombreuses et trs htrognes106.
105
Le data warehouse narrive pas toujours sur une table rase. Lorsquun projet de SID prend forme, il se situe parfois dans le prolongement (plus ou moins direct) dun outil de collecte de donnes mis en place une poque antrieure et capable dassurer une partie des fonctions du SCI.
Jean-Marie Gouarn
103
Le Projet Dcisionnel
Ceci implique la ncessit de prvoir de grandes marges de scurit dans le calibrage de larchitecture technique du SCI. Ceci est valable pour ce qui concerne tant les communications entre sites (surtout en cas dloignement gographique) que le stockage des fichiers temporaires sur le site dintgration. Enfin, la localisation des traitements du SCI nest pas une option indpendante. Cest un choix troitement li dautres options techniques, telles que les outils dextraction.
106
Cest le cas, par exemple, des grands entrepts de donnes ddis au marketing, qui combinent des sources de donnes externes trs diversifies.
107
Le prix dun bon outil dextraction, de raffinage et de transport de donnes slve gnralement plus de 500.000 francs et dpasse parfois le million. Pour beaucoup de projets dcisionnels, cest dj plus que le budget total de la premire anne.
108 109
Common Business Oriented Language, dont la mort est rgulirement annonce mais qui demeure le langage de programmation le plus rpandu dans les applications de gestion.
110
Le C (encore trs rarement supplant par son successeur le C++) est le langage de programmation standard des plates-formes Unix.
111
Le shell (littralement : le coquillage, ainsi nomm parce quil est cens protger lutilisateur) est le langage de commande associ au systme Unix. Fonctionnellement comparable un JCL, il est cependant dune utilisation plus souple. Les programmeurs ont en gnral le choix entre trois syntaxes : le shell de Bourne (le plus ancien et le plus gnralement connu), le C-shell (dont la syntaxe est plus volue et prtend voquer celle du C) et le shell de Korn (compatible avec celui de Bourne et par ailleurs aussi riche que le C-shell).
Jean-Marie Gouarn
104
Le Projet Dcisionnel
les outils associs au SGBD relationnel dintgration : SQL et langage procdural 112, chargeur113, interface de programmation114. Les environnements de dveloppement rcents les plus populaires sont essentiellement orients vers le client-serveur et les dialogues graphiques et, en gnral, ne fonctionnent pas sur les plates-formes concernes par le processus dalimentation. On doit donc gnralement se contenter daccessoires rustiques. Justifie tant que le projet reste relativement simple, la programmation spcifique des outils dalimentation prsente toutefois un risque important terme. Cette programmation minutieuse et ingrate devient complique, longue et coteuse partir dun certain niveau de dcalage structurel entre les sources de donnes et le Modle dIntgration. La charge de maintenance de ces programmes peut devenir un fardeau paralysant pour le SID. Ce sont souvent lannualit budgtaire et le manque de visibilit qui excluent des projets les progiciels dalimentation lourds. A vrai dire, mme apprcis dans une perspective plus long terme, ces produits sont encore difficiles justifier conomiquement dans les petits projets. Cette situation va sans doute changer rapidement. Lapparition de nouveaux fournisseurs et la banalisation inluctable de ces produits ne peuvent, la longue, que prcipiter la baisse des prix.
Un SGBD relationnel possde un langage algorithmique permettant de dvelopper (de manire plus souple et plus rapide quen C ou en COBOL) des routines de manipulation et de contrle des donnes. Naturellement, chaque SGBD a son langage spcifique (ex : PL/SQL pour Oracle, Transact/SQL pour Sybase).
113
Outil propre chaque SGBD et permettant, sans programmation, le chargement massif (bulk load) de la base de donnes partir de fichiers extrieurs.
114
Interface permettant des programmes externes (nutilisant pas le langage procdural propre au SGBD) daccder la base de donnes. Ces interfaces sont gnralement implmentes sous la forme semi-normalise dite SQL intgr (embedded SQL), permettant aux programmes crits dans des langages quelconques (C, COBOL, etc.) dinclure des ordres en SQL. Elles sont galement disponibles sous la forme strictement propritaire de bibliothques de fonctions dappel direct au moteur du SGBD (ex : DB-Lib ou CT-Lib pour Sybase, OCI pour Oracle).
Jean-Marie Gouarn
105
Le Projet Dcisionnel
existants dans un compartimentage fonctionnel a priori, quel quil soit. Un produit de data warehousing est rarement limit une seule fonction lmentaire, et, dun autre ct, peu de produits couvrent intgralement une fonction. En outre (il est peine ncessaire de le prciser), aucun outil prfabriqu nassure lensemble des fonctions. Et, comme loffre volue assez vite, les classifications comparatives prcises auxquelles on pourrait malgr tout parvenir ne restent gnralement valables que quelques mois. La fonction (1), dans la plupart des projets, ne ncessite pas doutillage logiciel particulier, dans la mesure o les sources de donnes sont simples et parfaitement identifies, et o le Modle dIntgration est stable. Le contenu et le format des donnes extraire sont dcrits ds la phase de conception initiale du SID, et font ventuellement lobjet de rvisions formelles dans des extensions ultrieures du projet. Toutefois, dans certaines situations encore exceptionnelles ce jour, le reprage des donnes intressantes dans les systmes sources peut impliquer une dmarche exploratoire complexe. Dans ce cas, il peut tre utile de sappuyer sur des outils de dtection plus ou moins automatique des donnes pouvant avoir un rle significatif dans la constitution des indicateurs recherchs. Ces instruments de dcouverte sont en fait ceux du data mining115, mais utiliss ici comme outils de construction du SID et non dans le cadre dapplications dcisionnelles proprement dites. Le contrle de qualit des donnes (2) est assurer explicitement dans tous les projets dcisionnels. La qualit ne doit jamais tre prsume acquise. Ce nest pas parce quune donne provient dune application de production qui fonctionne bien que cette donne est correcte pour un usage dcisionnel. Les critres de valeur des donnes ne sont pas les mmes dans le SID que dans le SIO. Une grande partie des variables qui sont utilises comme conditions dans des contextes dcisionnels, cest-dire comme critres de segmentation et de consolidation dindicateurs, sont en effet des donnes secondaires, voire facultatives, dans les traitements oprationnels. Des erreurs ou des lacunes affectant ces donnes peuvent ne pas affecter le fonctionnement du SIO, donc passer inaperues. On rencontre frquemment, par exemple, des champs obligatoires116 dont le contenu nest pas contrl ou na pas dimpact direct sur les oprations courantes. Les utilisateurs oprationnels ne sont donc pas incits assurer la validit de ces champs, dans lesquels ils saisissent parfois des valeurs douteuses, voire compltement fantaisistes. Et mme si ces champs sont correctement renseigns au dpart, ils ne sont pas forcment jour. Quant aux donnes rcoltes auprs de lextrieur, il va de soi que les garanties contractuelles de qualit dont elles sont ventuellement assorties et la confiance quon peut avoir envers le fournisseur nexcluent pas les imperfections. La qualit signifie aussi la cohrence. Or, compte tenu du cloisonnement endmique des applications de production, des informations provenant de sources diffrentes mais concernant un mme objet de gestion peuvent savrer inconciliables ou contradictoires. Faute de vrification, on risque donc de charger dans lentrept de donnes une image trs dforme de la ralit, et par consquent une plate-forme dcisionnelle trs peu fiable. Le contrle de qualit est souvent effectu de manire empirique, partir des remarques et des interrogations des utilisateurs qui pressentent des anomalies daprs les rsultats de leurs analyses 117. Mais il est clair que, en de dun certain niveau de qualit, un entrept de donnes ne peut pas tre utilis des fins rellement dcisionnelles. Do la ncessit, dans les projets sensibles et complexes, de mettre en place les moyens dune validation systmatique des donnes. Cette validation laisse ncessairement une place plus ou moins importante lintervention humaine. Les contrles de surface les plus lmentaires peuvent tre effectus par des routines automatiques simples (ex : contrle de vraisemblance dune date ou dun montant). Mais pour les vrifications impliquant lapplication de rgles ou de modles complexes dinterdpendance entre donnes multiples (unicit, intgrit rfrentielle, compltude, etc.), le recours des outils plus labors est indispensable. Ces outils peuvent faire lobjet de dveloppements spcifiques, tre inclus sous une forme plus ou moins labore dans les progiciels utiliss, le cas chant, pour assurer dautres fonctions, ou encore tre des produits part entire118.
115 116 117
Voir 8.2.5. Zones de formulaires que lutilisateur ne peut pas laisser blanc lors dune saisie.
La dtection dincohrences dans les applications de production est quelquefois considre comme lun des objectifs du SID. Ce point de vue est discut plus loin.
Jean-Marie Gouarn
106
Le Projet Dcisionnel
On peut noter que le contrle de qualit, ou la validation, des donnes, nest pas limit a priori au filtrage des sources ; il peut et doit sexercer aussi sur les donnes charges en fin de chane, cest--dire sur le contenu du data warehouse, voire sur celui des bases de diffusion. Lextraction (3), cest--dire le prlvement physique des donnes, est traite selon des modalits trs diverses. La technique la plus rudimentaire (mais nanmoins lune des plus utilises), consiste exporter le contenu brut des fichiers sources, dans un format physique assimilable par les outils de chargement de lentrept de donnes. Il sagit souvent dun format textuel de type ASCII dlimit119. Les donnes, transportes sous cette forme, ne sont rellement traites que sur le site dintgration (ou sur une plateforme intermdiaire). Cette solution est souvent retenue car elle vite daffronter le problme dlicat, prsent au 7.6.1, du dploiement de programmes dextraction sur les machines de production. Mais elle nest pas praticable trs grande chelle, compte tenu de limportance des capacits de transfert et de stockage temporaire quelle implique. Il est naturellement prfrable de sappuyer sur les services dextraction slective de donnes dj prsents dans les applications du SIO, lorsquils existent. Il est heureusement assez frquent que les grandes chanes de production maison aient t pourvues dorigine ou ultrieurement doutils simples mais parfois efficaces, destins au reporting oprationnel. Ces outils permettent dadresser priodiquement aux applications des requtes susceptibles de produire des fichiers dextraction mieux qualifis et beaucoup moins volumineux que des copies brutes. Par ailleurs, les grands diteurs de progiciels de gestion tendent doter leurs produits de modules dextraction de donnes explicitement destins linformation dcisionnelle (ou sassocier avec des fournisseurs doutils dextraction)120. Le transport (4) au sens strict du terme est lacheminement physique des donnes du site dorigine vers la BCI. Il sappuie videmment sur des supports physiques (notamment de communication locale ou distante) dont nous ne parlons pas ici, si ce nest pour rappeler que leur dbit doit tre compatible avec les volumes transfrs et les contraintes horaires. Le chargement (5) doit faire appel, de prfrence, au chargeur spcifique du SGBD dintgration (voir note 113). Le chargement du data warehouse tant gnralement un processus priodique introduisant chaque fois un flot important de donnes, il est prfrable de sappuyer sur les outils autorisant les dbits les plus levs. Le chargeur de masse (bulk loader) fourni par lditeur du SGBD est gnralement le moyen le plus efficace, notamment pour labsorption de donnes livres en format ASCII dlimit. La richesse fonctionnelle des chargeurs varie selon les SGBD. Cette richesse doit dailleurs figurer sur la liste des critres de choix. Un chargeur complet offre des possibilits qui vont au-del de labsorption brute dun flot de donnes dans lequel chaque fichier entrant correspond directement une table dans la base de donnes. Il permet notamment de rpartir les donnes dun fichier entrant dans des colonnes appartenant plusieurs tables, ou linverse de charger une table avec des donnes provenant de la fusion de plusieurs fichiers. Il peut aussi appliquer des rgles lmentaires de filtrage et de formatage. A lexcution, il produit automatiquement un journal des anomalies rencontres et une trace des donnes rejetes. Cependant, un tel outil nest vraiment exploitable que sil existe une correspondance assez simple entre la structure des donnes en entre et la structure des tables de la base dintgration. Un chargeur classique nest pas capable de mettre en uvre une logique de transformation complexe. Sil existe un trop grand cart entre les donnes entrantes et le modle dintgration, trois options sont alors possibles : Renoncer utiliser le chargeur de masse, et recourir des routines de chargement spcifiques sappuyant sur linterface de programmation du SGBD ;
118
Par exemple Integrity de Vality Technology Inc., QDB/Analyze de Prism Solutions Inc. ou, pour des projets plus lgers , WizRule de WizSoft Inc.
119
LASCII (American Standard Code for Information Interchange) est la convention la plus gnrale dchange de donnes entre systmes htrognes. Dans un fichier en ASCII dlimit, les donnes sont transmises exclusivement comme une squence de caractres ASCII, les enregistrements tant spars les uns des autres par un caractre dlimiteur convenu (par exemple le signe de fin de ligne), les champs lmentaires lintrieur des enregistrements tant eux-mmes dlimits par un autre caractre convenu (par exemple le point-virgule).
120
Jean-Marie Gouarn
107
Le Projet Dcisionnel
Charger les donnes telles quelles, en masse, dans des tables temporaires, et effectuer ensuite les contrles et les transformations appropris lintrieur de la base de donnes, en utilisant le langage procdural du SGBD ; Traiter les fichiers dentre en amont, de manire leur donner une structure et un contenu conformes la cible, et les passer ensuite au chargeur de masse. La solution (3) est de loin la plus performante. Dabord, le traitement de fichiers plat , hors base de donnes relationnelle, est beaucoup plus rapide que la manipulation de tables dans la base quimplique la solution (2). Quant la solution (1), elle oblige charger les donnes enregistrement par enregistrement, ce qui est considrablement plus coteux que le chargement de tout un fichier en rafale. Cependant, la prfrence ne va pas toujours vers la performance pure : loption (1) est celle qui ncessite le moins despace de dpt temporaire de donnes, et loption (2) donne gnralement limpression de minimiser leffort de programmation. Lorsque, compte tenu des remarques faites au 7.6.2, lintroduction de progiciels dans la chane dalimentation est justifie, cest dans la combinaison des fonctions dextraction et de chargement que ces outils apportent la valeur ajoute la plus spectaculaire. Les deux fonctions sont en effet couvertes par les offres les plus connues121, o elles sont ventuellement compltes par des services de nettoyage et de validation. Les quelques outils dextraction-chargement de haut de gamme disponibles ce jour sont dj trs labors. Ils prsentent quelques caractristiques communes. Ces produits ne sont pas, par eux-mmes, des extracteurs-raffineurs-chargeurs universels : compte tenu de la diversit infinie des structures de donnes, ce serait difficilement concevable. En fait, ce sont des gnrateurs de programmes (ou, si lon veut, des ateliers logiciels dun type particulier). Leur action consiste produire, partir de directives formules laide dun langage de haut niveau, des programmes dextraction de donnes (destins tre excuts sur les machines sources) et des directives pour le chargeur de masse du SGBD dintgration. Le cur de ces outils est constitu par un rfrentiel dans lequel sont consignes toutes les mta-donnes qui dcrivent les sources et les correspondances source-cible. Ces mta-donnes dterminent la gnration des procdures de transformation et de contrle. La Figure 7-3 est un exemple dinterface graphique permettant lutilisateur de spcifier une rgle dextraction et de chargement, partir de laquelle loutil peut gnrer les programmes appropris. Les extracteurs-chargeurs du march assurent non seulement la collecte statique des donnes, mais aussi la collecte incrmentale. Quelques uns sont en particulier capables de dtecter les changements intermdiaires en exploitant les journaux de certains systmes transactionnels de production 122. Mais, bien sr, cette possibilit reste soumise aux restrictions voques la section 7.4.
121
Les trois produits-vedettes, dont la citation est invitable dans tout ouvrage sur ce sujet, sont, par ordre alphabtique, les suites ETI-Extract dEvolutionary Technologies International, Passport de Carleton Corporation et Warehouse Manager de Prism Solutions Inc. La qualit et la notorit de ces produits ne doivent cependant faire oublier ni le caractre confidentiel (en France) de leur diffusion, ni les budgets somptueux quils impliquent, ni lapparition doffres concurrentes plus abordables dans les projets ordinaires.
122
Jean-Marie Gouarn
108
Le Projet Dcisionnel
Il faut noter au passage que, au-del de leurs fonctions fondamentales de capture, de slection et de restructuration des donnes, ces produits contribuent lexploitation rgulire de la chane dalimentation, en assurant notamment lordonnancement et le contrle dexcution des procdures. Dautre part, leur champ dapplication ne se limite pas forcment au Systme de Collecte et dIntgration : on peut en effet tirer parti des mmes outils pour alimenter, partir de lentrept de donnes, les bases de diffusion. Ladoption de tels outils suppose naturellement un choix darchitecture prcis : leur mode de fonctionnement implique lexcution dune partie des traitements sur la machine source, et dune autre sur la machine dintgration. Certains ncessitent, en outre, des capacits de stockage intermdiaires importantes. Quelles que soient les options retenues en matire doutillage de base, la problmatique de lalimentation ne doit jamais tre dissocie de celle de ladministration. Cette administration doit tre expressment prise en considration sur le plan fonctionnel et sur le plan technique : Lentrept de donnes, au cours de sa croissance, doit toujours rester conforme un Modle dIntgration. Cela veut dire notamment que la capture de nouvelles sources et lextension du primtre fonctionnel, qui impliquent terme des modifications invitables dans la structure des donnes, ne doivent en aucun cas altrer sa cohrence smantique. Cela veut dire aussi que, quelle que soit son volution, la base de donnes doit toujours tre dcrite par un dictionnaire unique, jour, complet et accessible ; Lalimentation de lentrept est, de tous les processus dun SID, celui dont la mise en uvre est la plus complexe, celui qui subit les contraintes les plus fortes, et celui qui prsente le plus de risques dincident. Ce processus, dont lactivit est gnralement priodique et parfois continue, ncessite un ordonnancement prcis et un contrle dexcution permanent. Dans les premires tapes de lexistence dun entrept de donnes, les volumes sont modestes, les sources peu nombreuses et les utilisations limites. Cette situation initiale ne doit pas faire illusion. Le double problme de ladministration des donnes et de ladministration des traitements de mise jour peut devenir une difficult majeure sil nest pas correctement pris en charge au dpart. La maintenance des mtadonnes, celle des structures physiques de la base de donnes et celle des procdures dalimentation doivent
123
Jean-Marie Gouarn
109
Le Projet Dcisionnel
tre synchrones. Le choix initial des stratgies et des outils doit en tenir compte, faute de quoi des options qui auront sembl simples et conomiques au dpart pourront trs vite se transformer en impasses.
Jean-Marie Gouarn
110
Le Projet Dcisionnel
Le rle fondamental du SDP est la mise disposition, sous la forme informationnelle approprie, des donnes acquises par le SCI. Le SDP sappuie, pour son alimentation, sur une source unique et normalise, en loccurrence lentrept central de donnes cr et maintenu par le SCI. Il na donc pas de liaison directe avec les sources de donnes124, de mme que les utilisateurs nont pas de liaison directe avec le SCI. En revanche, partir de cette base de donnes intgre sur laquelle il sappuie, le SDP peut (et gnralement doit) fournir linformation selon des conditionnements varis et travers des canaux multiples. En effet : A partir du Modle dIntgration, le Modle de Diffusion doit tre adapt chaque domaine dcisionnel ; Dans le cadre de chaque domaine (voire de chaque contexte) le Modle de Prsentation doit tre adapt chaque forme de restitution demande. En pratique, cela signifie quun SDP peut comporter une ou plusieurs bases de donnes supportant chacune une version du Modle de Diffusion. La sparation entre les diffrentes bases de donnes de diffusion peut tre purement logique (ou virtuelle) ou bien physique (cest--dire matrialise par des dispositifs techniquement distincts). La multiplicit et lautonomie possibles des domaines et des contextes dcisionnels, qui soppose lunicit du SCI, relativisent la porte des choix techniques et justifient une grande varit doptions.
Les outils de prsentation dcisionnels permettent ventuellement de consulter les bases de donnes oprationnelles. Mais il ne sagit, en ralit, que dartifices limits permettant lutilisateur, sans changement apparent denvironnement, de quitter momentanment un contexte dcisionnel pour effectuer un contrle de nature oprationnelle sur les donnes primaires.
Jean-Marie Gouarn
111
Le Projet Dcisionnel
doutils sont gnralement des choix a priori. Au lieu dtre des questions techniques traites dans les tapes de conception, ce sont des dcisions politiques qui ont un poids souvent comparable (voire suprieur) celui des spcifications fonctionnelles. Bien que ce phnomne ne soit que partiellement fond sur des critres techniques et conomiques rationnels, il nest pas dpourvu de justification. La raison la plus souvent invoque est le souci de lunification et de la bonne gestion des comptences. Depuis la grande mutation des annes 1980, aucun langage na acquis, dans le monde agit des interfaces fentres et des transactions client-serveur, une position aussi durablement dominante que celle du COBOL sur les plates-formes traditionnelles. La prolifration doutils aussi varis quincompatibles complique la tche des directions informatiques responsables de la maintenance des applications, qui sont donc obliges de ragir pour tenter de conserver un minimum dhomognit125. Les choix doutils sont par consquent des dcisions globales dpassant le cadre des projets. En ralit, les choix doutils a priori natteignent pas souvent leur objectif unificateur. Ces choix nont quune porte limite dans lespace et dans le temps. Dabord, pour toutes sortes de raisons, il est pratiquement impossible de prononcer et dappliquer de telles dcisions lchelle dune grande entreprise. Ensuite, la prennit des outils de dveloppement daujourdhui est tellement rduite 126 quaucun choix ne reste applicable longtemps. Malgr tout, la prcdence des choix doutils sur lexpression des besoins est, dans chaque projet, une ralit difficile contourner, quelle que soit sa valeur et sa porte. En matire dinformatique de gestion, ce phnomne na quun impact limit. Sans aller jusqu' prtendre que tous les outils sont quivalents, le choix dun langage de programmation 127 nest ni un lment structurant pour le contenu dune application, ni un facteur essentiel de succs pour un projet. Ce choix conditionne bien sr la manire de procder, mais na quune influence limite sur le rsultat final. Toutefois, dans le cadre dun SID, la question ne se pose pas tout fait dans les mmes termes. Certes, ce ne sont jamais les outils qui font les projets, mais les outils introduisent des contraintes qui peuvent tre incompatibles avec les objectifs. Dans un environnement de production, les aspects techniques de la mise en uvre dun traitement algorithmique prdfini comptent peu par rapport au rsultat du traitement. Mais dans le monde de laide la dcision, les modalits dinteraction entre lutilisateur et la base de donnes font partie du rsultat attendu. Par consquent, le principe de fonctionnement de loutil dcisionnel nest pas neutre. Le march des interfaces de prsentation de donnes et des SGBD optimiss pour le traitement des requtes dcisionnelles nest pas peupl que de produits concurrents et plus ou moins interchangeables. Il est dusage de classer ces produits par catgories, mais deux produits rputs appartenir la mme catgorie peuvent ne pas jouer exactement le mme rle, voire se complter au sein dun mme projet. La slection des outils ou ce qui est pire la slection dun outil avant la dfinition du besoin est donc ici classer sans complaisance dans la liste des facteurs de risque. Un choix na de chances srieuses dtre bien adapt que sil tient compte des rponses apportes trois questions : Loutil correspond-il exactement, ou au moins partiellement, aux modalits pratiques du dialogue entre lutilisateur et le SID ? Comment se situe exactement loutil dans larchitecture logique du SDP, et quelle est sa fonction prcise ?
125
Le mot SICOB na jamais t autant prononc que depuis la disparition de linstitution elle-mme. Il est parfois utilis comme une arme dfensive contre la panoplie technologique du SID.
126
Certains croient, assez navement, que la prennit dun outil logiciel est garantie par la robustesse financire de son ralisateur. En fait, on pourrait compter des kilomtres de placards occups par des logiciels prims dont les diteurs affichent des rsultats plus florissants que ceux de leurs clients.
127
Nous crivons langage de programmation pour simplifier, et pour viter une discussion hors sujet sur les nuances qui distinguent gnrateurs dapplications , ateliers logiciels , botes outils et autres langages de diverses gnrations destins produire des algorithmes excutables sous une forme quelconque.
Jean-Marie Gouarn
112
Le Projet Dcisionnel
Loutil est-il compatible avec lensemble des contraintes techniques dexploitation du SID ?
Jean-Marie Gouarn
113
Le Projet Dcisionnel
leur traitement ncessite de la puissance brute, mais ne pose pas le problme de la rponse immdiate. Les outils de dveloppement appropris sont des gnrateurs de rapports classiques, voire des langages de programmation. Par ailleurs, les utilisateurs ne voient que des rsultats, et la structure des donnes ne leur apparat pas directement, mme si la prsentation des documents reflte les combinaisons dimensionnelles du MCD.
Cette famille doutils comprend par exemple Business Objects, Impromptu (Cognos Inc.), GQL (Andyne Computing), et beaucoup dautres.
129
Ces vues, selon les outils de prsentation, sont appeles univers, catalogues, modles, dossiers, etc.
Jean-Marie Gouarn
114
Le Projet Dcisionnel
La libert dexploration et de calcul dans les donnes est un rve ancien. Cest sans doute au moins en grande partie ce rve qui a t lorigine du modle relationnel et des langages de manipulation associs, notamment le SQL. Notre dcennie, plus raliste que la prcdente sur ce point, a toutefois renonc sans quivoque mettre lutilisateur final directement aux prises avec une base de donnes, ft-elle relationnelle. Quand on parle de requtes libres, il sagit dune libert surveille. La cration de requtes non programmes par lutilisateur implique que ce dernier dispose dune interface montrant la structure dimensionnelle du contexte auquel il sintresse et lui permettant de composer ses propres vues. La composition dune vue dcoule presque toujours, en pratique, dune autre vue. Dans une session danalyse non programme, les rsultats dune requte suggrent en gnral une ou plusieurs autres requtes ayant des points communs avec la premire. Lutilisateur ayant par exemple cru remarquer une tendance intressante sur les marges ralises au cours dun trimestre sur une ligne de produits peut chercher sexpliquer ce rsultat travers des vues plus fines. Il peut notamment descendre un niveau hirarchique infrieur dans chaque dimension, choisissant une vue par produit par mois. Il peut ensuite affiner encore en ajoutant un dimension supplmentaire, pour obtenir une vue par produit par mois par segment de clientle. Il peut enfin remonter au niveau initial, mais en choisissant un trimestre dune autre anne pour comparaison avec le premier rsultat. Et ainsi de suite. Les manuvres multidimensionnelles de base sont : la navigation verticale dans les donnes (drill down, drill up), cest--dire le passage dun certain niveau de prsentation dun ensemble de donnes un niveau plus dtaill ou au contraire plus agrg ; la rotation, cest--dire le changement dorientation dimensionnelle dans la prsentation des donnes, notamment par permutation entre lignes et colonnes. Les interfaces les mieux adaptes ce type de dialogue sont videmment celles qui favorisent davantage la construction des vues plutt que lexcution des requtes. Ce sont donc celles qui montrent la structure des donnes (au lieu de la masquer) et permettent lutilisateur de faire ses propres assemblages. Malgr les efforts faits par certains fournisseurs pour combiner les genres, lassociation du requteur traditionnel avec une base de donnes relationnelle nest pas ici la solution la plus indique. La navigation libre dans les contextes implique plutt des moteurs de diffusion et de prsentation intgrant les notions de dimension, de hirarchie et dagrgat dans leur logique native. Louverture dun systme aux requtes libres introduit une plus grande incertitude que les autres options quant aux volumes et aux performances. Seuls les contextes (au sens prcis o on les dfinit dans ce livre) sont ventuellement connus lavance ; les requtes ne le sont pas, et les vues drives (voir 4.2.3) peuvent tre trs nombreuses. De plus, faute de spcification prcise, toute requte a potentiellement pour cible la totalit de la base de donnes existante. Lorsquun utilisateur libre peut se satisfaire dun sousensemble restreint des donnes disponibles, mme si la structure de ses requtes est imprvisible, il est utile de le savoir en amont des choix technologiques. En reprenant le prcdent exemple, il est possible que chaque utilisateur ne sintresse qu quelques lignes de produits et quelques segments de clientle. Il se peut aussi que chacun soit concern par toutes les combinaisons possibles de produits et de clients. Or larchitecture optimale nest pas la mme dans le premier cas que dans le second.
8.2.4 Simulation
La simulation consiste dune manire gnrale rechercher des rsultats en combinant des donnes objectives indpendantes de la volont de lutilisateur avec des donnes fictives choisies par ce dernier selon une logique qui lui est propre. Les requtes de la forme que se passerait-il si... ? relvent typiquement de ce genre dexercice, dont lobjectif est lvaluation des consquences dune hypothse ou dun scnario. La simulation est une activit bien connue et systmatiquement utilise depuis longtemps dans divers domaines de la recherche scientifique. Elle se pratique aussi en matire de management, quoique dans une
Jean-Marie Gouarn
115
Le Projet Dcisionnel
mesure beaucoup plus restreinte, depuis une poque largement antrieure lide de data warehouse130. On peut en tirer parti dans des applications diverses, allant du marketing direct la planification budgtaire en passant par ltude dimpact dune mesure fiscale. Les applications de simulation ncessitent au moins une possibilit technique qui, pour toutes les autres applications dcisionnelles, est superflue : la possibilit pour le SDP dabsorber des donnes arbitraires introduites par lutilisateur, et de tenir compte de ces donnes au mme titre que des donnes authentiques provenant du SCI dans le traitement des requtes ultrieures. Toutefois, les informations saisies des fins de simulation ne doivent tre visibles que dans le primtre dun groupe dutilisateurs fortement homogne. A terme, un scnario de simulation doit tre soit dtruit, soit archiv titre priv par le groupe de travail ou par lutilisateur concern. Il peut ventuellement tre vers dans lentrept de donnes, si larchitecture fonctionnelle du projet intgre explicitement lapplication de simulation comme une source de donnes parmi dautres, et condition de ne pas introduire un anomalie dans larchitecture dalimentation du systme (cf. 8.2.8). La simulation implique donc : une interface de dialogue permettant non seulement dexprimer des requtes et de restituer des rsultats, mais aussi de saisir des donnes ; un moteur de calcul capable dassimiler immdiatement les donnes saisies par lutilisateur aux donnes initiales. Une telle application exclut en gnral les requteurs classiques, qui ne comportent pas de fonction de saisie, et les bases de donnes relationnelles, qui supportent mal les mises jour concurrentes dans un contexte dcisionnel.
Voir notamment ce sujet louvrage prcit de R.E. Shannon, Systems Simulation, the art and science , Prentice Hall 1975.
Prcisons toutefois que la notion de KDD, pour ses promoteurs, dsigne un type volu dapplications, pouvant tre considr comme une avance, ou comme une seconde gnration, par rapport au data mining.
Jean-Marie Gouarn
116
Le Projet Dcisionnel
organisations. Le data mining devra toutefois, pour tenir ses promesses, tre intgr larchitecture des Systmes dInformation Dcisionnels au lieu dtre conu comme une application isole. Le data mining constitue pratiquement une spcialit dans le domaine de linformation dcisionnelle. Sa prsentation complte nous carterait du cadre et de la vocation de cet ouvrage 132. Il prsente cependant (sous rserve des particularits de chaque produit) des caractristiques gnrales dont limpact sur larchitecture nest pas ngliger. Les applications nont pas pour but dafficher des rsultats de requtes mais plutt de vrifier, voire de dtecter automatiquement, lexistence de probabilits dinfluence de certaines variables sur certains indicateurs, en rponse des questions faiblement directives. Des questions telles que : quels sont les facteurs qui, dans le profil sociologique de ma clientle, ont le plus dinfluence sur le taux dimpays et/ou sur le nombre de dossiers passs au contentieux ? quels sont les tranches dge, les professions et le type dhabitat qui maximisent le taux de rponse mes campagnes promotionnelles ? relvent typiquement du data mining. Le data mining peut se concevoir et sutiliser dans une perspective confirmatoire, pour vrifier la validit statistique de rgles ou dhypothses dj formules, ou exploratoire, pour dcouvrir des modles dinfluence insouponns. Ces deux perspectives impliquent deux formes de dialogue profondment diffrentes entre lutilisateur et le systme. Les demandes du data mining ont plusieurs consquences sur larchitecture dalimentation, sur les volumes et sur la qualit des donnes : La recherche de rsultats statistiquement significatifs implique lexploitation dun grand volume de donnes par lapplication. Le data mining a notamment pour objectif la dtection de signaux faibles qui ne peuvent tre mis en vidence qu condition de passer au crible des sries trs importantes ; Compte tenu de leur logique probabiliste, les applications sont ncessairement trs sensibles la qualit du rapport signal-bruit dans les donnes. La pollution des donnes, en introduisant une proportion mme insignifiante de valeurs errones ou aberrantes, peut introduire des carts statistiques compromettant gravement la fiabilit des rsultats. Le problme de la qualit des donnes est donc plus important pour ce type dapplications dcisionnelles que pour les autres ; Beaucoup des outils actuels de data mining ne sont techniquement capables dexploiter un stock de donnes que sil est conditionn selon une structure physique qui leur est propre et nexploitent pas directement les SGBD ordinaires. Leur utilisation peut donc impliquer, priodiquement ou la demande, des procdures spciales de chargement.
8.2.6 Alertes
Laccs linformation nimplique ncessairement ni la production dtats des dates prdtermines ni des consultations la demande de lutilisateur, mme si ces deux manires de procder sont aujourdhui largement dominantes. Une application dcisionnelle peut galement tre dclenche sur alerte. Un vnement, au sens oprationnel, nest gnralement quune transition banale qui fait passer le systme oprant dun tat un autre selon une rgle de gestion (cf. 3.5.3). Dans une base de donnes dcisionnelle, une alerte est lie la prsence dune valeur ou dune combinaison de valeurs considre comme anormale ou remarquable et justifiant ventuellement une prise de dcision. La dfinition des alertes, galement appeles exceptions, peut tre plus ou moins labore. Une alerte peut tre dtermine par la simple comparaison dun indicateur lmentaire avec une valeur de rfrence. Elle peut aussi tre lie la rpartition statistique dun trs grand nombre de valeurs lmentaires (par exemple
132
Voir, sur ce sujet P.W. Adriaans et R. Zantinge, Data Mining , Addison-Wesley 1996, ou encore M.J.A. Berry et G.S. Linoff, Data Mining Techniques for Marketing, Sales and Customer Support , John Wiley & Sons 1997.
Jean-Marie Gouarn
117
Le Projet Dcisionnel
lenveloppe gnrale dun nuage de points, o la diffrence entre un cart instantan et un cart-type en longue priode). Le dclenchement sur alerte comporte une varit infinie dutilisations possibles dont il nest pas question de dresser la liste ici. Cette technique a parfois donn lieu une certaine dramatisation journalistique. Elle permet en effet une simple variation dindicateurs de provoquer le dclenchement automatique de ractions oprationnelles, et donc denvisager des chanes dinformation-dcision-action dont lhomme serait exclu133. Pour dmystifier un peu la matire, et au risque de dcevoir les amateurs de science-fiction, il convient de rappeler que les dclenchements sur alertes, dans le monde rel, sont presque toujours utiliss pour avertir les dcideurs et non pour dcider leur place. Dans limmense majorit des cas, en effet, une alerte active dans un SID a pour seule consquence technique directe lenvoi dun message destin un tre humain par un moyen de communication quelconque (tlcopie, courrier lectronique, pageur ou autre). La dtection des exceptions est assure par des routines de contrle prprogrammes qui sexcutent en arrire-plan, mais que lutilisateur peut ventuellement, moyennant un outillage appropri, dfinir et installer lui-mme. Les formes les plus volues de ces alerteurs tendent actuellement tre qualifies dagents intelligents. Il nexiste pas de standard dans leur mise en uvre pratique, chaque type dagent tant li un outil de diffusion particulier. Le processus de dtection peut tre situ le plus en amont possible, soit immdiatement la suite du processus de mise jour de la Base de Collecte et dIntgration134, et avoir sa disposition lentrept de donnes dans son ensemble. Il peut aussi tre li un domaine ou un contexte particulier, et sintgrer plutt au Systme de Diffusion et de Prsentation. Son fonctionnement implique dans tous les cas un certain environnement technique (notamment de messagerie). Ce processus, lui non plus, nest donc pas neutre par rapport au choix de larchitecture gnrale.
133
Le grand public imagine volontiers quun enchanement fatal dordres de vente auto-dclenchs par des alertes sur seuils a t lune des causes essentielles du krach boursier de 1987. En fait, mme si la cyber-panique a jou un rle, linformatique a surtout contribu limiter les effets de la crise en fournissant aux autorits rgulatrices, en temps rel, les donnes qui leur ont permis de prendre des contre-mesures rapides.
134
Une alerte peut bien entendu tre associe une application de production. Cest dailleurs le cas le plus frquent. Mais il sagit dans ce cas dune alerte oprationnelle, lie au contrle dexcution dune fonction particulire, qui ne situe pas dans le domaine du SID.
135
On peut citer comme une exception notoire la suite Delphi 3 Client-Server, de Borland International, dont la bote outils contient tout ce qui est ncessaire pour construire et manipuler des structures de donnes multidimensionnelles, condition toutefois de sen tenir des volumes modestes.
Jean-Marie Gouarn
118
Le Projet Dcisionnel
Jean-Marie Gouarn
119
Le Projet Dcisionnel
136
Ou snowflake schema, parce que ceux qui ont popularis cette reprsentation y ont vu la forme stylise dun flocon de neige.
Jean-Marie Gouarn
120
Le Projet Dcisionnel
Groupe
cl groupe code groupe co. Dsignation Type de structure
Anne
cl anne Anne
Entreprise
cl entreprise cl groupe SIREN Raison sociale Forme juridique CA
Etablissement
cl tablissement cl entreprise Nom tabl. Adresse tabl. Effectif tabl.
Activit
cl tablissement cl jour cl produit Nb d'oprations Nb units vendues Montant cumul
Jour
cl jour cl mois Date
Mois
cl mois cl anne Numro mois Nom mois
Produit
cl produit cl gamme Code produit Libell produit Prix unitaire
Gamme
cl gamme Code gamme Nom gamme
Lors de lexcution dune requte, les critres de slection fournis par lapplication portent sur les tables dimensionnelles et les rsultats, par le jeu des jointures, sont extraits de la table de faits137. La gnration de cls techniques, souvent ncessaire dans la Base de Collecte et dIntgration (cf. 7.1.6), est pratiquement imprative dans une base de diffusion relationnelle. Ce principe dcoule de la grande taille et du rle particulier des tables de faits. Pour tre logiquement connecte, une table de faits doit possder une cl pour chaque dimension, ce qui reprsente un nombre de cls allant de deux une douzaine (voire plus). On peut donc dire que, dans chaque enregistrement dune table de faits, les cls prennent une place importante. Si la table de faits possde des centaines de milliers, voire des millions denregistrements (ce qui nest pas rare), lespace occup par les cls dans la base de donnes est loin dtre ngligeable. Do lintrt de minimiser cet espace. Lutilisation de cls signifiantes , cest--dire didentifiants appartenant la liste des proprits descriptives connues de lutilisateur (ex : le numro de scurit sociale dun employ, ou le code de fabrication dun produit, ou le nom dun pays) est viter cet gard. Une cl signifiante est faite prcisment pour signifier quelque chose, et non pour conomiser de la place. Nous recommandons par consquent de nutiliser que des cls techniques numriques, gnres ventuellement lors du chargement de la base de diffusion (si elles nont pas dj t gnres dans lentrept de donnes). Le format de ces cls doit tre homogne et le plus petit possible compte tenu de la cardinalit (cest--dire le nombre maximum possible doccurrences) de chaque table de dimension. Supposons, en reprenant lexemple de la Figure 8-1, que la profondeur de lhistorique soit de 3 ans (environ 1095 jours), quil y ait 2.500 produits et 84.000 tablissements. La cl jour peut tre formate sur deux octets138. La cl produit aussi. Quant la cl tablissement , qui dpasse de peu la capacit de deux
137
Ce schma est thorique, car en ralit les SGBD relationnels nacceptent pas les noms de variables comportant des blancs ou des lettres accentues.
138
Groupe de huit lments binaires, loctet est la plus petite unit denregistrement en mmoire ; il peut reprsenter jusqu' 256 (28) valeurs possibles.
Jean-Marie Gouarn
121
Le Projet Dcisionnel
octets, il lui en faut trois. Un seul octet suffit parfois ; ce serait le cas si, dans notre exemple, le grain priodique tait le Mois (la dimension comportant alors 36 priodes). Ce principe de slection au plus juste du type de cl doit tre pondr de deux manires : Les Systmes de Gestion de Bases de Donnes ne permettent pas toujours de choisir exactement le format qui convient. Les formats les plus courants pour les cls sont lentier court (2 octets) et lentier long (4 octets). Lentier trs court (1 octet) est parfois disponible ; lentier moyen (3 octets) nexiste pas ; Il serait extrmement imprudent de se fier la cardinalit actuelle dune table de dimension, cette cardinalit pouvant sensiblement augmenter terme. Il convient donc de choisir un format numrique possdant au moins le triple de la capacit strictement ncessaire, pour viter les dboires dune prochaine restructuration de la base de donnes. La structure en flocon prsente lavantage dtre pour ainsi dire calque sur le MCD dimensionnel, cest-dire dtre en FDN139 et donc de ne laisser place aucune redondance dans les donnes dimensionnelles. Mais cet avantage de principe ne compense pas quelques inconvnients majeurs dans un environnement ouvert aux consultations complexes : Les requtes invoquant des conditions sur des proprits situes un niveau lev dans une hirarchie (i.e. logiquement loignes de la table de faits) sont sensiblement pnalises, puisquelles impliquent une navigation plus longue (dans notre dernier exemple, le traitement dune requte par Anne, par Groupe et par Gamme sera bien plus complexe que celui dune requte par Mois, par Etablissement et par Produit). Or la complexit et le temps de traitement dune requte, toutes choses gales par ailleurs, augmentent en raison directe du nombre de tables impliques dans la jointure ; Le nombre de cls techniques gnrer, pour jalonner correctement les chemins hirarchiques, est important, ce qui complique la tche des programmes de chargement de la base de diffusion ; Dans certains cas, la reprsentation dun niveau hirarchique par une table spcifique ne fait qualourdir le schma sans aucun avantage technique. (Par exemple, dans la Figure 8-1, il est vident que la mise en place dune table des Annes jointe par une cl la table des Mois est une solution plus encombrante et plus complique que le regroupement des proprits Mois et Anne dans une seule table.) Pour liminer ces inconvnients, on a recours une forme dnormalise du schma en flocon : le schma en toile.
Client
cl client Nom tabl. Adresse tabl. Effectif tabl. SIREN Raison soc. entrep. Forme jur. entrep. CA entreprise Code groupe co. Dsignation grp. Type structure grp.
Activit
cl client cl priode cl produit Nb d'oprations Nb units vendues Montant cumul
Priode
cl priode Date Numro mois Nom mois Anne
Produit
cl produit Code produit Libell produit Prix unitaire Code gamme Nom gamme
139
Jean-Marie Gouarn
122
Le Projet Dcisionnel
La Figure 8-2 reprsente un schma en toile driv du mme modle conceptuel que le schma en flocon de la Figure 8-1. Un schma en toile ne comporte, en plus de la table de faits, quune table par dimension. Cette simplification est obtenue au prix dune forte dnormalisation. Dans la dimension Client , par exemple, toutes les proprits descriptives de lEntreprise et du Groupe sont regroupes dans la mme table que les proprits de lEtablissement. Cela signifie notamment que, dans le cas dun Groupe contrlant 100 Etablissements, la description du Groupe sera rpte dans 100 enregistrements. Le modle en toile est donc gnrateur dune forte redondance, et cest l son principal dfaut. Mais ce dfaut est sans grande consquence ici car : la redondance des donnes ne compromet pas la cohrence dune base de donnes destine la consultation et ne subissant pas de mises jour transactionnelles ; lespace occup par les tables dimensionnelles tant insignifiant par rapport au volume de la table de faits, la redondance dimensionnelle na quun effet ngligeable sur lencombrement total de la base de donnes. Lavantage technique procur en contrepartie est vident. Toutes les tables dimensionnelles ont une liaison directe avec la table de faits. Le nombre de tables pouvant tre impliques dans une requte, en plus de la table de faits, est infrieur ou gal au nombre de dimensions du contexte, quelle que soit la complexit des dimensions. Et le temps dexcution dune requte est indpendant du niveau hirarchique des proprits conditionnelles invoques. Ltoile comme le flocon implique une gestion rigoureuse de lintgrit rfrentielle : il est indispensable, en effet, que chaque enregistrement de la table de faits possde une cl valide assurant la liaison avec chacune des dimensions. Au-del du modle en toile, il est possible de pousser plus loin la dnormalisation en intgrant directement dans la table de faits les proprits de certaines dimensions. On parle alors de dimensions dgrades.
Client
cl client Nom tabl. Adresse tabl. Effectif tabl. SIREN Raison soc. entrep. Forme jur. entrep. CA entreprise Code groupe co. Dsignation grp. Type structure grp.
Activit
cl client cl produit Nb d'oprations Nb units vendues Montant cumul Date Mois Anne
Produit
cl produit Code produit Libell produit Prix unitaire Code gamme Nom gamme
La Figure 8-3 prsente une restructuration possible de lexemple de la Figure 8-2, dans laquelle on a dgrad la dimension priodique. Dans cet exemple, la table Priode a disparu, et toutes les proprits de la dimension priodique ont t intgres dans la table de faits. La cl de jointure avec la table Priode , devenue inutile, a disparu. La mmorisation dune dimension sous cette forme a pour effet de rduire le nombre de tables, donc le nombre de jointures. Elle peut permettre damliorer les performances, si on lapplique aux dimensions trs frquemment sollicites. Il ny a pas de restriction thorique a priori lusage des dimensions dgrades, et on peut donc concevoir la rigueur un contexte complet enregistr en une seule table, toutes les proprits dimensionnelles tant reportes dans la table de faits. Toutefois, en pratique, dautres contraintes interdisent de recourir systmatiquement ce procd, la dnormalisation des tables de faits ayant des consquences dune autre ampleur que celle des dimensions.
Jean-Marie Gouarn
123
Le Projet Dcisionnel
Le transfert dun ou plusieurs attributs supplmentaires dans la table de faits augmente considrablement le volume de la base de donnes. Il peut en outre avoir un effet global ngatif sur les performances, ou occasionner des difficults supplmentaires doptimisation, la gestion des trs grandes tables tant un problme majeur pour les systmes relationnels. Dautre part, la dgradation dune dimension ne peut ventuellement favoriser que les requtes qui utilisent cette dimension ; elle pnalise au contraire toutes les autres requtes, en alourdissant la table de faits. La dgradation dune dimension nest donc envisageable que si : Le volume des donnes ajoutes chaque enregistrement de la table de faits, aprs dduction du volume reprsent par les cls de jointure supprimes, est trs faible ; Les proprits dimensionnelles intgres dans la table de faits sont utilises par la grande majorit des requtes. Dans une base de donnes relle, il est prfrable de ne pas sen tenir un choix rigide et universel de dnormalisation, et de garder une attitude pragmatique et opportuniste. Aucun schma de base na lieu dtre purement en flocon ou en toile 140 ; certaines proprits dune dimension peuvent tre intgres dans une table de faits sans que la dimension soit compltement dgrade. Dautre part, lorsque plusieurs contextes ont une grande partie de leurs donnes en commun, ce qui est un cas extrmement frquent, ils sont physiquement fusionns autour dune seule grande table de faits.
Nos confrres anglo-saxons ont adopt le concept de starflake (contraction de star et de snowflake), qui sapplique un schma dimensionnel dont certaines dimensions sont contractes comme dans le modle en toile tandis que dautres restent proches de la forme normale comme dans le modle en flocon.
Jean-Marie Gouarn
124
Le Projet Dcisionnel
La premire option consiste traiter chaque catgorie dagrgats comme si elle correspondait au grain dun contexte particulier, et mettre en place une table de faits spciale pour ce grain. Ici, on a donc deux tables de faits, correspondant chacune un niveau de consolidation, comme le montre la Figure 8-4. La table Activit N1 reprsente les faits de premier niveau (Produit / Etablissement / Jour) et la table Activit N2 les agrgats correspondant au second niveau (Gamme / Groupe conomique / Mois). Cette structure, dont le principe est assez facile prsenter, est cependant complexe dans sa mise en uvre effective.
Activit N1
Donnes par Etablissement/Produit/Jour cl client cl priode cl produit Nb d'oprations Nb units vendues Montant cumul
Activit N2
cl client cl priode cl produit Nb d'oprations Nb units vendues Montant cumul Donnes par Groupe/Gamme/Mois
Client
cl client Nom tabl. Adresse tabl. Effectif tabl. SIREN Raison soc. entrep. Forme jur. entrep. CA entreprise Code groupe co. Dsignation grp. Type structure grp.
Priode
cl priode Date Numro mois Nom mois Anne
Produit
cl produit Code produit Libell produit Prix unitaire Code gamme Nom gamme
Dabord, il existe une grande varit de niveaux envisageables. On pourrait imaginer, dans notre exemple, des agrgats par Produit / Entreprise / An, par Gamme / Etablissement / Mois, par Entreprise / Mois, etc. En ralit, toute combinaison de niveaux hirarchiques et de dimensions dfinit un type dagrgat potentiel. Et il faut crer autant de tables de faits quil y a dagrgats pr-enregistrs, ce qui peut amener une forte complication du schma de la base. Lvolution des besoins doptimisation peut en outre amener de frquentes oprations de maintenance, lies la cration et la suppression de tables dagrgats. Ensuite, et surtout, la pluralit des tables de faits complique lutilisation de la base de donnes. En effet, pour tirer parti des cumuls pr-calculs, les applications doivent savoir choisir quelle table de faits utiliser pour chaque requte. Les requtes libres sont donc particulirement difficiles optimiser. Quant aux requtes structure prdfinie, elles impliquent des cots de dveloppement levs, sachant quelles doivent tre codes (et ventuellement recodes) en fonction de la cartographie des tables. La seconde option consiste placer tous les cumuls pr-calculs dans la mme table que les faits lmentaires. Ainsi, quelle que soit la varit des niveaux dagrgation, il ny a quune table de faits. Mais cette table devient smantiquement htrogne, puisquelle contient des enregistrements de niveaux diffrents. Ainsi, en restant sur notre dernier exemple, on insrerait dans la table de faits, parmi les enregistrements de base, des enregistrements de cumul correspondant chacun une combinaison Gamme / Groupe conomique / Mois. Le seul avantage est de rendre la structure gnrale du contexte indpendante des choix dagrgation, donc plus simple et plus stable. Cette mthode permet en particulier une adaptation plus facile des applications programmes des changements dans les choix de pr-calcul dagrgats. Mais elle ne simplifie en rien le problme des requtes libres, car celles-ci doivent tre expressment formules, l aussi, de manire slectionner les enregistrements de cumul lorsquils sont ncessaires, et ne pas traiter sur le mme plan des faits de niveaux diffrents. Les enregistrements doivent donc tre distingus les uns des autres laide dinformations techniques supplmentaires, non significatives pour lutilisateur : les indicateurs de niveau.
Jean-Marie Gouarn
125
Le Projet Dcisionnel
Cette mthode prsente, en outre, linconvnient daugmenter la taille de la table de faits, au risque de produire un effet globalement ngatif sur les performances. Lexpos de la mise en uvre pratique de chacune de ces mthodes se situe hors du sujet de ce livre. Les quelques indications qui prcdent devraient cependant donner une ide de la complexit technique du problme des agrgats sur une plate-forme relationnelle classique.
Jean-Marie Gouarn
126
Le Projet Dcisionnel
un certain nombre derreurs de conception. Mais les avantages du paralllisme ne peuvent devenir effectifs quau prix dun effort dadministration complexe et toujours renouvel. Tout repose en effet sur la qualit et la finesse du partitionnement physique des donnes. Indpendamment des architectures parallles, lessor du march des applications dcisionnelles a suscit le dveloppement, dans le monde des SGBD relationnels, de nouvelles techniques exclusivement conues pour optimiser le traitement des requtes de consultation complexes. Les plus remarquables dentre elles mritent dtre rapidement voques ici. La plus connue de ces techniques est celle de lindex binaire (bitmap index)141. Elle consiste remplacer une variable susceptible dtre un critre de slection (i.e. une proprit dimensionnelle, dans un schma en toile) par un ensemble de tableaux de bits142. Chaque tableau correspond une valeur possible de la variable. Pour prsenter le principe gnral de lindex binaire, utilisons lexemple de la Figure 8-5.
Code client Profession Agriculteur Cadre Ouvrier Employ Artisan Cadre Agriculteur Artisan Artisan Commerant Agric. Empl. Ouvrier Cadre Artisan Comm.
AZ001 XB452 ZS456 KX223 BF322 AB652 GC278 TU612 AA545 FG054
1 0 0 0 0 0 1 0 0 0
0 0 0 1 0 0 0 0 0 0
0 0 1 0 0 0 0 0 0 0
0 1 0 0 0 1 0 0 0 0
0 0 0 0 1 0 0 1 1 0
0 0 0 0 0 0 0 0 0 1
La partie gauche du tableau reprsente une table de Clients (simplifie pour lexemple) comportant deux proprits (ou deux colonnes), correspondant respectivement au Code client et la Profession . On admet quil y a six valeurs possibles pour la proprit Profession : Agriculteur, Employ, Ouvrier, Cadre, Artisan, Commerant. On peut alors indexer la colonne Proprit avec un groupe de six tableaux binaires correspondant chacun une catgorie professionnelle. Chacun de ces tableaux ne possde quune colonne. Pour chaque enregistrement (ou ligne) de la table des Clients, la valeur 1 est inscrite dans le tableau binaire correspondant la profession du client, et tous les autres tableaux contiennent 0 pour cette ligne. Cette disposition permet au SGBD, pour toute requte comportant une slection sur la proprit Profession , de parcourir un ou plusieurs tableaux de bits, extrmement compacts et susceptibles de rsider en mmoire centrale, plutt que de parcourir la table elle-mme. De plus, elle acclre considrablement le comptage des individus possdant une proprit indexe ; ce comptage peut tre fait dans les tableaux binaires sans que la lecture de la table soit ncessaire. On voit dans notre exemple quil suffit de compter les valeurs 1 dans le vecteur Artisan , sans mme regarder la table de rfrence, pour savoir quil y a 3 artisans parmi les clients.
141
Lindex binaire est une technique effectivement disponible dans plusieurs SGBD du march, quil sagisse de produits vocation gnrale (comme Oracle) ou de produits ddis aux applications dcisionnelles (comme Sybase IQ).
142
Rappelons que le bit est la plus petite unit dinformation numrique, et quil ne peut reprsenter que lune ou lautre de deux valeurs appeles conventionnellement 0 et 1.
Jean-Marie Gouarn
127
Le Projet Dcisionnel
Sachant que lindexation binaire implique la cration dun tableau de bits pour chaque valeur possible de la proprit indexe, ce procd nest utilisable que sur des proprits discrtes, cest--dire ne pouvant prendre quun nombre fini de valeurs. Il est dailleurs prfrable que ce nombre ne soit pas exorbitant. Lespace occup en mmoire par un index binaire est dtermin par la formule : (NE NV) / 8 dans laquelle NE reprsente le nombre denregistrements de la table, NV le nombre de valeurs possibles de la proprit indexe (cest--dire le nombre de tableaux binaires ncessaires). La division par 8 du produit de ces deux nombres donne le rsultat en octets. Si, dans lexemple prcdent, on avait un million de clients, notre index binaire 6 tableaux reprsenterait un encombrement de 750.000 octets, soit un peu plus de 0,7 mgaoctet, ce qui est modeste par rapport au gain de performances prvisible. Cependant, lexistence obligatoire dun tableau de bits pour chaque valeur devient une contrainte insupportable si le nombre de valeurs possibles de la variable indexe est trop lev. Il est difficile aujourdhui de tracer une limite prcise. On peut cependant considrer que cette technique est dune remarquable efficacit et ne prsente aucun inconvnient majeur au moins jusqu quelques dizaines de valeurs possibles ; au-del, la question est tudier de plus prs, en fonction des limites de chaque produit et de la mmoire disponible. Une seconde technique doptimisation remarquable est celle de lenregistrement par colonnes ou stockage vertical143. Cette technique consiste dissocier les diffrentes proprits ou colonnes dune table et les enregistrer dans des espaces physiques spars. Ainsi, lorsquune requte sintresse une proprit en particulier, le SGBD na besoin dexplorer que la colonne correspondante, au lieu de lire toute la table comme dans une architecture classique. Cette possibilit est dautant plus utile quune requte na pratiquement jamais besoin de toutes les proprits des tables auxquelles elle sadresse. Elle est particulirement intressante si on lapplique aux tables de faits. Le stockage vertical est invisible pour les applications : il nintervient que dans le Modle Physique de la base de donnes, et naltre pas le Modle Logique. Ainsi, quune table soit divise par colonnes ou non naffecte pas la syntaxe des requtes. La troisime technique remarquable est celle qui consiste tablir lavance des liaisons physiques entre les tables susceptibles dtre frquemment jointes dans les requtes. Dans les SGBD classiques, les jointures nont pas dexistence physique a priori ; elles sont spcifies chaque requte et construites la vole. On connat depuis longtemps dj les clusters (voisinages) qui pour simplifier peuvent tre assimils des associations prdfinies de tables. Ce procd, plutt sommaire, est assez lourd administrer et a pour effet de pnaliser fortement les requtes qui nutilisent pas toutes les tables de lassociation ; en outre, il ne peut pas tre combin avec lutilisation du stockage vertical. Cest pourquoi, dans certains outils spcifiquement ddis aux bases de donnes dcisionnelles, est apparue la jointure en toile (star join)144. Grce cette technique, il devient possible de faire correspondre chaque contexte une structure physique prdfinie. Les jointures entre tables de dimensions et tables de faits sont balises lavance, et donc traites beaucoup plus efficacement.
Ce procd est notamment mis en uvre dans le SGBD Sybase IQ, o il est assorti de techniques de compression qui permettent de rduire sensiblement lespace occup par les tables.
144
La jointure en toile est une caractristique majeure du SGBD Red Brick Warehouse de Red Brick Systems.
Jean-Marie Gouarn
128
Le Projet Dcisionnel
Conceptuel des Donnes. En effet, ils organisent les donnes selon une structure matricielle qui reflte la vision dimensionnelle quen ont les utilisateurs. Comme on la indiqu au chapitre 4, les donnes dun contexte sont conceptuellement perues sous la forme de matrices deux ou plusieurs dimensions. Ces matrices sont communment appeles hypercubes145, mais la loi du moindre effort tend imposer lusage du mot cube, bien que le nombre de dimensions ne soit pas limit trois. La technologie matricielle prsente trois avantages majeurs : Les donnes sont techniquement reprsentes sous une forme qui reflte directement le modle conceptuel et rend les manipulations libres beaucoup plus intuitives. Un hypercube est un modle de donnes pour ainsi dire auto-document ; Laccs aux donnes contenues dans les cellules dun hypercube est beaucoup plus direct que dans toute autre structure de donnes complexe. La notion de jointure nexiste pas, puisque toutes les donnes sont dans un seul tableau. Les temps de rponse sont donc trs courts, compars ceux dune base de donnes relationnelle mme spcialement optimise ; Ladministration dun schma matriciel est beaucoup plus simple que celle dune base de donnes relationnelle. La transcription du Modle Conceptuel de Donnes ( condition quil soit en forme dimensionnelle, naturellement) est presque directe. Les seules vritables dnormalisations envisageables sont celles qui ont pour objet de faire cohabiter, dans le mme hypercube physique, plusieurs contextes conceptuels. Le traitement des agrgats pr-calculs est automatique et transparent 146. Cette technologie a cependant des limites. La plus contraignante dentre elles est le dlai de prparation dun hypercube aprs chargement initial ou mise jour des donnes. Ce dlai tient principalement, non pas au transfert entre la source de donnes (gnralement un serveur relationnel) et le cube, mais au temps de calcul du cube partir des donnes transfres. Un hypercube contient en effet beaucoup plus de valeurs calcules que de valeurs charges, puisque les rsultats correspondant toutes les combinaisons dimensionnelles peuvent tre calculs lavance. Cette caractristique, qui est un avantage au moment de lexcution des requtes, est un handicap au moment de la mmorisation des donnes. Le traitement direct des donnes sous forme multidimensionnelle existe depuis trs longtemps. Il tait dj, dans les annes 80, au cur de quelques Systmes Interactifs dAide la Dcision (SIAD) ou Executive Information Systems (EIS). Mais ces outils, rservs une lite, mis en uvre sans vritable perspective de SID dentreprise, ont connu cette poque une trs faible diffusion. Plus prs de lutilisateur ordinaire, la logique dimensionnelle est galement prsente, sous forme embryonnaire, dans les tableurs147.
Un hypercube est en principe une matrice dont le nombre de dimensions est suprieur trois. Dans le vocabulaire de linformatique dcisionnelle, ce mot dsigne une matrice dont le nombre de dimensions est quelconque.
146
Certains moteurs matriciels permettent de dcider si les valeurs cumulatives doivent tre calcules au moment du chargement du cube et pr-enregistres, ou si elles ne doivent tre calcules qu la demande, en rponse aux requtes intresses. On peut donc rduire, au choix, les temps de rponse ou lencombrement. Mais quelle que soit loption retenue, elle ne change pas le schma de diffusion et de prsentation des donnes.
147
Elle y est cependant largement sous-utilise. Combien de bureauticiens avertis savent-ils composer un tableau crois dynamique avec leur tableur favori ?
148
Voir E.F. Codd, S.B. Codd et C.T. Salley, Providing OLAP (On-line Analytical Processing) to User-Analysts : An IT Mandate , Computerworld 1992. Le premier des trois auteurs, E.F. Codd, a jou, en dautres temps, un rle essentiel dans la dfinition des principes applicables aux SGBD relationnels. Mais le concept dOLAP est loin davoir la rigueur de lalgbre relationnelle.
Jean-Marie Gouarn
129
Le Projet Dcisionnel
WebOLAP et autres x-OLAP. Pour le responsable impliqu dans un projet dinformation dcisionnelle, cette avalanche de concepts nest pas de nature faciliter la perception des alternatives technologiques. Il est donc indispensable de la considrer avec un recul critique, plutt que dessayer de la suivre au jour le jour. Le choix des quatre lettres OLAP a t voulu par ses auteurs comme le pendant de lOLTP (On Line Transaction Processing) de manire qualifier les applications danalyse des donnes (cest--dire les applications daide la dcision) en les opposant aux applications transactionnelles de production 149. LOLTP est, dans la pense des professionnels, une notion classique qui voque linformatique srieuse . Derrire le symbole OLAP, qui se distingue de lOLTP tout en y faisant implicitement rfrence, il y a videmment une intention pdagogique : donner ses lettres de noblesse une autre informatique, tout aussi srieuse , mais diffrente, qui est en loccurrence linformatique dcisionnelle. La premire limite de ce concept rcent concerne les deux premires lettres. On imagine bien ce que on line veut dire dans un environnement oprationnel o les programmes dapplication consultent et modifient des bases de donnes de production avec lesquelles ils sont en connexion directe. Mais dans un SID, avec quoi au juste lutilisateur est-il en ligne ? Compte tenu de larchitecture gnrale du systme (cf. chapitre 6), il naccde pas directement, sauf pour des applications trs limites, aux sources de donnes. Il peut mme excuter des analyses multidimensionnelles trs sophistiques hors connexion, sur des donnes pralablement copies sur sa station individuelle. OLAP pourrait donc tout aussi bien signifier Off Line Analytical Processing. La seconde est en rapport avec les deux dernires lettres. Celles-ci voquent les traitements danalyse en gnral. Compris au pied de la lettre, lOLAP pourrait donc englober lensemble des applications dcisionnelles interactives. Or ce concept qualifie plutt, en fait, la mise en uvre des techniques matricielles de diffusion et de prsentation de donnes au service de manipulations dimensionnelles non prdtermines (du type prsent au 8.2.3). Il dsigne un type denvironnement danalyse et non lanalyse de donnes en gnral. En ralit, ce concept a t dvelopp dans un climat de comptition commerciale trs active, et en liaison directe avec la promotion de lun des leaders du march des SGBD matriciels 150. Il est par consquent fortement color de marketing. Quant aux nombreuses et subtiles dclinaisons de lOLAP (tous les x-OLAP du march), elles dcoulent au moins en partie du souci quont les diffrents fournisseurs en comptition de faire valoir leurs diffrences tout en bnficiant dune lgitimit technologique dsormais incontournable. Chacune delles reprsente en ralit lassociation de deux technologies dont lune au moins est base sur lhypercube. Par exemple, la notion de ROLAP (Relational OLAP), dsigne la combinaison dun service de prsentation et/ou de diffusion dimensionnel adoss une base de donnes relationnelle. Le MOLAP (Multidimensional OLAP) dsigne la technologie nativement multidimensionnelle, dont les promoteurs avaient lanc le concept initial dOLAP, et semble avoir t invent surtout pour montrer que cette technologie nest quune solution OLAP parmi dautres. Un certain nombre de fournisseurs ont cr lOLAP Council, une structure de concertation thoriquement charge de dfinir des standards mais qui, handicape par la ncessit de mnager chacun de ses sponsors, ny est gure parvenue jusqu' prsent. Cet organisme est cependant une source intressante pour sinitier aux principes de lOLAP151. Ces principes sarticulent autour de douze rgles fondamentales152 : Vue multi-dimensionnelle sur les donnes ; Invisibilit, pour lutilisateur, des modalits techniques de mise disposition des donnes ;
149
LOLTP concerne lensemble des applications interactives impliquant des utilisateurs multiples accdant concurremment des bases de donnes partages. Il met souvent en uvre des moniteurs transactionnels. On loppose traditionnellement au traitement par lots en temps diffr (batch processing).
150
Larticle cit dans la note 148 comporte, outre la prsentation des concepts de lOLAP, celle du SGBD matriciel EssBase. Il est notoire que cet article est le rsultat dune tude commande par Arbor Software, lditeur dEssBase, pour favoriser le lancement commercial de son produit.
151 152
http://www.olapcouncil.org
Ces 12 rgles, nonces dans larticle cit en note 148, ont t ultrieurement dveloppes par E.F. Codd dans Twelve rules for the On Line Analytical Processing , Computerworld, Avril 1995.
Jean-Marie Gouarn
130
Le Projet Dcisionnel
Invisibilit, pour lutilisateur, de lhtrognit ventuelle des sources de donnes ; Performances stables et indpendantes de la complexit dimensionnelle des contextes danalyse ; Architecture client-serveur, le ct serveur ayant la charge de lhomognisation des donnes153 ; Traitement gnrique des dimensions, cest--dire possibilit deffectuer le mme type dopration sur toutes les dimensions154 ; Gestion dynamique efficace des matrices creuses, cest--dire aptitude ne pas encombrer la mmoire de la machine avec les cellules correspondant des combinaisons dimensionnelles nulles ; Possibilit daccs simultan un mme contexte danalyse pour plusieurs utilisateurs ; Possibilit deffectuer, sans restriction technique, des calculs sur toutes les combinaisons possibles de dimensions et de niveaux hirarchiques ; Manipulation intuitive des donnes ; Flexibilit des restitutions ; Absence de limite a priori dans le nombre de dimensions et dans le nombre de niveaux hirarchiques par dimension. Les douze rgles en question peuvent permettre, dans un dbat thorique, dattribuer ou de refuser ltiquette OLAP tel ou tel produit du march. Mais elles ne disent pas quel est loutil OLAP le mieux adapt un projet rel, et encore moins si une application dcisionnelle justifie ladoption dune technologie OLAP . Le concept dOLAP a eu le grand intrt de lgitimer et de populariser lapproche dimensionnelle en gnral. Mais il na pas vocation servir de base un choix doutil.
153
Cette 5me rgle de lOLAP ne fait pas de distinction claire entre Base de Collecte et dIntgration et Base de Diffusion. Prise au pied de la lettre, elle peut donner lieu de dangereux mcomptes. Bien que la technique ne linterdise pas a priori, nous dconseillons vivement dutiliser un moteur OLAP en prise directe avec des sources de donnes nombreuses, htrognes et asynchrones dans un projet stratgique.
154
Cette rgle ninterdit pas, en fait, certains moteurs matriciels dment estampills OLAP daccorder un statut particulier certaines dimensions en offrant des jeux doprations prdfinies spcifiquement adapts ces dimensions. On peut citer, entre autres exemples, la gestion de calendrier sophistique quon trouve associe aux dimensions priodiques dans le moteur Analysis Server de Pilot Software.
Jean-Marie Gouarn
131
Le Projet Dcisionnel
Hypercubes clients
requtes donnes
Serveur relationnel
A loppos, lutilisation dun SGBD matriciel, partag entre plusieurs utilisateurs, comme serveur de diffusion, apporte la vue multidimensionnelle recherche de la manire la plus directe possible. Le rle du service de prsentation, dans ces conditions, est celui dune simple interface de dialogue entre lutilisateur et la base de donnes. Ce type dorganisation est reprsent par la Figure 8-7.
Interface de prsentation
requtes donnes
Serveur matriciel
Ces deux architectures offrent lutilisateur la mme vision dimensionnelle sur les donnes. Elles sont aussi faciles (ou aussi difficiles) mettre en place lune que lautre, avec les outils offerts aujourdhui par le march. Pourtant, elles impliquent des choix sensiblement diffrents (et sur certains points diamtralement opposs) concernant aussi bien le mode dutilisation des donnes que les modalits techniques dexploitation du systme. Lhypercube local laisse lutilisateur la libert et la responsabilit de manipuler comme il lentend un jeu de donnes qui lui est rserv. Il dispose dune vritable base de donnes multidimensionnelle autonome sur sa station. Les requtes ne sont adresses la base de diffusion que lorsquil est ncessaire de recharger lhypercube, soit pour mettre jour des donnes, soit pour changer de contexte. Lutilisateur travaille donc de manire asynchrone par rapport la base de diffusion. Ce mode de fonctionnement est dailleurs adapt lutilisation de postes de travail itinrants, connects de faon intermittente au rseau dentreprise. Le chargement des cubes personnels peut en effet tre accompli en sappuyant sur un service de messagerie ou de distribution de documents ordinaire155. Il permet par ailleurs de minimiser le cot de licence du SGBD de
155
Jean-Marie Gouarn
132
Le Projet Dcisionnel
diffusion. En effet, les tarifs des diteurs de SGBD relationnels dpendent largement du nombre dutilisateurs simultanment connects ; or lhypercube local permet justement aux utilisateurs de travailler, la plupart du temps, hors connexion. Les outils de cette architecture sont disponibles sur un march fortement comptitif, auprs de fournisseurs dont certains sont dj largement connus156. Leurs cots dacquisition habituels schelonnent entre 2.000 et 6.000 francs par poste, ce qui est trs largement infrieur linvestissement initial que reprsente une solution 100% OLAP . Ces quelques atouts ont naturellement un prix et des limites. Les dmonstrations et les maquettes ne montrent pas les contraintes qui en sont la contrepartie, et qui ne doivent pourtant pas tre ignores : Lhypercube local, mme si son administration nest pas dune grande complexit, doit tout de mme tre gr. Le dploiement dun outil sur un certain nombre de postes de travail ne suffit pas. Encore faut-il que les schmas dimensionnels correspondant aux besoins de chaque utilisateur soient mis en place. Certains utilisateurs sont peut-tre mme de construire eux-mmes leurs modles dhypercubes et de concevoir les requtes ncessaires leur chargement. Mais la plupart dentre eux ont besoin de structures dimensionnelles et de slections dindicateurs prdfinies. Tout cela reprsente naturellement un cot de dveloppement et de maintenance de logiciel, potentiellement alourdi par la diversit ventuelle des profils des utilisateurs ; Un hypercube local correspondant un contexte danalyse raliste (et non une maquette davant-vente) implique une capacit de mmorisation qui peut encore de nos jours, pour un poste de travail individuel, tre considre comme importante157. Et, durant la vie du projet dcisionnel, les besoins en la matire ne peuvent quaugmenter. Pour les entreprises disposant dun parc micro-informatique vieux de plus de 18 ou 24 mois, cette option peut donc impliquer simultanment une mise niveau (ou un renouvellement) dquipement, et une migration denvironnement158 ; Quelles que soient les performances techniques du poste de travail, le chargement dune matrice de donnes volumineuse est une opration lourde, qui sintgre difficilement dans une sance de travail interactif. A moins daccepter plusieurs fois par jour des temps dattente de quelques minutes quelques dizaines de minutes, lutilisateur doit donc se contenter de cubes de taille modeste par rapport au volume dune base de donnes de diffusion moyenne. En dautres termes, lhypercube local nest srieusement praticable que si on est certain de pouvoir dcouper le domaine danalyse en contextes restreints, et si les utilisateurs nont pas rafrachir ces contextes ou en changer trop souvent. Lhypercube partag, cest--dire le SGBD matriciel multi-utilisateurs, nimpose pas les mmes limites. Avec cette solution, cest sur un serveur que la puissance de calcul et de mmorisation est essentiellement requise. La mise jour des donnes, partir du SCI, peut (et doit) tre traite par des procdures dexploitation aux heures creuses. La cration et la maintenance des schmas dimensionnels sont centralises sur ce serveur. Le fait de partager un seul cube de donnes nexclut pas la possibilit de personnaliser les contextes selon le profil des utilisateurs : il est facile, pour ladministrateur, de moduler les droits daccs par indicateur, par dimension, par niveau ou par segment dans une dimension. Il sagit encore aujourdhui dune solution luxueuse, compte tenu notamment du cot des licences logicielles. Ainsi, pour une modeste dizaine dutilisateurs, les cots dacquisition initiaux se ngocient souvent entre 150.000 et 400.000 francs selon les marques et les options retenues. Par rapport de tels montants, le prix de la plate-forme (qui est gnralement un serveur muni dun quatre processeurs Intel, de
156
Parmi les produits conus nativement autour de la notion dhypercube local aliment partir dune source relationnelle, on peut citer de nombreux produits dont PowerPlay de Cognos Inc., PaBLO dAndyne Computing, BrioQuery de Brio Technology, Forest & Trees de Platinum, etc. Cette technologie a, plus rcemment, t intgre dans Business Objects dont la conception initiale tait celle dun requteur.
157
Pour ce type darchitecture, nous considrons 16 Mo de mmoire centrale comme un strict minimum, et nous recommandons 32 Mo (voire 64 Mo dans certains cas). Avant la fin de 1998, nous considrerons vraisemblablement 32 Mo comme le minimum. Pour complter cette mise en garde, ajoutons quil serait imprudent, aujourdhui, de dployer des hypercubes dans un environnement logiciel nayant quune capacit dadressage sur 16 bits, comme les anciennes versions de MS-Windows.
158
Hormis les plates-formes Apple (que nous nexcluons dailleurs pas dun point de vue technique), lhypercube individuel est aussi bien support par Windows 95 que par Windows NT, lessentiel de laffaire tant ici ladressage sur 32 bits, la protection de la mmoire et le fonctionnement multi-tche.
Jean-Marie Gouarn
133
Le Projet Dcisionnel
64 512 mgaoctets de mmoire centrale, de quelques paires de giga-octets de disques et dun systme dexploitation Windows NT) parat presque ngligeable. En contrepartie, le service rendu nest pas seulement laccs immdiat un plus gros volume de donnes. Les SGBD matriciels disposent en outre de fonctions de calcul beaucoup plus labores que celles quoffrent les gestionnaires de cubes personnels. Enfin, ils acceptent les mises jour interactives, ce qui permet aux utilisateurs dexcuter des simulations (cf. 8.2.4). Les SGBD matriciels sont en gnral des modules appartenant des suites logicielles intgres159 destines constituer des solutions compltes pour les SDP (voire mme pour certaines tches du SCI). Cependant, quoi quen disent les diteurs, un tableur ordinaire160 est gnralement la meilleure interface de dialogue et le seul logiciel dapplication ncessaire sur le poste de travail pour tirer parti dun hypercube partag. Lutilisation dun outil de dialogue ddi, acquis auprs du fournisseur du SGBD matriciel, peut se justifier en cas de dveloppement spcifique dun EIS (ou dune application verticale quelconque destine encadrer le dialogue). Mais pour toutes les activits impliquant des requtes libres et concernant des utilisateurs dj familiariss avec le tableur, nous recommandons systmatiquement dviter dimposer une interface propritaire . Le tableur permet en particulier aux utilisateurs les plus avancs (ceux qui, en gnral, tirent les projets dcisionnels) de combiner leurs propres modles danalyse et de restitution avec les schmas contextuels du SID dentreprise, sans engager la responsabilit des quipes informatiques. Par ailleurs, pour permettre le dveloppement dapplications programmes, les moteurs matriciels sont, tout comme les moteurs relationnels, munis dinterfaces adaptes aux outils de dveloppement dusage gnral (PowerBuilder, Delphi, Visual Basic, C/C++, etc.) et dun langage de commande. Mais, comme il nexiste, sur le march des bases de donnes matricielles, aucun standard comparable au SQL, la syntaxe diffre radicalement dun produit un autre. Lhypercube serveur nest pourtant pas prs de dtrner le SGBD relationnel dans le rle de moteur de diffusion, et ce nest pas uniquement pour des raisons culturelles. Le partage dun serveur multidimensionnel permet daller beaucoup plus loin, en matire de volume, que lhypercube individuel. Mais, dans un grand projet, ce ne peut tre quune solution partielle. Un cube charg de quelques dizaines de gigaoctets de donnes peut, aprs calculs des valeurs drives, occuper un espace physique se mesurant en centaines de gigaoctets, et le calcul peut impliquer plusieurs dizaines dheures. Certes, la mise jour des donnes peut tre, dans certains cas (mais pas toujours) excute en mode incrmental, de manire viter de trop frquents recalculs. Malgr tout, au-del dune vingtaine de gigaoctets par serveur, et dans ltat actuel des outils, il est prudent de ne pas saventurer sans une vrification prcise de faisabilit dans la voie du client-serveur OLAP. Les limites volumtriques daujourdhui sont sans doute trs provisoires : lvolution des techniques de compression de matrices creuses, et plus rcemment lapparition des hypercubes rpartis161, permettent denvisager terme la mise en place de grandes bases de donnes structure matricielle.
159
Quils soient ou non commercialiss avec une interface de requte spcifique, la plupart des serveurs multidimensionnels largement connus, comme EssBase (Arbor Software), Express (Oracle), Pilot Analysis Server (Pilot Software), TM/1 (Applix), Acumate E/S (Kenan Systems), etc. sont utilisables laide de tableurs. Techniquement, linterface entre le tableur et le serveur est assure par un module logiciel, fourni (tantt doffice, tantt en option) par lditeur du SGBD matriciel, qui fait apparatre lhypercube comme sil tait une extension du tableur.
160 161
La rpartition ou le partitionnement consiste diviser le contenu dun hypercube global en plusieurs hypercubes distribus sur des machines distinctes, sans perdre la vision logique unifie des dimensions et des faits. Cette possibilit est offerte par certains outils OLAP de haut de gamme.
Jean-Marie Gouarn
134
Le Projet Dcisionnel
Physiquement, les donnes sont stockes dans une base de donnes relationnelle, mais le serveur les montre aux clients sous une forme matricielle. Le serveur conserve en mmoire un schma multidimensionnel quil associe au schma des tables. Les utilisateurs, travers leurs interfaces de prsentation, mettent des requtes exprimes en termes strictement dimensionnels et ignorent le schma relationnel sous-jacent. Le serveur, recevant ces requtes, extrait les donnes ncessaires, effectue les calculs et les tris appropris, et restitue les rsultats comme sils avaient t prpars lavance dans un vritable hypercube.
Interface de prsentation
requtes donnes
Hypercube virtuel
En ralit, cette architecture est bien plus ancienne que les notions dOLAP et de ROLAP. Mais elle connat un essor fulgurant depuis 1996, avec larrive maturit dune nouvelle gnration de produits162. Le service de lhypercube virtuel suppose lexistence dun gnrateur de SQL dynamique extrmement puissant appuy sur une excellente gestion des mta-donnes. En effet, linstant o le serveur multidimensionnel reoit la requte du client, il doit lanalyser daprs un catalogue qui lui indique dans quelles tables de la base relationnelle, selon quels critres de slection, et dans quel format, trouver les donnes ncessaires la construction de la rponse ; il lui reste ensuite construire les requtes en SQL et les adresser au SGBD relationnel. Compte tenu des limitations trs contraignantes du SQL, le traitement dune seule requte du client ncessite souvent plusieurs requtes du serveur dimensionnel vers le serveur relationnel. Pour tre efficace, un tel outil doit tre capable doptimiser ses changes avec la base de donnes, notamment en utilisant les possibilits doptimisation avance du SGBD relationnel, au lieu de sen tenir un dialogue SQL standard. Il doit aussi tre capable de sappuyer, voire de grer lui-mme, dans la base de donnes, des agrgats pr-calculs.
162
Les offres de MicroStrategy (DSS Server), Informix Software (MetaCube), Information Advantage (Decision Suite Server) en sont des exemples.
Jean-Marie Gouarn
135
Le Projet Dcisionnel
La Figure 8-8 prsente une vision simplifie de cette architecture. En ralit, le serveur multidimensionnel ne rside pas forcment sur la mme plate-forme matrielle que la base de donnes. La logique multidimensionnelle peut tre mise en uvre sur un serveur intermdiaire, ou encore distribue entre serveur et clients. Un serveur matriciel peut, accessoirement, autoriser lutilisateur passer travers lhypercube pour excuter une requte directe lentrept de donnes qui lalimente, rpondant ainsi aux besoins voqus au 8.2.9. Certains fournisseurs classiques de SGBD relationnels, plutt que de laisser des diteurs indpendants le soin de le faire, croient devoir aujourdhui ajouter eux-mmes dans leurs offres des services de diffusion de donnes multidimensionnels. Cette tendance (qui nest pas universelle) a aussitt donn lieu linvention dun nouveau concept, encore plus dnu de contenu technique prcis que les autres : le DOLAP (Database OLAP). Lobjectif est de fournir une meilleure intgration entre lhypercube virtuel et le serveur relationnel sous-jacent. Dun point de vue commercial, certains utilisateurs peuvent en outre tre rassurs par la prise en charge dune architecture complexe par un fournisseur unique. Toutefois, jusqu' prsent, renonant rinventer eux-mmes la technologie dimensionnelle, les fournisseurs en question ont prfr la rechercher lextrieur, tantt par acquisition, tantt par entente avec un diteur spcialis163.
Cest ainsi quInformix Software a absorb le Stanford Technology Group, crateur de MetaCube, ou quIBM a conclu un accord avec Arbor Software pour dvelopper un DB2-OLAP qui peut tre considr comme une intgration de DB2 (Data Base 2), le grand classique du relationnel, avec le SGBD matriciel EssBase.
164
Cest--dire, pour simplifier, dun internet dentreprise. La mme remarque est valable pour lextranet (autre tmoin du besoin incompressible de traduire la moindre nuance par un concept spar), qui est un intranet tendu certains correspondants habituels de lentreprise (clients, fournisseurs).
165 166 167
Hyper Text Markup Language, langage de description de document hypertexte. Hyper Text Transfer Protocol, protocole dactivation de liaisons hypertexte entre documents distribus sur un rseau.
Toujours coincs avec les mots simples et familiers, les Franais rpugnent employer le mot brouteur , ou plus exactement prfrent lutiliser en anglais (browser) avec une prononciation exotique (brzeur). Cela dit, le navigateur en question peut tre dune marque quelconque (Internet Explorer de Microsoft, Navigator de Netscape, HotJava de Sun/JavaSoft, etc.).
168
PC sous Windows 3.x, Windows 95, Windows NT x.x, station Unix, MacIntosh, Network Computer...
Jean-Marie Gouarn
136
Le Projet Dcisionnel
fonctions spciales de manipulation de donnes. Mais le march a par ailleurs adopt de nouveaux standards permettant de tldistribuer non seulement des documents, mais aussi de la logique. Ces standards, nomms Java et ActiveX169, ne sont pas particulirement destins aux SID. Mais ils permettent notamment au navigateur dacqurir dynamiquement auprs du serveur de diffusion lintelligence de calcul et de prsentation lie chaque application dcisionnelle.
On peut considrer aujourdhui que tous les grands diteurs de logiciels de diffusion et/ou de prsentation de donnes ont une offre adapte une architecture internet/intranet. Cependant, cest trs clairement la logique de prsentation dimensionnelle qui lemporte sur ce terrain. Do lapparition du WebOLAP, qui vient son tour enrichir le catalogue des concepts disponibles. Cette architecture, la diffrence dune organisation client-serveur classique, interpose entre la base de donnes de diffusion et le poste de travail distant un serveur Web. Ce dernier est, en fait, le seul client directement connect la base. Les modalits pratiques de communication entre les deux impliquent soit la CGI171 classique, soit une liaison plus performante mais plus propritaire entre le serveur Web et le SGBD. Il y a encore peu de temps, lintgration avec le World Wide Web tait un thme diffrentiateur pour quelques fournisseurs doutils ; cette fonctionnalit est aujourdhui largement banalise.
169
Ces deux techniques, correspondant des philosophies distinctes et partiellement concurrentes (lune tant originaire de Sun et lautre de Microsoft), sont de plus en plus largement employes pour distribuer des traitements entre serveurs et postes de travail dans des architectures de type intranet.
170 171
Common Gateway Interface, interface de communication normalise permettant un serveur HTTP de commander lexcution dune tche externe, utilise notamment pour adresser une requte une source de donnes. La CGI prsente lavantage dtre un standard, mais elle est mal adapte au droulement de sessions interactives avec des bases de donnes ; moins dutiliser des artifices trs complexes, elle ne permet pas notamment de maintenir entre deux requtes la connexion de lutilisateur avec la base de donnes.
Jean-Marie Gouarn
137
Le Projet Dcisionnel
Jean-Marie Gouarn
138
Le Projet Dcisionnel
Bien peu de projets informatiques cest un fait de notorit publique aboutissent des rsultats conformes ce qui tait attendu. Ceci sapplique aux projets dcisionnels comme aux autres. On aurait grand tort, cependant, de mettre les causes principales des checs sur le compte de la technique. Ces causes sont rechercher avant tout dans le contexte politique et dans lorganisation des projets. Malgr lintense agitation dveloppe autour des annonces de produits, ce nest pas tant la technologie que le contenu qui constitue la nouveaut de ces projets. Ce contenu est cens reflter une vision des processus fondamentaux de lorganisation qui nest pas conforme aux habitudes dominantes. Et cest de l que proviennent les risques propres aux chantiers dcisionnels. La simple connaissance des vritables raisons dtre du SID, des piges habituels, et la mise en uvre dune organisation approprie, suffiraient pourtant dans la plupart des cas viter limpasse.
Jean-Marie Gouarn
139
Le Projet Dcisionnel
court terme. Les directions gnrales comprennent plus facilement les critres de choix lorsquils sexpriment par des diffrences arithmtiques simples. En ralit, bien des projets (mme russis) ont eu pour effet, sinon pour raison, tout autre chose que de simples gains de productivit. Par exemple, lexplosion dune bureautique de plus en plus luxueuse et de plus en plus souvent renouvele peut difficilement tre mise en rapport avec lide de faire des conomies. En loccurrence, mme si largument de la productivit continue parfois, pour la forme, tre mis en avant, les raisons de cette course la puissance et la richesse fonctionnelle des postes de travail sont lies la culture et la psychologie ambiantes. En matire de Systme dInformation Dcisionnel, la justification par la rduction dun cot opratoire particulier est difficilement imaginable. Par dfinition, un SID na pas pour vocation dautomatiser quoi que ce soit. Un SID nest pas essentiellement un outil de productivit au sens habituel. Plus exactement, le gain de productivit direct quil apporte ne concerne que les tches lies lobservation et lanalyse de linformation. Malgr ces remarques, il ne saurait tre question de renoncer purement et simplement toute justification conomique directe : ce serait, dans beaucoup de situations, signer larrt de mort des projets. Le SID est un instrument du changement. Mais, accessoirement, il possde aussi la capacit de prendre en charge un certain nombre de fonctions pr-existantes, et peut donc tre peru, par rapport ces fonctions, comme un outil de productivit. Les oprations que le futur systme permettra doptimiser ou dliminer doivent donc tre soigneusement identifies au cours de ltude dopportunit, mme si les vritables horizons du SID se situent bien au-del de ces comptes dapothicaire. Il existe des arguments quantitatifs trs gnraux, relatifs aux conomies ralisables grce au data warehouse. Ainsi, on peut imaginer des hypothses172 telles que : 50% du temps de travail des utilisateurs est pass traiter de linformation ; les quatre cinquimes de ces 50% sont consomms collecter et assimiler les donnes ; avec un entrept de donnes bien conu, bien document et assorti dun Systme de Diffusion et de Prsentation adquat, on peut escompter un gain de productivit moyen de 10 40% sur les tches lies la recherche des donnes. De ces hypothses, on peut immdiatement dduire une estimation chiffre du temps et donc de largent que pourrait faire gagner le SID par utilisateur et par an. Une telle estimation est cependant trop thorique et trop macroscopique pour tre rellement convaincante, dautant plus que les hypothses elles-mmes sont difficiles tablir et contiennent forcment une part dapprciation arbitraire. Il est recommand dviter cet gard un usage abusif du mot stratgique , mme sil sapplique effectivement au projet dcisionnel. Cette pithte est trop souvent utilise pour justifier des investissements dont le bilan cot-avantage est douteux ou indmontrable. Elle peut agacer et mme inquiter des dirigeants pragmatiques, et ne suffit plus pour appter les visionnaires. Do la ncessit dune focalisation sur des fonctions prcises. Les opportunits doptimisation de traitements identifis peuvent se trouver dans le systme oprant (cest-dire dans lactivit des utilisateurs) ou dans le systme dinformation existant. Du ct des utilisateurs, les deux exemples qui suivent illustrent ce propos. Exemple 1 : Le back-office dune importante salle des marchs est trait par un ensemble htrogne dapplications informatiques, chacune en charge dune famille doprations. Les indispensables contrles de cohrence entre ces applications mobilisent, loccasion de chaque consolidation comptable mensuelle, deux ou trois personnes hautement qualifies pendant une dizaine de jours. Ces personnes, dont les comptences financires pourraient tre affectes des tches plus nobles, passent le plus clair de leur temps dvelopper et utiliser des modles compliqus, quelles sont seules matriser, laide dun tableur quelles alimentent en donnes extraites du back-office par des procds de fortune. Si lon dmontre que, sur la base dun modle fdrateur des donnes et dune plate-forme technique approprie, en naviguant des cumuls les plus synthtiques aux montants les plus dtaills et en oprant des recoupements
172
Hypothses proposes par B. Devlin, Data Warehouse, from Architecture to Implementation , Addison-Wesley 1996.
Jean-Marie Gouarn
140
Le Projet Dcisionnel
instantans entre Contreparties, Produits, Centres de profits et autres axes danalyse, la dtection des incohrences peut tre faite en quelques heures, on dispose dune justification quantitative prcise. Certes, il sagit dun argument oprationnel et non dcisionnel, puisquon sintresse une fonction de contrle. Mais, aprs avoir mis en avant cette justification productiviste, il sera ensuite plus facile de faire valoir et de concrtiser le potentiel stratgique de loutil, notamment en matire danalyse et de prvision de march. Exemple 2 : Une quipe de marketing direct, pour dlimiter la cible dun publipostage trimestriel, consacre plusieurs semaines lanalyse dune quantit importante de donnes. Certaines de ces donnes proviennent de la chane de facturation, dautres de ladministration des ventes, tantt sur disquettes et tantt sur papier. Dautres donnes, concernant le march et la clientle, viennent dun organisme syndical extrieur et dun institut de sondage. Enfin, une collection de dossiers Excel reprsente la mmoire des mailings passs et de leurs rsultats. Une bonne solution de dcouverte semi-automatique de modles de comportement, adosse une base de donnes normalise intgrant toutes ces informations sous une forme cohrente, peut permettre une seule personne daccomplir le mme travail en moins dune journe. Il ne faut pas se priver de cette justification directe. Mme si, en ralit, le systme mis en place a pour objectif doptimiser lensemble du marketing direct (et au-del) et non damliorer la productivit dune fonction. Du ct de linformatique, les justifications conomiques sont lies la ncessit, faute de SID, dalimenter les tableaux de bord de contrle destins au management (cf. 6.1.1), cest--dire de dvelopper des extractions spcifiques de donnes. Le cot de ces extractions, dissmin (voire dissimul) dans des budgets de fonctionnement pars, est difficile apprhender, mais il est souvent considrable. Son estimation globale, si on parvient ltablir, est un argument conomique trs puissant et trs raliste en faveur du SID173. Souvent indispensables, parfois faciles, mais toujours partielles, ces justifications sont gnralement insuffisantes en regard de linvestissement engag. Les critres fondamentaux dapprciation de cet investissement sont plus subtils et plus difficiles valuer. Ils impliquent une mesure du prix de linformation, un prix dont le calcul relve dj lui-mme dun choix politique. Dans certaines situations, on admet que linformation na pas de prix , cest--dire quelle a un prix infini, parce que cest la survie de lentreprise qui est en jeu. Dans dautres, ce prix est fix sur la base dun acte de foi concernant le potentiel doptimisation dun processus. Bien que linformation dcisionnelle soit indispensable, lanalyse de sa valeur repose largement, en fait, sur des hypothses indmontrables. Mais la mme remarque ne sapplique-t-elle pas toutes sortes dinvestissements dans lentreprise ? A ct des justifications, les raisons profondes qui peuvent ne pas tre exclusivement conomiques doivent tre soigneusement cernes. Dans le monde des projets dcisionnels, le non-dit est souvent aussi important que le dit, et le chef de projet doit savoir lire entre les lignes. Dabord, il existe des projets caractre semi-dcisionnel (voire pseudo-dcisionnel), dans lesquels les vrais objectifs prioritaires sont de rationaliser le contrle de fonctions existantes. Il faut cet gard bien distinguer entre les projets dcisionnels qui peuvent offrir accessoirement des services de suivi doprations, et les projets oprationnels qui utilisent des outils et un discours emprunts au monde de linformation dcisionnelle. La mode du data warehouse peut tre mauvaise conseillre cet gard, en aiguillant les projets vers des mthodes et des techniques non appropries aux vrais objectifs. La politique intrieure de lentreprise peut elle aussi, parfois, tre une source de malentendus. La pression des vnements peut susciter, ici ou l, le dveloppement dun data warehouse dfensif , cest--dire dun outil prsentant la couleur et la saveur dun SID, mais limit dans son envergure au cadre strict dun dpartement fonctionnel de lorganisation, sans lien avec un processus transversal. Li, peut-tre inconsciemment, des soucis de conservation de frontires existantes, un tel systme a peu de chances de crer une forte valeur ajoute informationnelle. La plus grande prudence notamment budgtaire est de rigueur face ce type dinitiative. La connaissance de la liste des utilisateurs et de leurs fonctions, lanalyse fine de leurs motivations, et linventaire des sources de donnes pressenties, sont pour le responsable du projet des indicateurs irremplaables sur les vritables raisons du SID.
173
Mme si, en dfinitive, on renonce au SID, le chiffrage du cot global des extractions spcifiques de donnes nest pas un exercice inutile pour lentreprise.
Jean-Marie Gouarn
141
Le Projet Dcisionnel
S. Kelly, Data Warehousing - The Route to Mass Customization , John Wiley & Sons 1996.
Jean-Marie Gouarn
142
Le Projet Dcisionnel
et, pour dautres, linstrument dune rforme. Pour faire face des demandes parfois contradictoires, le SID doit tre une crature hybride, tenant la fois du coffre-fort et du libre-service. Un SID est un outil destin permettre la fois de comprendre le prsent et de matriser lavenir. Mais il est essentiel, au moins dans les phases initiales, de savoir laquelle de ces deux fonctions fondamentales correspond aux objectifs recherchs. Enfin, on doit faire en sorte que les managers intermdiaires et de terrain ne considrent pas demble le SID comme un organe de contrle oprationnel sur leurs performances respectives. Il nest pas rare que certains voient se profiler, derrire le data warehouse, lombre de Big Brother. Ceci est plus particulirement vrai dans les organisations marques par la culture du contrle. Il est prudent de tenir le plus grand compte de cette ventuelle perception car, de deux choses lune : Ou bien elle est justifie, et, dans ce cas, le projet nest pas dcisionnel au sens o nous lentendons dans ce livre. Il sagit alors de mettre en place un nouveau systme de reporting oprationnel, justifiant des mthodes et des architectures techniques qui ne sont pas celles dun SID. Il ne faut pas se tromper de projet, et ne pas prendre pour argent comptant lutilisation ventuelle dun vocabulaire de type stratgique et dcisionnel ; Ou bien elle est sans fondement, et il est alors vital pour la matrise douvrage de calmer les inqutudes et de mettre en valeur les avantages que le systme va apporter au plus grand nombre. En effet, le SID ayant toujours de fortes rsistances surmonter, il est prfrable de ne pas laisser augmenter le nombre de ses adversaires. Pour viter de buter mi-parcours sur des impasses politiques, notamment propos de laccs aux sources de donnes et du choix des modalits de diffusion de linformation, le chef de projet a tout intrt tre conscient de larrire-plan culturel. Cela peut contribuer, par surcrot, clarifier les lments non crits du cahier des charges et gagner du temps dans les spcifications.
Cest--dire le BPR, pour Business Process Reengineering, n avec louvrage de M. Hammer et J. Champy, Reengineering the Corporation , Harper Business, 1993. Le conseil en management tant aussi fertile en concepts que linformatique dcisionnelle, on dispose dune grande varit dexpressions alternatives comme Business Process Redesign, Business Process Change, Process Improvement, Process Innovation, Business Transformation, etc.
Jean-Marie Gouarn
143
Le Projet Dcisionnel
Derrire la ringnierie des processus, il y a donc indiscutablement la mme ide fondamentale que derrire le SID. Par consquent, si une telle dmarche est en cours la mme poque que le projet dcisionnel, il y a lieu de mettre en place une trs forte concertation entre les deux. Mais, dans tous les cas, le SID doit garder un profil bas vis--vis des structures de lentreprise. Lassociation trop troite du SID, dans les esprits, avec le bouleversement des structures pourrait inquiter outre mesure et susciter de trs fortes rsistances de la part de ceux qui dtiennent les cls des sources de donnes. Dautre part, on ne doit pas oublier que lefficacit des projets de ringnierie de processus na pas t aux Etats-Unis, jusqu ce jour, la hauteur de la popularit initiale du concept176, et que ce dernier est manier avec une extrme prudence dans notre environnement social. Un projet dinformation dcisionnelle nest pas, en soi, un projet de rforme. Mais il nest pas pour autant compatible avec limmobilisme. Il doit tre inclus comme un sous-projet dans le cadre dun effort de rorganisation plus gnral. Un SID construit sans rapport avec la moindre intention de changement dans lorganisation ne serait quun gadget technique sans application. Pour que le projet ait une chance srieuse de russir, son promoteur doit avoir compris, non pas quel changement il va provoquer, mais quel changement il va accompagner.
176
A vrai dire, le BPR a souvent t pratiqu dune manire simpliste, non pas dans une perspective de remise en question des structures et de redploiement des forces vives de lentreprise, mais dans le seul but de dtecter des redondances , cest--dire tout simplement de faire des coupes sombres dans la masse salariale.
Jean-Marie Gouarn
144
Le Projet Dcisionnel
La premire dmarche, qui se limite transfrer des donnes oprationnelles sans transformation ni intgration dans un nouvel environnement, en comptant sur la technique pour faciliter les requtes, napporte quune valeur ajoute informationnelle insignifiante. A terme, elle est sans issue, car, en labsence de vision densemble, elle na pratiquement aucune chance de mener une architecture volutive capable dintgrer des sources multiples. La seconde est dautant plus dangereuse quelle est intellectuellement sduisante. Quoi de plus rationnel en apparence que de concevoir demble le SID de toute lentreprise, la base de donnes intgre qui contiendra, sans lacune ni redondance, la seule version de la vrit ? Cette rationalit-l, pourtant, a bien peu de chances de rsister lpreuve des faits. Compte tenu du nombre de points de vue et de vocabulaires concilier, de consentements runir, de systmes interfacer et de financements trouver, la fixation dun tel objectif est lun des meilleurs moyens de mobiliser des armes de consultants sans rien produire de concret dans un dlai raisonnable. Les grands projets fdrateurs, en matire dinformation oprationnelle, ont trs rarement abouti ; il ny a pas le moindre dbut de raison de croire que la construction directe dun SID global ait plus de chances de succs. Le SID doit transcender les fonctions de lentreprise ; il nest pas tenu pour autant denglober la totalit des processus. Pour un premier projet dcisionnel, la bonne mesure consiste choisir une cible modeste mais prcise et dapporter aux utilisateurs, dans un dlai trs court, une valeur ajoute concrte et mesurable. Ensuite, en tenant compte de lutilisation effective de loutil et des indications de retour dinvestissement obtenues, on peut envisager une extension progressive du primtre. Lessentiel de la difficult consiste alors tablir des priorits, cest--dire faire des choix entre des demandes concurrentes et inscrire certains utilisateurs sur des listes dattente. Mieux vaut affronter des utilisateurs impatients que des utilisateurs dus. Dans la dfinition de ce primtre, il faut renoncer lide dune cible finale . En ralit, il ny en a pas. La seule mise en service dune premire version du SID, sans mme parler de lvolution gnrale de lenvironnement du projet, provoque immanquablement une redfinition des besoins.
Jean-Marie Gouarn
145
Le Projet Dcisionnel
loccasion, dune forte autorit personnelle, tout en ayant la subtilit et la souplesse ncessaires pour valuer rapidement leffet de ses propositions et en remanier tout aussi rapidement le contenu en consquence. On atteint cependant un niveau de risque maximal quand, faute dune expression formelle des besoins, les seuls lments vritablement contractuels du projet sont le budget et le dlai. En ralit, cette situation ne semble pas rare. Elle dcoule gnralement de ce que la matrise douvrage, mal informe des tenants et des aboutissants de linformation dcisionnelle, prend pour des spcifications formelles de vagues listes dindicateurs assorties dexemples de requtes, et confre le statut de cahier des charges des documents plus exploratoires que normatifs. Elle provient aussi, secondairement, de la rupture chronologique et culturelle entre le consultant qui dfinit les axes danalyse et les indicateurs en termes de mtier, et linformaticien qui arrive plus tard et qui sefforce de les traduire sa manire en termes techniques. Enfin, une spcification, mme valide, est provisoire, et le chef de projet qui croirait tirer son pingle du jeu en lappliquant au pied de la lettre se tromperait lourdement. Tout besoin exprim doit tre considr comme le point de dpart dun besoin non exprim.
Jean-Marie Gouarn
146
Le Projet Dcisionnel
Equipement matriel ; Ressources humaines (internes et externes). Lestimation des charges est un exercice semi-alatoire dans tous les projets, et on sestime gnralement heureux quand les drives ne dpassent pas 20% du budget. Mais si lon ny prend pas garde, les dpassements peuvent, dans le second et le troisime postes, tre explosifs dans un projet dcisionnel. Les risques sont exceptionnellement levs sur trois points prcis : La complexit des mcanismes de capture et de transformation des donnes est difficile estimer. Le cot de dveloppement des programmes ou de mise en uvre des progiciels destins lalimentation de lentrept a donc une forte tendance pulvriser les prvisions ; Lintgration du systme, qui fait appel des technologies plus htrognes et plus rcentes que dans les applications de production, rserve toujours quelques surprises, notamment en matire dinterfaces ; Les volumes de donnes ne sont pas moins surprenants. Ds le dbut, ils sont presque toujours suprieurs aux estimations bases sur ltude pralable, et ils ne font que crotre par la suite. Le calibrage du matriel doit donc tre revu la hausse. Dans le financement du projet, on doit donc prvoir des marges de scurit extrmement confortables, en doublant les charges et les volumes raisonnablement estims sur ces trois points.
9.3.5 Lvolutivit
Un SID volue un rythme beaucoup plus rapide que nimporte quelle application de gestion, et dune faon faiblement prvisible. Cette volution agit dans quatre directions : le nombre dutilisateurs augmente ; les volumes de donnes augmentent ; les services offerts changent et se diversifient ; les sources de donnes aussi. Le SID doit tre capable dassumer cette volution sans rupture fonctionnelle ou technique, de manire progressive. Mme si cela induit un surcot initial, le projet doit donc ds le dpart se rserver des ouvertures aussi larges que possible en vitant les outils logiciels monolithiques et excessivement spcialiss ; choisissant des configurations matrielles disposant de trs vastes capacits dextension, tant en espace de stockage quen puissance de calcul ; relativisant constamment, auprs des informaticiens et des utilisateurs, la porte des choix techniques initiaux, tout en conservant un cadre mthodologique stable.
9.4 Organisation
Un projet de systme daide la dcision quel que soit le nom quon lui donne est avant tout un projet dingnierie informatique. Il convient donc dliminer demble tout exotisme inutile dans le vocabulaire utilis et de ne pas exagrer le caractre spcial de ce type de projet. Cependant, parmi les divers aspects des projets informatiques en gnral, certains ont une importance ou une coloration particulire dans le domaine de laide la dcision :
Jean-Marie Gouarn
147
Le Projet Dcisionnel
Lintgration de systme, avec les problmes darchitecture htrogne quelle implique, est un aspect beaucoup plus important que dans un applicatif de production ferm ; Les utilisateurs, de par leur profil et leurs proccupations, acceptent mal les contraintes et le jargon imposs par la technique. Lquipe de projet doit en tenir compte tout instant, pour ce qui concerne non seulement lergonomie de linterface homme-machine, les temps de rponse et la qualit de linformation, mais aussi la dmarche de spcification fonctionnelle ; Le cycle de vie itratif qui, dans les applications de production, est considr comme une option, est obligatoire en matire dcisionnelle. Il est en effet inconcevable dattendre des spcifications fonctionnelles figes qui ne viendront sans doute jamais avant de commencer le dveloppement ; Le dploiement de loutil dcisionnel nest pas de mme nature que celui dun outil de production. Le SID est l pour offrir un service, et non pour imposer une procdure. Il doit tre propos, accept et volontairement utilis. Le dploiement nest donc pas ici une simple affaire de technique et de logistique ; Aussi paradoxal que cela puisse paratre, un SID qui russit natteint jamais ses objectifs. Plus le systme est utilis, plus les objectifs changent. Cette ralit doit tre intgre au contrat qui lie le matre douvrage, le matre duvre et lquipe de projet. La notion de livraison clefs en mains, dj difficile mettre en uvre dans certains contextes applicatifs oprationnels, na pratiquement aucun sens en matire dcisionnelle. Ces quelques caractristiques distinctives, qui saccordent mdiocrement avec les normes classiques de lingnierie des systmes dinformation, ont naturellement un impact important sur la conduite du projet. Notre dcennie est moins favorable que la prcdente aux cathdrales mthodologiques. Et un projet dcisionnel se prterait de toute faon trs mal leur mise en uvre. Les manuels de conduite de projet rellement utilisables sont encore rares dans cette matire 177. Mais ceci ne justifie en aucun cas limprovisation.
9.4.1 Participants
Il y a, dans la problmatique de constitution des quipes, plus de ressemblances que de diffrences entre les projets dcisionnels et les autres. Mais, en matire de SID, les postes-cls correspondent des profils particuliers. Quels que soient leurs titres officiels dans lentreprise, les acteurs essentiels du projet sont : le Promoteur ; lArchitecte ; le Ralisateur ; lAdministrateur ; le Bibliothcaire. Les intituls de fonctions indiqus dans cette liste sont bien entendu fictifs et purement pdagogiques. Chacun est invit les traduire en fonction des profils et des structures de sa propre organisation. Naturellement, dans beaucoup de projets de taille modeste, plusieurs de ces fonctions sont cumules sur une seule tte. A loppos, dans les grands projets, des quipes danalystes, de concepteurs-ralisateurs, plus ou moins spcialiss dans certains mtiers de lentreprise ou dans certaines techniques informatiques, gravitent autour de ce noyau. Le rle de Promoteur dans un projet dcisionnel, mme dimportance moyenne, appartient une personnalit qui, dans son organisation, dtient une comptence transversale. En effet, le projet dcisionnel
177
Mais le genre littraire guide pratique , sous une forme la fois assez gnrale et assez prcise, commence cependant apparatre. En anglais, naturellement. Voir par exemple S. Anahory et D. Murray, Data Warehousing in the real world , AddisonWesley 1997.
Jean-Marie Gouarn
148
Le Projet Dcisionnel
est, par nature, orient vers la stratgie et les affaires, et non calqu sur les structures organiques. En effet, court ou moyen terme, le systme dinformation dcisionnel aura besoin de donnes en provenance de plusieurs systmes dinformation, cest--dire de plusieurs groupes de travail ou structures hirarchiques de lentreprise. De ce fait, plus la vision et lautorit du responsable fonctionnel du projet sont larges, plus le projet a de chances de succs. Il arbitre en dernier ressort les conflits ventuels concernant les objectifs et les priorits. Travaillant en liaison troite avec lArchitecte et le Ralisateur, ce manager sintresse la technique mais ne se laisse jamais mystifier par elle. Le Promoteur est matre douvrage178 pour le projet. Il occupe en gnral une fonction de direction qui ne lui permet pas de se consacrer temps complet au projet dcisionnel. Il faut alors sattendre ce que des impratifs prioritaires court terme, sans rapport avec le SID, sinscrivent tout instant dans son agenda, et ceci peut introduire une discontinuit dans la direction du projet. Il est donc indispensable que le promoteur ait ses cts un proche collaborateur qui, lui, soit affect au projet dcisionnel de faon strictement prioritaire. La matrise douvrage est en effet une activit permanente179 : il ny a pas, dans un projet dcisionnel, de priode pendant laquelle les seules dcisions prendre sont des dcisions techniques. Pour ce qui concerne la conception et la mise en uvre du systme, il nest pas vraiment souhaitable de rechercher exclusivement des profils ncessairement exotiques de spcialistes du data warehouse ou de tel ou tel aspect de linformatique dcisionnelle. Cette rserve est fonde sur plusieurs considrations : Lexpansion du march des systmes dcisionnels telle que nous la connaissons aujourdhui est un phnomne beaucoup trop rcent pour quon puisse srieusement esprer trouver suffisamment de vritables spcialistes. Cest vrai non seulement au sein du personnel informatique interne, mais aussi dans les effectifs des prestataires de service extrieurs ; Linformatique dcisionnelle nest pas rellement une spcialit ; cest une combinaison de mthodes et de techniques dont certaines sont spcifiques, mais dont la plupart sont communment utilises dans les systmes oprationnels. Un vrai spcialiste en informatique dcisionnelle ne peut donc tre quun gnraliste180. LArchitecte, en fonction des besoins exprims, des sources disponibles et des contraintes connues, tudie les alternatives de mise en uvre. Il labore le schma gnral dagencement des diffrents organes du SID et les choix technologiques pour chacun de ces organes. Il est responsable de lorganisation des procdures de pr-slection et de test des outils. Informaticien, il est cependant en contact permanent avec le Promoteur et avec les utilisateurs, avec lesquels il doit avoir une grande capacit de dialogue, car les choix doutils sont troitement dpendants des modalits dutilisation des donnes. Il doit galement avoir suffisamment dassurance et dautorit reconnue pour tre en mesure de rsister aux pressions techniciennes ou politiques qui, presque toujours, tendent favoriser des choix doutils indpendants de lexpression des besoins. Il doit aussi avoir les talents diplomatiques ncessaires pour sassurer la collaboration des responsables techniques des sources de donnes. Le Ralisateur est responsable de la mise en uvre effective de la solution technique dans le respect du budget et du calendrier contractuels. Sa mission, au premier abord, semble celle dun chef de projet classique . Toutefois, compte tenu des conditions trs informelles dans lesquelles les spcifications slaborent dans ce type de projet, le Ralisateur doit aussi tre un ngociateur capable daffronter sans tats dme les situations floues. Il ne peut pas systmatiquement sen remettre au Promoteur, qui na ni une vision suffisamment dtaille des problmes, ni une disponibilit totale, pour chaque dcision fonctionnelle. Aid si ncessaire par une quipe danalystes, il est notamment responsable, outre la conduite du chantier, de llaboration des Modles Conceptuels de Donnes.
178
La dfinition des responsabilits de matrise douvrage et de matrise duvre est gnralement mal tablie, voire absente, dans les projets dingnierie informatique, o elle est pourtant tout aussi indispensable quen matire de BTP. Cette carence contractuelle est une cause majeure dchec.
179 180
Le mot gnraliste est trs souvent peru ngativement, comme sil tait synonyme de dilettante ou de touriste . Dans le milieu informatique, nous considrons comme rellement gnraliste un professionnel possdant une forte comptence technique dans au moins un domaine-cl, des connaissances thoriques prcises dans un grand nombre dautres domaines, et une bonne capacit de communication avec des non-techniciens.
Jean-Marie Gouarn
149
Le Projet Dcisionnel
LAdministrateur est un expert des bases de donnes. Dans le jargon informatique, cest un DBA181. Cest lui qui est responsable de la mise en uvre, de loptimisation et de la scurit de la Base de Collecte et dIntgration et, le cas chant, des bases relationnelles de diffusion 182. Il possde galement une bonne matrise du systme dexploitation (ou au moins, si le SID comporte des plates-formes htrognes, de celle sur laquelle sappuie le SCI). Mais sa comptence va largement au-del car le SID nest pas seulement un entrept de donnes, cest aussi un ensemble complexe de processus (cf. 9.4.7). Le Bibliothcaire183 est en quelque sorte lui aussi un administrateur de donnes, mais son profil est plus proche de celui dun utilisateur que de celui dun technicien. Il est rarement envisageable que lAdministrateur lui-mme joue ce rle en parallle avec ses responsabilits techniques. Le Bibliothcaire matrise le catalogue des donnes (cest--dire la partie documentaire des mta-donnes, lexclusion de leur description technique). Il est en mesure dexpliquer la signification et lorigine de chaque information diffuse par le SID. Il assure, auprs des utilisateurs, lassistance technique de premier niveau. Ils recueille les dolances et observe la frquence et les modalits dutilisation effective du SID. Son rle devient essentiel ds que la premire version du SID est mise en service : cest lui qui est le mieux plac pour savoir comment loutil est peru et exploit, donc pour fournir des indications capitales pour lavenir du projet. De prfrence, cest un proche collaborateur du Promoteur dont il comprend bien les ides et les objectifs. Il doit tre particulirement motiv pour vendre le SID, et avoir des qualits pdagogiques certaines. Il est linterlocuteur le plus habituel, en rgime de croisire, de lAdministrateur, auprs duquel il ngocie les compromis ncessaires entre la qualit du service, la scurit et les contraintes techniques. Il na pas forcment dexprience informatique, mais il est form la problmatique gnrale du SID et la comprhension des Modles Conceptuels de Donnes ; de plus, il est parfaitement laise dans la manipulation des outils bureautiques. Cest en quelque sorte le technico-commercial du projet.
Database Administrator
Une base de donnes matricielle (OLAP) ne ncessite pas la comptence dun DBA. Sa mise en uvre relve plutt du dveloppement dapplications dcisionnelles.
183
Jean-Marie Gouarn
150
Le Projet Dcisionnel
Dans cette phase, aucun choix de mise en uvre technique ne doit tre pressenti et il nest pas utile de consulter directement les fournisseurs de matriel ou de logiciel.
9.4.3 Dmarche
Lun des premiers obstacles rencontrs par une quipe informatique abordant un projet dcisionnel est lextrme difficult obtenir des spcifications. Certes, les cahiers des charges imprcis et informels, ainsi que les remises en cause fonctionnelles en pleine ralisation ne sont pas rares dans les applications oprationnelles. Mais, en matire dcisionnelle, cest un phnomne structurel que la matrise douvrage la mieux organise ne peut viter. Cest lutilisation qui dfinit le besoin. Les utilisateurs dcisionnels savent mieux voir et approuver que dfinir et attendre. Par consquent, les spcifications initiales ne peuvent pas avoir la prtention de dcrire ce que sera le produit fini. Il est dautre part indispensable doffrir au moins un premier aperu concret des possibilits de loutil dans un dlai trs court. Face ces diverses contraintes, il convient de dterminer en dbut de projet, dune part, les contours essentiels du systme envisag moyen terme et, dautre part, un objectif de ralisation prcis court terme. Ce nest quaprs une premire livraison quon peut envisager ltablissement dun vritable cahier des charges assorti dun calendrier. Cette premire livraison prsente un caractre dcisif pour lavenir du projet ; on pourra lappeler prototype, premire version, version 1.0 ou application pilote, au gr de la matrise douvrage, mais il ne sagira en aucun cas dune maquette184. Le terme exact devra tre choisi par le Promoteur bon escient : certains mots, dans certaines entreprises, sonnent mieux que dautres. Le mot prototype , par exemple, est souvent mal peru, alors que le mot pilote qui, dans le vocabulaire informatique, en est pratiquement synonyme, est plutt bien accept. Le systme voluera ensuite de manire incrmentale. Le rythme de livraison des nouvelles versions devra tre constant et prdtermin. Le contenu de chaque version, en revanche, ne devra pas tre fonctionnellement fig avant la recette de la version prcdente.
Nous considrons comme prototype un produit non fini, voire primitif, mais capable de fonctionner utilement. Une maquette, en revanche, nest quune reprsentation inerte du produit, ne permettant que dapprcier sa forme extrieure.
Jean-Marie Gouarn
151
Le Projet Dcisionnel
et un seul responsable ayant autorit non seulement pour renseigner, mais aussi pour permettre (ou interdire) laccs aux donnes ; Inventaire des moyens existants ou pouvant tre mis en uvre en moins de trois mois pour lextraction et la transformation des donnes utiles ; Identification et dnombrement des contextes de chaque domaine (mais sans dfinition prcise, ce stade, des faits et des dimensions), puis attribution dun niveau de priorit chacun ; En fonction de (3) et (4), choix contractuel dun domaine et, dans celui-ci, dun contexte, voire de plusieurs contextes simples185, pour le prototype ; Dveloppement complet et document des Modles Conceptuels de Donnes de Diffusion et dIntgration du prototype. Dtermination des algorithmes de transformation entre sources et MI dune part, entre MI et MD dautre part. En cas dincohrence constate entre les modles, retour en (5), voire en (4) ; Le choix des outils du prototype, sil na pas t arrt avant (ce qui est prfrable) peut tre fait ici. Notons que le choix, ce stade, doit tre minimal, cest--dire limit ce qui est strictement ncessaire pour la mise en uvre du prototype (le SGBD dintgration, un seul moteur de diffusion, un seul outil de prsentation). Ce choix est rput valable pour le prototype, et ne doit pas tre peru comme exclusif et dfinitif pour le projet ; Installation des outils ; Dveloppement du schma physique de la base dintgration et, le cas chant, de celui de la base de diffusion ; Dveloppement des procdures dalimentation et dadministration du systme ; Dveloppement dun environnement de prsentation. Si loutil de prsentation est un requteur classique, cet environnement doit tre simple mais complet, et la possibilit pour lutilisateur dexporter simplement ses rsultats vers sa panoplie bureautique habituelle doit tre amnage. Si la prsentation est faite directement sous un tableur, ou avec un autre outil de manipulation dimensionnelle libre, on dveloppera un jeu de trois ou quatre feuilles de calcul ou pages de prsentation. Les graphiques doivent tre utiliss avec modration. Le prototype doit prsenter un jeu limit dditions fixes, mais essentiellement en tant que preuve de faisabilit ; Formation des utilisateurs pilotes ; Dploiement du prototype et assistance permanente aux utilisateurs ; Aprs deux six semaines dutilisation effective de cette version initiale, spcification contractuelle du calendrier des livraisons et du contenu de la version suivante. Le choix des objectifs de la premire version est un problme dlicat dont la solution est dterminante pour la suite du projet. Ces objectifs doivent tre situs avec prcision sur trois axes distincts et ventuellement divergents : Un axe technique : le prototype est cens tre une preuve de faisabilit et un moyen de valider ou de modifier un choix darchitecture ; Un axe fonctionnel : le prototype doit apporter une premire preuve dutilit apprciable par les utilisateurs ; Un axe politique : le prototype doit accrotre ou au moins conserver le capital de confiance et de notorit dont le projet a besoin pour se dvelopper ; il doit donc tre dmonstratif et attractif. En ralit, les conditions propres chaque projet font que lun de ces trois axes prdomine presque toujours. Il est cependant dangereux de faire une impasse totale sur les deux autres. Un prototype purement technique ne saurait rassurer que les informaticiens. Un prototype purement fonctionnel ne peut rpondre, dans un
185
La notion de simplicit est trs relative. Cependant, titre indicatif, nous considrons que la structure reste simple si, tous contextes confondus, le modle des donnes en FDN ne comporte pas plus dune douzaine dentits et de trois ou quatre indicateurs. Au besoin, on simplifiera un contexte pour les besoins du prototype, si cette simplification na pas pour effet de le rendre totalement inutile.
Jean-Marie Gouarn
152
Le Projet Dcisionnel
dlai raisonnable, qu un besoin extrmement ponctuel ; ventuellement satisfaisant pour une poigne dutilisateurs, il risque donc fort de convaincre l opinion publique de lentreprise que le SID nest rien dautre quune application verticale de plus. Quant au prototype purement publicitaire, sa sduction a toutes chances de retomber comme un souffl si les utilisateurs, derrire les graphismes somptueux, ne trouvent pas linformation utile. Le but principal de la premire version du SID doit tre ajust en fonction de lenvironnement politique du projet. Mais, compte tenu de ce qui vient dtre signal, le Promoteur veillera au moins ce que : les donnes prsentes, mme si larchitecture dalimentation est incomplte, soient relles, jour et utiles ; larchitecture technique comporte bien, au moins sous une forme embryonnaire, les deux soussystmes du SID (SCI et SDP), et soit capable de salimenter automatiquement au moins lune des sources prvues dans le projet ; loutil interactif daccs aux donnes soit facile utiliser et prsente une ergonomie sobre mais attrayante. Enfin, un intense accompagnement pdagogique est de rigueur lors de la prise en main de loutil par ses utilisateurs.
Jean-Marie Gouarn
153
Le Projet Dcisionnel
donner lieu des perceptions pjoratives, est viter dans les conversations et les documents lis au projet. Lexpression prototypage volutif est encore plus dconseille. Mais le mot volutif doit cependant figurer en bonne place dans la dfinition officielle du SID.
9.4.6 Sous-traitance
Le SID ne peut pas tre achet comme un produit. Son dveloppement ne peut pas non plus tre globalement externalis. Toutefois, les dlais tendus qui simposent toujours au projet, et limpossibilit pratique de constituer du jour au lendemain des quipes internes adquates, rendent presque toujours obligatoire le recours des prestataires extrieurs. La forme contractuelle de lappel la sous-traitance nest pas toujours ajustable la nature particulire de chaque projet. Le projet dcisionnel doit souvent se plier des normes dentreprise qui, un moment donn, sappliquent tous les projets dintgration de systme et de dveloppement de logiciel. Le choix entre une obligation de rsultat (forfait) ou une obligation de moyens (rgie) pour le prestataire peut donc tre un choix impos. Le cas de la rgie ne pose pas de problme particulier, sinon un problme classique de recrutement intuitu person. Toutefois, si le profil recherch correspond lun des postes-cls voqus au 9.4.1, on doit viter quelques piges qui, bien que grossiers, ne sont jamais trop signals : Les fonctions de Ralisateur (chef de projet) et dArchitecte ne doivent pas tre confies des spcialistes directement lis lditeur de logiciel ou au constructeur187 fournissant lune des technologies principales du projet. Mme sil ny a aucun doute sur leur valeur professionnelle et leur dontologie, ces experts ne peuvent pas avoir la mme libert daction et la mme indpendance de vues que dautres en matire de choix techniques. Par ailleurs, la remise en question dun choix technique ne doit pas avoir pour consquence automatique celle de lencadrement du projet. Et il est trs imprudent de considrer un choix technique comme dfinitif en matire dcisionnelle ; Les notions dinformation dcisionnelle, de systme de pilotage, de data warehouse, etc., ayant des significations trs varies selon les interlocuteurs, et les perspectives ayant profondment chang depuis les annes 80, la longueur dune exprience antrieure en la matire nest pas forcment un gage de comptence en rapport avec le projet ; Le Ralisateur doit tre recrut dabord selon sa valeur comme chef de projet en gnral, et ensuite selon son exprience des projets dcisionnels ; LArchitecte doit tre recherch dabord pour sa connaissance des architectures htrognes et sa vision transversale de la technique, et ensuite pour sa connaissance des outils du SID ; Pour lensemble des autres postes techniques, la connaissance pralable de la problmatique des SID est souhaitable, mais la matrise des bases de donnes relationnelles et des environnements clientserveur est obligatoire ; Et enfin mieux vaut insister sur ce point les fonctions de Promoteur et de Bibliothcaire ne se sous-traitent pas. Le cas du forfait est beaucoup plus pineux. Comment, en effet, fixer un sous-traitant une obligation de rsultat, assortie dun dlai et dun budget, lorsque le rsultat lui-mme nest pas contractuellement formul ? La solution la moins dangereuse en pareil cas autant pour le ralisateur que pour son client consiste dcouper la mission en deux phases successives, assorties de rgimes contractuels diffrents : Une premire mission, dune dure de 6 8 semaines, impliquant personnellement le Promoteur et un ou deux intervenants de lentreprise prestataire, tablit dun commun accord le cahier des charges de la version initiale du SID. Dun point de vue contractuel, pour cette phase, le prestataire est tenu une obligation de moyens ; il sagit pour lui dune mission de conseil, pouvant tre qualifie d assistance
187
On peut naturellement faire exception cette rgle, lorsque lintervenant a une comptence personnelle allant trs au-del de loffre de son employeur, et sil appartient une quipe de conseil notoirement autonome par rapport aux activits de diffusion de produits.
Jean-Marie Gouarn
154
Le Projet Dcisionnel
la matrise douvrage , mme si le cahier des charges peut tre considr comme un lot livrable une date convenue ; La ralisation de la version initiale, sur la base du cahier des charges valid par lentreprise et accept par le prestataire (qui a particip sa rdaction) peut alors avoir lieu en tant que prestation forfaitaire de dveloppement logiciel et/ou dintgration. La recette conscutive la livraison du systme peut servir de base llaboration dun nouveau contrat de dveloppement forfaitaire pour une seconde version, et ainsi de suite188. Dans lintrt des deux parties, tant que le rgime du forfait reste en vigueur, il est impratif que chaque itration soit dveloppe sur la base dun nouveau contrat. Ceci prsente le double avantage de permettre chacun de renoncer la poursuite du projet sans consquence dramatique, et de maintenir la cohrence entre les objectifs contractuels et lvolution des besoins. Mais tout cela ne fonctionne que si, compte tenu de la charge de travail du Promoteur et des procdures de passation de commande en vigueur, ltablissement de contrats successifs frquents est possible189. Indpendamment du cadre juridique des prestations, le transfert de comptences techniques et mthodologiques du prestataire vers lentreprise doit explicitement faire partie de la mission. En contrepartie, il appartient lentreprise de faire en sorte que le Promoteur (ou son reprsentant qualifi) soit facilement accessible et en mesure de fournir tout moment les informations dont le prestataire a besoin pour russir sa mission ; le prestataire, pour viter tout malentendu, a intrt ce que le degr de disponibilit de la matrise douvrage soit indiqu dans le contrat. La sous-traitance ne commence pas ncessairement avec la ralisation. Ltude pralable est souvent effectue avec laide de consultants externes. Appartenant gnralement des cabinets de conseil en management, organisation, logistique, marketing ou autre domaine de comptence vertical , ils matrisent mieux le discours du business que celui de linformatique. La plupart du temps, une mission de conseil laisse derrire elle un certain nombre de dossiers sur la base desquels, aprs quelques semaines ou quelques mois, la Direction Gnrale prononce, ventuellement, une dcision de lancement de projet. A ce moment, les techniciens entrent en scne et dcouvrent le projet ; mais les auteurs de ltude pralable sont loin. On peut alors tre confront une alternative fcheuse : ou bien le dossier de ltude, quelle que soit sa pertinence stratgique, est trop gnral pour servir de base une spcification informatique, et dans ce cas les techniciens auront dfinir eux-mmes une grande partie des fonctions du systme, avec tous les malentendus potentiels que cela suppose ; ou bien les consultants ont voulu tre trop prcis et, sortant de leur sphre de comptence, ont dj traduit certains besoins en termes de solutions techniques avec lesquelles les informaticiens ont de fortes chances dtre en dsaccord. Pour ne pas en arriver l, il est indispensable, dune part, que le Promoteur du projet ne manque pas dacqurir, avant le dpart de lquipe de conseil, une connaissance personnelle approfondie du dossier, et dautre part quil y ait au moins une priode de recouvrement entre la fin de la mission de conseil et le dbut de la mission du Ralisateur et de lArchitecte. La question ne se pose pas, toutefois, dans les trs grands projets dcisionnels o la mission de conseil continue en parallle avec la mission de mise en uvre.
9.4.7 Administration
Le SID ne peut fonctionner et voluer terme que moyennant un effort soutenu dadministration des donnes, des traitements et des utilisateurs. Lactivit dadministration est permanente ds lors que le systme est construit, mme en version initiale simple. Elle contrle lactivit et les performances et gre le changement et la croissance190.
188
Il peut arriver aussi que, aprs un ou deux cycles de dveloppement, lentreprise poursuive le projet en rgie, en intgrant demeure une partie de lquipe de ralisation. En ralit, le forfait peut tre un moyen dvaluation initiale des comptences et de la ractivit du prestataire.
189 190
Lobligation, par exemple, de procder un appel doffres public chaque itration exclut une telle dmarche. W.H. Inmon, J.D. Welch, K.L. Glassey, Managing the Data Warehouse , John Wiley & Sons 1997.
Jean-Marie Gouarn
155
Le Projet Dcisionnel
Les lments fondamentaux justiciables de cette administration sont La structure et le contenu de la Base de Collecte et dIntgration ; Les processus dalimentation ; La structure logique et physique des bases de diffusion ; Les processus de transfert de donnes entre le SCI et le SDP ; Les mta-donnes ; Les modalits et lintensit dutilisation ; La scurit. Ces lments sont tous fortement interdpendants et ne peuvent donc pas tre grs isolment. La charge de maintenance de lentrept de donnes est certainement la plus importante. Lessentiel de cette charge ne vient pas des incidents techniques alatoires. La structure de la BCI doit tre adapte et roptimise chaque fois quune nouvelle source de donnes est intgre. Le seul coulement du temps ayant pour effet dapprofondir les historiques mmoriss, le volume de la BCI augmente et, fatalement, franchit des seuils techniques qui ncessitent des rorganisations. Les mises jour priodiques provoquent la longue, sur les supports physiques, des phnomnes de fragmentation qui, eux aussi, imposent des rorganisations. Il nest pas souhaitable, par principe, que lAdministrateur cherche sopposer laugmentation inexorable des volumes. Mais il lui appartient de faire en sorte que cette augmentation soit justifie. Dans toutes les organisations, une dcision de jeter est toujours plus difficile prendre quune dcision de conserver (plus exactement, labsence de dcision quivaut une dcision de conserver). Faute dun suivi rigoureux, on peut donc sattendre ce que le contenu de lentrept de donnes, utile 90 ou 100% lors de la phase pilote, ne le soit plus qu 50 ou 60% aprs deux ou trois ans de croissance. On ralisera donc des conomies considrables en se donnant les moyens didentifier les donnes inutiles. Sur ce point, il faudrait tre dune grande navet pour croire que les utilisateurs eux-mmes donneront expressment les indications ncessaires. La seule vraie solution consiste, pour lAdministrateur, se donner les moyens techniques dobserver lusage effectif des donnes. Le suivi des requtes est trs instructif cet gard. Loin de toute ide de contrle policier sur laccs aux donnes, il permet, dune part, de reprer les informations qui ne sont jamais utilises et, dautre part, de dtecter les problmes de performances. Cette fonction administrative, lorsquelle peut tre mise en uvre avec des outils appropris, est un moyen essentiel doptimiser lutilisation des ressources et la qualit du service. Lactivit darrire-plan du SID, qui joue un rle aussi essentiel que discret quand tout va bien, implique un grand nombre de processus interdpendants, et la dfaillance dun seul dentre eux peut avoir des consquences dramatiques. Ces processus doivent, avec une rgularit dhorloge, assurer de bout en bout la mise jour cohrente de lensemble du systme. Les incidents doivent donc non seulement tre traits, mais encore anticips. LAdministrateur doit donc dfinir un certain nombre de seuils dalerte (taux doccupation dun disque, taux dactivit dun processeur, arrt ou lancement anormal dun processus, dure anormale dexcution dune requte, etc.) afin de pouvoir agir, le cas chant, avant la panne plutt quaprs. Il doit aussi prvoir des mesures de fonctionnement en mode dgrad en cas dincident paralysant un des organes du SID ou dindisponibilit dune source de donnes. La complexit de ces tches nest pas compatible, dans un projet important, avec une administration manuelle. Il est donc indispensable, dans certains cas, de sappuyer sur des plates-formes ou des automates logiciels dadministration de systme appropris 191. La prsentation et la classification de ces outils naurait gure sa place dans ce livre. Mais il est quand mme opportun de mettre le lecteur en garde sur lexistence dune distinction prcise, dans le vocabulaire de lexploitation informatique, entre ladministration de systme et ladministration de base de donnes. Les outils ne couvrant que ladministration de systme contrlent les processus, les ressources physiques et les utilisateurs, mais ils ne voient pas les objets
191
Les outils dadministration de systme les plus connus sont proposs par des constructeurs comme Hewlett-Packard, IBM, Bull ou des diteurs de logiciel comme Computer Associates et BMC. Ces outils ne sont pas particulirement ddis linformatique dcisionnelle.
Jean-Marie Gouarn
156
Le Projet Dcisionnel
propres aux SGBD tels que les tables, les requtes, les transactions. Lactivation dune fonction dadministration de systme agissant sans coordination avec une fonction dadministration de base de donnes peut donc induire une incohrence dans les donnes, voire rendre la base inutilisable. Lintgration des outils doit donc tre faite sans ngliger la coordination entre ces deux niveaux dadministration. La scurit du SID, mme si ce nest pas toujours le premier sens quon lui attribue, cest dabord lassurance de sa continuit de fonctionnement, cest--dire lensemble des mesures dadministration prises pour la prvention et la rparation des incidents. Cest cependant la confidentialit qui est, dans beaucoup de cas, la question sensible. Il est vrai que la valeur dun entrept de donnes augmente avec sa disponibilit ; plus une donne est accessible, plus elle est utile ; la philosophie dun SID efficace est celle de linformation partage. Cependant, pour un ensemble de raisons lies la comptition, la lgislation ou la culture, la confidentialit demeure un problme incontournable pour toute base de donnes dentreprise. Dans les projets les plus simples, la gestion de la scurit se limite au contrle lentre : une fois la connexion accepte, lutilisateur peut accder toutes les donnes disponibles. Mais ds que la population des utilisateurs se diversifie, la logique du tout ou rien doit cder la place une modulation plus fine des droits daccs, selon le profil de chacun. On est alors amen faire une classification des utilisateurs et une classification des donnes, puis dtablir les relations entre les deux, et enfin de mettre en place les dispositifs techniques disolation appropris. Ces dispositifs nimpliquent pas seulement des charges de dveloppement informatique supplmentaires ; ils ont aussi un impact important sur les volumes et/ou sur les performances. La personnalisation des droits daccs peut en effet tre ralise de deux manires : par redondance, en ne donnant accs chaque utilisateur qu une copie partielle de la base de diffusion192, dleste de tout ce quil na pas voir ; par masquage, en activant dans la base de diffusion des filtres bass sur les classifications de scurit en vigueur. La premire mthode est difficile appliquer grande chelle, compte tenu de lexplosion du nombre de bases de donnes logiques alimenter et grer, et des volumes de donnes redondantes. La seconde est plus praticable long terme, mais elle a un effet ngatif sur les performances. Le procd le plus classique pour la mettre en uvre dans une base de donnes relationnelle consiste interdire laccs direct aux tables et noffrir aux utilisateurs que des vues193 adaptes leurs profils respectifs. Mais, terme, lexplosion des possibilits combinatoires induites par la classification des utilisateurs et celle des donnes peut compliquer les choses : il nest pas possible, dans un systme en volution, dadministrer des centaines ou des milliers de vues. Au pire, on peut tre amen adopter un SGBD de haute scurit, capable de grer lui-mme une classification des donnes enregistrement par enregistrement194. La confidentialit est une question sensible ne pas ngliger. Toutefois, si elle prend une trop grande importance par rapport aux autres aspects du projet, cela peut tout simplement vouloir dire que le SID nest pas possible, ou que la rflexion son sujet nest pas mre. Ladministration des mta-donnes (dont on a propos une dfinition au 3.5.4) doit assurer la correspondance entre les donnes et leur description tout au long des chanes dalimentation du SID. Les mta-donnes, si elles forment logiquement un tout, sont physiquement clates, rpliques et multiformes. Lutilisateur final les voit sous forme de documentation textuelle (lectronique ou imprime). Pour les outils de prsentation, elles contiennent linformation ncessaire la construction des requtes techniques aux bases de donnes selon les actions de lutilisateur. Pour lAdministrateur et pour les procdures
192
Ceci nimplique pas ncessairement lexistence dune base de donnes physique distincte pour chaque profil dutilisateur. La redondance peut tre organise, par exemple, en tablissant, dans une mme base physique, des copies partielles de chaque contexte.
193
Une vue, en termes techniques, na pas la mme signification quune vue conceptuelle au sens qui a t prsent dans la section 4.1. Dans une base de donnes relationnelle, une vue est une table virtuelle correspondant une pr-slection de donnes appartenant physiquement une ou plusieurs tables. Pour lutilisateur, une vue apparat comme une vraie table. Mais lexcution dune requte sur une vue implique, de la part du SGBD, des traitements plus complexes et plus longs que sur une table.
194
Il sagit de versions blindes , compatibles avec le niveau de scurit F-B1/E3 de lITSEC, sachant que les SGBD ordinaires, qui grent les droits de proprit mais pas les classifications, sont gnralement au niveau F-C2/E3. Mais il convient de prciser que le SGBD seul ne peut garantir un niveau de confidentialit ; cest la combinaison du SGBD, du systme dexploitation, de la machine et du rseau qui est considrer.
Jean-Marie Gouarn
157
Le Projet Dcisionnel
dalimentation et de transfert, elles dcrivent des structures physiques de donnes sources et cibles. Matriellement, elles sont consignes pour partie dans la BCI, pour partie dans les bases de diffusion et dans les interfaces de prsentation, et pour partie dans des manuels dutilisation 195. Lensemble doit avoir une cohrence globale, et chacun doit le voir sous langle qui lintresse. Il nexiste pas de procd universel pour traiter cette question : les solutions applicables dpendent de la combinaison des outils mis en uvre (de lextraction primaire jusquau bureau de lutilisateur) et des possibilits de coordination entre ces outils.
Il ne sagit pas seulement des manuels destins lutilisateur du SID, mais aussi de la documentation technique des sources de donnes (dossiers dtude et de ralisation des applications de production, notices des fournisseurs externes dinformation).
196
N. Raden, Choosing the right OLAP technology , in Planning and Designing the Data Warehouse , recueil publi sous la direction de R. Barquin et H. Edelstein, Prentice Hall 1997.
197
Par exemple un requteur destin aux interrogations prformates et un serveur de donnes matriciel.
Jean-Marie Gouarn
158
Le Projet Dcisionnel
fournisseurs eux-mmes198, ils constituent une aide prcieuse la formulation des problmes. Ils ne sont cependant pas des guides comparatifs efficaces, linstant du choix. La rapidit de lvolution leur interdit en effet dtre la fois complets et jour. Certains consultants ou socits de services proposent des fiches danalyse comparative doutils tablies la demande, donc prsentant une garantie dactualit ; cette approche peut tre efficace, condition toutefois que le prestataire ait un rel intrt la russite du projet et que la matrise douvrage sintresse autant la mthodologie de ltude qu ses conclusions. Quant aux mesures de performances, trs importantes pour les serveurs de donnes, elles sont difficiles tablir. Certes, il existe des bancs dessais officiels. Il sagit, pour les bases de donnes relationnelles, du TPC-D199 et, pour les bases de donnes matricielles, de lAPB-1200. Nous ne discuterons pas ici de la valeur probante trs relative en dcisionnel comme en transactionnel dun benchmark gnral qui met en uvre un scnario sans rapport avec le projet envisag. Le TPC-D et lAPB-1, quant eux, sont de toutes faons beaucoup trop coteux et trop longs dvelopper par rapport au budget et aux dlais dun projet moyen. En outre, ils ne mettent pas assez laccent sur les performances de mise jour massive des bases de donnes201. Il est donc gnralement plus sr de dvelopper des bancs dessais spcifiques, bass sur des structures et des volumes en rapport direct avec les applications. Le meilleur banc dessai est le prototype du projet. La principale difficult est alors de se procurer des donnes en volume suffisant. Les choix doutils intervenant normalement avant que le Systme de Collecte et dIntgration soit disponible, la constitution du jeu de test oblige recourir des expdients provisoires (extraction et formatage sommaires de donnes de production, voire fabrication pure et simple de donnes fictives). Il est cependant imprudent de faire limpasse sur la mesure des performances, au moins pour ce qui concerne les serveurs de diffusion, pour lesquels les temps de rponse aux requtes et les temps de chargement ont une importance dcisive. Dans la pratique, on est donc souvent amen prslectionner, plus ou moins arbitrairement, une liste courte limite deux ou trois produits 202. Pour mettre valablement lpreuve un moteur de diffusion relationnel ou matriciel il faut compter entre deux et quatre semaines pour la prparation du banc dessais, deux jours (y compris, ventuellement, une nuit de test de chargement massif) pour son excution, et encore une semaine pour les conclusions. Lopration mobilise pratiquement deux personnes temps complet, ncessite la mise disposition exclusive dune plate-forme matrielle et implique, de la part du fournisseur, une assistance qui nest pas forcment gratuite. Pour ce qui concerne les outils de prsentation, lapproche est diffrente. On commencera plutt par dresser une liste de 6 10 produits pouvant correspondre la catgorie dutilisation vise (avec toutes les rserves quon a voques au sujet de la valeur des classifications doutils). Une tude documentaire rduira cette liste deux ou trois noms. Les fournisseurs seront ensuite invits prter leurs produits pour une dure de trois cinq semaines au cours desquelles on procdera, sur la base dun scnario prdfini, une valuation technique par des informaticiens suivie dune valuation fonctionnelle par des utilisateurs. Les tests doivent naturellement tre faits en liaison avec le serveur de diffusion 203. Laide du fournisseur, pour ce type de produits, doit se rduire une simple assistance tlphonique (si la prsence physique du fournisseur est ncessaire pendant le test, cest une premire indication ngative pour un outil de prsentation). Tout ceci est, somme toute, assez classique ; mais le cadre particulier dans lequel se droulent les projets dcisionnels, et linexprience des quipes informatiques internes en la matire, sont autant dobstacles au bon droulement du processus.
198
Les diteurs de logiciel et les constructeurs publient de nombreux articles et livres blancs. Certains dentre eux, au-del de leur aspect promotionnel, ont une relle valeur pdagogique.
199
Le Transaction Processing Council (TPC) a mis au point plusieurs bancs dessais respectivement nomms A, B, C et D. Le dernier dentre eux, le TPC-D, introduit en 1995, est le seul destin mesurer des performances de type dcisionnel.
200 201 202
LAPB-1 (Analytical Processing Benchmark n 1) est propos par lOLAP Council. LAPB-1 prend en compte les temps de mise jour incrmentale des donnes.
Sachant que le prix dacquisition dun de ces logiciels se ngocie comme celui dun revtement de sol sur un march mditerranen, il est toujours prfrable de mettre au moins deux fournisseurs en concurrence. Sans oublier, si le fournisseur est un diteur de logiciel amricain, de passer commande un soir de clture trimestrielle.
203
Si le choix de loutil de prsentation est techniquement li au choix du moteur de diffusion, on valuera videmment lensemble de la chane en une seule session dessais.
Jean-Marie Gouarn
159
Le Projet Dcisionnel
Dun autre ct, le choix prmatur des outils de prsentation-diffusion peut tre, dans certains cas, une vritable bombe retardement. Il risque en effet de mettre lquipe de conception en face dune alternative dsastreuse, en la forant choisir, dlibrment ou non, entre forcer linterprtation des besoins pour lamener concider avec les possibilits de la technique choisie, cest--dire construire un SID dinformaticien , qui aura peu de chances dtre rellement utilis ; remettre les choix techniques en question mi-parcours, avec les consquences que cela peut avoir dans le climat politiquement tendu dun projet dcisionnel. Le choix, arbitr par le Promoteur, doit rsulter dune concertation srieuse entre celui-ci, le Ralisateur et lArchitecte. Les dcisions imposes par des instances dirigeantes nayant quune relation distante avec le projet sont dangereuses, prcisment parce quelles interviennent presque toujours prmaturment et sans rapport avec les tudes en cours. Elles sont cependant frquentes, et ont deux origines principales. La premire est le souci dharmonisation voqu la section 8.1, qui tend, parfois mal propos, tablir des classifications rigides doutils et imposer un produit et un seul dans chaque catgorie. La seconde est la tactique commerciale des fournisseurs doutils daide la dcision, base sur une approche systmatique des Directions Gnrales et des responsables fonctionnels potentiellement concerns (marketing, ventes, contrle de gestion, etc.). Brillante, gratifiante, appuye sur un discours proche du mtier (et des modes verbales qui sy rapportent), cette approche politique directe est de nature sduire le manager qui a limpression de dcouvrir une informatique nouvelle, proche de lui, intelligente et bien leve. Ce phnomne est dangereux plus dun titre car il favorise la construction du SID autour dun outil et non autour dun besoin ; il peut prcipiter des choix techniques sans vrification de faisabilit ni valuation des cots indirects ; il peut avoir un effet dmobilisateur sur les quipes informatiques qui se voient imposer des dcisions techniques auxquelles on ne les a pas associes. Autant il est indispensable que les dirigeants jouent un rle moteur dans la cration du SID, autant les dcisions relatives lintgration des composants techniques doivent sinscrire en leur temps et leur place dans le processus de ralisation.
Jean-Marie Gouarn
160
Le Projet Dcisionnel
10. Conclusion
Identifier des enjeux, spcifier des modles daccs aux donnes, choisir une architecture sont les actes fondateurs les plus dcisifs pour le dveloppement dun Systme dInformation Dcisionnel. Enjeux, modles et architectures sont dailleurs, bien plus que les outils, les vritables lments distinctifs dun projet dcisionnel. Construire un SID, cest dabord se donner les moyens de dpasser ou de contourner des limites propres aux systmes dinformation existants. Or ces limites sont plus organisationnelles et mthodologiques que technologiques, et cest l que rside la difficult majeure. Sil fallait dire, en rsum, quelles sont les cls de la russite dun tel projet, on pourrait en proposer deux : La premire est la valeur du contenu, qui repose elle-mme sur deux impratifs essentiels. Dabord, le contenu informationnel ne peut tre valablement conu que sur la base dune modlisation de donnes complexe et multiforme, jouant le rle dun trait dunion entre les structures smantiques respectives des sources et des points de vue. Ensuite, la disponibilit effective de ce contenu ne peut tre assure que par une chane dalimentation plusieurs niveaux, aussi robuste que prcise ; La seconde est lappropriation de linformatique par le dcideur. Le projet dcisionnel se caractrise par une relation nouvelle entre le management et linformatique. Ne pouvant saccommoder dune matrise douvrage distante ou vanescente, il implique lengagement rel et constant de son promoteur. Pour devenir un outil de dcision, linformatique ne doit plus tre regarde de loin comme un centre de cot gr par une secte de techniciens. Une Direction Informatique livre elle-mme naurait gure de chances mme si elle en avait la prtention de mener bien un projet dcisionnel digne de ce nom. Ces deux cls, mme si elles nouvrent pas toutes les portes, doivent permettre au moins de franchir les seuils les plus dcisifs. Elles correspondent aux ides essentielles que ce livre sest efforc de prsenter.
Jean-Marie Gouarn
161
Le Projet Dcisionnel
Administration
WILLIAM H. INMON, J.D. WELCH et KATHERINE L. GLASSEY, Managing the Data Warehouse, John Wiley & Sons, 1997.
Jean-Marie Gouarn
162
Le Projet Dcisionnel