Sangupamba Mwilu
Sangupamba Mwilu
Sangupamba Mwilu
RAPPORTEURS :
DR Fadila Bentayeb Professeur-Associé HDR, Université Lumière Lyon 2
PR. Christine Legner Professeur, Université de Lausanne
EXAMINATEURS :
PR. Jacky Akoka Président de Jury, Professeur émérite, Cnam-Paris
PR. Olivier Teste Professeur, IRIT
A la mémoire de mon père Armand SANGUPAMBA MUKANGU,
A la mémoire de ma mère Constantine MAHENGANU MAMONA,
A la mémoire du Cardinal Joseph Albert MALULA,
A la mémoire de Monseigneur Eugène MOKE,
Je dédie ce travail.
II
Remerciements
Il nous est un agréable devoir de rendre hommage à tous ceux qui nous ont apporté une
assistance durant notre formation et en particulier dans l'élaboration de ce travail.
Notre gratitude s'adresse avant tout au professeur Isabelle Wattiau et au professeur associé
Nicolas Prat qui n'ont aménagé aucun effort pour nous initier au métier de chercheur. C'est
grâce à leurs conseils et encouragements que nous avons pu rédiger cette thèse.
Puissent tous les membres de l'équipe ISID trouver ici l'expression de notre reconnaissance
pour leur encadrement et leurs encouragements. Nous pensons en particulier à nos amis, les
doctorants Quentin, Pierre Henry, Subhi, Anh et Noura.
Que tous nos frères et sœurs SANGUPAMBA, leurs conjoints ainsi que leurs enfants trouvent
ici l'expression de notre profonde gratitude pour leurs affection, soutien et encouragements
tout au long de notre formation.
A notre famille religieuse, la Congrégation des sœurs de Sainte Thérèse de l'Enfant Jésus de
Kinshasa, nous exprimons toute notre reconnaissance pour le soutien moral et spirituel.
Enfin, nos remerciements s'adressent à toute la famille MBUYI MUKADI et à tous nos amis
pour l'attention dont nous avons toujours été bénéficiaire.
III
Résumé
Résumé en anglais
BI and cloud computing are two major areas of computer science research and in particular in
information system. A research combining these two concepts has a double interest : On the
one hand, in business, the BI becomes increasingly an important part of the information
system which requires investment in terms of computing performance and data volumes. On
the other hand, cloud computing offers new opportunities to manage data for analysis.
Given the possibilities of cloud, migration question of the information system including BI is
of great interest. In particular, researchers must provide models and methods to help
professional in BI migration to the cloud.
The research question is : how to migrate BI to the cloud?
In this thesis, we address this issue using design science research approach. We implement a
decision-making help for BI migration to the cloud based on taxonomies. We provide an
operational guidance model that is instantiated by a BI taxonomy in the cloud and from that
rules for BI migration to the cloud are arised.
CHAPITRE 5 : DEVELOPPEMENT D’UNE TAXONOMIE DE LA BUSINESS INTELLIGENCE DANS LE CLOUD ......... 101
CHAPITRE 6: AIDE A LA DECISION DE MIGRATION DE LA BUSINESS INTELLIGENGE VERS LE CLOUD .............. 132
TABLEAU 1: TYPOLOGIE DES ARTEFACTS EN SCIENCE DE CONCEPTION (SANGUPAMBA MWILU, PRAT AND COMYN-WATTIAU 2014) 14
TABLEAU 2 : EXTRAIT DU CADRE DE REFERENCE DE LA BI DANS LE CLOUD .............................................................................. 42
TABLEAU 3 : SYNTHESE DES OPPORTUNITES DE RECHERCHE ................................................................................................. 58
TABLEAU 4 : TAXONOMIE DE CONTEXTE : ITERATIONS DES SOURCES DE TYPE 1 ..................................................................... 108
TABLEAU 5 : TAXONOMIE DE DECISION : ITERATIONS DES SOURCES DE TYPE 1 ...................................................................... 114
XII
1.1. Contexte
En outre, le domaine des SI suscite plusieurs thèmes de recherche en rapport avec les
technologies de l'information. Un des thèmes d'actualité (aussi bien pour les chercheurs que
pour les praticiens) est la transformation numérique (des SI). Celle-ci vise notamment à
répondre aux besoins d’évolution des SI des organisations. Elle s’inscrit dans le défi de la
révolution numérique et de son impact sur les organisations.
Cette transformation numérique (des SI) s'accompagne de quelques termes phares tels
que le big data, le cloud computing, la business intelligence (BI), l'analytique, la mobilité, etc.
2
Elle implique un changement de paradigme au sein des organisations. Ces dernières font de
plus en plus le choix de l’externalisation, notamment l’adoption de solutions cloud.
Notre thèse dont le sujet est "de la BI interne à la BI dans le cloud : modèles et apports
méthodologiques" se place dans le cadre de la recherche en système d'information et
précisément dans l’optique de ce thème d'actualité qu’est la transformation numérique.
La BI est un terme général. Elle comprend les applications, l'infrastructure, les outils et
les meilleures pratiques qui permettent l'accès à l'information en vue de son analyse pour
améliorer et optimiser les décisions (Gartner IT Glossary).
Le cloud computing, quant à lui, est un modèle technologique qui permet un accès, via
un réseau de télécommunications, à la demande et en libre-service, à des ressources
informatiques partagées configurables (exemple : réseaux, serveurs, stockage, applications et
services) qui peuvent être rapidement approvisionnées et diffusées avec un effort minimal de
gestion ou d'interaction avec le fournisseur de services (Yang and Tate 2012) .
1
On parle de cloud public par opposition au cloud privé. En général, dans le cloud public, il y a une
mutualisation de ressources externalisées qui sont mises à disposition par un fournisseur tiers. Le cloud privé
préfère appliquer les mêmes techniques mais en interne, sur une infrastructure mise en place et gérée directement
par l’entreprise.
3
- D’une part, le cloud computing offre de nouvelles opportunités de gestion des données
à des fins d’analyse. Il fournit des infrastructures matérielles et logicielles ainsi que
des espaces de calcul qui semblent illimités pour les clients (Baars and Kemper 2010).
- D'autre part, la BI apporte une valeur ajoutée au grand volume de données contenues
dans le cloud, on parle de l'analyse de big data (big data analytics). Grâce aux
techniques et bonnes pratiques de la BI, on peut identifier de nouvelles connaissances
dans les masses de données hétérogènes contenues dans le cloud (Nayem, Fahad and
Akhter 2013).
Etant données les possibilités du cloud, les entreprises doivent se poser la question d'y
migrer (l'ensemble de) leur système d’information, y compris la BI. Ainsi, les chercheurs
doivent fournir aux professionnels des modèles et des méthodes qui puissent les aider à
migrer leur BI vers le cloud.
Comment aider les organisations à migrer leur BI vers le cloud ? Notre principale
question de recherche est : "Quels sont les nouveaux artefacts à développer pour que la BI tire
profit du cloud computing ?".
Cette thèse devra proposer des modèles et des méthodes qui puissent aider les
organisations désireuses de passer de la BI interne à la BI dans le cloud comme l'énonce son
sujet : "de la BI interne à la BI dans le cloud : modèles et apports méthodologiques". Pour ce
faire, nous avons adopté une approche de recherche en système d'information que nous
présentons à la section suivante.
1.3. Approche
Comme nous l'avons dit plus haut, notre travail se place dans le cadre de la recherche en
Système d’Information (SI). Il existe deux paradigmes principaux pour la recherche en SI
(Hevner et al. 2004) : "science de conception" et "science du comportement". Le premier
tient son origine de l’ingénierie et des sciences de l’artificiel. Il produit les artefacts pour
résoudre un problème pertinent non encore résolu jusque-là. Les artefacts ainsi produits sont
évalués afin de vérifier leur qualité et leur efficacité. Ce premier paradigme est prescriptif. Le
second tient son origine des sciences naturelles, il développe et justifie des théories. La
recherche en science de conception dans les systèmes d'information vise à étendre les limites
4
Eu égard à ce qui vient d’être dit, cette thèse devra aboutir à la mise en place de
nouveaux artefacts pour enrichir la base des connaissances sur la BI dans le cloud. Ainsi dans
la section suivante, nous proposons un aperçu général du processus de réponse à notre
question de recherche.
Comme nous l'avons précisé au point 1.3, nous adoptons l'approche de "design science"
(science de conception). Cette approche nous conduit à nous poser la question : Quels
artefacts pouvons-nous développer pour répondre concrètement à notre question de
recherche ?
Grâce à l'état de l'art sur la BI dans le cloud, nous nous sommes rendus compte que
différents artefacts ont été développés pour que la BI tire profit des potentialités du cloud. En
vue d'apporter une aide à la décision de migration de la BI vers le cloud, nous nous
proposons de développer une taxonomie de la BI dans le cloud.
Etant donné qu'il existe déjà des méthodologies de développement de taxonomies en SI,
nous nous sommes inspirés de l'une d'elles assez récente et qui capitalise sur les précédentes.
5
Chaque dimension possède des caractéristiques. Dans la dimension Risques liées à la solution
informatique, on trouve les caractéristiques suivantes :
- risque de gestion
- risque lié à l'instabilité des besoins
- risque lié aux personnes
- risque lié à l'appel d'offres
- risque lié au contrat
- risque lié à l'analyse
- risque lié à la conceptualisation
- risque lié à la conception et au développement
- risque lié à l'intégration
Dans cette taxonomie, un objet est un risque. Chaque risque ne peut avoir qu'une seule
caractéristique dans cette dimension.
Exemple 2 : Ce deuxième exemple est un extrait d'une taxonomie des sites web dynamiques
proposée par Gillenson, Sherrell et Chen (2000). Cette taxonomie comprend entre autres les
dimensions types de pages web et fonctions de pages web. La dimension types de pages web
comprend les caractéristiques ci-après :
6
- page de garde
- plan de site
- page de base
- page intermédiaire
- page terminale
Ici, un objet est une page web. Chaque page web ne peut avoir qu'un seul type.
Ce modèle de taxonomie à deux niveaux s’appuie sur l’hypothèse selon laquelle toutes les
instances d'une dimension ont des caractéristiques homogènes. Or, en réalité, il existe des
instances d'une même dimension qui ne peuvent pas avoir des caractéristiques homogènes.
Pour exprimer cela, nous avons regroupé les caractéristiques en catégories. Ainsi, les
instances d’une dimension peuvent être réparties en catégories. Pour ce, il importe d'enrichir
le modèle de taxonomie de Nickerson, Varshney et Muntermann et de le rendre plus
expressif. A cet effet, nous proposons un modèle de taxonomie à dimensions hiérarchiques.
Nous introduisons le concept de catégorie. Chaque catégorie regroupe les instances d'une
dimension qui ont des caractéristiques homogènes. Ainsi, une catégorie est un niveau
intermédiaire entre une dimension et une caractéristique.
Exemple : Dans la dimension risques liés à la solution informatique, on trouve trois
catégories de risques :
Cet exemple montre que les risques sont regroupés en trois catégories dont chacune
possède un ensemble de caractéristiques. Chaque catégorie regroupe les risques qui ont des
caractéristiques homogènes. Chaque risque appartient à une seule catégorie : il est soit
antérieur au projet, soit lié à la gestion du projet, soit lié aux phases de projet.
Afin de valider notre approche, un prototype a été implémenté ainsi qu'un scénario
illustratif.
Dans la section suivante, nous présentons schématiquement tous les artéfacts précités
que nous avons développés tout au long de cette thèse.
8
2
Unified Modeling Language : http://www.omg.org/spec/UML/
9
Légende
- TTCE : Taxonomie de technologies complexes émergentes
- MDT : Méthodologie de développement de taxonomies
- MD : Méthodologie de développement
Dans la figure 1 :
- Les deux artéfacts représentés par les rectangles blancs sont issus de l'article de
Nickerson, Varshney et Muntermann.
- Les artefacts représentés par les rectangles grisés sont ceux que nous avons conçus et
développés dans le cadre de notre thèse.
- Le modèle de taxonomie de Nickerson, Varshney et Muntermann (modèle de
conception) est fondé sur la méthodologie des mêmes auteurs.
- La taxonomie avec dimensions hiérarchiques (modèle de conception) généralise le
modèle de taxonomie de Nickerson, Varshney et Muntermann (modèle de
conception).
- La méthodologie de développement de taxonomies pour les technologies complexes
émergentes spécialise la méthodologie de Nickerson, Varshney et Muntermann.
- La méthodologie de développement des taxonomies pour les technologies complexes
émergentes est instanciée pour être appliquée à la migration de la BI vers le cloud.
- L'application de la méthodologie de développement des taxonomies pour les
technologies complexes émergentes à la migration de la BI vers le cloud résulte en une
taxonomie de la BI dans le cloud.
- Le modèle de taxonomie pour le guidage opérationnel (modèle de conception)
spécialise le modèle de taxonomie à dimensions hiérarchiques.
- Le modèle de taxonomie pour le guidage opérationnel (modèle de conception) est
instancié en une taxonomie de la BI sur le cloud.
- Le modèle de guidage opérationnel (modèle de conception) résulte du modèle de
taxonomie pour le guidage opérationnel.
- Le modèle de guidage opérationnel (modèle de conception) instancie des règles pour
la migration de la BI vers le cloud (directives).
- Les règles pour la migration de la BI vers le cloud (directives) sont instanciées dans un
scénario illustratif (exemple).
10
La note au-dessus de chaque artefact spécifie son type. Au point 2.2, nous définirons
précisément tous les types d'artéfacts. En dessous de chaque artefact, nous avons mentionné
le chapitre où est décrit cet artefact.
Le chapitre trois traite des taxonomies avec dimensions hiérarchiques et des opérateurs
associés. Il propose un modèle de taxonomie avec des dimensions hiérarchiques et met en
place un modèle de taxonomie pour le guidage opérationnel ainsi qu'un modèle de guidage
opérationnel.
Au septième chapitre, nous décrivons le prototype que nous avons implémenté à partir
des lignes directrices pour la migration de la BI vers le cloud. Nous mettons en place un
scénario en vue de la validation de notre approche.
11
2.1. Introduction
Nous allons limiter la revue aux articles qui font de la recherche en science de
conception car nous avons adopté cette approche d'une part. D'autre part, cette revue vise à
souligner l’apport des chercheurs en science de conception sur le domaine de la BI dans le
cloud afin d’en élucider les opportunités de recherche.
Pour bien identifier et classifier les artéfacts contenus dans la littérature, nous proposons
tout d'abord une typologie détaillée des artefacts.
Cette typologie est largement utilisée, y compris dans l'article de Hevner et al.(2004).
Cependant, elle est parfois difficile à appliquer, en raison de l'imprécision relative des
concepts de construit, de modèle, de méthode et d'instanciation (Sangupamba Mwilu, Prat and
Comyn-Wattiau 2014). Par conséquent, il est utile de spécialiser cette typologie en spécifiant
et en définissant des sous-catégories pour les quatre catégories d'artefacts précitées.
Offermann et al. (2010) ont tenté de résoudre le problème d'imprécision des concepts
dans la typologie des artefacts de March et Smith en proposant des catégories plus
spécifiques. Leur travail fournit une base utile pour une classification des différents types
d'artefacts. Cependant, il y manque quelques sous-catégories importantes. De plus, certains
types comprennent un grand nombre de concepts différents et les définitions proposées
peuvent prêter à confusion. Par exemple, Offermann et al. (2010) définissent une méthode
comme un ensemble d'activités qui sont effectuées, éventuellement dans un certain ordre, par
des personnes afin de soutenir le développement d'un système. Il y a là une confusion car une
méthode englobe plusieurs sous-types : une méthodologie, une directive, un algorithme, un
fragment de méthode et une métrique. C'est plutôt une méthodologie qui peut être définie
ainsi.
Pour remédier à cette situation, nous proposons notre typologie des différents types d'artefacts
(sous-catégories des concepts de construit, modèle, méthode et instanciation). Pour chaque
sous-catégorie, nous proposons ou reprenons une définition. Les références dans le tableau 1
indiquent les articles dont les définitions ont été tirées et éventuellement adaptées. Notre
typologie, avec les sous-catégories précises et une définition pour chaque sous-catégorie, aide
à l'identification et à la caractérisation des artefacts en science de conception.
14
CONSTRUIT
Un ensemble de concepts, ou plus généralement de symboles, de règles pour
Langage les combiner (syntaxe) et de règles d'interprétation des combinaisons de
symboles (sémantique) (Edwards et al. 2001).
Un ensemble de concepts représentés graphiquement, avec des règles pour
Méta-modèle
combiner ces concepts.
Concept Un nouvel élément ajouté à un langage existant ou à un méta-modèle.
MODELE
Une structure ou une description liée au comportement d'un système,
Modèle de
utilisant généralement une notation graphique et parfois du texte (Offermann
conception
et al. 2010).
Une spécification formelle explicite d'une conceptualisation partagée
Ontologie
(Gruber 1993).
Une classification des objets d’un domaine, sur la base de caractéristiques
Taxonomie
communes (Nickerson, Varshney and Muntermann 2013).
Une structure logique pour l'organisation d’informations complexes (The
Cadre de référence
Chief Information Officers Council 1999).
Une structure générale représentant un système, l'organisation de ses
Architecture différents composants et les relations entre ses composants (ISO/IEC/IEEE
2010) (Jarke et al. 2011).
Une condition ou une capacité qui doit être remplie ou possédée par un
Exigence
système (ISO/IEC/IEEE 2010).
METHODE
Un ensemble prédéfini d'étapes et de lignes directrices, avec des techniques
et des outils associés. Il est destiné à, ou utilisé par, des personnes qui
Méthodologie
travaillent dans une discipline (ISO/IEC/IEEE 2010) (Nunamaker et al.
2011).
Une suggestion concernant le comportement à adopter dans une situation
particulière (Offermann et al. 2010). Exemples : principes de conception
Directive
(grandes lignes directrices), heuristiques, règles (directives détaillées)
(Hanseth and Lyytinen 2010).
Une séquence exécutable d'opérations pour effectuer une tâche spécifique
Algorithme
(Offermann et al. 2010) (ISO/IEC/IEEE 2010).
Un composant de procédé qui peut être traité comme une unité séparée et
Fragment de
réutilisé dans des contextes différents (Kornyshova, Deneckère and Salinesi
méthode
2007). Exemple : les patrons de conception.
Une fonction qui attribue un nombre ou un symbole à une entité afin de
Métrique caractériser un attribut ou un groupe d'attributs. La valeur de la métrique est
appelée une mesure (Purao and Vaishnavi 2003).
INSTANCIATION
Implémentation Un système logiciel ou matériel mis en œuvre. Exemple : un prototype ou un
d’un système outil finalisé.
Toute autre matérialisation concrète d'un artefact abstrait (construit, modèle
ou méthode). Exemples : l'application d'un langage de requête à un scénario
Exemple illustratif, l'illustration d'un cadre de théorie de la conception avec des
exemples concrets de théories de la conception, l'application d'une
méthodologie de projet à un projet réel.
Tableau 1: Typologie des artefacts en science de conception (Sangupamba Mwilu, Prat and
Comyn-Wattiau 2014)
15
Cette typologie a fait l’objet d’une présentation lors de l'atelier international sur la
modélisation et la gestion des big data (MoBID 2014) (Sangupamba Mwilu, Prat and Comyn-
Wattiau 2014) et d'une publication dans le journal Future Generation Computer Systems
(Sangupamba Mwilu, Comyn-Wattiau and Prat 2016). Dans la suite, nous allons illustrer son
utilisation pour classifier les artéfacts que nous avons repérés dans la littérature sur la BI dans
le cloud d'une part. D'autre part, la même typologie nous a permis d'identifier les lacunes et
les opportunités de recherche dans ce domaine de la BI dans le cloud.
Dans le domaine du génie logiciel, elle a été largement popularisée par Kitchenham
(Kitchenham 2004). Le fait qu'elle soit applicable à tous les domaines lui donne un caractère
universel. Nous en rappelons les principes ici.
valeur scientifique. Une revue systématique synthétise les travaux existants d'une manière
méthodologique et rigoureuse. Par exemple, les revues systématiques doivent être effectuées
conformément à une stratégie de recherche prédéfinie dans un protocole (Kitchenham 2004).
- Une revue systématique commence par définir un protocole qui spécifie la question de
recherche abordée et les méthodes qui seront utilisées pour effectuer l'examen.
- Une revue systématique est basée sur une stratégie de recherche définie qui vise à
détecter la plus grande partie possible de la littérature pertinente.
- Une revue systématique documente sa stratégie de recherche afin que les lecteurs
puissent évaluer sa rigueur et son exhaustivité.
- Une revue systématique exige des critères explicites d'inclusion et d'exclusion pour
évaluer chaque étude primaire potentielle.
- Une revue systématique précise les informations à obtenir de chaque étude primaire, y
compris les critères de qualité permettant d'évaluer chaque étude primaire.
- L'identification de la recherche,
- La sélection des études,
- L'évaluation de la qualité des études,
- L'extraction des données,
- La synthèse des données.
18
Nous allons utiliser la procédure proposée par Kitchenham pour effectuer une revue
systématique de la littérature sur la BI dans le cloud.
19
En nous appuyant sur notre typologie des artéfacts en science de conception, nous allons
exhiber les artefacts déjà mis en place dans le domaine de la BI dans le cloud d'une part.
D'autre part, nous allons identifier des opportunités de recherche en science de conception
pour combler le vide en développant de nouveaux artefacts.
Cette revue systématique de la littérature nous permet de structurer l'examen des études
primaires sur la BI dans le cloud selon les étapes proposées dans la méthodologie de
Kitchenham (Kitchenham 2004).
- Informations à obtenir dans chaque étude primaire, y compris les critères permettant
d'évaluer la qualité de chaque étude primaire : Pour chaque étude, nous allons retenir
les artéfacts proposés. Dans un article on peut trouver un ou plusieurs artefacts. Pour
évaluer la qualité des articles de notre échantillon, nous avons déterminé quelques
critères expliqués plus loin.
sources pour constituer notre bibliographie. Nous lancerons des requêtes constituées
des mots clés de notre sujet de recherche. La recherche se fera dans toutes les parties
des articles (full text).
Sur la base de notre expérience, nous suggérons de limiter la recherche aux 50
premières pages des résultats pour Google Scholar. Par défaut, ce moteur affiche dix
résultats sur une page. Les 50 pages correspondent donc à 500 résultats. Pour les
autres sources, nous avons tenu compte du nombre de résultats affichés par défaut sur
une page afin de retenir un nombre de pages correspondant aux 500 résultats comme
pour Google Scholar. Ces articles seront intégrés (déduplication) : plusieurs articles
sont cités dans de multiples sources (en particulier, la plupart des articles sont cités
dans Google Scholar).
Les technologies émergentes peuvent rapidement devenir obsolètes. Pour cette raison,
nous proposons de limiter la recherche aux onze dernières années : de 2006 à 2016.
Les résultats seront affichés selon leur pertinence.
La BI dans le cloud est une technologie émergente et le corpus de connaissances dans
ce domaine est aussi émergent. Il y a besoin de recourir à la littérature sur les
domaines constitutifs de cette technologie émergente pour compléter les
connaissances. Raison pour laquelle nous allons retenir les articles qui traitent de la
BI dans le cloud ou qui abordent l’un de ces deux domaines seulement qui sont écrits
en anglais car au niveau international, la recherche se fait en anglais. Nous aurons
donc deux types différents de sources : Le type 1 sera constitué des articles qui traitent
de la BI dans le cloud tandis que le type 2 sera constitué des articles qui traitent de la
BI ou bien du cloud computing.
Notre typologie des artefacts présentée à la section 2.2 nous aidera à déterminer le
type d'artefacts contenu dans chaque article. Un article peut proposer un ou plusieurs
artéfacts.
- Les critères et la procédure de sélection des études : Pour qu'un article soit retenu,
il doit traiter de la BI dans le cloud ou d'un de ces deux domaines constitutifs
seulement. Nous procéderons d'abord à la lecture des titres des articles obtenus après
l'exécution des requêtes. Tous les articles qui ne se rapportent ni à la BI ni au cloud
seront exclus de l'échantillon. Ensuite, les résumés seront examinés pour s’assurer que
ces articles relèvent des sciences de conception. L'heuristique de base pour nous aider
à décider s’il s’agit de science de conception est d’identifier au moins un artefact que
cette étude produit. Au cas où le titre et le résumé ne permettront pas de déterminer si
22
l'article traite de la BI dans le cloud et qu'il relève des sciences de conception, nous
procéderons à la lecture de l'article en intégralité avant de décider de l'inclure ou non
dans l'échantillon.
- La procédure d'évaluation de la qualité des études : Nous allons éliminer tous les
articles qui ne sont pas publiés dans des revues ou des actes de conférences figurant
sur les listes de l'ERA (Excellence in Research for Australia) (ERA 2012). En effet,
ERA est une entité qui évalue la qualité de la recherche menée dans les universités
australiennes par rapport à des indicateurs nationaux et internationaux. Elle publie les
listes des revues ainsi que des actes des conférences qui ont été jugés de qualité. Il n’y
a pas, à notre connaissance, d’autre liste de référence de ce type dans notre domaine.
- La stratégie d'extraction des données : Pour chaque article lu, nous allons retenir
l'artefact ou les artefacts qui y sont proposés. Grâce à la typologie des artefacts, nous
déterminerons le type de chaque artéfact.
- Synthèse des données extraites : La synthèse des artéfacts trouvés dans la littérature
sera représentée dans un cadre référentiel. Ce tableau est présenté dans les annexes de
cette thèse (ANNEXE 1).
Nous décrivons ici les cinq étapes de notre revue systématique dérivées de la
méthodologie proposée par Kitchenham.
Ainsi, les mots clés utilisés sont différents selon les types de sources.
23
Google Scholar ne permet pas des requêtes très complexes : la partie gauche de
l'opérateur "AND" ne peut avoir qu'un seul terme. Pour résoudre cette difficulté, nous avons
transformé la requête en les deux requêtes suivantes :
Notons que la recherche était effectuée dans le texte intégral de chaque article. Par
ailleurs, nous avons aussi retenu les articles sur les états de l'art.
Les mots-clés sont spécifiques à chacun des domaines concernés. Par conséquent, nous
avons lancé deux requêtes sur les mêmes moteurs de recherche comme dans l'étape
précédente. Les mots clés utilisés sont les suivants :
24
Tenant compte du fait que Google Scholar n’accepte pas ces requêtes complexes, les
deux requêtes conçues pour la recherche des sources de type 2 ont été scindées en cinq :
Comme pour les sources de type 1, la recherche était effectuée dans le texte intégral de
chaque article.
1) IEEE Xplore : La recherche dans cette source a retourné 20 991 résultats, nous en
avons retenu 500 (50 premiers écrans).
25
2) EBSCOhost : La recherche effectuée dans cette source a retourné 1 700 résultats, nous
en avons retenu 500.
3) DBLP : Nous avons procédé de la même manière que dans les sources précédentes et
nous avons trouvé 129 résultats.
4) ScienceDirect : Ici, la requête a retourné 471 résultats.
5) ACM Digital Library : Pour cette source, la requête nous a renvoyé 422 résultats.
6) AIS Electronic Library (AISeL) : Après l’exécution de la requête, cette source a
retourné 279 articles.
Dans la deuxième étape consistant à lancer les deux requêtes conçues pour rechercher
les sources de type 2 à l’aide des six autres moteurs de recherche, nous avons obtenu les
résultats suivants :
1) IEEE Xplore : Les requêtes lancées dans cette source ont retourné 187 résultats.
2) EBSCOhost : Les requêtes ont retourné 128 résultats.
26
3) DBLP : Nous avons procédé de la même manière que dans les sources précédentes et
avons trouvé 109 résultats.
4) ScienceDirect : Ici, la requête a retourné 239 résultats.
5) ACM Digital Library : Pour cette source, les requêtes ont retourné 91 résultats.
6) AIS Electronic Library (AISeL) : Après l’exécution de la requête, cette source a
retourné 282 articles.
Toutes les listes d’articles retenus ont été fusionnées et triées pour éliminer les
doublons. A l'issue de cette opération, nous avons retenu 108 articles. Après la lecture des
titres et des résumés des articles retenus, nous avons supprimé les articles qui ne traitaient pas
de la BI ni de cloud computing et ceux qui ne relevaient pas des sciences de conception. Notre
échantillon est resté avec 62 articles dont 33 sur la BI et 29 sur le cloud computing.
Sources de type 1
Notre échantillon comptait quarante-trois articles à l'issue de l’application du seul
critère de qualité : Etre publié dans une revue ou des actes de conférences figurant sur la liste
d’ERA.
Sources de type 2
A l'aide du même critère de qualité utilisé ci-haut, nous avons pu élaborer un échantillon
du deuxième type de sources comptant dix-neuf articles dont neuf sur la BI et dix sur le cloud
computing.
Nous présentons ici l'état de l'art de la BI dans le cloud tel qu'il résulte de notre revue
systématique de la littérature. La BI dans le cloud est une technologie émergente qui se situe
à l’intersection de deux domaines distincts de l'informatique : la BI et le cloud computing. Il
sied donc de présenter d’abord l’état actuel de la littérature sur ces deux domaines
constitutifs : la BI et le cloud computing avant de traiter de la BI dans le cloud.
Par exemple, la technologie BI est utilisée dans les entreprises pour la gestion des
commandes et la gestion de la clientèle; dans les services financiers pour l'analyse des
sinistres et la détection de fraude, dans le transport pour la gestion de flottes, dans les
télécommunications pour identifier les raisons qui poussent les clients à se désabonner et dans
le domaine des soins de santé pour l'exploitation des résultats des analyses médicales.
Les deux dernières décennies ont connu une croissance rapide, tant dans le nombre de
produits et services offerts par la BI que dans l'adoption de ces technologies par les
entreprises. Cette croissance a été motivée par la diminution du coût de l'acquisition et du
stockage de très grandes quantités de données. En effet, actuellement, les différentes activités
de la société génèrent, rapidement, de gros volumes des données numériques : on parle de big
data (Chaudhuri, Dayal and Narasayya 2011).
Outre les données opérationnelles, les organisations font de plus en plus de la BI sur les
big data. D’où l’appellation "big data analytique" (big data analytics) qui se réfère à
l'application de techniques analytiques sur ces gros volumes de données. Par exemple le big
data analytique offre la possibilité de coordonner les informations sur les préférences des
28
consommateurs grâce aux informations provenant des tweets, des blogs, des données des
réseaux sociaux, des transactions de clients dans les secteurs de la banque et du commerce
électronique afin de prédire leurs besoins (Chaudhuri 2012). Une des raisons de
l’engouement autour des big data est que les utilisateurs pensent identifier des nouvelles
connaissances dans ces masses de données hétérogènes afin de prendre des décisions
pertinentes pour leur organisation. Par exemple, accéder à des informations qui peuvent être
utilisées pour comprendre le comportement du client et prévoir les tendances du marché
(Hedgebeth 2007).
Par ailleurs, comme nous l'avons dit ci-haut, le coût de l'acquisition et du stockage de
données a considérablement diminué. Cela a augmenté la possibilité pour des entreprises
d'acquérir de très gros volumes de données afin d'en extraire autant d'avantages compétitifs
que possible en faisant du big data analytique (big data analytics).
Dans une architecture de la BI, l'élément central est l'entrepôt de données. Celui-ci est
une collection de données thématiques, intégrées, non volatiles et historisées pour la prise
de décision (Inmon 2002).
29
On dit qu'un entrepôt des données est une collection des données thématiques car les données
sont organisées par thème tel que client, produit ou vente. C'est une collection de données
intégrées car celles-ci proviennent de différentes applications de l'entreprise et sont
standardisées pour présenter une vue unifiée des données aux utilisateurs. Ces données sont
dites non volatiles et historisées : les nouvelles données s'ajoutent aux anciennes sans les
remplacer. On peut suivre dans le temps l'évolution des différentes valeurs des données
(Inmon 2002).
Systèmes
Extraction, transformation, chargement, nettoyage de données
opérationnels
Compétences spécialisées
Magasin
Autres de
Systèmes données
internes
Entrepôt
de
Analystes
données
Données métiers
machine
Structured
Données
Web
Non-structurées
Comme nous l'avons dit ci-haut, l'architecture que nous présentons a été adaptée du
cadre de big data analytique proposée par Phillips-Wren et al (2015). Ce cadre est constitué de
composants suivants :
- Sources des données,
- Préparation des données,
- Stockage des données,
- Analyse,
- Accès aux données et leur utilisation,
- Gestion des big data.
Pour nous conformer à la définition d'une architecture et prendre en compte nos besoins
de représentation de la connaissance, nous avons apporté les modifications suivantes au cadre
du big data analytique tel que proposé par Phillips-Wren et al :
1. Suppression de la partie relative à la gestion des big data : une architecture se limite à
présenter les composants d'un système. Il ne décrit pas son fonctionnement.
2. Ajout du composant "cube" : dans un data warehouse, les données sont représentées
sous forme de data marts ou plus généralement de cubes.
3. Restructuration en trois grands composants : La BI requiert la capacité d'acquérir
l'information, de la stocker et de l'analyser. Ainsi, nous structurons son architecture en
trois composants :
- Collection et consolidation des données,
- Modélisation et stockage,
- Analytique.
Les données proviennent, en premier lieu, des sources internes de l’entreprise. Celles-ci
sont généralement des bases de données opérationnelles telles que celles exploitées par les
progiciels de gestion intégrée (PGI) ou les progiciels de gestion de la relation client. En
second lieu, les données peuvent émaner de sources externes comme Internet. Les données
31
collectées de sources différentes sont hétérogènes aussi bien par leur format que par leur
structure. On retrouve des données structurées (exemple : des bases des données)
relationnelles), des données semi-structurées (exemple : des documents XML) et des données
non structurées (exemple : des textes, des images, du son…).
Les outils ETL (Extract, Transform, Load) permettent de remédier au problème d’intégration
et de normalisation des données. Ils sont chargés de mettre les entrepôts de données à jour : ils
extraient les données de leurs sources d’origine, les transforment et les chargent dans les
entrepôts des données. La transformation consiste principalement à nettoyer les données, à
les harmoniser et à les pré-agréger (Al-Aqrabi et al. 2015) (Al-Aqrabi et al. 2012) en vue de
leur stockage.
Un magasin de données (data mart) est un sous-ensemble d’un entrepôt de données qui
contient les données relatives à un domaine fonctionnel d’une organisation.
Dans les entrepôts, les données sont généralement représentées selon une vue
multidimensionnelle. Les trois concepts fondamentaux utilisés sont : le fait, la dimension et
la mesure (Al-Aqrabi et al. 2015). Un fait est représenté comme un hypercube, les
dimensions sont les axes du cube et une mesure est un indicateur, une valeur d’intérêt pour le
décideur. Une dimension est composée de différents niveaux hiérarchisés. Et chaque niveau
possède au moins un attribut.
3) L'analytique
C'est la dernière étape de la BI. Elle comprend tous les types d'analyse ainsi que la
transmission des données aux utilisateurs finaux. Les éléments essentiels de cette étape sont
des outils de reporting, de data mining et d’OLAP (Online Analytical Processing).
OLAP est basé principalement sur des opérations d’exploration et de cumul (drill-down
et roll-up). Les outils OLAP peuvent être classés en trois principaux types, à savoir MOLAP,
32
Analyse descriptive
L'analyse descriptive utilise des données historiques pour identifier des patrons
(patterns) et créer des rapports de gestion. Elle répond à la question "qu’est-ce qui s'est
passé et/ou qu’est-ce qui se passe ?". Le résultat de l'analyse descriptive est la modélisation
du comportement dans le passé.
Analyse prédictive
L'analyse prédictive tente de prédire l'avenir en analysant les données courantes et
historiques. Elle répond à la question : "Qu’est-ce qui va se produire et/ou pourquoi cela se
produira-t-il ?". Le data mining est l’outil principal de l’analyse prédictive. Le résultat de
l’analyse prédictive est une projection permettant la prévision des événements futurs.
Analyse prescriptive
L'analyse prescriptive aide les analystes à prendre des décisions en déterminant les
actions à entreprendre et en évaluant leur impact sur les objectifs, les exigences et les
contraintes de l'entreprise. Les outils d'analyse prescriptive incluent la modélisation
d'optimisation, la modélisation de simulation, la modélisation de décisions multicritères et les
systèmes experts. Le résultat principal de l’analyse prescriptive est un meilleur plan d'action
pour une organisation.
Analyse exploratoire
L'analyse exploratoire est souvent utile afin d’identifier une donnée potentielle
intéressante pour une étude future ou pour guider la sélection des variables à inclure dans une
analyse.
33
Le big data est souvent caractérisé par sa variété, sa vitesse, son volume, sa véracité et
sa valeur. La variété représente les types de données différents qu'il faut concilier. La vitesse
se rapporte à la rapidité avec laquelle les données sont produites et traitées et le volume
définit la quantité de données. La véracité fait référence à la fiabilité des données en fonction
de la fiabilité de leurs sources, alors que la valeur correspond au rendement monétaire qu'une
entreprise peut tirer de l'utilisation d’une donnée (Assunção et al. 2014) (Abbasi, Sarker and
Chiang 2016).
Dans le contexte du big data, les organisations enregistrent plus de données que ne le
requièrent leurs besoins immédiats, ce qui peut les exposer davantage aux risques de sécurité
et aux problèmes légaux. Des mécanismes de gouvernance appropriés garantissant la
conformité réglementaire et juridique sont cruciaux.
34
Par ailleurs, effectuer des tâches analytiques sur de grands volumes de données
nécessite des méthodes spécifiques de stockage, de filtrage, de transformation et de
récupération des données. Un aspect important pour la performance des applications de big
data analytique est la localisation des données. Le big data étant caractérisé entre autres par
son volume élevé, le transfert de ces données vers les différents nœuds (machines) pour leur
traitement devient onéreux. MapReduce vient résoudre ce problème. Il présente un modèle
plus adapté où la localisation des données est exploitée afin d’améliorer les performances des
applications.
MapReduce et Hadoop
Ce modèle est basé sur deux étapes principales Map et Reduce (Wang, Song and Luo
2010) (Abelló, Ferrarons and Romero 2011) et chaque étape exécute une fonction bien
déterminée. Dans l'étape de Map, le nœud (machine) sollicité divise le problème en sous-
problèmes et délègue ces derniers à d'autres nœuds (ceux-ci peuvent faire la même chose à
leur tour). En étape Reduce, les nœuds les plus bas transmettent leurs résultats aux nœuds
parents qui les avaient sollicités. A la fin du processus, le nœud d'origine peut reconstituer la
solution au problème qui lui avait été posé (Arres, Kabbachi and Boussaid 2013). A noter
qu’on appelle cluster un regroupement de nœuds sur un réseau en vue d'augmenter la
puissance de calcul.
35
Comme nous l'avons énoncé au point 2.5, la BI dans le cloud est la jonction de deux
domaines : BI et cloud computing. Après avoir présenté l'état de l'art sur la BI, nous
présentons ci-dessous l'état de l'art sur le cloud computing.
Le cloud computing est un paradigme qui attire beaucoup d’entreprises du fait de ses
potentialités. Selon les prévisions de Gartner, le marché du cloud public atteindra 383
milliards en 2020 (Gartner 2017b). Son objectif est de fournir des services innovants à la
demande de différents types d’utilisateurs. Ces derniers sont libérés des détails
d’infrastructure interne sous-jacente. Bien plus qu’une simple externalisation, dans le cloud
computing, il y a deux notions qui sont mises en exergue : la virtualisation et l’agilité. La
virtualisation est une abstraction des ressources informatiques (un serveur, un client, un
stockage, des réseaux, des applications ou des systèmes d'exploitation) qui masque la nature
physique et les limites de ces ressources auprès de leurs utilisateurs (Gartner 2017b). L'agilité
consiste en le fait que le cloud est réactif et ses services flexibles par rapport aux besoins des
clients.
- Les questions liées aux services et applications : ce sont les questions relatives à la
tolérance aux pannes pour les exigences de disponibilité, la performance de maintien
au niveau de service et des API (Application Programming Interface) dans le cloud.
- Les questions liées à la sécurité, la confidentialité et la confiance : ce sont celles qui se
rapportent à la sécurité générale et au respect de la vie privée dans le cloud. En effet,
les protocoles de routage sécurisés doivent être utilisés pour protéger le canal de
communication entre les dispositifs mobiles et le cloud (Khan et al. 2013).
- Les questions liées à la sensibilité au contexte : ce sont celles qui concernent les
éléments tels que l'éclairage, le niveau de bruit, la connexion au réseau, les coûts de
communication, la bande passante de communication et même la situation sociale.
Ainsi, les trois aspects importants du contexte sont l'emplacement de l'utilisateur,
d'autres utilisateurs dans le voisinage et les ressources disponibles dans
l'environnement de l'utilisateur.
- Les questions liées à la gestion des données : ce sont celles qui concernent l'accès aux
données, la portabilité et l'interopérabilité des données vu l'hétérogénéité des
dispositifs mobiles.
Pour répondre à ces questions, le cloud computing mobile a été présenté comme une
technologie potentielle pour les services mobiles. Il intègre le cloud computing dans
l'environnement mobile et surmonte les obstacles liés à la performance (par exemple, la durée
de vie de la batterie, le stockage et la bande passante), à l'environnement (par exemple,
l'hétérogénéité, l'évolutivité et la disponibilité) et à la sécurité (par exemple, la fiabilité et la
confidentialité) discutées dans l'informatique mobile (Dinh et al. 2013).
Après avoir présenté l'état de l'art sur la BI au point 2.5.1 et sur le cloud computing au
point 2.5.2, ci-dessous, nous présentons l'état de l'art sur la BI dans le cloud.
Comme nous l'avons énoncé au point 2.4.4.1, le but de cette revue systématique de la
littérature est, d'une part, de souligner l’apport des chercheurs en science de conception sur la
BI dans le cloud. D'autre part, elle permet de synthétiser l’état actuel de la littérature sur la BI
dans le cloud.
40
Ainsi, dans les articles de notre échantillon, nous avons répertorié principalement les
types d'artefacts suivants :
- Des cadres de référence pour la migration de la BI vers le cloud ainsi que des cadres
de référence présentant la structure logique des services que le cloud peut fournir à la
BI.
- Des architectures qui représentent la structure générale de la BI dans le cloud ainsi que
des architectures pour les outils d'analyse de données dans le cloud.
- Des algorithmes pour organiser les données en vue de leur analyse dans le cloud.
- Des implémentations des systèmes pour l'analyse de données dans le cloud.
Ces artefacts sont regroupés dans un cadre de référence à deux dimensions où chaque
ligne du cadre représente un type d’artefact et chaque colonne, une étape de la BI. Nous
présentons ici un extrait de ce cadre dont l'intégralité est fournie en annexe (ANNEXE 1).
41
Collection et
Modélisation et stockage des
Artéfacts consolidation des Analytique
données
données
Cadre de Cadre de référence pour Cadre de référence pour la
référence pour générer des hypercubes technologie BI&A
l'intégration des (Tapiador et al. 2014) (Shanks et al. 2010)
données
structurées et Cadre de référence pour un Cadre de référence pour la gestion
semi-structurées système de gestion de base de des big data analytiques dans le
(Negash 2004) données dans le cloud (Chi et cloud (Chaisiri et al. 2012)
al. 2011)
Cadre de Cadre de référence pour d'analyse de
référence pour données dans le cloud (Yuan and
l'approvisionnem Herbert 2014)
ent des
Cadre de ressources à Cadre de référence de la BI et OLAP
référence partir d'un cloud (Al-Aqrabi et al. 2015) (Al-Aqrabi et
public (Mian, al. 2012)
Martin and
Vazquez-Poletti Cadre de référence pour l'analyse des
2013) données dans le cloud (Wlodarczyk
et al. 2010)
Architecture d'un système pour assurer la sécurité dans le cloud (Ng et al. 2011)
Architecture de la BI dans le cloud (Kasem and Hassanein 2014)
Architecture de la BI (Chaudhuri, Dayal and Narasayya 2011)
Architecture de cloud computing mobile (Khan et al. 2013) (Dinh et al. 2013)
Architecture de cloud computing (Qian et al. 2009)
42
Avant d'aborder chacune de ces étapes en particulier, nous traiterons d'abord de généralités
qui sont valables pour toutes (la BI dans le cloud en général).
En effet, les organisations migrent leur BI vers le cloud pour profiter des services que
celui-ci fournit. Afin d'accéder à ces services, les organisations ont besoin d'une infrastructure
matérielle. Celle-ci doit être connectée à l'Internet qui est la principale voie de transmission
des services du cloud. En outre, les ressources dans le cloud sont partagées entre plusieurs
clients. Il est donc de bon aloi que des mesures de sécurité soient mises en place. Par ailleurs,
la BI dans le cloud ne procure pas seulement des avantages, il y a aussi des défis à relever.
44
Notons qu’une organisation peut migrer une partie ou la totalité de sa BI vers le cloud
(Juan-Verdejo et al. 2014). Le processus de migration de la BI comprend trois étapes
essentielles (Muriithi and Kotzé 2013)
ANALYSE DE LA SITUATION DE
1
L'ORGANISATION PRESENTATION DE LA
EVALUATIO DE LA SITUATION
SOLUTION CLOUD
IDENTIFICATION DES ETAPES
POTENTIELLES DE LA BI A MIGRER
EVALUATION
COUT/BENEFICE/RISQUE
DEVELOPPEMENT
DE LA SOLUTION
IDENTIFICATION DE
IMPLEMENTATION DE LA
FOUNISSEURS POTENTIELS
SOLUTION CLOUD
EVALUATION ET SELECTION
SUIVI ET EVALUATION
DE FOURNISSEURS CLOUD
DE LA SOLUTION
2
D
3
Figure 5 : Cadre des services dont la BI bénéficie dans le cloud (Baars and Kemper 2010)
d’application est beaucoup plus large. Il est adapté pour un projet d’exploration des
données limité dans le temps ou pour de nouveaux types d’applications (SaaS).
- Scénario de réseau d’entreprise : Le fournisseur de solution agit dans les limites
d’un réseau d’entreprise. Cela peut être un marché B2B (Business to Business) ou une
chaine d’approvisionnement, etc. L’aspect cloud réside dans l’abstraction physique
avec l’infrastructure du fournisseur qui sera virtualisée.
- Scénario solution mixte : le remplacement de l’outil est poussé à un plus haut niveau,
au point où tous les composants de l’infrastructure BI peuvent être offerts par des
fournisseurs externes. Le résultat peut être une infrastructure BI entièrement
virtualisée avec tous les avantages d’une meilleure allocation des ressources. En
revanche, ce scénario est actuellement entravé par l'incapacité du cloud à fournir
certains outils BI. Par conséquent, les outils ou les composants des outils manquants
sont mis en place par les organisations elles-mêmes en utilisant la couche PaaS.
- Scénario application BI composite : Ici, une solution de BI est librement composée à
partir d’Internet. Par rapport au scénario de solution mixte, ce scénario ajoute une
granularité plus fine et met l’accent sur la combinaison et le développement rapides.
Les avantages supplémentaires résident principalement dans son agilité (PaaS).
2) L’infrastructure matérielle
Pour accéder aux services dont la BI bénéficie de la part du cloud, les organisations ont
besoin d'un minimum d'infrastructure matérielle, principalement des ordinateurs de bureau et
des dispositifs mobiles connectés à Internet. Ces dernières années, l'utilisation de dispositifs
mobiles a considérablement augmenté. Avec l'avènement du téléphone intelligent
(smartphone) et des tablettes, le système d'aide à la décision mobile est devenu émergent. Les
résultats de la recherche de Gartner indiquent qu'un tiers des fonctionnalités de la BI sera
consommé via des dispositifs mobiles (Nayem, Fahad and Akhter 2013). Ce système est
bénéfique pour des domaines d'application où les décisions critiques doivent être prises sous
la pression du temps et quand les décideurs sont en mobilité.
3) Sécurité
Par sécurité, on entend la confidentialité, l’intégrité et la disponibilité des ressources
déployées dans le cloud (Chang et al. 2015).
49
Pour accéder aux services que le cloud lui fournit, le client connecte son matériel à
l’Internet. Celui-ci reste la principale voie de transmission des services que le cloud fournit à
ses clients.
Les données venant des bases des données relationnelles vers un entrepôt de données
implémenté dans le cloud circulent via l’Internet. Les rapports et analyses des données,
destinés à des organisations dont l’étape analytique est implémentée dans le cloud, circulent,
eux aussi, via l’Internet. Par ailleurs, le partage des ressources dans le cloud pose des
problèmes d’intégrité, de confidentialité et de disponibilité (Muriithi and Kotzé 2013) (Gash,
Ariyachandra and Frolick 2011). Eu égard à tout ce qui été dit précédemment, il est opportun
que des mesures de sécurité adéquates soient mises en place à chaque étape de la BI, c'est-à-
dire de la collecte et la consolidation des données à l'analytique.
- Rapport coût-efficacité : Dans le cloud, les entreprises n'ont pas besoin de budget pour
de gros achats de logiciels ou de longues mises à jour sur les serveurs locaux afin de
mettre l'infrastructure BI en service. Elles ne paient que les ressources informatiques
dont elles ont besoin.
- Flexibilité et évolutivité : Les solutions cloud pour la BI permettent une plus grande
flexibilité. Les utilisateurs professionnels peuvent conserver un meilleur contrôle
fiscal sur les projets informatiques et ont la flexibilité d'étendre ou de réduire
l'utilisation à mesure que les besoins changent. En outre, dans le cloud, les ressources
peuvent automatiquement et rapidement s'accroître et elles peuvent supporter un grand
nombre d'utilisateurs simultanés. Cela signifie que les clients peuvent facilement
augmenter leur utilisation du logiciel sans délai ni coût de déploiement et d'installation
de matériel et de logiciels supplémentaires.
- Fiabilité : La fiabilité s'améliore grâce à l'utilisation de plusieurs sites redondants qui
peuvent fournir une fiabilité et des emplacements sécurisés pour le stockage de
données. En outre, les ressources peuvent être réparties sur un grand nombre
d'utilisateurs, ce qui rend le cloud computing adapté à la reprise après sinistre et à la
continuité des activités.
- Amélioration des capacités de partage de données : Les applications dans le cloud
permettent d'échanger les données à distance. Elles possèdent des fonctionnalités de
partage de données déployées via Internet et en dehors du pare-feu d'une entreprise.
- Pas de dépenses importantes : Le TCO ou " total cost of ownership" (coût total de
possession) faible est un atout majeur du modèle cloud. En effet, le cloud permet aux
entreprises de payer uniquement le service qu'elles utilisent réellement. Avec cette
politique, les entreprises contrôlent mieux leurs investissements en consacrant des
budgets de fonctionnement aux activités essentielles.
Comme nous l'avons dit ci-haut, la migration de la BI vers le cloud n'apporte pas
seulement des avantages, il y a aussi des défis à relever. Nous citons les principaux (Al-
Aqrabi et al. 2015) :
- La conformité des applications BI aux normes architecturales des services Web et aux
normes définies par le fournisseur SaaS ou PaaS (comme les normes Google Apps par
51
Après avoir parlé de la BI dans le cloud en général, rappelons que les tâches de la BI se
regroupent en 3 étapes : la collecte et la consolidation des données, la modélisation et le
stockage des données ainsi que l’analytique. Les services que le cloud fournit à la BI peuvent
être spécifiques pour chacune de ces étapes. Dans les lignes qui suivent, nous allons ainsi
relever les éléments spécifiques à chacune d'elles.
Pour aider les décideurs, les données non structurées ou semi-structurées peuvent être
tout aussi importantes que les données structurées. Dans les entrepôts de données internes des
organisations, les données sont structurées tandis que, dans le cloud, les données sont souvent
aussi semi-structurées ou non structurées. Pour manipuler les données de ces deux sources
ensemble, il sied de les intégrer. Des processus d'acquisition, de nettoyage et d'intégration
sont requis tant pour les données structurées que pour les données semi ou non structurées
(Negash 2004). Ainsi, la migration des outils ETL dans le cloud pourra faciliter et
automatiser l'intégration des données quels que soient leur format, leur structure et leur
source.
52
Par ailleurs, les outils ETL déployés dans le cloud permettent aussi d’échanger les
données entre différents clouds spécialement dans le cas des clouds hybrides (Clay, Shen and
Ma 2013).
Avec l'avènement des big data, les SGBDR sont devenus inadaptés dans ce cadre. Pour
résoudre ce problème, dans le cloud, on utilise généralement des SGBD NoSQL (Not Only
SQL) (Arres, Kabbachi and Boussaid 2013) (Cao et al. 2011).
En effet, les SGBD NoSQL sont très performants et permettent de stocker de grandes
quantités de données hétérogènes dans des environnements distribués. Trois faits essentiels
caractérisent la plupart des systèmes NoSQL (Bruchez 2015) :
- Le schéma de données est implicite : Ces SGBD ne contrôlent pas le schéma des
données. C'est à l'application cliente de structurer les données qu'elle désire manipuler.
- Le langage de manipulation des données proche de SQL : Les SGBD NoSQL
implémentent généralement des langages déclaratifs proches du SQL pour la
manipulation des données.
- Le logiciel libre : Beaucoup de SGBD NoSQL sont des logiciels libres.
- DynamoDB : Ce système met à disposition une API pour accéder aux données à l'aide
de langages comme Java ou PHP. DynamoDB est sans schéma. Il gère les données
structurées ou semi-structurées, y compris les documents JSON (JavaScript Object
Notation). C'est un système de stockage clé-valeur hautement disponible dans un
environnement distribué. Dans un système clé-valeur, les données sont représentées
par un couple clé/valeur : une clé primaire identifie de façon unique chaque élément
de données.
- Cassandra : offre un système orienté colonne. Il s'inspire du modèle BigTable de
Google et du modèle Dynamo d'Amazon. Les données sont regroupées en familles de
colonnes. Une famille de colonnes peut être comparée à une table dans le modèle
relationnel. La différence avec le modèle relationnel réside dans le fait qu'avec
Cassandra, le schéma des données n'est pas fixé à l'avance. Cassandra implémente un
langage de requête proche de SQL appelé CQL.
- MongoDB : c’est un système de gestion NoSQL codé avec le langage C++ à la
différence des autres moteurs NoSQL codés en Java ou en d'autres langages
particuliers comme Erlang. Ce système de gestion de base de données est orienté
documents. Un document signifie ici une représentation structurée, compréhensible
par MongoDB, d'une donnée complexe appelée BSON (Binary Serialized dOcument
Notation). Un document BSON représente l'unité stockée par MongoDB. Il équivaut
à une ligne dans une table relationnelle. Il est composé de paires clé-valeur. Dans un
système MongoDB, une requête est écrite en JSON.
Notons que les données dans le cloud sont distribuées aux différents nœuds (machines)
en fonction de la disponibilité des ressources. La localisation des données peut changer de
façon dynamique (Kurunji et al. 2012). Cela garantit la disponibilité et la performance des
services pour les organisations qui migrent leur BI vers le cloud. En outre, les organisations
qui choisissent de migrer leur entrepôt de données vers le cloud peuvent également profiter de
grandes quantités de données (big data) contenues dans le cloud. Selon la sensibilité de leurs
données, elles opteront pour la migration d'une partie ou de la totalité de leur entrepôt de
données.
2.5.3.3. L'analytique
Des entreprises comme Google, Facebook, Twitter, LinkedIn, etc., gèrent aujourd'hui de
plus grands ensembles de données qui sont analysées en ligne par les utilisateurs dans le but
55
de trouver les informations nécessaires pour une prise de décisions pertinentes. Les
applications analytiques de données sont caractérisées par de grands ensembles de données
soumis à une série de phases de traitement. Certaines de ces phases sont exécutées
séquentiellement, mais d'autres peuvent être exécutées simultanément ou en parallèle sur des
clusters, des grilles ou des clouds. Le modèle de programmation MapReduce est recommandé
pour traiter de grands ensembles de données dans les environnements en cluster et dans le
cloud.
En outre, l'analyse des données devient un atout pour les décideurs, car elle ouvre de
nouvelles possibilités, de nouvelles connaissances pertinentes qui peuvent permettre à une
organisation de se positionner dans un marché concurrentiel. Afin de faire face à la grande
quantité de données, l'approche à adopter doit être différente de l'approche traditionnelle où
les données sont demandées et analysées par la suite en local. Une option est de passer à des
environnements de cloud où l'on peut télécharger les flux de travail d'analyse de données afin
qu'ils s'exécutent dans un environnement à faible latence (Tapiador et al. 2014) .
Ainsi, il existe deux possibilités : l'analyse peut être effectuée par le cloud ou les
organisations peuvent effectuer l’analyse des données dans le cloud en utilisant la couche
PaaS (Patel, Rau-Chaplin and Varghese 2012).
Ici, le cloud analyse les données et retourne les résultats aux utilisateurs via l’Internet.
Les organisations ont besoin quand même de personnel qualifié : des analystes pour
interpréter les résultats et construire les modèles complexes en cas de besoin (l'analyse
prédictive).
Dans ce deuxième cas, le cloud fournit une plateforme analytique qui a une puissance
de calcul élastique (grâce au parallélisme) avec une réplication de données (même dans
différentes régions du monde) et une forte tolérance aux pannes (une nouvelle machine
reprend automatiquement le travail d'une autre tombée en panne sans ré-exécuter la requête
ou le processus entier) (Abelló, Ferrarons and Romero 2011). Les organisations gèrent elles-
56
mêmes leurs applications et leurs données. Elles ont besoin de plus de personnel qualifié que
dans le premier cas car l'analyse se fait en local. C'est grâce aux applications clientes que les
utilisateurs interagissent avec le cloud. Celles-ci fournissent les interfaces permettant aux
utilisateurs analystes d'accéder à la couche PaaS pour effectuer l'analyse (Chaudhuri, Dayal
and Narasayya 2011). Parmi les applications clientes, on trouve :
- les tableurs,
- les portails de recherche,
- les interfaces pour poster des requêtes ad hoc,
- les tableaux de bord visuels.
Après avoir effectué l'état de l'art, nous avons examiné le cadre de la BI dans le cloud
qui se trouve en annexe de ce travail pour déceler les opportunités de recherche en science de
conception dans ce domaine de la BI dans le cloud.
leurs spécificités. Pourtant, la migration vers le cloud mérite d’être étudiée avec beaucoup
d’attention pour permettre aux organisations qui migrent vers le cloud d'atteindre les objectifs
escomptés. Ainsi, nous pouvons dire que la recherche en matière de BI dans le cloud est en
progression. Il est important que d’autres artefacts soient implémentés pour faciliter cette
migration.
Pour combler le vide constaté dans la littérature en notre possession, nous avons été
conduits à élaborer le tableau 3 qui présente les opportunités de recherche en science de
conception dans ce domaine de la BI dans le cloud. Aussi le tableau 3 propose-t-il de
nouveaux artefacts pouvant apporter une valeur ajoutée dans le domaine de la BI dans le
cloud. C'est ici que notre question de recherche, " Quels sont les nouveaux artefacts à
implémenter pour que la BI tire profit du cloud computing ?" trouve son plein sens. En effet,
la réponse à cette question donnera lieu à des artefacts inexistants dans la littérature et que
nous présentons ci-dessous dans le tableau 3.
Pour élaborer ce tableau 3, nous avons, tout d'abord, recueilli, dans les articles de notre
revue systématique de la littérature, les différentes contributions proposées par les chercheurs
pour leurs futures recherches. Ce sont des indicateurs précieux, car ils sont généralement les
prochaines étapes d’une recherche en cours. En ce sens, il est très probable qu'ils soient
réalisables, qu’ils apparaissent bientôt et même qu'ils soient déjà apparus. Ces artefacts sont
résumés dans le tableau 3 avec les références des articles qui les mentionnent. Les autres
propositions émanent de notre réflexion.
58
Collection et Modélisation et
Artéfacts consolidation des stockage des Analytique
données données
Ontologie pour
Ontologie l'intégration des
données locales et les
données de cloud
vers le cloud avec des directives pour configurer correctement les ressources du cloud et
servir de support dans le choix de migrer vers le cloud ainsi que des exemples concrets. En
effet, ces lignes directrices sont d'un grand intérêt pour toutes les entreprises qui veulent
migrer leur BI vers le cloud. Structurer ces directives grâce à une taxonomie permettra de
fournir aux utilisateurs un processus de décision progressive.
La collecte et la consolidation des données sont des tâches fastidieuses de la BI. Afin de
les faciliter dans le cloud, nous proposons aux chercheurs en science de conception de se
concentrer sur la mise en œuvre des artefacts suivants :
- Méthodologies : pour permettre aux organisations de suivre pas à pas les étapes
requises afin de collecter et consolider les données dans le cloud.
- Ontologies : pour faciliter l'intégration des données opérationnelles et de big data afin
d'enrichir l'analyse. Les ontologies permettraient aux fournisseurs et aux
consommateurs de données de parler un même langage. Elles faciliteraient aussi
l'automatisation de l'intégration des données.
- Directives : Pour aider les organisations à respecter une ligne de conduite dans la
collection et la consolidation des données dans le cloud.
En ce qui concerne les tâches analytiques dans le cloud, les chercheurs en science de
conception peuvent également se concentrer sur la mise en œuvre des artefacts suivants:
2.7. Conclusion
Visant une évaluation plus complète de la littérature liée à notre sujet de recherche, dans
ce chapitre, nous avons décrit une revue systématique de la littérature sur la BI dans le cloud.
Nous avons mis en place des critères explicites d'inclusion ou d'exclusion d'un article dans
notre échantillon. Grâce à cela, nous avons constitué un ensemble de taille raisonnable de
documents de haute qualité. Par ailleurs, nous avons effectué la recherche documentaire par
des mots clés. Ce processus peut entraîner l'omission de certains documents importants d'une
part, les faux négatifs. D'autre part, il peut inclure des documents qui ne traitent pas de notre
sujet de recherche, les faux positifs. C'est une des limites de notre revue systématique de la
littérature. Pour résoudre le problème des faux négatifs, nous avons inclus dans cet état de
l'art certains articles que nous n'avons pas obtenus par notre recherche systématique, mais qui
comportent des informations pertinentes relatives à notre sujet de recherche. Ces articles,
nous les avons trouvés en parcourant de nouveau les sources de documents universitaires
telles que ACM, IEEE, DBLP, ScienceDirect, EBSCO, ainsi que la librairie électronique de
l’AIS (AISeL). En ce qui concerne les faux positifs, nous les avons exclus de notre
échantillon d'articles lors de la lecture détaillée.
Cet état de l’art nous a permis d’exhiber certains futurs sujets de recherche en science
de conception pour le domaine de la BI dans le cloud.
Basés sur le tableau des opportunités de recherche que la BI dans le cloud offre pour la
recherche en science de conception, nous voulons définir des directives pour aider à la
migration de la BI vers le cloud. Ainsi, nous proposons un modèle de guidage opérationnel
que nous allons instancier par une taxonomie de la BI dans le cloud et des règles pour la
migration de la BI vers le cloud. Nous aurons besoin de deux taxonomies : une taxonomie de
contexte et une taxonomie pour décrire la décision. Les règles vont être implémentées dans
un prototype et instanciées par un scénario illustratif.
3.1. Introduction
Notre objectif est de mettre en place un support d'aide à la décision pour la migration de
la BI vers le cloud. Ainsi, nous proposons un modèle de guidage opérationnel que nous allons
instancier par une taxonomie de la BI dans le cloud et des règles pour la migration de la BI
vers le cloud. Pour cela, il nous faut deux taxonomies complémentaires : celle qui regroupe
les éléments qui peuvent influencer la décision et celle qui constitue l'objet même de la
décision. Pour mettre en place ces taxonomies, nous nous sommes référés au modèle de
taxonomie de Nickerson, Varshney, et Muntermann (2013) selon lequel une taxonomie
comporte deux niveaux : dimension et caractéristique. Basés sur le fait que toutes les
instances d'une dimension ne peuvent pas toujours avoir des caractéristiques homogènes, nous
élargissons ce modèle en introduisant un nouveau concept : la catégorie. Cette dernière
regroupe les instances d'une dimension qui ont des caractéristiques homogènes. Nous
présentons, également, une typologie des opérateurs qui permettent de construire une telle
taxonomie.
Les taxonomies sont essentielles pour la science en général et le domaine des systèmes
d’information en particulier. En classant des objets ou des phénomènes, elles facilitent la
compréhension et la prise de décision.
Comme nous l'avons dit au point 3.1, selon Nickerson, Varshney et Muntermann
(2013), une taxonomie est définie par un ensemble de dimensions (Dim). Chaque dimension
est un ensemble d'au moins deux caractéristiques (Car), tel que, pour chaque objet, chaque
dimension a une et une seule caractéristique.
Car1
Car2
63
Nous proposons une taxonomie avec des dimensions hiérarchiques. Nous utilisons le
formalisme de diagramme de classe UML3 pour présenter ce modèle qui regroupe les
concepts utilisés dans une taxonomie à dimensions hiérarchiques ainsi que les relations qui les
lient.
3
Unified Modeling Language : http://www.omg.org/spec/UML/
64
Eu égard au modèle de taxonomie que nous avons présenté au point 3.2, nous pouvons
formellement définir une taxonomie T comme suit (Prat, Comyn-Wattiau and Akoka 2015) :
T = {Dimi, i = 1, ..., n | Dimi = {Catij, j = 1 ..., ki | Cati1 = {Carim, m = 1 ..., pi; pi ≥2} ˄ ∀ j ≥2,
Catij⊊Cati1}}
66
Une algèbre est un ensemble de n-uplets avec ses opérations (Chen 1984). Elle peut
être définie formellement comme suit (Sankappanavar and Burris 1981) :
67
Pour A, un ensemble non vide et n, un nombre entier positif, on définit A0 = {Ø}, et pour n>0,
An est l’ensemble de n-uplets des éléments de A. Une opération n-aire (ou fonction) sur A
est une fonction f de An vers A, où n est le degré de f.
Un langage (ou type) d’algèbre est un ensemble F de symboles de fonction tel qu’un
entier positif n est attribué à chaque membre f de F : Cet entier est appelé l'arité ou le degré
(ou rang) de f ; et f est dit : symbole de fonction n-aire.
Si F est un langage d'algèbre alors une algèbre A du type F est une paire ordonnée <T,
F> où T est un ensemble non vide et F est une famille d'opérations n-aires sur T indexées par
le langage F.
Dans tout ce qui suit, Ω est l’ensemble des taxonomies possibles qu'on peut imaginer.
Dans le cas d’une taxonomie à dimensions hiérarchiques, une algèbre A sur F est un ensemble
ordonné de paires < Ω, F>. Tout élément T appartenant à Ω est constitué de trois sous-
ensembles. Un entier positif n est attribué à chaque sous ensemble pour indiquer son rang : S 1,
S2 et S3. S1 est l'ensemble des caractéristiques de la taxonomie, S2 est l'ensemble des
catégories et S3 est constitué des dimensions de la taxonomie. Enfin, F est l’ensemble des
opérateurs qui permettent de créer ou de manipuler les éléments de la taxonomie, f est la
variable pour désigner une opération. Formellement, nous pouvons définir ces deux
ensembles T (taxonomie) et F (opérateurs) comme suit :
Tout élément x de T est de la forme x=<libellé, niveau, parent>. x est donc un triplet
ordonné où niveau correspond à S1, S2 ou S3, et parent est un unique élément appartenant à T.
Pour un libellé donné il ne peut y avoir qu’un seul x dans T ayant ce libellé.
Exemple : Taxonomie des publications (voir point 3.2)
<Support, S3, T>
<Revue, S2, Support>
<Classique, S1, Revue>
<En ligne, S1, Revue>
<Livre, S2, Support>
68
Notons que nous avons deux types d’opérateurs : les opérateurs de création de nouveaux
éléments de la taxonomie et les opérateurs de transformation des éléments de la taxonomie.
L'union
L’union est une opération de base en théorie des ensembles. Ici, elle va nous permettre
de représenter l’enrichissement des différents ensembles constituant la taxonomie. Alors que
les autres opérateurs sont utilisés pour organiser la taxonomie, l’union permet d’ajouter des
éléments dans la taxonomie. Considérant qu'on a un ensemble des taxonomies, l'opérateur
union opère sur une taxonomie ou plusieurs pour la transformer en une autre. Formellement,
nous pouvons le noter comme suit :
∀ T, B ∈ Ω | T ∩ B = Ø, T ∪ B = A où A ∈ Ω.
Soit T une taxonomie, rappelons que tout élément x de T est de la forme x=<libellé,
niveau, parent>. x est donc un triplet ordonné où niveau correspond à S1, S2 ou S3, et parent
est un unique élément appartenant à T. Pour un libellé donné il ne peut y avoir qu’un seul x
dans T ayant ce libellé. Dans la suite de ce texte, on définit pour tout x∈T et y∈T’, x≡y ⇒
libellé(x) = libellé(y).
70
3.4.2.1. La promotion
En utilisant l'opérateur promotion, un concepteur de la taxonomie peut transférer un
concept de S1 vers S2 ou S3 et un concept de S2 vers S2 ou S3. Une catégorie devient, par
exemple, une dimension et une caractéristique devient une catégorie ou une dimension. Les
dimensions (éléments de S3) de la taxonomie ne sont pas concernées par cet opérateur. Nous
pouvons représenter l’opération de promotion selon ces différents cas :
- Pour une caractéristique x qui devient une catégorie
T = (T \ {<x, S1, y>}) ∪ {<x, S2, y>}.
- Pour une caractéristique x qui devient une dimension
T = (T \ {<x, S1, y>}) ∪ {<x, S3, T>}.
- Pour la catégorie x qui devient une dimension
T = (T \ {<x, S2, y>}) ∪ {<x, S3, T>}.
- Pour la catégorie x qui est promue en catégorie de plus haut niveau, elle ne change
que de parent
T = (T \ {<x, S2, P1>}) U {<x, S2, P2>}.
3.4.2.2. La rétrogradation
Grâce à l’opérateur de rétrogradation, un concepteur de la taxonomie peut transférer un
concept de S3 à S2, de S3 à S1, de S2 à S2 ou S2 à S1 : une dimension descend au rang de
catégorie ou de caractéristique et une catégorie devient une sous-catégorie ou une
caractéristique. Les éléments de S1 ne sont pas concernés par cet opérateur. Formellement,
nous pouvons écrire :
- Pour la catégorie x qui est dégradée en caractéristique
T=(T \ {<x, S2, y>}) ∪{<x, S1, y>}.
71
3.4.2.3. La scission
L’opérateur de scission permet au concepteur de la taxonomie de scinder un concept en
deux parties. Les concepts scindés sont de même sous-ensemble (S1, S2 ou S3). Chacun de
ces concepts scindés, devenu un élément à part entière de son sous-ensemble, peut être
manipulé à l’aide de n’importe quel autre opérateur. Tous les sous-ensembles de la
taxonomie sont concernés par cet opérateur. Celui-ci admet un élément en entrée et il
retourne deux éléments en sortie. Ainsi, une dimension scindée en deux donne lieu à deux
dimensions distinctes. Une catégorie peut aussi être scindée en deux catégories indépendantes
l’une de l’autre. Une caractéristique peut être scindée en deux différentes caractéristiques
indépendantes. Formellement, nous pouvons écrire :
∀ T ∈ Ω, T = S1 ∪ S2 U S3, ∀ x∈T, ∃ {y,z} ∈ Ω\{T} | Scission(T, {x},{y,z})={x’∈
((T\{x}) ∪ {y,z})}. Autrement dit, la scission de x donne y et z.
3.4.2.4. La fusion
L’opérateur de fusion permet au concepteur de la taxonomie de fusionner deux éléments
d'un même sous-ensemble de la taxonomie. Tous les sous-ensembles de la taxonomie sont
concernés par cet opérateur. Il admet deux éléments en entrée et retourne un seul élément en
sortie. On peut fusionner deux dimensions pour en avoir une seule en sortie. On peut aussi
fusionner deux catégories ou deux caractéristiques pour obtenir en sortie respectivement une
catégorie et une caractéristique. Formellement, nous pouvons écrire la fusion comme suit :
∀ T ∈ Ω, T = S1 ∪ S2 ∪ S3, ∀ x∈T, ∃ {z} ∈ Ω\{T} | Fusion(T, {x,y},{z})={x’∈
((T\{x,y}) U {z})}. Autrement dit la fusion de x et y donne z.
Notons que toutes les opérations sur la taxonomie sont initiées par l’opérateur union :
c’est quand il y a insertion d’un nouvel élément dans la taxonomie que celle-ci peut nécessiter
une restructuration de manière à permettre au nouvel élément de se placer au bon endroit. La
restructuration se fait à l'aide des autres opérateurs : promotion, rétrogradation, fusion et
scission. Par conséquent, le processus de développement de la taxonomie peut s’arrêter quand
on a examiné tous les objets de l'échantillon et qu'on n'a plus de nouveaux éléments à ajouter
dans la taxonomie. On peut alors parler de convergence car il n'y a plus d'informations utiles
à ajouter dans la taxonomie : l'opérateur union n'est plus utilisé.
Par ailleurs, tous les opérateurs de manipulation de la taxonomie opèrent sur des
ensembles et se ramènent à des opérations d'union et de différence. Comme nous l'avons
affirmé au point 3.4.1, l'opérateur union renferme toutes les bonnes propriétés de
commutativité, associativité, élément neutre et idempotence. En ce qui concerne la différence,
elle n'est pas associative, ni commutative, ni idempotente. Elle admet un élément neutre : Ø
(l'ensemble vide).
Ces opérateurs nous ont suffis pour procéder à la constitution de nos taxonomies comme nous
l'illustrons dans la suite.
73
La littérature nous a montré qu'il y a des conseils sur la migration qui dépendent de
nombreux éléments de contexte. D'autre part, la migration elle-même se décompose en
différentes dimensions. C'est pourquoi nous proposons de construire deux taxonomies
complémentaires car une décision est généralement conditionnée par un certain nombre
d’éléments. Ceux-ci ne peuvent donc pas être au même niveau que les options de la décision.
- La taxonomie des éléments qui peuvent influencer la prise de décision. Elle permet
aux organisations de tenir compte de leur situation afin de prendre des décisions qui
correspondent à leurs besoins, à leurs moyens et à leurs situations. Cette taxonomie
est appelée "taxonomie de contexte".
- La taxonomie des options de la décision. Il s’agit de l’objet même de la décision.
Cette taxonomie est nommée "taxonomie de décision".
Eu égard à ce qui vient d'être énoncé, nous pouvons dire que le contexte est la prémisse
d'une décision : la décision dépend du contexte.
Si "contexte"
Alors "décision"
(A quel service cloud on peut recourir dans un contexte précis).
On peut aussi avoir des règles de la forme :
Si "contexte"
Alors "contexte"
(Un élément de contexte peut avoir de l'incidence sur un autre).
Ou
Si "décision"
Alors "décision"
(Une décision peut influencer la prise d'une autre décision).
La deuxième partie du modèle de guidage opérationnel est le modèle des règles, il est
constitué de tous les concepts relatifs aux règles. Cette partie décrit chaque composant de la
règle : prémisse et conclusion.
Pour le contexte, chaque élément qui peut influencer une décision correspond à une
expression. De même pour la décision, chacune de ses options correspond à une expression.
Ainsi, chacune des deux parties d’une règle (contexte ou décision) peut être constituée de
plusieurs expressions. Une expression est constituée des éléments de la taxonomie de contexte
ou des éléments de la taxonomie de décision. Elle possède deux parties : gauche et droite.
Les deux parties du modèle de guidage opérationnel sont liées à l'aide de trois
associations binaires "se réfère à" et de deux agrégations "fait partie de" :
1 DIMENSION 1
1..* TAXONOMIE
Est constituée de
1
+Se réfère à
+Est enfant de Comporte
0..1 * TAXONOMIE DE DECISION TAXONOMIE DE CONTEXTE
CATEGORIE
0..*
Est parent de 1 1
1
Fait partie de
Fait partie de
REGLE
1 1 Se réfère à
CONCLUSION
Est constituée de
1
Est constituée de *
EXPRESSIONDECISION
1 1
PREMISSE
Contient
1..*
1 1..* EXPRESSION
EXPRESSIONCONTEXTE
Contient *
1 1
* PARTIE GAUCHE
Possède
Possède
1
1 *
PARTIE DROITE CONCRETE
PARTIE DROITE
Exemple de règle : Cet exemple est tiré de la base de règles pour la migration de la BI
vers le cloud que nous avons mise en place. Les deux taxonomies complémentaires de
la BI dans le cloud forment le domaine de ces règles. Dans la taxonomie de contexte,
on trouve, entre autres, la dimension objectifs (de la migration) et la dimension taille
de l'entreprise. La dimension objectifs possède une catégorie réduction des coûts qui
comporte les caractéristiques suivantes : réduction des coûts d'infrastructure,
réduction des coûts d'implémentation et réduction des coûts d'administration. Cette
dimension possède en plus, les caractéristiques : performance des services, mobilité,
agilité, manipulation de grandes quantités de données. La dimension taille de
l'entreprise possède trois caractéristiques : petite, moyenne et grande.
Dans la taxonomie de décision, on trouve entre autres la dimension niveau de
migration. Cette dimension possède une caractéristique total et une catégorie partiel.
La catégorie partiel possède deux sous-catégories : matériel et outils. Chacune de ces
sous catégories possède ses caractéristiques (voir les points 5.3 et 6.2.1).
EBNF est une notation pour décrire formellement comment écrire des entités dans un
langage. Une description EBNF est une liste non ordonnée de règles. Chaque règle
comporte trois parties : une partie gauche, une partie droite et les caractères "::=" séparant les
deux parties. La partie gauche est un identificateur de symbole non terminal et la partie droite
est une description EBNF d’une construction autorisée faisant intervenir des symboles
terminaux et non terminaux ainsi que les opérateurs décrits par le langage EBNF(Dethier
2011). Ces opérateurs sont les suivants :
Supposons que x et y sont des descriptions EBNF de toutes les constructions possibles,
- ( ) : délimite une expression EBNF à laquelle un opérateur peut s’appliquer.
- x* : c'est la répétition d’une construction représentée par x un nombre n de fois avec n
≥ 0.
- x+ : c'est la répétition d’une construction représentée par x un nombre n de fois avec n
≥ 1.
79
- x | y : représente soit une construction décrite par x, soit une construction décrite par y.
- [x] : la construction décrite par x est optionnelle.
Nous utilisons ici la notation EBNF pour décrire la syntaxe de notre modèle de guidage
opérationnel.
Dans cette section, nous mettons en place des directives permettant de vérifier les
critères de cohérence, de minimalité et d'exhaustivité des règles qui vont découler du modèle
80
de guidage opérationnel. Cette vérification se fera au niveau des règles, au niveau des
prémisses et des conclusions de chaque règle, au niveau des expressions de chaque prémisse
et de chaque conclusion ainsi qu'au niveau des parties de chaque expression.
3.7.1. Cohérence
- Une règle ne peut pas avoir une prémisse issue de la taxonomie de décision et une
conclusion issue de la taxonomie de contexte.
- Dans la conclusion d'une règle, les connecteurs "ou" et "non" ne sont pas employés.
- Les deux parties d'une expression (partie droite et partie gauche) doivent être issues
de la même taxonomie (de contexte ou de décision).
- Une partie gauche d'une expression ne peut pas se référer à une catégorie.
- La partie droite d'une expression doit se référer à la caractéristique ou la catégorie
de la dimension à laquelle se réfère sa partie gauche.
- Deux règles ne peuvent pas avoir une même prémisse et des conclusions
contradictoires.
3.7.2. Minimalité
En ce qui concerne la minimalité, une base de règles ne peut pas contenir des règles
redondantes. Pour préserver la minimalité, les directives suivantes doivent être appliquées
pour la base de règles :
- Si deux règles ont la même conclusion et si leurs prémisses, bien qu'elles soient
différentes, sont toutes deux issues de la taxonomie de contexte, ou de la taxonomie de
décision, on les fusionne. La prémisse de la nouvelle règle comprend les deux
prémisses séparées par la conjonction "ou" et on garde la conclusion car elle est
commune aux deux prémisses.
- Si la conclusion d'une règle qui est issue de la taxonomie de décision, se trouve être
prémisse d'une autre, par souci de minimalité, on fusionne ces deux règles. La
nouvelle règle issue de la fusion aura la prémisse de la première règle et sa conclusion
sera constituée de la concaténation des conclusions de deux règles fusionnées.
81
- Pour deux règles avec une prémisse identique et issue de la taxonomie de contexte, si
leurs conclusions sont différentes et sont issues l'une de la taxonomie de contexte et
l'autre de la taxonomie de décision, on fusionne ces deux règles. La nouvelle règle
aura comme prémisse toutes les expressions de ces deux règles qui sont issues de la
taxonomie de contexte et la conclusion toutes les expressions de ces deux règles qui
sont issues de la taxonomie de décision.
- Pour deux expressions qui ont des parties gauches identiques et dont les parties droites
sont l’une concrète et l’autre abstraite, on supprime l’expression qui a la partie droite
concrète et on garde celle qui a la partie droite abstraite.
3.7.3. Exhaustivité
Pour qu'une base de règles soit dite exhaustive, elle doit être capable de fournir une
réponse à chaque question.
Ainsi, dans le cas d'une base qui ne comprend pas beaucoup de règles, il est facile de
vérifier l'exhaustivité en faisant toutes les combinaisons possibles entre les différents
contextes et les différentes décisions. Dans le cas d'une grande base de règles, la vérification
de l'exhaustivité est manuellement quasi impossible.
Notons qu’une base de règles peut être exhaustive à un moment donné. Cependant, on
peut intégrer de nouvelles règles en tenant compte des éventuelles évolutions du domaine
pour lequel une taxonomie est développée.
3.8. Conclusion
Notre objectif étant de mettre en place un support d'aide à la décision, nous avons posé
le principe de développer deux taxonomies complémentaires : de contexte et de décision.
Pour atteindre cet objectif, nous avons mis en place un modèle de guidage opérationnel qui
aidera à exploiter ces taxonomies sous forme de règles. Ce modèle de guidage opérationnel
est composé de deux parties :
- Un modèle de règles qui englobe tous les concepts relatifs aux règles ainsi que les
relations qui les lient.
En outre, nous avons présenté les opérateurs que le concepteur peut utiliser pour
construire et organiser une taxonomie. Nous avons défini les propriétés principales de ces
opérateurs, lesquelles garantissent la cohérence de l'approche.
Par ailleurs, nous avons utilisé la syntaxe EBNF pour compléter et préciser le modèle de
guidage opérationnel.
Notons que le processus de mise en place d'un modèle de guidage opérationnel pour
l'aide à la décision de migration de la BI vers le cloud proposé dans ce chapitre peut
s'appliquer à d'autres semblables cas d'aide à la décision.
Rappelons que, pour répondre à notre objectif de mettre en place une aide à la décision
de migration de la BI vers le cloud, nous avons besoin de deux taxonomies : de contexte et de
décision. Ces deux taxonomies seront développées au chapitre 5 en utilisant la méthodologie
de développement de taxonomies des technologies complexes émergentes que nous allons
décrire au chapitre 4 et dont la BI dans le cloud est un cas particulier.
CHAPITRE 4 : METHODOLOGIE DE DEVELOPPEMENT DE
TAXONOMIES POUR LES TECHNOLOGIES
COMPLEXES EMERGENTES
4.1. Introduction
Par ailleurs, la BI dans le cloud est une technologie complexe émergente. Pour
développer une taxonomie relative à ce domaine, il est important de tenir compte de deux
défis spécifiques que posent ces genres de technologies. En effet, ces technologies sont
souvent à l'intersection de plusieurs domaines et le corpus de connaissances à leur sujet se
constitue encore. Face à cela, la méthodologie de développement des taxonomies de
Nickerson, Varshney et Muntermann montre des limites.
Ainsi, notre tâche dans le présent chapitre est de proposer une méthodologie appropriée
pour le développement de taxonomies pour les technologies complexes émergentes. Pour ce
faire, nous allons décrire la méthodologie de Nickerson, Varshney et Muntermann (2013) et
en énoncer les limites afin d’en esquisser une version améliorée.
les technologies complexes émergentes. Nous nous basons sur ces limites pour adapter cette
méthodologie.
Afin de fournir une base à l’identification des caractéristiques d’une taxonomie, une
méta-caractéristique doit être spécifiée au début du processus de développement de la
taxonomie. En effet, la méta-caractéristique est la caractéristique la plus complète qui servira
de base pour le choix des caractéristiques dans la taxonomie. Chaque caractéristique d’une
taxonomie devrait être une conséquence logique de cette méta-caractéristique.
Une méta-caractéristique constitue le but pour lequel une taxonomie est mise en place.
Ce but doit être basé sur l'utilisation prévue de la taxonomie et pourrait donc être défini par
les utilisateurs éventuels de la taxonomie. Le choix de la méta-caractéristique doit être fait
avec soin car il influe de manière critique sur la taxonomie qui en résulte. Par exemple, pour
une taxonomie des applications mobiles, la méta-caractéristique peut être "interaction de haut
niveau entre l'utilisateur de l'application et l'application" (Nickerson, Varshney and
Muntermann 2013). Ainsi, toutes les caractéristiques de cette taxonomie vont être relatives à
une interaction de haut niveau entre une application mobile et son utilisateur.
explicative. Les conditions de fin objectives sont les suivantes (Nickerson, Varshney and
Muntermann 2013) :
Les conditions de fin objectives précitées fournissent des orientations utiles pour
décider de la fin du processus de développement de taxonomie. Cependant, elles sont
difficiles à appliquer en général et en particulier dans le cas de développement des taxonomies
pour les technologies complexes émergentes. Plus précisément :
Notons que seule la dernière difficulté est liée particulièrement au développement des
taxonomies pour les technologies complexes émergentes.
89
Ainsi, nous allons rappeler les étapes de la revue systématique de littérature présentées
au point 2.3.5 en vue d'illustrer comment une revue systématique de littérature nous permet
d'adapter la méthodologie de développement de taxonomie proposée par Nickerson, Varshney
et Muntermann.
91
- l'identification de la recherche,
- la sélection des études,
- l'évaluation de la qualité des études,
- l'extraction des données,
- la synthèse des données.
Pour la construction d'une taxonomie des technologies complexes émergentes, nous allons
nous concentrer sur les trois étapes : l'identification de la recherche, la sélection des études et
l'extraction des données (examen des sources) car ces trois étapes nous permettent de
constituer un échantillon d'objets représentatifs à examiner.
hypothèses sur ces relations. Grâce aux taxonomies, les chercheurs et les praticiens peuvent
comprendre et analyser les connaissances de certains domaines complexes (Nickerson,
Varshney and Muntermann 2013).
C’est dans cette étape que toute la stratégie pour constituer un échantillon représentatif
des études qui serviront au développement des taxonomies des technologies complexes
émergentes est déterminée.
En vue de compléter les études menées par les auteurs de publications académiques,
nous avons pensé qu’il serait important d’étudier ce qui se passe en pratique grâce à ces
nouvelles technologies. Comment les professionnels utilisent-ils ces technologies complexes
94
émergentes ? Quelles sont leurs recommandations ? Les articles académiques ne peuvent pas
traiter intégralement les problèmes pratiques liés au choix et à la mise en œuvre des
technologies complexes émergentes. Il existe de nombreux exemples de domaines où, avant
toute appropriation par le monde académique, des concepts et des solutions ont été proposés
par les entreprises, voire par des individus. L'expérience empirique basée sur ces
technologies complexes émergentes peut servir de fondement, à la condition qu’elle soit
validée par des experts professionnels. Ainsi, pour le développement d'une taxonomie des
technologies complexes émergentes, nous avons inclus également des articles professionnels.
Pour chaque type de sources, une requête spécifique sera mise en place.
Cet ordre est important car les principaux concepts se trouvent dans la littérature
académique sur les technologies complexes émergentes. Ces concepts aident à structurer les
premiers niveaux de la taxonomie. Si ces sources de type 1 ne permettent pas de structurer la
taxonomie, les sources de type 2, les articles concernant les domaines connexes aux
technologies complexes émergentes peuvent suppléer. Enfin, les articles professionnels
publient notamment les expériences basées sur des technologies complexes émergentes.
Par rapport aux conditions de fin subjectives proposées par Nickerson, Varshney et
Muntermann (2013), l’examen des sources dans l’ordre croissant des types proposés ci-dessus
aide à construire une taxonomie robuste car dans les sources de type 1, certains résultats
structurants sont déjà observés et, si ces résultats ne sont pas suffisants, les sources de type 2
aident à les compléter. Le fait d’inclure dans l’échantillon les sources de type 2 et de type 3
permet à la taxonomie de mieux répondre au critère d'exhaustivité.
95
Avec l'aide d'un ensemble de mots clés, nous avons interrogé les bases de données
électroniques de ces sources pour recueillir des documents. Tous les résultats ne sont pas
toujours pertinents pour la question de recherche. Les principes de la revue systématique de
la littérature comportent la définition de critères pour décider d’inclure un article dans
l'échantillon (Okoli and Schabram 2010) (Kitchenham 2004).
- Contenu : le sujet traité dans la source (article de revue, étude de cas) doit être
directement lié à la technologie complexe émergente, ou à l'un de ses domaines
constitutifs. Ceci est assuré par le choix des mots-clés utilisés dans la recherche des
sources et vérifié ensuite par la lecture du titre, du résumé ou de tout l'article.
- Langue de publication : la recherche est limitée aux publications en anglais. Les
publications en français ne remplissent pas les conditions de visibilité dans des
journaux ou actes de conférences internationales. Ce n’est donc pas un choix direct
mais une conséquence du critère de qualité décrit ci-après.
- Revues : pour assurer la sélection de sources de haute qualité, nous avons
sélectionné les publications académiques de la liste de revues et des actes des
conférences de "ERA" (ERA 2012). C'est une garantie de qualité car ERA publie
les listes des revues ainsi que des actes des conférences qui ont été jugés de qualité.
Cependant, cela peut être insuffisant pour les technologies complexes émergentes.
Le manque potentiel peut être compensé par d'autres sources (sources de type 3
comme mentionné ci-dessus).
- Date de publication : Etant donné que les technologies complexes émergentes
peuvent rapidement devenir obsolètes, nous proposons de limiter la recherche de
publications universitaires aux dix dernières années. Pour les publications
professionnelles (sources de type 3), un laps de temps encore plus court nous semble
judicieux, nous proposons une année. En effet les pratiques professionnelles
évoluent très rapidement et c’est tout l’intérêt d’ailleurs de cette presse
96
Outre les critères précités, nous proposons une procédure de sélection des sources pour
chaque type :
Dans notre contexte, une source est un article. Une itération est l’examen d’une source.
Examiner une source revient à la parcourir pour en tirer d’éventuelles informations relatives à
la taxonomie. Les sources sont examinées selon l’ordre croissant de leurs types respectifs et
en fonction de leur ordre décroissant de citations dans Google Scholar pour les sources de
type 1 et 2. En ce qui concerne les sources de type 3, elles sont examinées en fonction de leur
rang sur la page de résultats tel que retourné par Google. Cela permet de commencer par les
sources considérées comme les principales références dans le domaine. Deux sources de
même rang sont considérées toutes deux comme pertinentes, et seront examinées dans l'ordre
alphabétique du nom de la source.
Les informations sont prises en compte et organisées dans la taxonomie grâce aux
opérateurs présentés au point 3.4.
Toutes les sources de l'échantillon doivent être examinées avant de vérifier s'il y a
convergence. Après chaque itération, on restructure la taxonomie en cas de besoin et on
vérifie si la source examinée n'est pas la dernière dans l'échantillon. Dans le cas où elle n'est
pas la dernière, on passe à l'examen d'une autre source. Si elle est la dernière source, on passe
alors à la vérification de la convergence de la taxonomie.
98
4.5. Conclusion
Par ailleurs, nous avons défini notre stratégie de revue systématique de la littérature en
ciblant deux objectifs : l'exhaustivité et la robustesse. L'exhaustivité à un moment donné est
assurée par la richesse et la variété des sources. La pérennité de cette exhaustivité étant
100
relative, il y a nécessité d'effectuer régulièrement de mise à jour bien que cela soit un
processus fastidieux.
Nous avons examiné les sources en fonction de leur réputation académique. Ainsi, les articles
professionnels sont pris en compte lors de la dernière étape. Pour des raisons de robustesse,
nous avons proposé de construire d'abord la taxonomie avec les sources de type 1 où certains
résultats structurants sont déjà observés et, si ces résultats ne sont pas suffisants, les sources
de type 2 aident à les compléter. Cette stratégie permet de rencontrer les conditions de fin
subjectives proposées par Nickerson, Varshney et Muntermann.
Dans le chapitre 5, nous utilisons cette méthodologie pour mettre en place notre
taxonomie de la BI dans le cloud en calquant le modèle de taxonomie présenté au point 3.2.
Ceci nous permettra de plus de démontrer la faisabilité et l’utilité de la méthodologie.
CHAPITRE 5 : DEVELOPPEMENT D’UNE TAXONOMIE DE LA
BUSINESS INTELLIGENCE DANS LE CLOUD
5.1. Introduction
Ainsi, nous avons appliqué la méthodologie pour élaborer la taxonomie des éléments
qui peuvent influencer la migration de la BI vers le cloud d’une part. D’autre part, nous avons
élaboré la taxonomie des options relatives aux services dont la BI peut bénéficier dans le
cloud.
bénéficier dans le cloud. Ainsi, elle constitue un point de départ pour d’autres chercheurs qui
désirent prolonger la recherche dans ce domaine de la BI dans le cloud.
L’objectif de cette taxonomie est de mettre à la disposition des utilisateurs une aide à la
décision de la migration de la BI vers le cloud. Par conséquent, la migration de la BI vers le
cloud est la méta-caractéristique de la taxonomie que nous allons développer. Ainsi, les
éléments constitutifs de la taxonomie doivent être cohérents avec la migration de la BI vers le
cloud. La taxonomie de contexte comprendra les éléments qui peuvent influencer cette
migration et la taxonomie de décision sera constituée des options possibles en matière de
services de cloud dont la BI peut bénéficier dans le cas de la migration.
Notre échantillon contient déjà les sources de type 1 et 2 qui nous ont servi pour la
revue systématique de la littérature au chapitre 3 (voir le point 2.4.5.2). Il nous reste à
constituer la bibliographie des sources de type 3 : les articles professionnels. Pour cela, nous
allons déterminer d'abord les magazines (la presse informatique professionnelle) qui publient
des articles relatifs à la BI dans le cloud.
103
La requête : "Top magazines among IT professionals" lancé sur Google, nous a retourné
une liste de magazines professionnels classés selon leur ordre décroissant de nombre
d'abonnés. De cette liste, nous avons retenu les cinq premiers magazines suivants :
- InformationWeek,
- ComputerWorld,
- CIO,
- ZDNet,
- PCWorld.
Pour constituer notre échantillon d’articles professionnels, nous avons utilisé les mots
clés suivants :
("Cloud" OR "SaaS") AND ("Example" OR “Case”) AND ("Business Intelligence" OR "Data
warehouse" OR "Analytics").
Vu la complexité de la requête, elle ne pouvait pas être exécutée en une seule fois dans
Google Scholar. Elle a donc été scindée en les quatre requêtes ci-dessous :
- "Cloud" AND "Example" AND ("Business Intelligence" OR "Data warehouse"
OR "Analytics")
- "Cloud" AND "Case" AND ("Business Intelligence" OR "Data warehouse" OR
"Analytics")
- "SaaS" AND "Example" AND ("Business Intelligence" OR "Data warehouse" OR
"Analytics")
- "SaaS" AND "Case" AND ("Business Intelligence" OR "Data warehouse" OR
"Analytics").
Ces quatre requêtes ont retourné quarante articles pour chaque magazine, ce qui a donné
un total de 200 articles pour les cinq magazines. Après intégration (déduplication), nous avons
retenu 108 articles. Par la lecture, nous avons vérifié que chacun de ces articles traite de la
BI dans le cloud. Nous avons supprimé les articles très courts qui n'avaient pas d'informations
pertinentes. Après ce processus, nous avons retenu 34 articles relatifs à la BI dans le cloud
dont :
- 12 issus d’InformationWeek,
- 8 de ComputerWord,
104
- 5 de CIO,
- 6 de ZDNet,
- 3 de PcWord.
Lors de la construction d'une taxonomie, les sources d'information sont examinées l’une
après l’autre. Chacune d’elle peut déclencher zéro, une ou plusieurs opérations sur la
taxonomie.
Pour chaque article examiné, nous aurons au moins un des cas suivants :
Les deux premiers cas n'entrainent aucune modification de la taxonomie. Pour les deux
derniers cas, nous utilisons les opérateurs appropriés soit pour prendre en compte un nouvel
élément, soit pour manipuler les anciens éléments de la taxonomie.
Pour chaque type de sources, nous allons construire deux taxonomies complémentaires :
une taxonomie de contexte et une taxonomie de décision conformément à ce qui a été dit au
point 3.5.
En revanche, nous présentons ici seulement l’examen des sources de type 1. Le résultat
de l’examen des sources de type 2 et 3 est en annexe de cette thèse (ANNEXE 2).
Rappelons que les recherches dans les sources de type 1 ont apporté quarante-trois
articles relatifs à la BI dans le cloud. Dans cette section, nous allons examiner chacun de ces
articles pour en tirer les informations pertinentes relatives à cette taxonomie.
105
4
Cet article ne traite pas des éléments qui peuvent influencer la migration de la BI vers le cloud.
106
Le tableau 4 montre que les articles traitent plus de l’objet même de la migration de la
BI vers le cloud que des éléments qui peuvent influencer cette décision. Néanmoins, nous
avons pu identifier les éléments nécessaires qui peuvent aider à structurer une taxonomie de
contexte dès l’examen des sources de type 1.
109
Seules neuf itérations sur les quarante-trois ont apporté des informations relatives à la
taxonomie de contexte. Dix-sept itérations se retrouvent dans le cas "a" et dix-sept autres
dans le cas "b".
Nous réexaminons les sources de type 1 pour prendre en compte les options de la
décision contenues dans ces sources.
Le tableau 5 montre que l’examen des sources de type 1 a fourni un grand nombre
d’éléments pour structurer la taxonomie de décision. En général, ces sources proposent les
mêmes options pour le déploiement de la BI dans le cloud. Les auteurs se focalisent plus sur
les solutions cloud, très peu d'entre eux décrivent les contextes qui peuvent militer pour
l'adoption de ces solutions.
Par ailleurs, seules les itérations. 1, 2, 3, 4, 5, 8, 33 et 34 ont apporté des éléments pour
la construction de la taxonomie. De manière particulière, l’itération 4 a apporté un nombre
considérable de modifications. Plusieurs itérations se trouvent dans le cas "b" (trente-trois
articles sur les quarante-trois), les articles confirment des éléments qui existent déjà dans la
taxonomie. Seuls deux articles se trouvent dans le cas "a".
A l’aide de la typologie des opérateurs présentés au point 3.4, nous avons structuré les
éléments identifiés dans les sources de type 1, de type 2 et de type 3. Le cas "c" (l’article
permet d’ajouter une dimension, une catégorie ou encore une caractéristique) a apporté des
115
modifications dans la taxonomie et a conduit quelques fois au cas "d" (l'article modifie la
taxonomie et va engendrer la fusion, la scission, la promotion ou la rétrogradation d'un
élément de la taxonomie).
Les sources sont examinées l'une après l'autre selon l’ordre croissant de leurs types
respectifs (voir le point 4.4.5). A chaque itération, après la restructuration de la taxonomie au
cas où cela s'avérait nécessaire, nous vérifiions si la source examinée est la dernière de
l'échantillon. Au cas où ce n'était pas le cas, nous examinions une autre source jusqu'à finir
toutes les sources de l'échantillon. Etant donné qu'examiner toutes les sources d'un
échantillon n'est pas une condition suffisante pour arrêter le processus de développement
d'une taxonomie, après cette étape, nous avons vérifié la convergence du processus de
construction de la taxonomie.
5.2.8. Convergence
Notons que dans le développement de ces deux taxonomies (de contexte et de décision),
en ce qui concerne les sources de type 3, la convergence n'a pas été atteinte avec le premier
échantillon de sources constitué avant d'entamer le processus. Nous avons dû constituer un
deuxième et un troisième échantillon à des points ultérieurs permettant de découvrir de
nouveaux articles afin d'atteindre la convergence dont nous avons parlé ci-haut.
Dans cette thèse, nous avons adopté l'approche science de conception (voir point 1.3).
Raison pour laquelle nous avons élaboré la taxonomie de la BI dans le cloud à partir des
études qui utilisent cette approche. Le résultat de la recherche en science de conception, étant
par définition, un artéfact, notre objectif était aussi de repérer dans la littérature, les artéfacts
déjà développés pour que la BI tire profit du cloud computing. En vue de valider cette
taxonomie, il est utile de compléter nos connaissances par les articles académiques relatifs à la
BI dans le cloud qui ne relèvent pas de recherche en science de conception. Ils effectuent des
recherches quantitatives ou qualitatives, exhibant des modèles qui peuvent contenir des
éléments décrivant la migration de la BI vers le cloud.
117
Ainsi, nous allons constituer un échantillon d'articles académiques qui utilisent les
méthodes quantitatives ou qualitatives. Comme pour le premier échantillon des articles qui
présentent une recherche en science de conception, nous allons fouiller dans les moteurs de
recherche suivants : Google Scholar, ACM, IEEE, DBLP, ScienceDirect, EBSCO, et la librairie
électronique de l'AIS (AISeL). Pour des raisons pratiques, nous allons nous limiter aux dix
premiers écrans de résultats.
1) Taxonomie de contexte
Ici, nous allons examiner les vingt-cinq articles pour faire ressortir les éléments qui
peuvent influencer la migration de la BI vers le cloud.
- Itération 1 (Böhringer et al. 2010) : l'article valide l'objectif agilité.
- Itération 2 (Sun et al. 2012) : l'article valide l'objectif réduction des coûts, la
dimension taille de l'entreprise et la dimension ressources humaines.
- Itération 3 (Cuzzocrea, Song and Davis 2011) : l'article valide l'objectif performance
des services et l'objectif manipulation de grandes quantités des données.
- Itération 4 (Abbasi, Sarker and Chiang 2016) : l'article valide l'objectif manipulation
de grandes quantités de données.
- Itération 5 (Chen, Chiang and Storey 2012) : l'article valide la dimension secteur
d'activité avec ses caractéristiques commerce, administration publique, éducation et
recherche ainsi que santé.
- Itération 6 (Thompson and Van der Walt 2010) : l'article valide l'objectif réduction des
coûts et l'objectif performance des services.
- Itération 7 (Dziembek and Ziora 2014) : l'article valide l'objectif mobilité et l’objectif
réduction des coûts.
119
- Itération 8 (Ereth and Baars 2015) : l'article valide l'objectif réduction des coûts et
l'objectif d’agilité.
- Itération 9 (Simmhan et al. 2013) : l'article valide les exigences de sécurité.
- Itération 10 (Xu et al. 2009) : l'article ajoute le secteur d'activité télécommunication.
- Itération 11 (Mahmud, Iqbal and Doctor 2016) : l'article valide le secteur d'activité
santé, l'objectif manipulation de grandes quantités des donnée et l'objectif
performance des services.
- Itération 12 (Xiufeng, Thomsen and Pedersen 2014) : l'article valide l'objectif
performance des services.
- Itération 13 (Ari, Olmezogullari and Çelebi 2012) : l'article valide le secteur d'activité
administration publique, le secteur d'activité commerce, le secteur d'activité
institutions financières et le secteur d'activité télécommunication ainsi que l'objectif
performance des services.
- Itération 14 (Knabke and Olbrich 2015) : l'article valide l'objectif agilité et l'objectif
performance des services.
- Itération 15 (Baur, Bühler and Bick 2015) : l'article valide la dimension ressources
financières.
- Itération 16 (Rahman, Li and Palit 2011) : l'article valide la dimension ressources
financières et l'objectif performance des services.
- Itération 17 (Fox 2012) : l'article valide l'objectif réduction des coûts et l’objectif
performance des services.
- Itération 18 (Dehne et al. 2015) : l'article valide l'objectif performance des services.
- Itération 19 (Tan et al. 2013) : l'article valide la dimension exigences de sécurité ainsi
que l'objectif manipulation de grandes quantités de données.
- Itération 20 (Ghoshal et al. 2014) : l'article valide l'objectif manipulation de grandes
quantités de données, l'objectif performance des services et la dimension exigences de
sécurité.
- Itération 21 (Ram, Zhang and Koronios 2016) : l'article valide l'objectif performance
des services, l'objectif réduction des coûts et l'objectif manipulation de grandes
quantités de données ainsi que la dimension exigences de sécurité.
- Itération 22 (Kambatla et al. 2014) : l'article valide le secteur d'activité commerce et le
secteur d'activité santé ainsi que l'objectif manipulation de grandes quantités de
données.
120
- Itération 23 (Baars and Kemper 2011) : l'article valide l'objectif agilité et l'objectif
performance des services.
- Itération 24 (Grossman 2009) : l'article valide l'objectif performance des services et les
exigences de sécurité.
- Itération 25 (Chaudhuri 2012) : l'article valide l'objectif réduction des coûts, l'objectif
manipulation de grandes quantités des données et l'objectif performance des services.
2) Taxonomie de décision
Ici, nous allons réexaminer les vingt-cinq articles pour faire ressortir les informations
relatives à la taxonomie de décision.
- Itération 1 (Böhringer et al. 2010) : l'article valide la couche SaaS.
- Itération 2 (Sun et al. 2012) : l'article valide la couche SaaS.
- Itération 3 (Cuzzocrea, Song and Davis 2011) : l'article valide la couche IaaS, la sous-
catégorie Hadoop et sa caractéristique Hive.
- Itération 4 (Abbasi, Sarker and Chiang 2016) : l'article valide les couches de cloud.
- Itération 5 (Chen, Chiang and Storey 2012) : l'article valide le système de stockage
BigTable ainsi que les couches de cloud. Il valide les supports des applications BI
mobiles.
- Itération 6 (Thompson and Van der Walt 2010) : l'article valide la voie de transmission
internet et la couche SaaS.
- Itération 7 (Dziembek and Ziora 2014) : l'article valide la couche SaaS.
- Itération 8 (Ereth and Baars 2015) : l'article valide les supports des applications BI
mobiles.
- Itération 9 (Simmhan et al. 2013) : l'article valide les types de cloud public et privé
ainsi que les couches de cloud PaaS et IaaS.
121
Comme pour la taxonomie de contexte, l'examen de ces sources a validé toutes les
dimensions de la taxonomie de décision. Aucune nouvelle dimension n’a été ajoutée à la
taxonomie telle que construite avec les articles relevant de la science de conception.
Après l'examen de ces sources qui utilisent les méthodes qualitative et quantitative, le
constat est : ces sources proposent les mêmes éléments que les sources qui relèvent de la
science de conception. Raison pour laquelle l'examen de ces sources n'a pas apporté
beaucoup d'éléments nouveaux dans la taxonomie telle qu'élaborée avec les articles qui
traitent de la science de conception. Le nombre d'opérations effectuées a été minime : une
seule. Nous pouvons donc arrêter le processus de développement de la taxonomie car nous
avons examiné toutes les sources de notre échantillon et nous n'avons plus d'informations
utiles à ajouter.
ressources humaines. L'ordre de classement des dimensions dans cette taxonomie n’a pas de
signification particulière.
Certes, chaque service du cloud a un coût, mais de manière générale, les services sont
payés à la consommation. C'est la raison pour laquelle les organisations peuvent choisir les
services dont elles sont capables de supporter le coût. Il est, par exemple, conseillé aux
organisations qui ont de faibles ressources financières de choisir la migration totale de leur BI
vers le cloud car la migration partielle exigerait d'avoir en plus des infrastructures de la BI en
local.
125
5.3.1.3. Objectifs
Pour déployer sa BI dans le cloud, une organisation doit avoir au moins un objectif
précis. La migration peut être motivée par :
- La réduction des coûts (coûts d'infrastructure, d'implémentation ou d'administration),
- La performance des services qu'offre le cloud,
- Le besoin de manipuler les grandes quantités des données du cloud,
- La protection des données,
- L'agilité,
- La mobilité.
- L'éducation et la recherche,
- L'industrie,
- Le commerce,
- La santé,
- Les institutions financières,
- Les télécommunications,
- L'administration publique.
Notons qu'en réalité, une entreprise peut appartenir à plusieurs secteurs d'activité, mais
dans le cas précis de ces taxonomies, nous avons proposé que les règles pour la migration
s'appliquent par secteur d'activité car chaque secteur a ses spécificités.
- Les utilisateurs finaux qui interagissent avec la couche SaaS. Ce sont de simples
consommateurs. Toutes les ressources leur sont fournies et gérées par le cloud;
- Les développeurs et les analystes interagissent avec la couche PaaS. Les cadres et les
architectures leur sont fournis et gérés par le cloud ainsi que toute l’infrastructure
matérielle pour l’implémentation des applications selon les besoins de leurs
organisations;
- Les administrateurs de réseau interagissent avec la couche IaaS. Il n’y a que les
ressources matérielles qui leur sont fournies par le cloud.
Comme nous l'avons dit au point 5.3, nous avons développé deux taxonomies
complémentaires : de contexte et de décision. Après avoir présenté la taxonomie de contexte,
nous présentons ci-après, la taxonomie de décision.
127
La couche SaaS peut être sollicitée par une organisation de petite, de moyenne ou de
grande taille. Ses utilisateurs finaux ne sont pas censés avoir une compétence particulière. Le
cloud peut fournir à une organisation un service, un outil ou une solution de bout en bout. Du
point de vue service, l'architecture de la BI se divise en trois couches (Baars and Kemper
2010):
- Couche données : le cloud développe pour une organisation une solution qui englobe
la collecte et la consolidation des données ainsi que la modélisation et le stockage des
données.
- Couche logique : le cloud s'occupe simplement de la partie analyse des données.
- Couche accès : le cloud fournit les applications clientes.
129
La couche PaaS est conseillée pour les organisations qui ont leurs propres analystes et
des développeurs. Ceux-ci peuvent développer des applications et effectuer les tâches de BI
dans le cloud.
La couche IaaS est conseillée pour des grandes entreprises qui veulent migrer seulement
leurs réseaux dans le cloud. Cela nécessite d'avoir le personnel compétent pour
l'administration des réseaux. La couche IaaS peut être aussi sollicitée pour toute autre
entreprise qui désire conserver ses données dans le cloud.
5.3.2.3. Contrat
Le contrat entre le client et le fournisseur de cloud dépend de la durée estimée du
service que le client sollicite. Il existe des contrats à court et à long terme, cette durée est
précisée avant le début du service. Le fournisseur est censé déterminer la granularité du
service à rendre dans un document souvent appelé SLA (service level agreement) (Baars and
Kemper 2010). Ce document précise notamment la durée de disponibilité des services et la
durée maximale d’interruption des services de cloud par an. Il décrit les normes de conduite
entre client et fournisseur de cloud ainsi que les aspects juridiques.
5.4. Conclusion
En outre, pour chaque type de sources, nous avons présenté un graphique du nombre
d'opérations effectuées. Ces graphiques se trouvent en annexe (ANNEXE 2). Tous ces
graphiques ont illustré comment les courbes convergent quand on arrive vers la fin du
processus. Cette convergence illustre le fait qu'en général, les articles proposent les mêmes
éléments en ce qui concerne la migration de la BI vers le cloud. Ces éléments sont collectés
au début du processus. Plus on avance vers la fin, moins l'examen des sources apporte de
modifications dans la taxonomie car les sources confirment les éléments collectés
131
précédemment et, par conséquent, le nombre d'opérations effectuées à chaque itération tend
vers zéro.
Le chapitre 6 de cette thèse exploite ces deux taxonomies sous forme de règles grâce au
modèle de guidage opérationnel proposé au point 3.5 pour aider les organisations désireuses
de migrer leur BI vers le cloud à effectuer le choix des options du cloud adaptées à leur
contexte.
CHAPITRE 6: AIDE A LA DECISION DE MIGRATION DE LA
BUSINESS INTELLIGENGE VERS LE CLOUD
6.1. Introduction
La décision de migrer la BI vers le cloud mérite d’être bien étudiée car cette migration
ne procure pas simplement des avantages, mais elle implique aussi des défis à relever. Il est
donc de bon aloi que les organisations, avant de s’engager, aient une information suffisante
en ce qui concerne la migration de la BI vers le cloud. Ce chapitre présente un ensemble de
règles permettant aux organisations désireuses de migrer leur BI vers le cloud d’effectuer les
choix (des services de cloud) relatifs à leur contexte. Cet ensemble de règles constitue une
méthode de guidage opérationnel pour la migration de la BI vers le cloud. Il est composé de
règles issues de la littérature ou obtenues par data mining (règles d'association). Ces règles
s'appuient sur les deux taxonomies complémentaires développées au chapitre précédent
(taxonomie de contexte et taxonomie de décision).
Grâce aux directives déterminées au point 3.7, nous vérifions la cohérence, la minimalité et la
complétude de notre base de règles.
Alors "décision"
Afin de constituer notre base de règles, nous avons examiné à nouveau l'échantillon
d'articles qui ont servi pour le développement des deux taxonomies complémentaires (de
contexte et de décision). Les questions étaient les suivantes :
- Dans un contexte précis, à quel service de cloud peut-on recourir ?
- Un élément de contexte peut-il avoir de l'incidence sur un autre ?
- Une décision peut-elle influencer la prise d'une autre décision ?
Après ce réexamen de la littérature à notre disposition, nous avons constaté que certains
auteurs énoncent clairement, sous forme de propositions, les éléments qui peuvent amener à
l'adoption d'un service de cloud bien précis. Cependant, leurs propositions ne sont pas
absolues mais sont plutôt des indicateurs précieux dans le choix des services cloud.
Exemple : Il est préférable aux petites et moyennes entreprises de migrer totalement leur BI
vers le cloud car elles ne possèdent pas de gros moyens d'investissements pour couvrir les
coûts relatifs à l'infrastructure, à l'implémentation et à l'administration de la BI en local (Al-
Aqrabi et al. 2015).
Par ailleurs, lorsque, dans un article, on décrit un service de cloud qui est un élément de
la taxonomie de décision en mettant en exergue les avantages que ce service procure, nous en
déduisons une ou plusieurs règles car ces avantages constituent, de manière générale, ce que
les organisations poursuivent pour accéder au service de cloud décrit. Par exemple, on décrit
le cloud public comme un type de cloud qui permet d'effectuer des économies car les
134
organisations ne paient que ce dont elles ont besoin, ce qui réduit le coût total de leur système
de BI en réduisant les frais généraux (Kasem and Hassanein 2014).
Nous savons que notre taxonomie de contexte (voir point 5.3.1) comporte une dimension
objectifs qui regroupe les objectifs de la migration de la BI vers le cloud d'une part. D'autre
part, dans la taxonomie de décision (voir point 5.3.2), nous avons une dimension types de
cloud qui regroupe les différents types de cloud. Nous pouvons donc déduire cette règle :
Si objectifs = réductions des coûts
Alors type de cloud = public.
Ces deux règles ne sont pas au même niveau, la première est énoncée clairement et la
deuxième est déduite d'un énoncé. Ainsi, sur la base de la littérature, nous distinguons deux
types de règles : celles proposées par la littérature et celles déduites de la littérature.
Par souci d'exhaustivité, nous avons mis en place un troisième type de règles : les règles
d'association. Ces règles sont obtenues par data mining.
Les règles proposées par la littérature sont celles énoncées explicitement dans les
articles de notre échantillon.
Pour chaque article lu, nous avons relevé les services cloud proposés (décision) et les
éléments qui peuvent permettre d'accéder à ces services (contexte) : Cela nous a conduit à
mettre en place des règles de la forme :
Si "contexte"
Alors "décision".
Nous avons aussi relevé les décisions qui conduisent à d'autres décisions et les contextes qui
impliquent d'autres contextes pour élaborer respectivement des règles de la forme :
Si "décision"
Alors "décision".
Et
Si "contexte"
Alors "contexte".
135
Rappelons qu'une règle est constituée d'une prémisse et d'une conclusion. Une prémisse
et une conclusion sont chacune composée d'expressions. Chaque expression comprend deux
parties : gauche et droite séparées par un signe d'égalité. La partie gauche se réfère à une
dimension de la taxonomie (de contexte ou de décision) et la partie droite se réfère soit à une
caractéristique soit une catégorie.
Nous avons obtenu vingt-huit règles proposées directement dans les articles. Dans les
lignes qui suivent, nous présentons, à titre d'illustration, dix de ces règles. Le reste des règles
est fourni en annexe (ANNEXE 3).
1. Si objectifs= réduction des coûts/ réduction des coûts d'infrastructure, réduction des
coûts d'implémentation et réduction des coûts d'administration
et Taille de l'entreprise = petite ou moyenne
Alors niveau de migration = total
Les coûts relatifs à l'infrastructure, à l'implémentation et à l'administration de la BI ne
permettent pas de manière générale aux petites et moyennes entreprises d'exploiter
cette technologie. Le cloud vient lever cette barrière en donnant la possibilité aux
entreprises de payer les services à la consommation. Ainsi, il est conseillé aux petites
et moyennes entreprises d'exploiter totalement leur BI dans le cloud car garder une
partie de la BI en local nécessiterait des coûts supplémentaires. (Al-Aqrabi et al.
2015).
peuvent donc migrer leur BI vers le cloud en capitalisant sur les compétences de leur
personnel.
service, c'est la couche SaaS qui est sollicitée (Muriithi and Kotzé 2013) (Herwig
2013) (Baars and Kemper 2010).
La durée du contrat est relative au service sollicité. Par exemple pour un composant,
la durée est de court terme à cause de sa simplicité. Par ailleurs, la performance des
services est une des principales raisons qui poussent les organisations à migrer leur BI
vers le cloud. Ainsi, un composant permet d'augmenter la performance d'une
application et il est généralement fourni via l'internet (Baars and Kemper 2010).
Pour un outil, le contrat peut être à long terme vu sa complexité par rapport à un
composant. Un client peut se connecter au centre de données du fournisseur pour
s'approvisionner en services. Par ailleurs, la réduction des coûts est une des
principales raisons qui poussent les organisations à migrer leur BI vers le cloud (Baars
and Kemper 2010).
A partir des règles issues des articles de notre échantillon, nous avons généré
automatiquement un troisième type de règles par une technique de data mining : les règles
d'association.
Notre objectif est de rendre la base de règles la plus exhaustive possible : chaque
contexte doit correspondre à une décision. Ainsi, les règles d'association sont un complément
utile car, grâce à elles, nous pouvons ajouter de nouvelles règles dans la base. Ces règles
peuvent contribuer à l'exhaustivité de la base de règles.
Ainsi, nous avons créé un fichier Excel avec deux colonnes dont la première comprend
les numéros des articles de notre échantillon. La seconde colonne comprend les différentes
règles contenues dans chaque article présentées sous forme des expressions (partie gauche =
partie droite). Chaque ligne représente donc un article avec les différentes expressions issues
dudit article.
A l'aide du langage R et dans son interface graphique Rattle, nous avons mis en place
les règles d'association. Nous avons chargé notre fichier Excel grâce à l'onglet "données" et la
commande "exécuter" (Williams 2011).
Deux types d'analyse sont donc pris en charge et le type approprié est choisi à l'aide du bouton
de sélection "Paniers". Quand ce bouton est coché, Rattle utilise la méthode d'analyse de
panier. Si ce bouton n'est pas coché, Rattle trouve des relations intéressantes entre les
éléments des données sans utiliser la notion de panier.
140
Pour une analyse de panier, on considère deux variables : Identificateur (Ident) et cible.
La variable Ident représente le numéro du panier et chaque panier ne peut avoir qu'un seul
numéro. La variable cible représente les éléments relatifs à chaque panier. Un panier peut
comporter plusieurs éléments. Dans notre cas, un panier correspond à un article. La première
colonne du fichier Excel est une variable identificateur et la deuxième colonne est une
variable cible.
Après avoir chargé notre fichier Excel dans Rattle en utilisant l'onglet "Données", nous
avons analysé ces expressions pour trouver des éventuelles règles d'association à l'aide de
l'onglet "Associer" et la commande "Exécuter".
141
Panier Contenu
1 Objectif = réduction des coûts, Ressources financières = faibles, Taille de l'entreprise =
petite ou moyenne, Sécurité = disponibilité, Niveau de migration = total, Couche cloud
= SaaS/solution, Moyen de transmission des services = internet.
Les deux principales métriques utilisées dans l'évaluation des règles d'association sont le
support et la confiance (Williams 2011). Un support d'une collection d'items est le nombre de
fois que certains items apparaissent toujours ensemble pendant toutes les transactions. La
valeur recommandée pour le support varie entre 0,1 et 0,4 (Williams 2011). La confiance
minimale est exprimée en proportion du nombre total de transactions dans l'ensemble de
données : c'est le nombre de fois que l'item "x" apparaît chaque fois qu'un autre item "y"
apparaît dans une transaction. La valeur souhaitable de la confiance peut varier entre 0,83 et
10 (Williams 2011).
142
Cette technique de data mining a généré onze règles dont nous présentons les six
suivantes à titre illustratif (le reste des règles se trouve en annexe) (ANNEXE 3)
Dans ces trois premières règles, c'est la dimension exigences de sécurité qui est mise en
exergue : dans le cloud privé, les exigences de la sécurité qui sont exploitées sont l'intégrité et
la confidentialité. Dans le cloud public, c'est plutôt l'aspect disponibilité des ressources qui
est souligné. Le cloud hybride regroupe les avantages du cloud privé et ceux du cloud public.
Ces trois dernières règles tournent autour de la durée du contrat entre le fournisseur et le
client. Par exemple pour une organisation qui sollicite la couche IaaS/réseau, le contrat est
généralement à long terme. Pour la règle 4, le contrat est à court terme car il s'agit d'un
composant (voir point 6.2.2). Les règles 5 et 6 pourraient paraître contradictoires, mais il n'en
est pas question, la différence se trouve au niveau des couches de cloud à solliciter. Dans la
règle 5, c'est la couche PaaS qui est sollicitée. Les développeurs ou les analystes construisent
143
une solution sur mesure pour leur organisation en utilisant les ressources du cloud. Cela
prend généralement un temps plus court que lorsqu'une organisation migre son réseau vers le
cloud (Baars and Kemper 2010). Ainsi, deux organisations peuvent avoir le même objectif de
migration, mais la durée du contrat dépend du service sollicité.
Une base de règles doit être cohérente, minimale et exhaustive. Dans cette section, nous
appliquons les directives proposées au point 3.7 au cas particulier de la base de règles pour la
migration de la BI vers le cloud.
6.3.1. Cohérence
Dans la conclusion d'une règle, les connecteurs "ou" et "non" ne sont pas employés.
Exemple :
Si objectifs = réduction des coûts
Alors niveau de migration = total ou partiel/outils
Une conclusion doit être toujours précise : on ne sait pas ici dans quel cas choisir quelle partie
droite (total ou partiel/outils). Nous n'avons pas de telles règles dans notre base.
Les deux parties d'une expression (partie droite et partie gauche) doivent être issues de
la même taxonomie (de contexte ou de décision).
Exemple :
Si objectifs = BI/composite
Alors couche cloud = PaaS
Dans la prémisse de cette règle, l'expression est composée de deux parties issues de deux
différentes taxonomies (contexte et décision). La partie gauche se réfère à une dimension de
144
la taxonomie de contexte : objectifs. Tandis que la partie droite se réfère à une catégorie de la
taxonomie de décision : BI/composite (voir point 5.3). Notre base ne contient pas de règle de
cette forme.
Une partie gauche d'une expression ne peut pas se référer à une catégorie.
Exemple :
Si réduction des coûts = réduction des coûts d'infrastructure, réduction des coûts
d'implémentation et réduction des coûts d'administration
Alors niveau de migration = total
Ici, la prémisse n'est pas correcte car la partie gauche de l'expression de la prémisse se réfère à
une catégorie. Par construction, notre base ne comporte pas de règle de cette forme.
Deux règles ne peuvent pas avoir une même prémisse et des conclusions
contradictoires.
Exemple
Si réduction des coûts = réduction des coûts d'infrastructure, réduction des coûts
d'implémentation et réduction des coûts d'administration
Alors niveau de migration = total
Si réduction des coûts = réduction des coûts d'infrastructure, réduction des coûts
d'implémentation et réduction des coûts d'administration
Alors niveau de migration = partiel
Par construction, notre base ne comporte pas de règles contradictoires. En effet, au vu du
nombre relativement faible de règles, la vérification a été faite manuellement. Dans le cas de
145
contradiction entre deux règles, nous avons supprimé l'une et gardé l'autre, celle qui est
revenue plusieurs dans les articles de notre échantillon.
6.3.2. Minimalité
En ce qui concerne la minimalité, dans notre base de règles, chaque règle est écrite une
seule fois.
Si une conclusion d'une règle issue de la taxonomie de décision est en même temps une
prémisse d'une autre règle, par souci minimalité, nous fusionnons ces deux règles. La règle
issue de la fusion prend la prémisse de la première règle et sa conclusion sera constituée de la
concaténation des conclusions de ces deux règles fusionnées.
Exemple :
Si taille de l'entreprise = petite
Alors niveau de migration = total
Si niveau de migration = total
Alors contrat = long terme
La règle issue de la fusion de deux précédentes règles est la suivante :
Si taille de l'entreprise = petite
Alors niveau de migration = total
et Contrat = long terme
Etant donné que dans notre base de règles toutes les prémisses issues de la taxonomie de
décision sont des conclusions pour d'autres règles, cette directive supprime de notre base de
règles toutes les règles de la forme :
Si décision
Alors décision
L'exemple ci-haut l'illustre.
Si deux règles possèdent une prémisse identique et que cette dernière est issue de la
taxonomie de contexte et si leurs conclusions sont différentes et issues l'une de la taxonomie
de contexte et l'autre de la taxonomie de décision, nous fusionnons ces deux règles. La
prémisse de la nouvelle règle sera constituée de toutes les expressions de ces deux règles qui
146
sont issues de la taxonomie de contexte et la conclusion, de toutes les expressions de ces deux
règles qui sont issues de la taxonomie de décision.
Exemple :
Si exigences de sécurité = intégrité et confidentialité
Alors ressources financières = fortes
Si exigences de sécurité = intégrité et confidentialité
Alors type cloud = privé
La règle fusionnée se présente comme suit :
Si exigences de sécurité = intégrité et confidentialité
et Ressources financières = fortes
Alors type cloud = privé
Cette directive supprime de notre base de règles toutes les règles de la forme :
Si contexte
Alors contexte
L'exemple ci-haut le démontre.
Pour deux expressions qui ont des parties gauches identiques et dont les parties droites
sont l’une concrète et l’autre abstraite, on supprime l’expression qui a la partie droite concrète
et on garde celle qui a la partie droite abstraite.
Exemple :
Si niveau de migration = partiel/outils (partie droite abstraite)
Alors couches de cloud = SaaS/outils (partie droite abstraite)
Si niveau de migration = partiel/outils/analyse (partie droite concrète)
Alors couches de cloud = SaaS/outils/analyse (partie droite concrète).
La deuxième règle est supprimée.
Nous supprimons toute règle dont les expressions de la partie gauche et les expressions
de la partie droite sont toutes incluses dans une autre règle.
Exemple :
Si taille de l'entreprise = petite ou moyenne
Alors niveau de migration = total
et Couches de cloud = SaaS/outils
Si taille de l'entreprise = petite
Alors niveau de migration = total
147
6.3.3. Exhaustivité
Notre base de règles ne possède pas un grand nombre d'éléments dans les deux
taxonomies. Pour vérifier son exhaustivité, nous avons effectué différentes combinaisons
entre les contextes et les décisions. Nous avons rapproché chaque dimension de la taxonomie
de contexte à toutes les dimensions de la taxonomie de décision. Cela nous a conduits à
ajouter six nouvelles règles dans la base : des combinaisons qui n'existaient pas avant cette
opération.
A titre illustratif, nous avons rapproché les objectifs des types de cloud. Le constat est que
chaque objectif influence le choix d'un type de cloud approprié, sauf pour l'objectif protection
de données. Ce qui nous a conduits à ajouter la règle ci-dessous :
Si objectifs = protection des données
Alors types de cloud = hybride
Le choix de cloud hybride est motivé par le fait que dans une organisation, on trouve
généralement des données qui sont sensibles et d'autres qui ne le sont pas. Un cloud hybride
répond bien à ce critère car il renferme les avantages du cloud privé et ceux du cloud public.
Quand une organisation migre vers le cloud pour protéger ses données, elle aimerait en
disposer chaque fois qu'elle en a besoin. L'aspect disponibilité entre en ligne de compte.
C'est le cloud public qui répond bien à ce critère de disponibilité. La protection des données
implique aussi l'intégrité et la confidentialité. Ces deux aspects sont, de manière générale,
garantis par un cloud privé.
6.4. Conclusion
Dans ce chapitre, nous avons présenté un ensemble des règles issues de la littérature et
des règles d'association obtenues par data mining. Les règles d’association n’ont pas apporté
un grand changement dans la base des règles issues de la littérature : sept sur les onze règles
produites se trouvaient déjà dans la base. Pour vérifier la cohérence, la minimalité et la
complétude de notre base de règles, nous avons utilisé les directives mise en place au point
3.7 de cette thèse. Ces dernières nous ont permis de vérifier la cohérence, la minimalité et
l'exhaustivité de notre base de règles.
148
Après l’application de ces directives, le constat est que toutes les règles sont cohérentes
les unes par rapport aux autres et toutes par rapport au modèle de guidage opérationnel. Par
souci de minimalité, nous avons supprimé et fusionné certaines règles. Pour des raisons
d'exhaustivité, nous avons ajouté d'autres règles dans la base. Notre base de règles est
cohérente, minimale et l'exhaustive à un moment donné. Elle reste évolutive et son
exhaustivité est questionnée à chaque mise à jour.
Par ailleurs, grâce aux exigences de minimalité, notre base de règles ne comporte plus
que des règles de la forme :
Si contexte
Alors conclusion.
Afin de faciliter l'utilisation de ces règles et de valider notre approche, nous avons
développé un outil. Ce dernier permettra de renseigner le contexte d'une organisation
désireuse de migrer sa BI vers le cloud afin qu'une décision adaptée lui soit proposée. Le
chapitre suivant traitera de l’implémentation de cet outil et de la validation de notre approche.
CHAPITRE 7 : IMPLEMENTATION ET VALIDATION
7.1. Introduction
A partir des règles présentées au chapitre précédent, nous avons développé un système
de guidage opérationnel pour la migration de la BI vers le cloud. Un système fondé sur des
règles est généralement destiné à remplacer l'expertise humaine. Ce système tire des
conclusions pour des prémisses énoncées au préalable (Friedman-Hill 2003).
Nous avons utilisé JESS (Java Expert System Shell) (Friedman-Hill 2003) en
interaction avec Java sous l’environnement ECLIPSE pour le développement de cet outil de
guidage opérationnel de la migration de la BI vers le cloud. JESS est un générateur système
expert écrit complètement en Java. Il est aussi un environnement de script à partir duquel on
peut créer des objets et appeler des méthodes Java sans avoir besoin de compilation. Grâce à
JESS, on peut développer en Java une application qui a la capacité de raisonner en utilisant
les connaissances que l’on possède sous forme de règles déclaratives. JESS est l'un des
moteurs de règles les plus simples et les plus rapides.
Comme nous l'avons dit ci-haut, nous avons utilisé JESS pour mettre en place un
système basé sur des règles. Ci-après, nous présentons l'architecture de JESS.
150
MEMOIRE DE TRAVAIL
MOTEUR D'INFERENCE
BASE DE REGLES
- Une mémoire de travail : C'est une base de faits. Elle comprend tous les faits qui sont
utilisés pour former les prémisses et les conclusions des règles.
- Une base de règles : C'est l'ensemble de règles qu'un système peut utiliser.
- Un moteur d'inférence : C'est le composant qui se charge d'exécuter les règles.
- Les taxonomies,
- Le système expert,
- L'interface.
L’outil que nous développons est destiné à faciliter l’utilisation des règles décrites au
chapitre précédent. Les deux taxonomies complémentaires développées au chapitre 5
forment le domaine de ces règles. En effet, un domaine de règles est l'ensemble de toutes les
informations à employer dans l'implémentation des règles (Friedman-Hill 2003).
Pour cet outil, c'est JESS qui est utilisé comme système expert. Celui-ci comprend une
mémoire de travail ou base de faits, une base de règles et un moteur d'inférence. Nous
décrivons ces composants ci-dessous.
JESS offre la possibilité de définir des templates (emplacements) avant d'enregistrer les
faits dans la base. Chaque emplacement est un espace réservé pour une information
spécifique. Un emplacement est composé de slot ou de multislot. Un emplacement est dit
slot quand il accepte une seule valeur. Il est multislot quand il peut accepter plusieurs valeurs.
La syntaxe pour définir un template se présente comme suit :
153
(deftemplate nomtemplate
(slot libellé)
(multislot libellé))
Pour représenter les éléments de la taxonomie sous forme de faits JESS, nous avons
procédé aux transformations suivantes :
Exemple de faits :
En JESS, pour définir une règle, on utilise le mot clé "defrule" qui doit être suivi du
nom de la règle à définir. Une règle est composée de deux parties et est entourée de
parenthèses. Les deux parties sont séparées par le signe "=>". La partie gauche est la
prémisse de la règle. La partie droite en est la conclusion. Le signe "=>" signifie "alors".
On suppose que la prémisse est une condition qui doit être remplie pour que la conclusion qui
en est le résultat puisse s'exécuter. Ainsi, la prémisse est comparée à tous les faits existants
dans la mémoire de travail. Au cas où elle correspond à certains faits, la règle se déclenche et
sa conclusion est exécutée.
156
La partie prémisse d’une règle peut utiliser les opérateurs logiques suivants : Et noté
"&", ou noté "|" et non noté "~ ". L'opérateur & est souvent représenté par un vide : " "
Dans le cas de deux prémisses qui se suivent sans un connecteur, JESS considère qu’il s’agit
du connecteur "&" implicite.
La conclusion commence par le mot clé "assert". Elle peut avoir plusieurs parties.
Celles-ci sont toujours connectées par l’opérateur "Et" explicite ou implicite. JESS exécute
les conclusions l’une après l’autre en utilisant le connecteur "&".
Pour écrire les règles que nous avons décrites au chapitre précédent avec la syntaxe
JESS, nous nous sommes référés aux transformations effectuées lors de la prise en compte des
faits dans la mémoire de travail au point 7.3.2.1. Ainsi, chacune des parties de la règle est
remplacée par un ou plusieurs faits précédés par le nom de leurs templates respectifs. La
syntaxe devient comme suit :
(defrule NomRègle
(contexte ((nomDimension "nomCaractéristique"|"nomCatégorie")… (nomDimension
"nomCaractéristique" … "nomCaractéristique"))
| ((nomDimension "nomCaractéristique"|"nomCatégorie") | (nomDimension
"nomCaractéristique"|"nomCatégorie")|…|(nomDimension
"nomCaractéristique"|"nomCatégorie"))
| ((nomDimension (~"nomCaractéristique"))
=>
(assert (décision (nomDimension "nomCaractéristique"|"nomCatégorie") … (nomDimension
"nomCaractéristique"|"nomCatégorie"))))
157
Exemple de règle :
(defrule Règle1
(contexte (objectif "réduction des coûts d'implémentation" "réduction des coûts
d'infrastructure" "réduction des coûts d'administration") (ressources financières "faibles")
(exigences de sécurité "disponibilité") (taille de l'entreprise "petite" | "moyenne"))
=>
(assert (décision (niveau de migration "total") (types de cloud "public") (contrat "long
terme") (moyen de transmis des services "internet"))))
Le moteur d'inférence détermine les règles qui doivent être déclenchées, et l'ordre dans
lequel cela s'accomplira. La liste des règles pouvant potentiellement être déclenchées (règles
candidates) est stockée dans l'agenda. Celui-ci est chargé de déterminer laquelle des règles,
parmi celles qui sont candidates, a la plus haute priorité et doit être déclenchée en premier.
Enfin, une fois que le moteur de règles décide de la règle à déclencher, il doit exécuter
la partie conclusion de cette règle. Le moteur d'exécution est le composant de moteur
d'inférence qui déclenche les règles.
158
- Sélection des règles candidates (potentielles à être déclenchées) : toutes les règles sont
comparées dans la mémoire de travail à l'aide de patterns de spécification pour décider
lesquelles devraient être activées pendant un cycle. Cette liste non ordonnée de règles
activées, ainsi que toutes les autres règles activées dans les cycles précédents, est
appelée "ensemble de conflit".
- Résolution de conflit : Il consiste à ordonner la liste des règles activées pour constituer
l'agenda. Le processus d'ordonnancement de la liste de conflit est appelé "résolution
de conflit".
- Déclenchement des règles : pour terminer le cycle, la première règle de l'agenda est
déclenchée.
Notons que les résultats obtenus à partir d'un pattern de spécification et du résolveur de
conflits de l'agenda peuvent être sauvegardés à travers les cycles, de sorte que seul un travail
différentiel puisse être refait au besoin.
7.3.3. L'interface
Comme nous l'avons précisé au point 3.5, nous mettons en place un guidage
opérationnel de type suggestif. Celui-ci indique comment les utilisateurs peuvent répondre
aux opportunités de jugement qu'ils rencontrent. Le guidage suggestif recommande les
paramètres et les autres valeurs d'entrée ainsi que les opérateurs à utiliser (Silver 1991).
Ainsi, dans cet outil de guidage opérationnel, le décideur décrit son contexte à travers
l'interface en choisissant les valeurs qui lui sont proposées et demande à la base de règles de
lui fournir toutes les décisions y relatives. Un contexte peut être la prémisse d’une ou
plusieurs règles dans la base de règles, tandis que les décisions sont des conclusions relatives
à la prémisse énoncée.
Un contexte est constitué des six dimensions de la taxonomie de contexte : objectifs,
ressources financières, ressources humaines, exigences de sécurité, secteur d’activité et taille
de l’entreprise.
En effet, il s’agit pour une organisation de dire l’objectif ou les objectifs qu’elle
poursuit en voulant migrer sa BI vers le cloud. En ce qui concerne les ressources financières,
159
il s’agit de parler de ses capacités financières (faibles ou fortes). Pour les ressources
humaines, l’organisation devra préciser les spécialités informatiques que son personnel peut
avoir. Les exigences de la sécurité se résument en la confidentialité, l’intégrité et la
disponibilité. Pour cela, l’utilisateur doit préciser l’aspect (ou les aspects) sur lequel il
voudrait insister. Par exemple dans la migration de son entrepôt des données vers le cloud,
une organisation peut insister sur l'intégrité et la confidentialité de ses données.
L’organisation doit renseigner le domaine de ses activités et préciser sa taille (petite, moyenne
ou grande).
Une fois que le contexte est décrit, l’utilisateur (décideur) peut alors demander au
système de lui proposer les différentes décisions relatives à son contexte. Pour un contexte, le
système peut proposer une ou plusieurs décisions, c’est au décideur de faire le choix final. Au
cas où le contexte est imprécis, le système demande à l’utilisateur de spécifier davantage son
contexte.
L’interface utilisateur, construite en Java, qui permet au décideur de manipuler cet outil
de guidage opérationnel se présente comme suit :
160
Cette interface utilisateur est divisée en deux parties dont la partie gauche affiche les
étapes à parcourir par l’utilisateur. La partie droite montre l'étape active. C’est dans la partie
active que l’utilisateur peut choisir une ou plusieurs caractéristiques (selon les cas) qui
décrivent son organisation. Etant donné que pour une dimension, un objet peut avoir ou ne pas
avoir de caractéristique (voir point 3.3), l'utilisateur peut passer une étape sans choisir une
caractéristique.
A l’aide du bouton "Suivant", on peut progresser vers une autre étape pour renseigner
une autre dimension. Le bouton "Précédent" permet de revenir en arrière pour revoir et au
besoin apporter une correction sur une étape ou une dimension déjà passée. C’est le bouton
"Décision" qui permet au moteur d’inférence d’exécuter la demande en vue d’afficher à
l’écran la ou les décisions relatives au contexte décrit. Le bouton "Effacer" permet d’effacer
un contexte en vue d'en saisir un autre.
161
Pour illustrer comment le décideur pourra utiliser cet outil que nous développons, nous
présentons, ci-dessous, le diagramme de cas d'utilisation y relatif.
Le diagramme de cas d’utilisation ci-haut illustre que l’utilisateur doit d’abord décrire
son contexte avant de demander au système de lui proposer les éventuelles décisions.
C’est la raison pour laquelle le cas d’utilisation "demander les décisions correspondantes" est
lié via «Include» au cas d’utilisation "décrire son contexte".
Dans la section suivante, nous présentons un scénario qui illustre l'application de ce cas
d'utilisation afin de valider notre approche.
162
Pour valider notre approche, nous présentons un scénario illustratif et nous vérifions la
cohérence, la complétude et la minimalité de notre base de règles.
Un scénario illustratif est une méthode d’évaluation qui consiste à décrire une situation
artificielle de résolution de problèmes mais de manière réaliste. C’est un scénario détaillé
autour de l'artefact pour démontrer son efficacité, son utilité ou sa faisabilité (Prat, Comyn-
Wattiau and Akoka 2015).
7.5.1.1. Enoncé
La coordination informatique interministérielle (CII) est une entité qui coordonne les
dépenses de l’Etat Congolais. Elle centralise toutes les dépenses du gouvernement central et
celles des gouvernements provinciaux. Elle est, administrativement, sous tutelle du ministère
du budget mais du point de vue de ses attributions, elle est aussi un organe du ministère des
finances. Elle s’occupe des quatre phases d’exécution des dépenses publiques : l’engagement,
la liquidation, l’ordonnancement et le paiement.
Elle est représentée dans chaque ministère et à la primature de la République par une équipe
de fonctionnaires sous la supervision d’un cadre appelé administrateur de budget. Chaque
équipe possède de l’équipement informatique qui est connecté au réseau avec le bureau de la
CII. Les membres de ces équipes ne sont que des utilisateurs finaux. Seuls les membres de la
CII sont informaticiens : analystes-développeurs, ingénieurs concepteurs et administrateurs
réseaux.
La CII gère un entrepôt de données qui permet de suivre l’exécution du budget dans chaque
institution de l’Etat. Elle analyse toutes les dépenses effectuées à tous les niveaux de
l’administration en vue d’établir les statistiques et de proposer le budget pour l’année
suivante. La discrétion est une règle d’or de la CII et l’intégrité des données est une
recommandation.
La CII éprouve les difficultés suivantes :
163
Le directeur de la CII, Monsieur Jean Gaston MANYA, pense qu’il est opportun de migrer
vers le cloud. Cependant, il n’a pas d’informations suffisantes au sujet de la migration de la
BI vers le cloud.
7.5.1.2. Résolution
Le Directeur de la CII a utilisé l’outil de guidage opérationnel de migration de la BI vers
le cloud. Il a renseigné les dimensions de la taxonomie de contexte pour décrire la situation
de la CII.
La décision
Au regard du contexte de la CII, particulièrement des compétences qu'elle possède, il
serait souhaitable que ses agents développent eux-mêmes un système qui réponde aux besoins
de leur organisation. Par ailleurs, il serait souhaitable que la CII choisisse un type de cloud
qui garantit la sécurité vu la sensibilité de ses données.
164
Ayant utilisé l'outil de guidage opérationnel que nous avons mis en place, la décision
proposée est la suivante :
Cette décision est efficace car elle capitalise sur les compétences du personnel de la CII
et lui permet de résoudre le problème de manque d'infrastructure matérielle qui coûte cher.
165
mots utilisés dans une règle. Grâce à cette double vérification (manuelle et automatique),
notre base de règles ne produit pas de conclusions contradictoires.
En ce qui concerne l'exhaustivité de notre base de règles, nous avons effectué plusieurs
simulations de contextes, notre base de règle reste en mesure de produire au moins une
conclusion. Par ailleurs, dans le cas où le contexte n'est pas suffisamment précis, l'outil
demande à l'utilisateur de fournir plus d'informations afin de lui permettre de proposer une
conclusion. En effet, un contexte est bien décrit quand l'utilisateur renseigne le plus possible
de dimensions de la taxonomie de contexte. Par exemple, pour un même objectif de
migration, les décisions proposées peuvent être différentes selon les tailles des organisations
ou selon le niveau des ressources financières. Par conséquent, il est important qu'un
utilisateur décrive son contexte en précisant non seulement l'objectif de migration, mais aussi
la taille de l'entreprise et le niveau des ressources financières.
Ainsi, si l'objectif de migration est la réduction des coûts, la décision peut être la migration
totale dans le cas d'une petite ou moyenne entreprise. En revanche, si c'est une grande
entreprise, la décision serait une migration partielle : matériel ou outils.
7.6. Conclusion
En vue de valider notre approche, nous avons mis en place un scénario illustratif : grâce
à l'interface de notre outil opérationnel, nous avons renseigné les dimensions de la taxonomie
de contexte avec les données de la Direction Informatique Interministérielle (CII) de la
République Démocratique du Congo qui désire migrer sa BI vers le cloud. Cet outil a proposé
à la CII une conclusion relative à sa situation.
Nous avons proposé cette solution au Directeur de la CII qui a élaboré un projet de migration
qu'il a soumis aux autorités compétentes pour l'adoption de cette solution. Ceci montre que
notre outil de guidage opérationnel est utile et peut aider les organisations dans la décision de
la migration de leur BI vers le cloud.
167
L'objectif de cette thèse était de mettre en place une aide à la décision de migration de la
BI vers le cloud. Pour justifier l'importance et la pertinence de notre question de recherche,
nous avons effectué une revue systématique de la littérature dans le but de résumer les études
existantes sur la BI dans le cloud. Cette revue systématique avait aussi pour but de déceler les
lacunes pour suggérer des voies de solutions. Etant donné que nous avons adopté l'approche
de science de conception (design science), nous nous sommes appuyés sur notre typologie des
artéfacts en science de conception pour exhiber les artefacts déjà mis en place dans le
domaine de la BI dans le cloud d'une part. D'autre part, nous avons identifié des opportunités
de recherche en science de conception pour combler le vide en développant de nouveaux
artefacts en vue de permettre à la BI de profiter des opportunités de cloud.
Basés sur ces opportunités de recherche que la BI dans le cloud offre pour la recherche
en science de conception, nous avons choisi de mettre en place un support d'aide à la décision
de la migration de la BI vers le cloud qui s'appuie sur les taxonomies. Ainsi, nous avons mis
en place un modèle de guidage opérationnel. Ce dernier a permis d'instancier une taxonomie
de la BI dans le cloud d'une part. D'autre part, de ce modèle, ont découlé des règles pour la
migration de la BI vers le cloud. Pour ce faire, nous avons eu besoin de deux taxonomies : de
contexte et de décision. En outre, nous avons utilisé le langage EBNF (Extended Backus-
Naur Form) pour décrire de manière systématique la syntaxe de ce modèle de guidage
opérationnel. Dans le but de vérifier la cohérence, la minimalité et l'exhaustivité des règles,
nous avons mis en place un ensemble de directives.
Pour développer les deux taxonomies sur lesquelles s'appuie le support d'aide à la
décision, nous avons eu besoin d'une méthodologie de développement des taxonomies. Pour
ce faire, nous nous sommes référés à la méthodologie de Nickerson, Varshney et Muntermann
(2013). Celle-ci a montré des limites dans son application en général et en particulier pour les
technologies complexes émergentes. En effet, la BI dans le cloud est une technologie
complexe émergente. Pour développer une taxonomie relative à ce domaine, il fallait tenir
compte des défis spécifiques que posent ces genres de technologies. En tenant compte de ces
limites, nous avons proposé une méthodologie appropriée pour le développement des
169
Grâce à cette méthodologie que nous avons mise en place, nous avons élaboré, de
manière itérative, une taxonomie des éléments qui peuvent influencer la migration de la BI
vers le cloud d’une part. D’autre part, nous avons élaboré la taxonomie des options relatives
aux services dont la BI peut bénéficier dans le cloud.
En outre, nous avons présenté un ensemble de règles qui ont pour domaine, les deux
taxonomies complémentaires développées au préalable. Ces règles ont instancié le modèle de
guidage opérationnel. Nous avons vérifié la cohérence, minimalité et la complétude de notre
base de règles en utilisant les directives que nous avons mises en place lorsque nous avons
élaboré le modèle de guidage opérationnel. Toutes les règles sont cohérentes les unes par
rapport aux autres et toutes par rapport au modèle de guidage opérationnel. Par souci de
minimalité, nous avons supprimé et fusionné certaines règles. Pour des raisons d'exhaustivité,
nous avons ajouté d'autres règles dans la base. Notre base de règles est cohérente, minimale,
et l'exhaustivité à un moment donné.
Afin de faciliter l'utilisation des règles, nous avons développé un outil de guidage
opérationnel. Les trois composants de l'architecture de cet outil sont les taxonomies, le
système expert et l'interface. Ce dernier permet de renseigner le contexte d'une organisation
désireuse de migrer sa BI vers le cloud afin qu'une décision adaptée lui soit proposée.
Pour valider notre approche, nous avons présenté un scénario illustratif et nous avons
vérifié la cohérence, la complétude et la minimalité de notre base de règles.
Par ailleurs, les travaux de cette thèse ont été présentés lors de différentes conférences,
dans une revue internationale ainsi qu'à un consortium doctoral. Cependant, comme tout
travail de recherche, il y a toujours lieu d’affiner pour apporter des améliorations, de
nouvelles perspectives de recherche.
170
Dans un futur proche, nous pensons adapter nos deux taxonomies en prenant en compte
l'évolution technologique et les compléter par une taxonomie des implications de la migration
de la BI vers le cloud car cette dernière ne procure pas simplement des avantages, mais elle
implique aussi des défis à relever. Nous pensons qu'il est important que les organisations
avant de s’engager, aient une information suffisante en ce qui concerne la migration de la BI
vers le cloud. Nous pensons aussi utiliser le chaînage arrière dans notre système expert JESS
pour savoir le contexte indiqué pour un service cloud précis.
PUBLICATIONS
Abbasi A, Sarker S, Chiang RH. Big data research in information systems: Toward an
inclusive research agenda. J Assoc Inf Syst 2016;17:3.
Abelló A, Ferrarons J, Romero O. Building cubes with MapReduce. ACM 14th International
Workshop on Data Warehousing and OLAP. 2011, 17–24.
Al-Aqrabi H, Liu L, Hill R et al. Taking the Business Intelligence to the Clouds. IEEE 14th
International Conference on High Performance Computing and Communications.
2012, 953–8.
Al-Aqrabi H, Liu L, Hill R et al. Cloud BI: Future of business intelligence in the Cloud. J
Comput Syst Sci 2015;81:85–96.
Ari I, Olmezogullari E, Çelebi ÖF. Data stream analytics and mining in the cloud. IEEE 4th
International Conference on Cloud Computing Technology and Science. 2012, 857–
62.
Assunção MD, Calheiros RN, Bianchi S et al. Big Data computing and clouds: Trends and
future directions. J Parallel Distrib Comput 2014;79–80:3–15.
Baars H, Kemper H-G. Business intelligence in the cloud? PACIS Proceedings. 2010, paper
145.
173
Barga RS, Ekanayake J, Lu W. Project Daytona: Data Analytics as a Cloud Service. IEEE
28th International Conference on Data Engineering. 2012, 1317–20.
Baur AW, Bühler J, Bick M. How pricing of business intelligence and analytics SaaS
applications can catch up with their technology. J Syst Inf Technol 2015;17:229–46.
Baxter-Reynolds M. Everyone is “going digital,” but just what does that mean?
http://www.zdnet.com/article/everyone-is-going-digital-but-just-what-does-that-
mean/. 2014.
Bennett C, Grossman RL, Locke D et al. Malstone: towards a benchmark for analytics on
large data clouds. ACM Proceedings of the 16th International Conference on
Knowledge Discovery and Data Mining. 2010, 145–152.
Brezany P, Zhang Y, Janciak I et al. An Elastic OLAP Cloud Platform. IEEE International
Conference on Dependable, Autonomic and Secure Computing. 2011a, 356–63.
Brezany P, Zhang Y, Janciak I et al. An Elastic OLAP Cloud Platform. IEEE, 2011b, 356–63.
Bruchez R. Les bases de données NoSQL et le big data : Comprendre et mettre en oeuvre.
Paris: Eyrolles, 2015.
Cao Y, Chen C, Guo F et al. Es 2: A cloud data storage system for supporting both oltp and
olap. IEEE 27th International Conference on Data Engineering. 2011, 291–302.
Carlos Perez J. Microsoft buys Capptain for mobile analytics, cloud services
http://www.computerworld.com/article/2489915/business-intelligence/microsoft-buys-
capptain-for-mobile-analytics--cloud-services.html. 2014.
Chaisiri S, Bong Z, Lee C et al. Workflow framework to support data analytics in cloud
computing. IEEE 4th International Conference on Cloud Computing Technology and
Science. 2012, 610–613.
Chang L, Ranjan R, Zhang X et al. Public Auditing for Big Data Storage in Cloud Computing
-- A Survey. IEEE 16th International Conference on Computational Science and
Engineering. 2013, 1128–35.
Chang L, Yang C, Zhang X et al. External integrity verification for outsourced big data in
cloud and IoT: A big picture. Future Gener Comput Syst 2015;49:58–67.
Chang V. The business intelligence as a service in the cloud. Future Gener Comput Syst
2014;37:512–534.
Chaudhuri S. What next ? : a half-dozen data management research goals for big data and the
cloud. ACM Proceedings of the 31st Symposium on Principles of Database Systems.
2012, 1–4.
Chen H, Chiang RH, Storey VC. Business Intelligence and Analytics: From Big Data to Big
Impact. MIS Q 2012;36:1165–88.
Chen PP. An algebra for a directional binary entity-relationship model. IEEE First
International Conference on Data Engineering. 1984, 37–40.
Chi Y, Moon HJ, Hacigümüş H et al. SLA-tree: a framework for efficiently supporting SLA-
based decisions in cloud computing. ACM Proceedings of the 14th International
Conference on Extending Database Technology. 2011, 129–140.
175
Chohan N, Gupta A, Bunch C et al. Hybrid cloud support for large scale analytics and web
processing. Proceedings of the 3rd USENIX Conference on Web Application
Development. 2012, 39–50.
Clay RB, Shen Z, Ma X. Accelerating Batch Analytics with Residual Resources from
Interactive Clouds. IEEE 21st International Symposium on Modelling, Analysis &
Simulation of Computer and Telecommunication Systems. 2013, 414–23.
Cuzzocrea A, Song I-Y, Davis KC. Analytics over large-scale multidimensional data: the big
data revolution! ACM 14th International Workshop on Data Warehousing and OLAP.
2011, 101–4.
Dignan L. AWS’ Vogels on hybrid cloud, mobile, big data, technical debt
http://www.informationweek.com/big-data/big-data-analytics/databricks-cloud-next-
step-for-spark/d/d-id/1278978. 2014a.
Dignan L. AWS: With more than 1 million active customers, we’re your stack
http://www.zdnet.com/article/aws-with-more-than-1-million-active-customers-were-
your-stack/. 2014b.
Dinh HT, Lee C, Niyato D et al. A survey of mobile cloud computing: architecture,
applications, and approaches: A survey of mobile cloud computing. Wirel Commun
Mob Comput 2013;13:1587–611.
Dinter, B, Lorenz A. Social Business Intelligence: a Literature Review and Research Agenda.
Thirty Third International Conference on Information Systems. 2012.
Dix J. How UPS Uses Analytics to Drive Down Costs (and No, it Doesn’t Call it Big Data)
http://www.cio.com/article/2852509/data-analytics/how-ups-uses-analytics-to-drive-
down-costs-and-no-it-doesnt-call-it-big-data.html. 2014.
Duan L, Xu LD. Business Intelligence for Enterprise Systems: A Survey. IEEE Trans Ind
Inform 2012;8:679–87.
176
Dziembek D, Ziora L. Business Intelligence Systems in the SaaS Model as a Tool Supporting
Knowledge Acquisition in the Virtual Organization,". Online J Appl Knowl Manag
2014;2:82–96.
Fernando N, Loke SW, Rahayu W. Mobile cloud computing: A survey. Future Gener Comput
Syst 2013;29:84–106.
Fox GC. Large scale data analytics on clouds. ACM Proceedings of the Fourth International
Workshop on Cloud Data Management. 2012, 21–24.
Gan Y, Meng X, Shi Y. COLA: A Cloud-Based System for Online Aggregation. IEEE 29th
International Conference on Data Engineering. 2013, 1368–71.
Garey MR, Johnson DS. Computers and Intractability: A Guide to the Theory of NP-
Completeness. 27. print. New York: Freeman, 2009.
177
Gillenson M, Sherrell DL, Chen L. A taxonomy of web site traversal patterns and structures.
Commun AIS 2000;3:5.
Goes PB. Design Science Research in Top Information Systems Journals. MIS Q 2014;38:iii–
viii.
Goncalves C, Assuncao L, Cunha JC. Data analytics in the cloud with flexible MapReduce
workflows. IEEE 4th International Conference on Cloud Computing Technology and
Science. 2012, 427–434.
Gregor S, Jones D. The anatomy of a design theory. J Assoc Inf Syst 2007;8:312.
Grossman RL. What is analytic infrastructure and why should you care? ACM SIGKDD
Explor Newsl 2009;11:5–9.
Han H, Lee YC, Choi S et al. Cloud-aware processing of mapreduce-based olap applications.
Proceedings of the Eleventh Australasian Symposium on Parallel and Distributed
Computing-Volume 140. 2013, 31–38.
178
innovation/pfizer-connects-dots-to-deliver-better-treatments/d/d-
id/1141527?page_number=1. 2014k.
Henschen D. IBM Apps For Apple iOS: Not Siri Meets Watson
http://www.informationweek.com/strategic-cio/digital-business/ibm-apps-for-apple-
ios-not-siri-meets-watson/d/d-id/1318041. 2014m.
Herzfeldt A, Hausen M, Briggs RO et al. Developing a Risk Management Process and Risk
Taxonomy for Medium-Sized IT Solution Providers. ECIS Proceedings. 2012, paper
165.
Hevner AR, March ST, Park J et al. Design science in information Systems research. MIS Q
2004;28:75–105.
Hua Y, Liu X, Jiang H. ANTELOPE: A Semantic-Aware Data Cube Scheme for Cloud Data
Center Networks. IEEE Trans Comput 2014;63:2146–59.
Inmon WH. Building the Data Warehouse. 3rd ed. New York: J. Wiley, 2002.
Jarke M, Loucopoulos P, Lyytinen K et al. The brave new world of design requirements. Inf
Syst 2011;36:992–1008.
Jun L, Jun W. Cloud Computing Based Solution to Decision Making. Procedia Eng
2011;15:1822–6.
Kambatla K, Kollias G, Kumar V et al. Trends in big data analytics. J Parallel Distrib
Comput 2014;74:2561–73.
Kasem M, Hassanein EE. Cloud Business intelligence survey. Int J Comput Appl 2014;90.
181
Khan AN, Mat Kiah ML, Khan SU et al. Towards secure mobile cloud computing: A survey.
Future Gener Comput Syst 2013;29:1278–99.
Knabke T, Olbrich S. Exploring the Future Shape of Business Intelligence: Mapping Dynamic
Capabilities of Information Systems to Business Intelligence Agility. Twenty-First
Americas Conference on Information Systems. Puerto Rico, 2015.
Kurunji S, Ge T, Liu B et al. Communication cost optimization for cloud Data Warehouse
queries. IEEE 4th International Conference onCloud Computing Technology and
Science. 2012, 512–519.
Lee J, Feng T, Shi W et al. Towards Quality Aware Collaborative Video Analytic Cloud.
IEEE Fifth International Conference on Cloud Computing. 2012, 147–54.
Leimeister S, Riedl C, Böhm M et al. The Business perspective of cloud computing : Actors,
roles, and value networks. ECIS Proceedings. 2010, Paper 56.
Mahmud S, Iqbal R, Doctor F. Cloud enabled data analytics and visualization framework for
health-shocks prediction. Future Gener Comput Syst 2016;65:169–81.
MapReduce. http://blog.cloudera.com/blog/2014/03/the-truth-about-mapreduce-performance-
on-ssds/. 2017.
March ST, Smith G. Design and Natural Science Research on Information Technology. Decis
Support Syst 1995;15:251–66.
Minelli M, Chambers M, Dhiraj A. Big Data, Big Analytics: Emerging Business Intelligence
and Analytic Trends for Today’s Businesses. Hoboken: John Wiley & Sons, 2012.
Moro S, Cortez P, Rita P. Business intelligence in banking: A literature analysis from 2002 to
2013 using text mining and latent Dirichlet allocation. Expert Syst Appl
2015;42:1314–24.
Muriithi GM, Kotzé JE. A conceptual framework for delivering cost effective business
intelligence solutions as a service. ACM Proceedings of the South African Institute for
Computer Scientists and Information Technologists Conference. 2013, 96–100.
Nickerson RC, Varshney U, Muntermann J. A method for taxonomy development and its
application in information systems. Eur J Inf Syst 2013;22:336–359.
Noyes K. IBM to pump $4B into cloud, mobile and analytics this year
http://www.computerworld.com/article/2889912/ibm-to-pump-4b-into-cloud-mobile-
and-analytics-this-year.html. 2015a.
Nunamaker JF, Derrick DC, Elkins AC et al. Embodied Conversational Agent-Based Kiosk
for Automated Interviewing. J Manag Inf Syst 2011;28:17–48.
O’Connor F. Regulation on cloud security may spur SaaS use in health care
http://www.computerworld.com/article/2837836/security0/regulation-on-cloud-
security-may-spur-saas-use-in-health-care.html. 2014a.
O’Connor F. Tidemark software adds predictive analytics to help CFOs use big data in
forecasting, budgeting http://www.pcworld.com/article/2846952/tidemark-software-
adds-predictive-analytics-to-help-cfos-use-big-data-in-forecasting-budgeting.html.
2014b.
O’Connor F. Tidemark adds predictive analytics to help CFOs use big data in forecasting,
budgeting http://www.computerworld.com/article/2846010/tidemark-adds-predictive-
analytics-to-help-cfos-use-big-data-in-forecasting-budgeting.html. 2014c.
Overby S. How Little Debbie Used Predictive Analytics to Survive Snack Industry Shakeup
http://www.cio.com/article/2377801/software-as-a-service/how-little-debbie-used-
predictive-analytics-to-survive-snack-industry-shakeup.html. 2014.
Phillips-Wren G, Iyer LS, Kulkarni U et al. Business Analytics in the Context of Big Data: A
Roadmap for Research. Commun Assoc Inf Syst 2015;37:23.
Power DJ. Mobile decision support and business intelligence: an overview☆. J Decis Syst
2013;22:4–9.
Pratt MK. University CIO helps boost graduation rates with analytics
http://www.computerworld.com/article/2490005/it-management/university-cio-helps-
boost-graduation-rates-with-analytics.html. 2014.
Purao S, Vaishnavi V. Product metrics for object-oriented systems. ACM Comput Surv CSUR
2003;35:191–221.
Ricknäs M. IBM earnings slump as company shifts to cloud, mobile and analytics
http://www.computerworld.com/article/2835719/ibm-earnings-slump-as-company-
shifts-to-cloud-mobile-and-analytics.html. 2014.
Rimal BP, Choi E, Lumb I. A Taxonomy and Survey of Cloud Computing Systems. IEEE
Fifth International Joint Conference on INC, IMS and IDC. 2009, 44–51.
Ryan MD. Cloud computing security: The scientific challenge, and a survey of solutions. J
Syst Softw 2013;86:2263–8.
Sangupamba Mwilu O, Prat N, Comyn-Wattiau I. Business Intelligence and Big Data in the
Cloud : Opportunities for Design-Science Researchers. Advances in Conceptual
Modeling—Proceedings of ER 2014 Workshops. GA, USA, 2014, 75–84.
Sankappanavar HP, Burris S. A course in universal algebra. Grad Texts Math 1981;78.
Shanks G, Sharma R, Seddon P et al. The impact of strategy and maturity on business
analytics and firm performance: A review and research agenda. Proc 21st Australia
Conf. Inf. Syst. 2010, paper 51.
Silver MS. Decisional Guidance for Computer-Based Decision Support. MIS Q 1991:105--
122.
Simmhan Y, Aman S, Kumbhare A et al. Cloud-based software platform for big data
analytics in smart grids. Comput Sci Eng 2013;15:38–47.
185
Sun X, Gao B, Fan L et al. A cost-effective approach to delivering analytics as a service. 19th
International Conference on Web Services. IEEE, 2012, 512–9.
Tan W, Blake MB, Saleh I et al. Social-Network-Sourced Big Data Analytics. IEEE Internet
Comput 2013;17:62–9.
Tancer J, Varde AS. The Deployment of MML for Data Analytics over the Cloud. 11th IEEE
International Conference on Data Mining Workshops. 2011, 188–95.
Tapiador D, O’Mullane W, Brown AGA et al. A framework for building hypercubes using
MapReduce. Comput Phys Commun 2014;185:1429–1438.
The Chief Information Officers Council. Federal Enterprise Architecture Framework. 1999.
Thompson WJ, Van der Walt JS. Business intelligence in the cloud. SA J Inf Manag
2010;12:5–pages.
Vance J. Big Data Wars: How Technology Could Tip the Mid-Term Elections
http://www.cio.com/article/2838806/big-data/big-data-wars-how-technology-could-
tip-the-mid-term-elections.html?page=2. 2014b.
Williams G. Data Mining with R and Rattle. New York, NY: Springer New York, 2011.
Wlodarczyk TW, Rong C, Jia B et al. DataStorm An Ontology-Driven Framework for Cloud-
Based Data Analytic Systems. IEEE 6th World Congress on Services. 2010, 123–7.
Wolpe T. SAP HANA: Users are struggling to see the business case
http://www.zdnet.com/article/sap-hana-users-are-struggling-to-see-the-business-case/.
2014.
Xiufeng L, Thomsen C, Pedersen TB. CloudETL: scalable dimensional ETL for hive.
Proceedings of the 18th International Database Engineering & Applications
Symposium. ACM, 2014, 195–206.
186
I. CLOUD BI FRAMEWORK
Business
process for a
generic
value
network
(Leimeister
et al. 2010)
Taxonomy of Taxonomy of
data mining mobile cloud
algorithms computing
(Duan and Xu (Fernando, Loke
Taxonomy 2012) and Rahayu
2013)
Taxonomy
of main
aspects for
cloud
monitoring
(Leimeister
et al. 2010)
189
Framework for
BI
research
(Kowalczyk,
Buxmann and
Besier 2013)
Framework to
verify security
in the cloud
(Subashini and
Kavitha 2011)
Architecture of a DSS
system for data Architecture
analytics in the cloud (Demirkan and
(Garey and Johnson Delen 2013)
2009)
Architecture of
a security
system (Ng et
al. 2011)
Architecture
of mobile
cloud
computing
(Khan et al.
2013) (Dinh
et al. 2013)
Requirement Requirement
for security
system in
the cloud
(Ng et al.
2011)
Methodology Methodology
for data for BI
integrity migration
verification (Gash,
Methodology (Gash, Ariyachandra
Ariyachandra and Frolick
and Frolick 2011)
2011) (Muriithi and
Kotzé 2013)
191
Algorithm for
building cube
with MapReduce
(Abelló,
Ferrarons and
Romero 2011)
2.2.1. Phase 1 : test pilote constitué par les 34 articles de 5 différents magazines
informatiques.
2.2.1.1.Taxonomie de contexte
- Itération 1 (Henschen 2015a) : L'article requiert la promotion de la caractéristique
réduction des coûts. Il ajoute les caractéristiques coûts d'infrastructure, coûts
d’implémentation et coûts d’administration à la catégorie réduction des coûts. Il
permet d'ajouter les caractéristiques mobilité et agilité à la dimension objectifs.
- Itération 2 (Vance 2014a) : l’article n’ajoute rien.
- Itération 3 (Henschen 2015b) : l’article n’ajoute rien.
- Itération 4 (Mitchell 2014) : l’article n’ajoute rien.
- Itération 5 (Enderle 2014a) : l’article n’ajoute rien.
- Itération 6 (Dignan 2014a) : l’article confirme la dimension exigences de sécurité.
- Itération 7 (Dignan 2014b) : l’article confirme la dimension exigences de sécurité.
- Itération 8 (Vance 2014b) : l’article n’ajoute rien.
- Itération 9 (Bertolucci 2015) : l’article n’ajoute rien.
- Itération 10 (Babcock 2014a) : l’article n’ajoute rien.
195
Itérations
2.2.3.2.Taxonomie de décision
- Itération 1 (Henschen 2015h) : l’article confirme la sous-catégorie outils.
- Itération 2 (Henschen) : l’article confirme la caractéristique spark de la sous-
catégorie BIcomposite.
- Itération 3 (O’Connor 2014c) : l'article confirme la sous-catégorie service.
- Itération 4 (Henschen 2015i) : l'article confirme la sous-catégorie service.
- Itération 5 (Williams 2014) : l'article permet d'ajouter la caractéristique lunettes à
la catégorie mobile.
201
1. Si objectifs= réduction des coûts/ réduction des coûts d'infrastructure, réduction des
coûts d'implémentation et réduction des coûts d'administration
et Taille de l'entreprise = petite ou moyenne
Alors niveau de migration = total (Al-Aqrabi et al. 2015)
2. Si ressources humaines = analyste
Alors couches de cloud = PaaS (Patel, Rau-Chaplin and Varghese 2012)
3. Si ressources humaines = développeur
Alors couches de cloud = PaaS (Patel, Rau-Chaplin and Varghese 2012)
4. Si taille de l'entreprise = moyenne
Alors types de cloud = public (Kaur, Agrawal and Dhiman 2012)
5. Si exigences de sécurité = intégrité et confidentialité
202
Mots clés : business intelligence, cloud computing, science de conception, taxonomies, guidage opérationnel,
artefacts.
Résumé en anglais
BI and cloud computing are two major areas of computer science research and in particular in information
system. A research combining these two concepts has a double interest : On the one hand, in business, the BI
becomes increasingly an important part of the information system which requires investment in terms of
computing performance and data volumes. On the other hand, cloud computing offers new opportunities to
manage data for analysis.
Given the possibilities of cloud, migration question of the information system including BI is of great interest.
In particular, researchers must provide models and methods to help professional in BI migration to the cloud.
The research question is : how to migrate BI to the cloud?
In this thesis, we address this issue using design science research approach. We implement a decision-making
help for BI migration to the cloud based on taxonomies. We provide an operational guidance model that is
instantiated by a BI taxonomy in the cloud and from that rules for BI migration to the cloud are arised.
Keywords : business intelligence, cloud computing, design science, taxonomies, operational guidance,
artifacts.