Informatique - Cours Bases de Données - 2002 - 209 Pages (PH
Informatique - Cours Bases de Données - 2002 - 209 Pages (PH
Informatique - Cours Bases de Données - 2002 - 209 Pages (PH
Philippe Rigaux
20 février 2002
2
TABLE DES MATIÈRES 3
1 Introduction 7
2 Présentation générale 9
2.1 Données, Bases de données et SGBD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Que doit-on savoir pour utiliser un SGBD ? . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Définition du schéma de données . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.2 Les opérations sur les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.3 Optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.4 Concurrence d’accès . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Le plan du cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
I Modèles et langages 15
3 Le modèle Entité/Association 17
3.1 Principes généraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.1 Bons et mauvais schémas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.2 La bonne méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2 Le modèle E/A : Présentation informelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.1 Entités, attributs et identifiants . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.2 Associations binaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3.3 Entités faibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.4 Associations généralisées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4 Avantage et inconvénients du modèle E/A . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4 Le modèle relationnel 35
4.1 Définition d’un schéma relationnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Passage d’un schéma E/A à un schéma relationnel . . . . . . . . . . . . . . . . . . . . . . 37
4.2.1 Règles générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.2 Retour sur le choix des identifiants . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2.3 Dénormalisation du modèle logique . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.3 Le langage de définition de données SQL2 . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3.1 Types SQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3.2 Création des tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3.3 Contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3.4 Modification du schéma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4 TABLE DES MATIÈRES
5 L’algèbre relationnelle 55
5.1 Les opérateurs de l’algèbre relationnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.1.1 La sélection, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.1.2 La projection, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.1.3 Le produit cartésien, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.1.4 L’union, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.1.5 La différence, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.1.6 Jointure, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2 Expression de requêtes avec l’algèbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2.1 Sélection généralisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2.2 Requêtes conjonctives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.2.3 Requêtes avec et . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6 Le langage SQL 67
6.1 Requêtes simples SQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.1.1 Sélections simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.1.2 La clause WHERE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.1.3 Valeurs nulles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.2 Requêtes sur plusieurs tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.2.1 Jointures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.2.2 Union, intersection et différence . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.3 Requêtes imbriquées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.3.1 Conditions portant sur des relations . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.3.2 Sous-requêtes correllées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.4 Agrégration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.4.1 Fonctions d’agrégation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.4.2 La clause GROUP BY . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.4.3 La clause HAVING . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.5 Mises-à-jour . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.5.1 Insertion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.5.2 Destruction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.5.3 Modification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
7 Schémas relationnels 81
7.1 Schémas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.1.1 Définition d‘un schéma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.1.2 Utilisateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.2 Contraintes et assertions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.3 Vues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
7.3.1 Création et interrogation d’une vue . . . . . . . . . . . . . . . . . . . . . . . . . 85
7.3.2 Mise à jour d’une vue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7.4 Triggers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7.4.1 Principes des triggers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7.4.2 Syntaxe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
10 Indexation 133
10.1 Indexation de fichiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
10.1.1 Index non-dense . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
10.1.2 Index dense . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
10.1.3 Index multi-niveaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
10.2 L’arbre-B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
10.2.1 Présentation intuitive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
10.2.2 Recherches avec un arbre-B+ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
10.3 Hachage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
10.3.1 Principes de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
10.3.2 Hachage extensible . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
10.4 Les index bitmap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
10.5 Indexation dans Oracle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
10.5.1 Arbres B+ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
10.5.2 Arbres B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
10.5.3 Indexation de documents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
10.5.4 Tables de hachage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
10.5.5 Index bitmap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
Chapitre 1
Introduction
Sommaire
Ce cours s’adresse aux étudiants du cycle A du CNAM et a pour objectif l’étude des principes des
SGBD relationnels et la mise en pratique de ces principes. Le contenu du cours est essentiellement le
suivant :
1. Conception d’un schéma relationnel. Il s’agit de savoir définir un schéma relationnel complet et
correct, comprenant des tables, des contraintes, des vues.
2. Langages d’interrogation et de manipulation. L’accent est mis sur SQL et ses fondements, et sur
l’intégration de SQL avec un langage de programmation comme le C.
De plus, le cours comprend une introduction aux problèmes de concurrence d’accès, dont la connais-
sance est nécessaire aux développeurs d’applications basées sur des SGBD. Des travaux pratiques avec le
SGBD ORACLE permettent de mettre en oeuvre les techniques étudiées en cours.
L’accent est donc plutôt mis sur les notions de base (qu’est-ce qu’un SGBD, qu’une base de données,
qu’un langage d’interrogation) et leur application pratique. Il demandé d’avoir acquis à la fin du cours les
connaissances nécessaires à l’utilisation d’un SGBD par un informaticien non-spécialiste. : création d’un
schéma, insertion, mise-à-jour, destruction, interrogation de données, et comprehension des mécanismes de
concurrence intervenant dans la gestion d’un SGBD. En revanche, tout ce qui relève de la compréhension
des mécanismes internes d’un SGBD (représentation physique, évaluation de requêtes) ou des fondements
théoriques du modèle relationnel n’est pas abordé ici.
Ce document est un support de cours : il ne prétend certainement pas être exhaustif ni traiter en détail
tous les sujets abordés. L’assistance au cours proprement dit, ainsi qu’aux travaux dirigés et aux travaux
pratiques est fortement recommandée. Il existe de plus un site WEB qui donne des renseignements com-
plémentaires, les horaires des cours, les solutions de certains exercices, etc. Voici l’adresse :
http://sikkim.cnam.fr/~rigaux/bdpi.html
Pour ceux qui veulent en savoir plus, il existe une riche bibliographie dont voici quelques éléments
recommandables :
Ouvrages en français
Ouvrages en anglais
1. Melton J. et A.R. Simon, Understanding SQL, A Complete Guide, Morgan Kaufmann, 1993.
2. Ullman J.D. et Widom J., A first Course in database Systemsd, Prentice Hall, 1999
3. Date C.J., An Introduction to Database Systems, Addison-Wesley
Le premier chapitre (correspondant au premier cours) est une (rapide) présentation de tous les thèmes
présentés en détails dans ce cours. On peut le lire comme une mise en perspective générale de l’ensemble
de l’enseignement.
9
Chapitre 2
Présentation générale
Sommaire
2.1 Données, Bases de données et SGBD . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Que doit-on savoir pour utiliser un SGBD ? . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Définition du schéma de données . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.2 Les opérations sur les données . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.3 Optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.4 Concurrence d’accès . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Le plan du cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Definition 2.1 Une Base de données est un gros ensemble d’informations structurées mémorisées sur un
support permanent.
On peut remarquer qu’une organisation consistant en un (ou plusieurs) fichier(s) stockés sur mémoire
secondaire est conforme à cette définition. Un ensemble de fichiers ne présentant qu’une complexité assez
faible, il n’y aurait pas là matière à longue dissertation. Malheureusement l’utilisation directe de fichiers
soulève de très gros problèmes :
1. Lourdeur d’accès aux données. En pratique, pour chaque accès, même le plus simples, il faudrait
écrire un programme.
2. Manque de sécurité. Si tout programmeur peut accéder directement aux fichiers, il est impossible de
garantir la sécurité et l’intégrité des données.
3. Pas de contrôle de concurrence. Dans un environnement où plusieurs utilisateurs accèdent aux même
fichiers, des problèmes de concurrence d’accès se posent.
D’où le recours à un logiciel chargé de gérer les fichiers constituant une base de données, de prendre
en charge les fonctionnalités de protection et de sécurité et de fournir les différents types d’interface né-
cessaires à l’accès aux données. Ce logiciel (le SGBD) est très complexe et fournit le sujet principal de
10 CHAPITRE 2. PRÉSENTATION GÉNÉRALE
ce cours. En particulier, une des tâches principales du SGBD est de masquer à l’utilisateur les détails
complexes et fastidieux liés à la gestion de fichiers. D’où la définition.
Definition 2.2 Un Système de Gestion de Bases de Données (SGBD) est un logiciel de haut niveau qui
permet de manipuler les informations stockées dans une base de données.
La complexité d’un SGBD est essentiellement issue de la diversité des techniques mises en oeuvre, de
la multiplicité des composants intervenant dans son architecture, et des différents types d’utilisateurs (ad-
ministrateurs, programmeurs, non informaticiens, ...) qui sont confrontés, à différents niveaux, au système.
Voici quelques exemples illustrant tous les cas de figure qu’il faudrait envisager dans un cours exhaustif :
– Les langages de requêtes : fondements théoriques (logiques du premier ordre, du point fixe, algèbres
diverses) et les langages comme SQL, SQL3, Datalog, OQL, etc.
Pour mettre un peu d’ordre dans tout cela, on peut se raccrocher à une architecture standard conforme
à la plus grande partie des SGBD existant, et offrant l’avantage de bien illustrer les principales caractéris-
tiques d’un SGBD.
Cette architecture distingue trois niveaux correspondant d’une part à trois représentations équivalentes
de l’information, d’autre part aux champs d’interventions respectifs des principaux acteurs. Pour ces der-
niers, nous utiliserons la terminologie suivante :
– Concepteur et programmeur d’application : à partir des besoins des différents utilisateurs, écrit l’ap-
plication pour des utilisateurs “naïfs”.
– Utilisateur expert : informaticien connaissant le fonctionnement interne d’un SGBD et chargé d’ad-
ministrer la base.
– Niveau physiques : gestion sur mémoire secondaire (fichiers) des données, du schéma, des index ;
Partage de données et gestion de la concurrence d’accès ; Reprise sur pannes (fiabilité) ; Distribution
des données et interopérabilité (accès aux réseaux).
En résumé, un SGBD est destiné à gèrer un gros volume d’informations, persistantes (années) et fiables
(protection sur pannes), partageables entre plusieurs utilisateurs et/ou programmes et manipulées indépen-
damment de leur représentation physique.
2.2. QUE DOIT-ON SAVOIR POUR UTILISER UN SGBD ? 11
4. Optimiser les performances, par le réglage de l’organisation physique des données. Cet aspect relève
plutôt de l’administration et ne sera évoqué que dans l’introduction.
Ces différents modèles correspondent aux niveaux dans l’architecture d’un SGBD. Prenons l’exemple du
modèle conceptuel le plus courant : le modèle Entité/Association. C’est essentiellement une description
très abstraite qui présente les avantages suivants :
En revanche, il ne propose pas d’opérations. Or définir des structures sans disposer d’opérations pour agir
sur les données stockées dans ces structures ne présente pas d’intérêt pratique pour un SGBD. D’où, à un
niveau inférieur, des modèles dits “logiques” qui proposent :
1. Un langage de définition de données (LDD) pour décrire la structure, incluant des contraintes.
2. Un langage de manipulation de données (LMD) pour appliquer des opérations aux données.
Ces langages sont abstraits : le LDD est indépendant de la représentation physique des données, et le
LMD est indépendant de l’implantation des opérations. On peut citer une troisième caractéristique : oute
les structures et les opérations, un modèle logique doit permettre d’exprimer des contraintes d’intégrité sur
les données. Exemple :
Bien entendu, le SGBD doit être capable de garantir le respect de ces contraintes.
Quand on conçoit une application pour une BD, on tient compte (plus ou moins consciemment) de
cette architecture en plusieurs niveaux. Typiquement : (1) On décide la structure logique, (2) on décide
la structure physique, (3) on écrit les programmes d’application en utilisant la structure logique, enfin (4)
Le SGBD se charge de transcrire les commandes du LMD en instructions appropriées appliquées à la
représentation physique.
Cette aproche offre de très grands avantages qu’il est important de souligner. Tout d’abord elle ouvre
l’utilisation des SGBD à de utilisateurs non-experts : les langages proposés par les modèles logiques sont
plus simples, et donc plus accessibles, que les outils de gestion de fichiers. Ensuite, on obtient une carac-
téristique essentielle : l’indépendance physique. On peut modifier l’implantation physique sans modifier
les programmes d’application. Un concept voisin est celui d’indépendance logique : on peut modifier les
programmes d’application sans toucher à l’implantation.
Enfin le SGBD décharge l’utilisateur, et en grande partie l’administrateur, de la lourde tâche de contrô-
ler la sécurité et l’intégrité des données.
2.2.3 Optimisation
L’optimisation (d’une requête) s’appuie sur l’organisation physique des données. Les principaux types
d’organisation sont les fichiers séquentiels, les index (denses. secondaires, arbres B) et le regroupement des
données par hachage.
Un module particulier du SGBD, l’optimiseur, tient compte de cette organisation et des caractéristiques
de la requête pour choisir le meilleur séquencement des opérations.
Langages relationnels
Les langages d’interrogation et de manipulation de données suivants sont présentés : l’algèbre rela-
tionnelle qui fournit un petit ensemble d’opérateurs permettant d’exprimer des requêtes complexes et le
langage SQL, norme SQL2.
1. Une revue complète du langage de définition de données SQL2 pour la création de schémas relation-
nels, incluant l’expression de contraintes, les vues et les triggers.
2. Une introduction au développement d’applications avec SQL.
3. Une introduction à la concurrence d’accès et à ses implications pratiques.
4. Une série de travaux pratiques et d’exercices avec le SGBD Oracle.
14 CHAPITRE 2. PRÉSENTATION GÉNÉRALE
15
Première partie
Modèles et langages
17
Chapitre 3
Le modèle Entité/Association
Sommaire
3.1 Principes généraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.1 Bons et mauvais schémas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.2 La bonne méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2 Le modèle E/A : Présentation informelle . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.1 Entités, attributs et identifiants . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.2 Associations binaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3.3 Entités faibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.4 Associations généralisées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4 Avantage et inconvénients du modèle E/A . . . . . . . . . . . . . . . . . . . . . . . 30
3.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Ce chapitre présente le modèle Entité/Association (E/A) qui est utilisé à peu près universellement pour
la conception de bases de données (relationnelles principalement). La conception d’un schéma correct est
essentielle pour le développement d’une application viable. Dans la mesure où la base de données est
le fondement de tout le système, une erreur pendant sa conception est difficilement récupérable par la
suite. Le modèle E/A a pour caractéristiques d’être simple et suffisamment puissant pour représenter des
structures relationnelles. Surtout, il repose sur une représentation graphique qui facilite considérablement
sa compréhension.
Le modèle E/A souffre également de nombreuses insuffisances : la principale est de ne proposer que
des structures. Il n’existe pas d’opération permettant de manipuler les données, et pas (ou peu) de moyen
d’exprimer des contraintes. Un autre inconvénient du modèle E/A est de mener à certaines ambiguités pour
des schémas complexes.
La présentation qui suit est délibérement axée sur l’utilité du modèle E/A dans le cadre de la conception
d’une base de données. Ajoutons qu’il ne s’agit pas de concevoir un schéma E/A (voir un cours sur les
systèmes d’information), mais d’être capable de le comprendre et de l’interpréter. Dans tout ce chapitre
nous prenons l’exemple d’une base de données décrivant des films, avec leur metteur en scène et leurs
acteurs, ainsi que les cinémas où passent ces films. Nous supposerons également que cette base de données
est accessible sur le Web et que des internautes peuvent noter les films qu’ils ont vus.
Même pour une information aussi simple, il est facile d’énumérer tout un ensemble de problèmes
potentiels. Tous ou presque découlent d’un grave défaut de la table ci-dessus : il est possible de représenter
la même information plusieurs fois.
1. être capable de représenter individuellement les films et les réalisateurs, de manière à ce qu’une
action sur l’un n’entraîne pas systématiquement une action sur l’autre ;
2. définir une méthode d’identification d’un film ou d’un réalisateur, qui permette d’assurer que la
même information est représentée une seule fois ;
3. préserver le lien entre les films et les réalisateurs, mais sans introduire de redondance.
3.1. PRINCIPES GÉNÉRAUX 19
Commençons par les deux premières étapes. On va d’abord distinguer la table des films et la table des
réalisateurs. Ensuite on décide que deux films ne peuvent avoir le même titre, mais que deux réalisateurs
peuvent avoir le même nom. Afin d’avoir un moyen d’identifier les réalisateurs, on va leur attribuer un
numéro, désigné par id. On obtient le résultat suivant, les identifiants (ou clés) étant en gras.
titre année
Alien 1979 id nomMES prénomMES annéeNaiss
Vertigo 1958 1 Scott Ridley 1943
Psychose 1960 2 Hitchcock Alfred 1899
Kagemusha 1980 3 Kurosawa Akira 1910
Volte-face 1997 4 Woo John 1946
Pulp Fiction 1995 5 Tarantino Quentin 1963
Titanic 1997 6 Cameron James 1954
Sacrifice 1986 7 Tarkovski Andrei 1932
La table des films La table des réalisateurs
Premier progrès : il n’y a maintenant plus de redondance dans la base de données. Le réalisateur Hitch-
cock, par exemple, n’apparaît plus qu’une seule fois, ce qui élimine les anomalies de mise à jour évoquées
précédemment.
Il reste à représenter le lien entre les films et les metteurs en scène, sans introduire de redondance.
Maintenant que nous avons défini les identifiants, il existe un moyen simple pour indiquer quel est le
metteur en scène qui a réalisé un film : associer l’identifiant du metteur en scène au film. On ajoute un
attribut idMES dans la table Film, et on obtient la représentation suivante.
Cette représentation est correcte. La redondance est réduite au minimum puisque seule la clé identifiant
un metteur en scène a été déplacée dans une autre table (on parle de clé étrangère). On peut vérifier que
toutes les anomalies que nous avons citées ont disparu.
Anomalie d’insertion. Maintenant que l’on sait quelles sont les caractéristiques qui identifient un film, il
est possible de déterminer au moment d’une insertion si elle va introduire ou non une redondance. Si
c’est le cas on doit interdire cette insertion.
Anomalie de mise à jour. Il n’y a plus de redondance, donc toute mise à jour affecte l’unique instance de
la donnée à modifier.
Anomalie de destruction. On peut détruire un film sans affecter les informations sur le réalisateur.
Ce gain dans la qualité du schéma n’a pas pour contrepartie une perte d’information. Il est en effet facile
de voir que l’information initiale (autrement dit, avant décomposition) peut être reconstituée intégralement.
En prenant un film, on obtient l’identité de son metteur en scène, et cette identité permet de trouver l’unique
ligne dans la table des réalisateurs qui contient toutes les informations sur ce metteur en scène. Ce processus
de reconstruction de l’information, dispersée dans plusieurs tables, peut s’exprimer avec SQL.
La modélisation avec un graphique Entité/Association offre une méthode simple pour arriver au résultat
ci-dessus, et ce même dans des cas beaucoup plus complexes.
20 CHAPITRE 3. LE MODÈLE ENTITÉ/ASSOCIATION
1. des entités, représentées par des rectangles, ici Film, Artiste, Internaute et Pays ;
2. des associations entre entités représentées par des liens entre ces rectangles. Ici on a représenté par
exemple le fait qu’un artiste joue dans des films, qu’un internaute note des films, etc.
Chaque entité est caractérisée par un ensemble d’attributs, parmi lesquels un ou plusieurs forment
l’identifiant unique (en gras). Comme nous l’avons exposé précédemment, il est essentiel de dire ce qui
caractérise de manière unique une entité, de manière à éviter la redondance d’information.
Artiste Internaute
Donne une note
id email
Réalise
nom * nom
0..1 note
prénom 0..* * prénom
annéeNaissance motDePpasse
Film
0..* id annéeNaissance
Joue
titre
0..* année
rôle genre
résumé Pays
* code
1..1 nom
langue
Les associations sont caractérisées par des cardinalités. La notation 0..* sur le lien Réalise, du
côté de l’entité Film, signifie qu’un artiste peut réaliser plusieurs films, ou aucun. La notation 0..1 du
côté Artiste signifie en revanche qu’un film ne peut être réalisé que par au plus un artiste. En revanche
dans l’association Donne une note, un internaute peut noter plusieurs films, et un film peut être noté par
plusieurs internautes, ce qui justifie l’a présence de 0..* aux deux extrêmités de l’association.
Le choix des cardinalités est essentiel. Ce choix est aussi parfois discutable, et constitue donc l’aspect le
plus délicat de la modélisation. Reprenons l’exemple de l’association Réalise. En indiquant qu’un film est
réalisé par un seul metteur en scène, on s’interdit les – rares – situations où un film est réalisé par plusieurs
personnes. Il ne sera donc pas possible de représenter dans la base de données une telle situation. Tout est
ici question de choix et de compromis : est-on prêt en l’occurrence à accepter une structure plus complexe
(avec 0..* de chaque côté) pour l’association Réalise, pour prendre en compte un nombre minime de
cas ?
Les cardinalités sont notées par deux chiffres. Le chiffre de droite est la cardinalité maximale, qui vaut
en général 1 ou *. Le chiffre de gauche est la cardinalité minimale. Par exemple la notation 0..1 entre
3.3. LE MODÈLE 21
Artiste et Film indique qu’on s’autorise à ne pas connaître le metteur en scène d’un film. Attention : cela
ne signifie pas que ce metteur en scène n’existe pas. Une base de données, telle qu’elle est décrite par un
schéma E/A, n’est qu’une vision partielle de la réalité. On ne doit surtout pas rechercher une représentation
exhaustive, mais s’assurer de la prise en compte des besoins de l’application.
La notation 1..1 entre Film et Pays indique au contraire que l’on doit toujours connaître le pays
producteur d’un film. On devra donc interdire le stockage dans la base d’un film sans son pays.
Les cardinalités minimales (également appelées contraintes de participation ) sont moins importantes
que les cardinalités maximales, car elles ont un impact moindre sur la structure de la base de données et
peuvent plus facilement être remises en cause après coup. Il faut bien être conscient de plus qu’elles ne
représentent qu’un choix de conception, souvent discutable. Dans la notation UML que nous présentons
ici, il existe des notations abrégées qui donnent des valeurs implicites aux cardinalités minimales :
Outre les propriétés déjà évoquées (simplicité, clarté de lecture), évidentes sur ce schéma, on peut
noter aussi que la modélisation conceptuelle est totalement indépendante de tout choix d’implantation. Le
schéma de la figure 3.1 ne spécifie aucun système en particulier. Il n’est pas non plus question de type ou
de structure de données, d’algorithme, de langage, etc. En principe, il s’agit donc de la partie la plus stable
d’une application. Le fait de se débarrasser à ce stade de la plupart des considérations techniques permet
de se concentrer sur l’essentiel : que veut-on stocker dans la base ?
Une des principales difficultés dans le maniement des schémas E/A est que la qualité du résultat ne peut
s’évaluer que par rapport à une demande qui est souvent floue et incomplète. Il est donc souvent difficile
de valider (en fonction de quels critères ?) le résultat. Peut-on affirmer par exemple que :
Il faut faire des choix, en connaissance de cause, en sachant toutefois qu’il est toujours possible de
faire évoluer une base de données, quand cette évolution n’implique pas de restructuration trop importante.
Pour reprendre les exemples ci-dessus, il est facile d’ajouter des informations pour décrire un film ou un
internaute ; il serait beaucoup plus difficile de modifier la base pour qu’un film passe de un, et un seul,
réalisateur, à plusieurs. Quant à changer la clé de Film, c’est une des évolutions les plus complexes à
réaliser. Les cardinalités et le choix des clés font vraiment partie des des aspects décisifs des choix de
conception.
3.3 Le modèle
Le modèle E/A, conçu en 1976, est à la base de la plupart des méthodes de conception. La syntaxe
employée ici est celle de la méthode UML, reprise à peu près à l’identique de celle de la méthode OMT.
Il existe beaucoup d’autres notations, dont celle de la méthode MERISE principalement utilisée en France.
Ces notations sont globalement équivalentes. Dans tous les cas la conception repose sur deux concepts
complémentaires, entité et association.
Definition 3.1 (Entité) On désigne par entité tout objet identifiable et pertinent pour l’application.
22 CHAPITRE 3. LE MODÈLE ENTITÉ/ASSOCIATION
Comme nous l’avons vu précédemment, la notion d’identité est primordiale. C’est elle qui permet de
distinguer les entités les unes des autres, et donc de dire qu’une information est redondante ou qu’elle ne
l’est pas. Il est indispensable de prévoir un moyen technique pour pouvoir effectuer cette distinction entre
entités au niveau de la base de données : on parle d’identifiant ou de clé.
La pertinence est également essentielle : on ne doit prendre en compte que les informations nécessaires
pour satisfaire les besoins. Par exemple :
1. le film Impitoyable ;
2. l’acteur Clint Eastwood ;
sont des entités pour la base Films.
La première étape d’une conception consiste à identifier les entités utiles. On peut souvent le faire en
considérant quelques cas particuliers. La deuxième est de regrouper les entités en ensembles : en général on
ne s’intéresse pas à un individu particulier mais à des groupes. Par exemple il est clair que les films et les
acteurs sont des ensembles distincts d’entités. Qu’en est-il de l’ensemble des réalisateurs et de l’ensemble
des acteurs ? Doit-on les distinguer ou les assembler ? Il est certainement préférable de les assembler,
puisque des acteurs peuvent aussi être réalisateurs.
Attributs
Les entités sont caractérisées par des propriétés : le titre (du film), le nom (de l’acteur), sa date de
naissance, l’adresse, etc. Ces propriétés sont dénotées attributs dans la terminologie du modèle E/A. Le
choix des attributs relève de la même démarche d’abstraction qui a dicté la sélection des entités : il n’est
pas question de donner exhaustivement toutes les propriétés d’une entité. On ne garde que celles utiles pour
l’application.
Un attribut est désigné par un nom et prend ses valeurs dans un domaine énumérable comme les entiers,
les chaînes de caractères, les dates, etc. On peut considérer un nom d’atribut
comme une fonction définie
sur un ensemble d’entités et prenant ses valeurs dans un domaine . On note alors
la valeur de
l’attribut
pour une entité .
Considérons par exemple un ensemble de films !#"#"$"%'& et les attributs titre et année. Si est
le film Impitoyable, tourné par Clint Eastwood en 1992, on aura :
Il est très important de noter que selon cette définition un attribut prend une valeur et une seule. On dit
que les attributs sont atomiques. Il s’agit d’une restriction importante puisqu’on ne sait pas, par exemple,
définir un attribut téléphones d’une entité Personne, prenant pour valeur les numéros de téléphone d’une
personne. Certaines méthodes admettent (plus ou moins clairement) l’introduction de constructions plus
complexes :
1. les attributs multivalués sont constitués d’un ensemble de valeurs prises dans un même domaine ;
une telle construction permet de résoudre le problème des numéros de téléphones multiples ;
2. les attributs composés sont constitués par agrégation d’autres atributs ; un attribut adresse peut
par exemple être décrit comme l’agrégation d’un code postal, d’un numéro de rue, d’un nom de rue
et d’un nom de ville.
Nous nous en tiendrons pour l’instant aux attributs atomiques qui, au moins dans le contexte d’une
modélisation orientée vers un SGBD relationnel, sont suffisants.
Types d’entités
Il est maintenant possible de décrire un peu plus précisément les entités par leur type.
Definition 3.2 (Type d’entité) Le type d’une entité est composé des éléments suivants :
1. son nom ;
3.3. LE MODÈLE 23
2. la liste de ses attributs avec, – optionnellement – le domaine où l’attribut prend ses valeurs : les
entiers, les chaînes de caractères ;
3. l’indication du (ou des) attribut(s) permettant d’identifier l’entité : ils constituent la clé.
On dit qu’un entité est une instance de son type . Enfin, un ensemble d’entités !()!$"#"$")%*&
Definition 3.3 (Clé) Soit un type d’entité et
l’ensemble des attributs de . Une clé de est un
sous-ensemble minimal de
permettant d’identifier de manière unique une entité parmi n’importe quelle
extension de .
Prenons quelques exemples pour illustrer cette définition. Un internaute est caractérisé par plusieurs
attributs : son email, son nom, son prénom, la région où il habite. L’email constitue une clé naturelle puis-
qu’on ne trouve pas, en principe, deux internautes ayant la même adresse électronique. En revanche l’iden-
tification par le nom seul paraît impossible puisqu’on constitureait facilement un ensemble contenant deux
internautes avec le même nom. On pourrait penser à utiliser la paire (nom,prénom), mais il faut utiliser
avec modération l’utilisation d’identifiants composés de plusieurs attributs, quoique possible, peut poser
des problèmes de performance et complique les manipulations par SQL.
Il est possible d’avoir plusieurs clés pour un même ensemble d’entités. Dans ce cas on en choisit une
comme clé primaire, et les autres comme clés secondaires. Le choix de la clé (primaire) est déterminant
pour la qualité du schéma de la base de données. Les caractéristiques d’une bonne clé primaire sont les
suivantes :
Il n’est pas toujours évident de trouver un ensemble d’attributs satisfaisant ces propriétés. Considérons
l’exemple des films. Le choix du titre pour identifier un film serait incorrect puisqu’on aura affaire un jour
ou l’autre à deux films ayant le même titre. Même en combinant le titre avec un autre attribut (par exemple
l’année), il est difficile de garantir l’unicité.
Dans la situation, fréquente, où on a du mal à déterminer quelle est la clé d’une entité, on crée un
identifiant abstrait indépendant de tout autre attribut. On peut ainsi ajouter dans le type d’entité Film un
attribut id, corespondant à un numéro séquentiel qui sera incrémenté au fur et à mesure des insertions. Ce
choix est souvent le meilleur, dès lors qu’un attribut ne s’impose pas de manière évidente comme clé. Il
satisfait notamment toutes les propriétés énoncées précédemment (on peut toujours lui attribuer une valeur,
il ne sera jamais nécessaire de la modifier, et elle a une représentation compacte).
On représente graphiquement un type d’entité comme sur la figure 3.2 qui donne l’exemple des types
Internaute et Film. L’attribut (ou les attributs s’il y en a plusieurs) formant la clé sont en gras.
Il est essentiel de bien distinguer types d’entités et entités. La distinction est la même qu’entre schéma
et base dans un SGBD, ou entre type et valeur dans un langage de programmation.
24 CHAPITRE 3. LE MODÈLE ENTITÉ/ASSOCIATION
Definition 3.4 Une association binaire entre les ensembles d’entités + et , est un ensemble de couples
!)$ , avec ++ et -./ .
C’est la notion classique de relation en théorie des ensembles. On emploie plutôt le terme d’association
pour éviter toute confusion avec le modèle relationnel. Une bonne manière d’interpréter une association
entre des ensembles d’entités est de faire un petit graphe où on prend quelques exemples, les plus généraux
possibles.
Prenons l’exemple de l’association représentant le fait qu’un réalisateur met en scène des films. Sur le
graphe de la figure 3.3 on remarque que :
La recherche des situations les plus générales possibles vise à s’assurer que les deux caractéristiques
ci-dessus sont vraies dans tout les cas. Bien entendu on peut trouver 1% des cas où un film a plusieurs
réalisateurs, mais la question se pose alors : doit-on modifier la structure de notre base, pour 1% des cas.
Ici, on a décidé que non. Encore une fois on ne cherche pas à représenter la réalité dans toute sa complexité,
mais seulement la partie de cette réalité que l’on veut stocker dans la base de données.
Ces caractéristiques sont essentielles dans la description d’une association entre des ensembles d’enti-
tés.
Definition 3.5 (Cardinalité) Soit une association 0+!), entre deux types d’entités. La cardinalité de
l’association pour /12)3457698:& , est une paire [min, max] telle que :
1. Le symbole max (cardinalité maximale) désigne le nombre maximal de fois où une une entité 1 de
,1 peut intervenir dans l’association.
En général, ce nombre est 1 (au plus une fois) ou ; (plusieurs fois, nombre indeterminé), noté par le
symbole * .
2. Le symbole min (cardinalité minimale) désigne le nombre minimal de fois où une une entité 1 de 1
peut intervenir dans la relation. En général, ce nombre est 1 (au moins une fois) ou 0.
Les cardinalités maximales sont plus importantes que les cardinalités minimales ou, plus précisément,
elles s’avèrent beaucoup plus difficiles à remettre en cause une fois que le schéma de la base est constitué.
On décrit donc souvent une association de manière abrégée en omettant les cardinalités minimales. La
notation * , en UML, est l’abréviation de 0..* , et 1 est l’abréviation de 1..1 . On caractérise
3.3. LE MODÈLE 25
également une association de manière concise en donnant les cardinalités maximales aux deux extrêmités,
par exemple 1:n (association de un à plusieurs) ou n:n (association de plusieurs à plusieurs).
Les cardinalités minimales sont parfois désignées par le terme contraintes de participation . La valeur
0 indique qu’une entité peut ne pas participer à l’association, et la valeur 1 qu’elle doit y participer.
Insistons sur le point suivant : les cardinalités n’expriment pas une vérité absolue, mais des choix de
conception. Elles ne peuvent être déclarés valides que relativement à un besoin. Plus ce besoin sera exprimé
précisément, et plus il sera possible d’appécier la qualité du modèle.
Il existe plusieurs manières de noter une association entre types d’entités. Nous utilisons ici la nota-
tion de la méthode UML, qui est très proche de celle de la méthode OMT. En France, on utilise aussi
couramment – de moins en moins... – la notation de la méthode MERISE que nous ne présenterons pas ici.
Réalisateur Film
0..1 0..n
id id
Réalise
nom titre
prénom année
annéeNaissance genre
Dans la notation UML, on indique les cardinalités aux deux extrêmités d’un lien d’association entre
deux types d’entités <>= et <>? . Les cardinalités pour <>= sont placées à l’extrémité du lien allant de <>=
vers <>? et les cardinalités pour <>? sont l’extrémité du lien allant de <>= vers <>? . Pour l’association entre
Réalisateur et Film, cela donne l’association de la figure 3.4. Cette association se lit Un réalisateur réalise
zéro, un ou plusieurs films, mais on pourrait tout aussi bien utiliser la forme passive avec comme intitulé
de l’asscoiation Est réalisé par et une lecture Un film est réalisé par au plus un réalisateur. Le seul critère
à privilégier dans ce choix des termes est la clarté de la représentation.
Prenons maintenant l’exemple de l’association (Acteur,Film) représentant le fait qu’un acteur joue dans
un film. Un graphe basé sur quelques exemples est donné dans la figure 3.5. On constate tout d’abord
qu’un acteur peut jouer dans plusieurs films, et que dans un film on trouve plusieurs acteurs. Mieux : Clint
Eastwood, qui apparaissait déjà en tant que metteur en scène, est maintenant également acteur, et dans le
même film.
Cette dernière constatation mène à la conclusion qu’il vaut mieux regrouper les acteurs et les réali-
sateurs dans un même ensemble, désigné par le terme plus général Artiste . On obtient le schéma de la
figure 3.6, avec les deux associations représentant les deux types de lien possible entre un artiste et un film :
il peut jouer dans le film, ou le réaliser. Ce ou n’est pas exclusif : Eastwood joue dans Impitoyable, qu’il
a aussi réalisé.
26 CHAPITRE 3. LE MODÈLE ENTITÉ/ASSOCIATION
Artiste Film
Réalise
id id
1..1 0..*
nom titre
0..* 0..*
prénom année
annéeNaiss Joue genre
rôle
Dans le cas d’associations avec des cardinalités multiples de chaque côté, on peut avoir des attributs
qui ne peuvent être affectés qu’à l’association elle-même. Par exemple l’association Joue a pour attribut le
rôle tenu par l’acteur dans le film (figure 3.6).
Rappelons qu’un attribut ne peut prendre qu’une et une seule valeur. Clairement, on ne peut associer
rôle ni à Acteur puisqu’il a autant de valeurs possibles qu’il y a de films dans lesquels cet acteur a joué,
ni à Film, la réciproque étant vraie également. Seules les associations ayant des cardinalités multiples de
chaque côté peuvent porter des attributs.
Quelle est la clé d’une association ? Si l’on s’en tient à la définition, une association est un ensemble de
couples, et il ne peut donc y avoir deux fois le même couple (parce qu’on ne trouve pas deux fois le même
élément dans un ensemble). On a donc :
Definition 3.6 (Clé d’une association) La clé d’une association (binaire) entre un type d’entité et un
type d’entité est le couple constitué de la clé @ de et de la clé @ de .
En pratique cette contrainte est souvent trop contraignante car on souhaite autoriser deux entités à être
liées plus d’une fois dans une association. Imaginons par exemple qu’un internaute soit amené à noter à
plusieurs reprises un film, et que l’on souhaite conserver l’historique de ces notations successives. Avec
une association binaire entre Internaute et Film, c’est impossible : on ne peut définir qu’un seul lien entre
un film donné et un internaute donné.
Le problème est qu’il n’existe pas de moyen pour distinguer des liens multiples entre deux mêmes
entités. Le seul moyen pour effectuer une telle distinction est d’introduire une entité discriminante, par
exemple la date de la notation. On obtient alors une association ternaire dans laquelle on a ajouté un type
d’entité Date (figure 3.7).
Date
date
Internaute Film
email id
note
nom titre
prénom année
région genre
F IG . 3.7 – Ajout d’une entité Date pour conserver l’historique des notations
Un lien de cette association réunit donc une entité Film, une entité Internaute et une entité Date. On
peut identifier un tel lien par un triplet (id, email, date) constitué par les clés des trois entités constituant le
lien.
3.3. LE MODÈLE 27
Comme le montre la figure 3.8, il devieent alors possible, pou un même internaute, de noter plusieurs
fois le même film, pourvu que ce ne soit pas à la même date. Réciproquement un internaute peut noter des
films différents le même jour, et un même film peut être noté plusieurs fois à la même date, à condition que
ce ne soit pas par le même internaute.
Internautes Films
Dates
Même si cette solution est correcte, elle présente l’inconvénient d’introduire une entité assez artificielle,
Date, qui porte peu d’information et vient alourdir le schéma. En pratique on s’autorise une notation abré-
gée en ajoutant un attribut date dans l’association, et en le soulignant pour indiquer qu’il fait partie de la
clé, en plus du couple des clés des entités (voir figure 3.9).
Nous reviendrons plus longuement sur les associations ternaires par la suite.
un identifiant artificiel id pour le type d’entité Salle, et numéroter toutes les salles, indépendamment du
cinéma auquel elles sont rattachées.
On peut considérer qu’il est beaucoup plus naturel de numéroter les salles par un numéro interne à
chaque cinéma. La clé d’identification d’une salle est alors constituée de deux parties :
En d’autres termes, l’entité salle ne dispose pas d’une identification absolue, mais d’une identification
relative à une autre entité. Bien entendu cela force la salle a toujours être associée à un et un seul cinéma.
La représentation graphique des entités faibles avec UML est illustrée dans la figure 3.10.b. La salle est
associée au cinéma avec une association qualifiée par l’attribut no qui sert de discriminant pour distinguer
les salles au sein d’un même cinéma. Noter que la cardinalité du côté Cinéma est implicitement 1..1 .
Cinéma Cinéma
nom nom
ville ville
rue rue
numéro numéro
1 no
*
*
Salle Salle
id
capacité
capacité
dateConstr.
dateConstr.
(a) (b)
F IG . 3.10 – Modélisation du lien Cinéma-Salle (a) sous la forme d’une association classique (b) avec une
entité faible
L’introduction d’entités faibles n’est pas une nécessité absolue puisqu’on peut très bien utiliser une
association classique. La principale différence est que, dans le cas d’une entité faible, on obtient un iden-
tification composée qui est souvent plus pratique à gérer, et peut également rendre plus faciles certaines
requêtes.
La présence d’un type d’entité faible A associé à un type d’entité
implique également des contraintes
fortes sur les créations, modifications et destructions des instances de A et
car on doit toujours s’assurer
que la contrainte est valide. Concrètement, en prenant l’exemple de Salle et de Cinéma, on doit mettre en
place les mécanismes suivants :
1. Quand on insère une salle dans la base, on doit toujours l’associer à un cinéma ;
2. quand un cinéma est détruit, on doit aussi détruire toutes ses salles ;
3. quand on modifie la clé d’un cinéma, il faut répercuter la modification sur toutes ses salles.
Pour respecter les règles de destruction/création énoncées, on doit mettre en place une stratégie. Nous
verrons que les SGBD relationnels nous permettent de spécifier de telles stratégies.
3.3. LE MODÈLE 29
Definition 3.7 Une association ; -aire entre ; types d’entités +),#"$"#")/% est un ensemble de ; -uplets
!)!$"#"#"$)%B où chaque 1 appartient à ,1 .
Même s’il n’y a en principe pas de limite sur le degré d’une association, en pratique on ne va jamais
au-delà d’une association entre trois entités.
Cinéma Horaire
nom id
ville heureDébut
rue heureFin
numéro
no
*
Salle Film
Séance
capacité id
titre
dateConstr. année
tarif genre
Horaires
14h−16h 16h−18h
Films
Salles
Vertigo
Salle Kino−3
Nous allons prendre l’exemple d’une association permettant de représenter la projection de certains
films dans des salles à certains horaires. Il s’agit d’une association ternaire entre les types d’entités Film,
Salle et Horaire (figure 3.11). Chaque instance de cette association lie un film, un horaire et une salle. La
figure 3.12 montre quelques-unes de ces instances.
Bien que, jusqu’à présent, une association ternaire puisse être considérée comme une généralisation
directe des associations binaires, en réalité de nouveaux problèmes sont soulevés.
Tout d’abord les cardinalités sont, implicitement, 0..* . Il n’est pas possible de dire qu’une entité ne
participe qu’une fois à l’association. Il est vrai que, d’une part la situation ce présente rarement, d’autre
part cette limitation est due à la notation UML qui place les cardinalités à l’extrémité opposée d’une entité.
Plus problématique en revanche est la détermination de la clé. Qu’est-ce qui identifie un lien entre trois
entités ? En principe, la clé est le triplet constitué des clés respectives de la salle, du film et de l’horaire
constituant le lien. On aurait donc le ; -uplet [nomCinéma, noSalle, idFilm, idHoraire]. Une telle clé est
30 CHAPITRE 3. LE MODÈLE ENTITÉ/ASSOCIATION
assez volumineuse, ce qui risque de poser des problèmes de performance. De plus elle ne permet pas
d’imposer certaines contraintes comme, par exemple, le fait que dans une salle, pour un horaire donné, il
n’y a qu’un seul film. Comme le montre la figure 3.12, il est tout à fait possible de créer deux liens distincts
qui s’appuient sur le même horaire et la même salle.
Ajouter une telle contrainte, c’est signifier que la clé de l’association est en fait le couple (nomCinéma,
noSalle, idHoraire]. Donc c’est un sous-ensemble de la concaténation des clés, ce qui semble rompre
avec la définition donnée précédemment. On peut évidemment compliquer les choses en ajoutant une
deuxième contrainte similaire, comme connaissant le film et l’horaire, je connais la salle . Il faut ajou-
ter une deuxième clé [idFilm, idHoraire]. Il n’est donc plus possible de déduire automatiquement la clé
comme on le faisait dans le cas des associations binaires. Plusieurs clés deviennent possibles : on parle de
clé candidates.
Les associations de degré supérieur à deux sont donc difficiles à manipuler et à interpréter. Il est toujours
possible de remplacer cette association par un type d’entité. Pour cela on suit la règle suivante :
Règle 3.1 Soit
une association entre les types d’entité +,$"#"$"C),%>& . La transformation de
en
type d’entité s’effectue en trois étapes :
2. On crée une association
/1 de type ’1:n’ entre
et chacun des ,1 . La contrainte minimale, du côté
de
, est toujours à 1.
L’association précédente peut être transformée en un type d’entité Séance. On lui attribue un identifiant
idSeance et des associations ’1-n’ avec Film, Horaire et Salle. Voir figure 3.13.
Cinéma Horaire
nom id
ville heureDébut
rue heureFin
numéro
1..1
no
*
*
Salle Séance Film
1..1 * * 1..1 id
capacité id titre
dateConstr. tarif année
genre
2. Il est approprié à une représentation graphique intuitive, même s’il existe beaucoup de conventions.
le metteur en scène (MES) comme un attribut de Film ou comme une association avec Artiste ? Réponse :
comme une association ! Les arguments sont les suivants :
1. On connaît alors non seulement le nom, mais aussi toutes les autres propriétés (prénom, âge, ...).
2. L’entité MES peut-être associée à beaucoup d’autres films : on permet le partage de l’information.
Autre exemple : est-il indispensable de gérer une entité Horaire ? Réponse : pas forcément ! Arguments :
1. Pour. Permet de normaliser les horaires. Plusieurs séances peuvent alors faire référence au même
horaire (gain de place, facilité de mise à jour, cohérence, ...)
2. Contre. On alourdit le schéma inutilement : un horaire est propre à une séance. On peut le représenter
comme un attribut de Séance.
Enfin on a vu qu’une association pouvait être transformée en entité. Un des principaux inconvénients
du modèle E/A reste sa pauvreté : il est difficile d’exprimer des contraintes d’intégrité, des structures com-
plexes. Beaucoup d’extensions ont été proposées, mais la conception de schéma reste en partie matière de
bon sens et d’expérience. On essaie en général :
1. de se ramener à des associations entre 2 entités : au-delà, on a probablement intérêt a transformer
l’association en entité ;
2. d’éviter toute redondance : une information doit se trouver en un seul endroit ;
3. enfin – et surtout – de privilégier la simplicité et la lisibilité, notamment en ne représentant que ce
qui est strictement nécessaire.
3.5 Exercices
Exercice 3.1 On vous donne un schéma E/A (figure 3.14) représentant des visites dans un centre médical.
Répondez aux questions suivantes en fonction des caractéristiques de ce schéma (autrement dit, indiquez si
la situation décrite est représentable, indépendamment de sa vraissemblance).
Exercice 3.2 Le second schéma (figure 3.15) représente des rencontres dans un tournoi de tennis.
Médecin Patient
Médicament
matricule noSS
code nom nom
libellé
1..1 Donne 1..1
0..*
Assiste
nbPrises
0..*
Consultation
no
date 0..*
0..*
Joueur Terrain
Gagne
noCarte no
nom 1..1 surface
Exercice 3.3 Voici le schéma E/A (figure 3.16) du système d’information (très simplifié) d’un quotidien.
Exercice 3.4 Voici (figure 3.17) le début d’un schéma E/A pour la gestion d’une médiathèque. La spécifi-
cation des besoins est la suivante : un disque est constitué d’un ensemble de plages. Chaque plage contient
un oeuvre et une seule, mais une oeuvre peut s’étendre sur plusieurs plages (Par exemple une symphonie
en 4 mouvements). De plus, pour chaque plage, on connaît les interprêtes.
Journaliste Personnalité
id interviewe id
nom nom
0..n 0..n
dateNaiss prénom
nation.
1..1 0..n
rédige Journal
nom
a travaillé pour 0..n adresse
no
0..n
Article
Numéro
no paraît dans
contenu 0..n 1..1 date
tirage
0..n
Sujet
1..1 id
libelle
Plage Disque
durée titre
no année
dateEnreg producteur
Oeuvre Interprète
id joue sur id
titre nom
année prénom
Exercice 3.5 La figure 3.18 montre la modélisation de séances de cours sous forme d’une association
ternaire. Noter que l’horaire fait partie de la clé (on aurait pu le représenter comme une entité supplémen-
taire).
La notion de cours regroupe les notions de cours magistral, enseignement dirigé et travaux pra-
tiques, pour une UV donnée. Par exemple l’UV “Base de données” comprend un cours, un ED et un TP.
1. Donner une représentation, sous forme de graphe ou de tableau, de l’instance de l’association cor-
respondant aux enseignements (cours, EDs, TPs) de l’UV “Base de données”.
2. Comment exprimer les contraintes suivantes : (i) un professeur ne donne pas deux cours en même
temps, (ii) Pour une salle, un cours, un horaire, il y a un seul professeur.
34 CHAPITRE 3. LE MODÈLE ENTITÉ/ASSOCIATION
Exercice 3.6 Voici quelques tableaux (figure 3.19, 3.20, 3.21) représentant des associations entre entités.
Pour chacun,
1. Donner une représentation sous forme de graphe.
2. Donner le schéma E/A avec les cardinalités correspondant aux exemples donnés.
COURS SALLE
PROFESSEUR
#ID
Nom
Grade
SOCIETE DIRECTEUR
Tresys Charlus
Fungus Morel
Demona Saint-Loup
Faribole Charlus
ORDINATEUR UTILISATEUR
PC124 Charlus
MAC04 Morel
MAC03 Saint-Loup
PC02 Morel
MAC03 Charlus
ORDINATEUR DISQUES
PC124 dsk09
MAC04 dsk08
MAC04 dsk05
PC124 dsk11
PC02 dsk04
Chapitre 4
Le modèle relationnel
Sommaire
4.1 Définition d’un schéma relationnel . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Passage d’un schéma E/A à un schéma relationnel . . . . . . . . . . . . . . . . . . . 37
4.2.1 Règles générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.2 Retour sur le choix des identifiants . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2.3 Dénormalisation du modèle logique . . . . . . . . . . . . . . . . . . . . . . . . 43
4.3 Le langage de définition de données SQL2 . . . . . . . . . . . . . . . . . . . . . . . 45
4.3.1 Types SQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3.2 Création des tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3.3 Contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3.4 Modification du schéma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Les deux premières composantes relèvent du Langage de Définition de Données (DDL) dans un SGBD.
Le DDL est utilisé pour décrire le schéma d’une base de données. La troisième composante (opérations)
est la base du Langage de Manipulation de Données (DML) dont le représentant le plus célèbre est SQL.
Dans le contexte des bases de données, la principale qualité d’un modèle de données est d’être indépen-
dant de la représentation physique. Cette indépendance permet de séparer totalement les tâches respectives
des administrateurs de la base, chargés de l’optimisation de ses performances, et des développeurs d’ap-
plication ou utilisateurs finaux qui n’ont pas à se soucier de la manière dont le système satisfait leurs
demandes.
Le modèle relationnel, venant après les modèles hiérarchique et réseau, offre une totale indépendance
entre les représentations logique et physique. Ce chapitre présente la partie du modèle relative à la définition
et à la création des tables, ce qui constitue l’essentiel du schéma.
un nom d’attribut. Dans chaque colonne on trouve des valeurs d’un certain domaine (chaînes de caractères,
nombres). Enfin on constate que chaque ligne (ou tuple) correspond à une entité (ici des films).
Un schéma relationnel est constitué d’un ensemble de schémas de relations qui décrivent, à l’aide
des élements présentés informellement ci-dessus (domaines, attributs, noms de relation) le contenu d’une
relation. Le schéma de la relation de la figure 4.1 est donc :
Il existe un langage de définition pour créer une relation dans un SGBDR (voir section 4.3), mais nous
nous contenterons pour l’instant de la description ci-dessus. Voici maintenant quelques précisions sur la
terminologie introduite ci-dessus.
Domaines
Un domaine de valeurs est un ensemble d’instances d’un type élémentaire. Exemple : les entiers, les
réels, les chaînes de caractères, etc. La notion de ’type élémentaire’ s’oppose à celle de type structuré : il
est interdit en relationnel de manipuler des valeurs instances de graphes, de listes, d’enregistrements, etc.
En d’autres termes le système de types est figé et fourni par le système.
Attributs
Les attributs nomment les colonnes d’une relation. Il servent à la fois à indiquer le contenu de cette
colonne, et à la référencer quand on effectue des opérations. Un attribut est toujours associé à un domaine.
Le nom d’un attribut peut apparaître dans plusieurs schémas de relations.
Schéma de relation
Un schéma de relation est simplement un nom suivi de la liste des attributs, chaque attribut étant associé
à son domaine. La syntaxe est donc :
U
0
V+WX)
/YWZ!#"$"#"$)
/%[WZ%\
où les
+1 sont les noms d’attributs et les Z1 les domaines. L’arité d’une relation est le nombre de ses
attributs.
On peut trouver dans un schéma de relation plusieurs fois le même domaine, mais une seule fois un
nom d’attribut. Le domaine peut être omis en phase de définition.
Un des fondements du modèle relationnel est la théorie des ensembles et la notion de relation dans le
modèle correspond strictement au concept mathématique dans cette théorie.
Une relation se représente sous forme de table, et on emploie le plus souvent ces deux termes comme
des synonymes.
4.2. PASSAGE D’UN SCHÉMA E/A À UN SCHÉMA RELATIONNEL 37
La définition d’une relation comme un ensemble (au sens mathématique) a quelques conséquences
importantes :
1. l’ordre des lignes n’a pas d’importance car il n’y a pas d’ordre dans un ensemble ;
2. on ne peut pas trouver deux fois la même ligne car il n’y a pas de doublons dans un ensemble ;
3. il n’y a pas de case vide dans la table, donc toutes les valeurs de tous les attributs sont toujours
connues ;
Dans la pratique les choses sont un peu différentes : nous y reviendrons.
Le choix de la clé est très important pour la qualité du schéma. Choisir d’identifier un film par son titre
comme nous l’avons envisagé dans l’exemple précédent n’est pas un très bon choix : nous y reviendrons.
Tuples
Un tuple est une liste de ; valeurs `_7$"#"$"#2_!%\ où chaque valeur _!1 est la valeur d’un attribut
+1 de
domaine Z1 : _!1cZ1 . Exemple :
(’Cyrano’, 1992, ’Rappeneau’)
Un tuple est donc simplement une ligne dans la représentation d’une relation sous forme de table. En
théorie, on connaît les valeurs de tous les attributs du tuple.
Base de données
Une (instance de) base de données est un ensemble fini (d’instances) de relations. Le schéma de la base
est l’ensemble des schémas des relations de cette base.
La création d’un schéma de base de données est simple une fois que l’on a déterminé toutes les relations
qui constituent la base. En revanche le choix de ces relations est un problème difficile car il détermine en
grande partie les caractéristiques, qualités de la base : performances, exactitude, exhaustivité, disponibilité
des informations, etc. Un des aspects importants de la théorie des bases de données relationnelles consiste
précisément à définir ce qu’est un bon schéma et propose des outils formels pour y parvenir.
En pratique, on procède d’une manière moins rigoureuse mais plus accessible, en concevant le schéma
à l’aide d’un modèle de données conceptuel , puis en transcrivant le shéma conceptuel obtenu en schéma
relationnel. La technique la plus répandue consiste à partir d’un schéma Entité/Association. La section
suivante donne les règles du processus de transformation, en s’appuyant sur l’exemple de la figure 4.2.
Artiste Internaute
Donne une note
id email
Réalise *
nom nom
0..1 note
prénom 0..* * prénom
annéeNaissance motDePpasse
Film
0..* annéeNaissance
id
Joue
titre
0..*
année * 1..1 Pays
rôle genre code
résumé nom
Cinéma
langue
nom
adresse
no Salle Horaire
capacité id
climatisée heureDébut
heureFin
Exemple 4.1 À partir du schéma E/A Officiel des spectacles, à l’exception des entités concernant les ci-
némas, les salles et les horaires, on obtient les relations suivantes :
On peut remarquer que l’on a perdu pour l’instant tout lien entre les relations.
4.2. PASSAGE D’UN SCHÉMA E/A À UN SCHÉMA RELATIONNEL 39
L’idée est qu’une occurence de
d référence l’occurence de A qui lui est associée à l’aide d’une clé
étrangère. Cette référence se fait de manière unique et suffisante à l’aide de l’identifiant.
Exemple 4.2 Voici le schéma obtenu pour représenter l’association entre les types d’entité Film, Artiste
et Pays. Les clés étrangères sont en italiques.
Le rôle précis tenu par l’artiste dans l’association disparaît. L’artiste dans Film a un rôle de metteur en
scène, mais il pourrait tout aussi bien s’agir du décorateur ou de l’accessoiriste. Rien n’empêche cependant
de donner un nom plus explicite à l’attribut. Il n’est pas du tout obligatoire en fait que les attributs consti-
tuant une clé étrangères aient le même nom que ceux de le clé primaire auxquels ils se réfèrent. Voici le
schéma de la table Film, dans lequel la clé étrangère pour le metteur en scène est nommée idMES.
Les tables ci-dessous montrent un exemple de la représentation des associations entre Film et Artiste
d’une part, Film et Pays d’autre part (on a omis le résumé du film). Noter que si on ne peut avoir qu’un
artiste dont l’id est 2 dans la table Artiste, en revanche rien n’empêche cet artiste 2 de figurer plusieurs
fois dans la colonne idMES de la table Film. On a donc bien l’équivalent de l’association un à plusieurs
élaborée dans le schéma E/A.
idFilm titre année genre idMES codePays
100 Alien 1979 Science Fiction 1 US
101 Vertigo 1958 Suspense 2 US
102 Psychose 1960 Suspense 2 US
103 Kagemusha 1980 Drame 3 JP
104 Volte-face 1997 Action 4 US
105 Van Gogh 1991 Drame 8 FR
106 Titanic 1997 Drame 6 US
107 Sacrifice 1986 Drame 7 FR
La table Film
Exemple 4.3 Voici le schéma obtenu pour représenter l’association entre les types d’entité Cinéma et
Salle. On note que l’identifiant d’une salle est constitué de l’identifiant du cinéma (ici on a considéré que
le nom du cinéma suffisiat à l’identifier), et d’un numéro complémentaire permettant de distinguer les salles
au sein d’un même cinéma. La clé étrangère est donc une partie de la clé primaire.
Exemple 4.4 Toujours à partir du schéma Officiel des spectacles, on obtient la table Rôle représentant
l’association entre les films et les acteurs.
De même, on obtient une table Notation pour représenter l’association entre un internaute et les films qu’il
a notés.
– Film (idFilm, titre, année, genre, résumé, idMES, codePays)
– Internaute (email, nom, prénom, région)
– Notation (email, idFilm, note)
Les tables suivantes montrent un exemple de représentation de Rôle. On peut constater le mécanisme
de référence unique obtenu grâce aux clés des relations. Chaque rôle correspond à un unique acteur et à
un unique film. De plus on ne peut pas trouver deux fois la même paire (idFilm, idActeur) dans cette
table, ce qui n’aurait pas de sens. En revanche un même acteur peut figurer plusieurs fois (mais pas associé
au même film), ainsi qu’un même film (mais pas associé au même acteur).
Associations ternaires
Dans le cas d’associations impliquant plus de deux entités, on atteint une des limites du modèle En-
tité/Association en matière de spécification de contraintes. En première approche, on peut appliquer la
règle énoncée précédemment pour les associations binaires et la généraliser. On obtiendrait alors, pour
l’association Séance :
– Cinéma (nomCinéma, numéro, rue, ville)
42 CHAPITRE 4. LE MODÈLE RELATIONNEL
idCinéma no capacité
Le Rex 1 200
Kino 1 130
Le Rex 2 180
La table Salle
idHoraire heureDébut heureFin
1 14 16
2 16 18
La table Horaire
idFilm titre année genre idMES codePays
100 Alien 1979 Science Fiction 1 USA
101 Vertigo 1958 Suspense 2 USA
102 Psychose 1960 Suspense 2 USA
103 Kagemusha 1980 Drame 3 JP
104 Volte-face 1997 Action 4 USA
105 Van Gogh 1991 Drame 8 FR
106 Titanic 1997 Drame 6 USA
107 Sacrifice 1986 Drame 7 FR
La table Film
Donc, la relation Séance a pour clé la concaténation des identifiants de chacune des entités composantes,
ce qui donne une clé d’une taille assez importante. On autorise alors une base comme celle de la figure 4.3.
On ne peut pas trouver deux fois le même triplet constituant la clé.
Maintenant on s’aperçoit que la même salle présente deux films différents au même horaire. Si on
souhaite éviter cette situation, la clé devient (nomCinéma, noSalle, idHoraire), et on ne respecte plus la
règle de passage du schéma E/A vers le schéma relationnel.
En d’autres termes, en cas d’association entre plus de 2 entités, la clé de la table représentant l’asso-
ciation est un sous-ensemble de la concaténation des clés. Il faut se poser soigneusement la question de la
(ou des) clé(s) au moment de la création de la table car elle(s) ne peu(ven)t plus être déduite(s) du schéma
E/A. On parle parfois de clé candidate. Ces clés peuvent être spécifiées avec la clause UNIQUE du langage
SQL2.
4.2. PASSAGE D’UN SCHÉMA E/A À UN SCHÉMA RELATIONNEL 43
2. Si on utilise un ensemble de propriétés comme identifiant, la référence à une occurence est très
lourde. Exemple : la clé de Cinéma pourraît être (nom, rue, ville).
3. L’identifiant sert de référence externe et ne doit donc jamais être modifiable (il faudrait répercuter
les mises à jour).
L’inconvénient de l’identifiant neutre est qu’il ne donne pas d’indication sur l’occurence qu’il réfère.
Par exemple, quand on consulte la table Séance, on ne sait pas dire de quel film il s’agit sans aller rechercher
la ligne de la table Film correspondant à l’identifiant du film.
En admettant – pour un sintant – que le titre identifie de manière unique un film, le schéma de la table
Film devient :
ce qui permet d’obtenir le titre du film directement, comme le montre l’instance ci-dessous.
Un problème du schéma ci-dessus est que la référence à une ligne de la table Séance devient com-
pliquée, et donc peu performante. Il faut veiller à limiter le nombre de champs constituant une clé car
l’expression des requêtes est plus lourde, et leur exécution peut être ralentie par la taille des index.
Ces techniques reviennent à introduire des anomalies dans le schéma. Il faut donc systématiquement
comparer le gain attendu avec les risques courus !
44 CHAPITRE 4. LE MODÈLE RELATIONNEL
Suppression de relations
On peut supprimer les entités qui portent peu d’attributs en les déplaçant vers une autre relation.
Exemple : si le schéma de Cinema est simplement Cinéma (nom, adresse), on peut supprimer la relation et
placer l’adresse dans Salle.
Salle (nomCinéma, noSalle, adresse)
L’adresse d’un cinéma est dupliquée autant de fois qu’il y a de salles. Cette option implique une perte
de place due à la redondance, un effort de saisie supplémentaire, et des risques d’incohérences. Elle ne peut
être valable que tant qu’il n’y a pas d’attrbuts à ajouter pour qualifier un cinéma. Quand ce sera le cas, il
faudra finalement se décider à (1) créer la relation Cinéma et (2) supprimer les attributs mal placés dans
Salle.
Autre exemple : il peut paraître inutile de créer Horaire pour gérer un couple d’heures. On peut alors
placer l’horaire dans la relation Séance. Afin de permettre l’existence de plusieurs lignes avec le même film
et la même salle, il faut introduire l’attribut heureDébut dans la clé. On obtient le schéma suivant.
Séance (idFilm, nomCinema, noSalle, heureDébut, heureFin, tarif)
Cette variante présente peu d’inconvénients. On peut tout juste citer le fait qu’il y a duplication de
certains horaires, et que la gestion contraintes (heure début g heure fin) doit être gérée pour plus de lignes.
En fait la création d’un type d’entité Horaire ou Date, même si elle se justifie en théorie, présente plus
d’inconvénients que d’avantages. En pratique, on place toujours un attribut horaire ou date dans le
schéma de la relation.
Introduction de redondance
En principe il faut éviter les redondances dans une base de données. Donc une information est repré-
sentée soit explicitement (elle figure une fois et une seule), soit implicitement (elle peut être déduite ou
calculée).
L’accès à une information peut cependant être long et/ou compliqué, et justifier l’introduction de re-
dondances. Par exemple :
– à partir de la table Séance, il faut consulter Salle puis Cinéma pour connaître l’adresse du cinéma. ;
– il faut faire un calcul pour obtenir le nombre de salles d’un cinéma.
En pratique on peut être amené à introduire (prudemment) des redondances. Les problèmes précédents
pourraient ainsi se résoudre de la manière suivante :
– ajout de l’adresse du cinéma dans la table Séance.
Séance (idFilm, nomCinema, noSalle, idHoraire, adresse)
Le risque peut être considéré comme mineur car l’adresse d’un cinéma change rarement.
– ajout du nombre de salles dans la relation Cinéma.
Cinéma (nomCinema, numéro, rue, ville, nbSalles).
Il faut mettre à jour nbSalles quand une salle est ajoutée ou supprimée d’un cinéma. On peut
considérer que cela arrive rarement, et que la redondance est donc sans grand danger.
– ajout du nombre de rôles tenus dans la table Artiste.
Artiste (idArtiste, nom, prénom, annéeNaissance, nbRôles)
Il faut mettre à jour nbRôles quand un artiste obtient un nouveau rôle. Cela arrive fréquemment, et
le risque induit par la redondance est alors important.
L’introduction de redondances présente principalement le danger d’introduire des incohérences dans
la base. On peut utiliser le mécanisme des triggers pour effectuer automatiquement la répercussion de la
modification d’une donnée sur ses autres versions présentes dans la base.
4.3. LE LANGAGE DE DÉFINITION DE DONNÉES SQL2 45
Le type DECIMAL (M, D) correspond à un numérique de taille maximale M, avec un nombre de déci-
males fixé à D. Le type NUMERIC est un synonyme pour DECIMAL. Ces types sont surtout utiles pour
manipuler des valeurs dont la précision est connue, comme les valeurs monétaires. Afin de préserver cette
précision, les instances de ces types sont stockées comme des chaînes de caractères.
2. Le type DOUBLE PRECISION correspond aux flottants en double précision. Le raccourci DOUBLE
est accepté.
Dates
Un attribut de type DATE stocke les informations jour, mois et année (sur 4 chiffres). La représenta-
tion interne n’est pas spécifiée par la norme. Tous les systèmes proposent de nombreuses opérations de
conversion (non normalisées) qui permettent d’obtenir un format d’affichage quelconque.
Un attribut de type TIME stocke les informations heure , minute et seconde . L’affichage se
fait par défaut au format HH:MM:SS. Le type DATETIME permet de combiner une date et un horaire,
l’affichage se faisant au format AAAA-MM-JJ HH:MM:SS.
La syntaxe se comprend aisément. La seule difficulté est de choisir correctement le type de chaque attri-
but. Le NOT NULL dans la création de table Internaute indique que l’attribut correspondant doit toujours
avoir une valeur.
4.3. LE LANGAGE DE DÉFINITION DE DONNÉES SQL2 47
Il s’agit d’une différence importante entre la pratique et la théorie : on admet que certains attributs
peuvent ne pas avoir de valeur, ce qui est très différent d’une chaîne vide ou de 0. Quand on parle de valeur
NULL en SQL2, il s’agit en fait d’une absence de valeur. En conséquence :
1. on ne peut pas faire d’opération incluant un NULL ;
2. on ne peut pas faire de comparaison avec un NULL.
L’option NOT NULL oblige à toujours indiquer une valeur. L’option suivante permet ainsi de garantir
que tout internaute a un mot de passe.
Le SGBD rejettera alors toute tentative d’insérer une ligne dans Internaute sans donner de mot de
passe. Si les valeurs à NULL sont autorisées, il faudra en tenir compte quand on interroge la base. Cela
peut compliquer les choses, voire donner des résultats surprenants : il est préférable de forcer les attributs
important à avoir une valeur.
Une autre manière de forcer un attribut à toujours prendre une valeur est de spécifier une valeur par
défaut avec l’option DEFAULT.
Quand on insérera une ligne dans la table Cinéma sans indiquer d’adresse, le système affectera au-
tomatiquement la valeur ’Inconnu’ à cet attribut. En général on utilise comme valeur par défaut une
constante, sauf pour quelques variables fournies par le système (par exemple SYSDATE qui peut indiquer
la date du jour).
4.3.3 Contraintes
La création d’une table telle qu’on l’a vue précédemment est extrêmement sommaire car elle n’indique
que le contenu de la table sans spécifier les contraintes que doit respecter ce contenu. Or il y a toujours des
contraintes et il est indispensable de les inclure dans le schéma pour assurer (dans la mesure du possible)
l’intégrité de la base.
Voici les règles (ou contraintes d’intégrité) que l’on peut demander au système de garantir :
1. Un attribut doit toujours avoir une valeur. C’est la contrainte NOT NULL vue précédemment.
2. Un attribut (ou un ensemble d’attributs) constitue(nt) la clé de la relation.
3. Un attribut dans une table est liée à la clé primaire d’une autre table (intégrité référentielle).
4. La valeur d’un attribut doit être unique au sein de la relation.
5. Enfin toute règle s’appliquant à la valeur d’un attribut (min et max par exemple).
Les contraintes sur les clés doivent être systématiquement spécifiées. La dernière (clause CHECK) s’ap-
puie en grande partie sur la connaissance du langage d’interrogation de SQL et sera vue ultérieurement.
Clés étrangères
La norme SQL ANSI permet d’indiquer quelles sont les clés étrangères dans une table, autrement
dit, quels sont les attributs qui font référence à une ligne dans une autre table. On peut spécifier les clés
étrangères avec l’option FOREIGN KEY.
CREATE TABLE Film (idFilm INTEGER NOT NULL,
titre VARCHAR (50) NOT NULL,
annee INTEGER NOT NULL,
idMES INTEGER,
codePays INTEGER,
PRIMARY KEY (idFilm),
FOREIGN KEY (idMES) REFERENCES Artiste,
FOREIGN KEY (codePays) REFERENCES Pays);
4.3. LE LANGAGE DE DÉFINITION DE DONNÉES SQL2 49
La commande
indique que idMES référence la clé primaire de la table Artiste. Le SGBD vérifiera alors, pour toute modi-
fication pouvant affecter le lien entre les deux tables, que la valeur de idMES correspond bien à une ligne
de Artiste. Ces modifications sont :
En d’autres termes le lien entre Film et Artiste est toujours valide. Cette contrainte est importante pour
garantir qu’il n’y a pas de fausse référence dans la base, par exemple qu’un film ne fait pas référence à un
artiste qui n’existe pas. Il est beaucoup plus confortable d’écrire une application par la suite quand on sait
que les informations sont bien là où elles doivent être.
Il faut noter que l’attribut idMES n’est pas déclaré NOT NULL, ce qui signifie que l’on s’autorise à
ne pas connaître le metteur en scène d’un film. Quand un attribut est à NULL, la contrainte d’intégrité
référentielle ne s’applique pas.
Que se passe-t-il quand la violation d’une contrainte d’intégrité est détectée par le système ? Par défaut,
la mise à jour est rejetée, mais il est possible de demander la répercussion de cette mise à jour de manière
à ce que la contrainte soit respectée. Les événements que l’on peut répercuter sont la modification ou la
destruction de la ligne référencée, et on les désigne par ON UPDATE et ON DELETE respectivement. La
répercussion elle-même consiste soit à mettre la clé étrangère à NULL (option SET NULL), soit à appliquer
la même opération aux lignes de l’entité composante (option CASCADE).
Voici comment on indique que la destruction d’un metteur en scène déclenche la mise à NULL de la clé
étrangère idMES pour tous les films qu’il a réalisé.
Dans le cas d’une entité faible, on décide en général de détruire le composant quand on détruit le
composé. Par exemple, quand on détruit un cinéma, on veut également détruire les salles ; quand on modifie
la clé d’un cinéma, on veut répercuter la modification sur ses salles.
Il est important de noter que nomCinema fait partie de la clé et ne peut donc pas être NULL. On ne
pourrait donc pas spécifier ici ON DELETE SET NULL.
La spécification des actions ON DELETE et ON UPDATE simplifie considérablement la gestion de la
base par la suite : on n’a plus par exemple à se soucier de détruire les salles quand on détruit un cinéma.
50 CHAPITRE 4. LE MODÈLE RELATIONNEL
Au moment d’une insertion dans la table Film, ou d’une modification de l’attribut annee ou genre=,
le SGBD vérifie que la valeur insérée dans genre appartient à l’ensemble énuméré défini par la clause
CHECK.
Une autre manière de définir, dans la base, l’ensemble des valeurs autorisées pour un attribut – en
d’autres termes, une codification imposée – consiste à placer ces valeurs dans une table et la lier à l’attribut
par une contrainte de clé étrangère. C’est ce que nous pouvons faire par exemple pour la table Pays.
Si on ne fait pas de vérification automatique, soit avec CHECK, soit avec la commande FOREIGN KEY,
il faut faire cette vérification dans l’application, ce qui est plus lourd à gérer.
où ACTION peut être principalement ADD, MODIFY, DROP ou RENAME, et description est la com-
mande de modification associée à ACTION. La modification d’une table peut poser des problèmes si elle
est incompatible avec le contenu existant. Par exemple passer un attribut à NOT NULL implique que cet
attribut a déjà des valeurs pour toutes les lignes de la table.
4.3. LE LANGAGE DE DÉFINITION DE DONNÉES SQL2 51
Création d’index
Pour compléter le schéma d’une table, on peut définir des index. Un index offre un chemin d’accès aux
lignes d’une table qui est considérablement plus rapide que le balayage de cette table – du moins quand
le nombre de lignes est très élevé. Les SGBDL créent systématiquement un index sur la clé primaire de
chaque table. Il y a deux raisons à cela ;
1. l’index permet de vérifier rapidement, au moment d’une insertion, que la clé n’existe pas déjà ;
2. beaucoup de requêtes SQL, notamment celles qui impliquent plusieurs tables (jointures), se basent
sur les clés des tables pour reconstruire les liens. L’index peut alors être utilisé pour améliorer les
temps de réponse.
Un index est également créé pour chaque clause UNIQUE utilisée dans la création de la table. On peut
de plus créer d’autres index, sur un ou plusieurs attributs, si l’application utilise des critères de recherche
autres que les clés primaire ou secondaires.
La commande pour créer un index est la suivante :
CREATE [UNIQUE] INDEX nomIndex ON nomTable (attribut1 [, ...])
La clause UNIQUE indique qu’on ne peut pas trouver deux fois la même clé. La commande ci-dessous
crée un index de nom idxNom sur les attributs nom et prenom de la table Artiste. Cet index a donc une
fonction équivalente à la clause UNIQUE déjà utilisée dans la création de la table.
CREATE UNIQUE INDEX idxNom ON Artiste (nom, prenom);
On peut créer un index, cette fois non unique, sur l’attribut genre de la table Film.
CREATE INDEX idxGenre ON Film (genre);
Cet index permettra d’exécuter très rapidement des requêtes SQL ayant comme critère de recherche le
genre d’un film.
SELECT *
FROM Film
WHERE genre = ’Western’
Cela dit il ne faut pas créer des index à tort et à travers, car ils ont un impact négatif sur les commandes
d’insertion et de destruction. À chaque fois, il faut en effet mettre à jour tous les index portant sur la table,
ce qui représente un coût certain.
52 CHAPITRE 4. LE MODÈLE RELATIONNEL
4.4 Exercices
Exercice 4.1 La relation de la figure 4.4 est-elle conforme à la définition ? Si non, citez les anomalies.
Exercice 4.2 Donnez le schéma relationnel de la base de données Centre médical décrite par un
schéma E/A dans le précédent TD. Pour chaque table, il faut indiquer précisément, à l’aide de la syn-
taxe vue en cours :
– La clé primaire.
Exercice 4.4 Même exercice, portant sur les schémas SOCIETE, DIRECTEUR, ORDINATEUR, UTILISATEUR,
ORDINATEUR, DISQUE DUR que vous avez étudiés dans la séance consacrée au schéma E/A.
Cette fois, il est demandé de spécifier, pour chaque clé étrangère, la stratégie en cas de mise-à-jour ou
de destruction de la ligne référencée (clauses ON UPDATE et ON DELETE vues en cours).
Exercice 4.5 Même exercice, pour le schéma “Cours”. Donner les spécifications complètes (clés primaires
et étrangères, NOT NULL, clauses UNIQUE, etc).
Exercice 4.6 Des éditeurs se réunissent pour créer une Base de Données sur leurs publications scienti-
fiques. Dans de telles publications, plusieurs auteurs se regroupent pour écrire un livre en se répartissant
les chapitres à rédiger. Après discussion, voici le schéma obtenu :
Les clés primaires sont en gras, mais les clés étrangères ne sont pas signalées.
2. Donnez les ordres CREATE TABLE pour le schéma, en spécifiant soigneusement clés primaires et
étrangères avec la syntaxe SQL2. Le type des données est secondaire: choisissez ce qui vous semble
logique.
Exercice 4.7 On trouve dans un SGBD relationnel les relations ci-dessous. Les clés primaires sont en gras,
les clés étrangères ne sont pas signalées.
Identifier les clés étrangères dans chaque relation, et reconstruire le schéma E/A.
54 CHAPITRE 4. LE MODÈLE RELATIONNEL
55
Chapitre 5
L’algèbre relationnelle
Sommaire
5.1 Les opérateurs de l’algèbre relationnelle . . . . . . . . . . . . . . . . . . . . . . . . 56
5.1.1 La sélection, i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.1.2 La projection, j . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.1.3 Le produit cartésien, k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.1.4 L’union, l . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.1.5 La différence, m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.1.6 Jointure, n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2 Expression de requêtes avec l’algèbre . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2.1 Sélection généralisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2.2 Requêtes conjonctives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.2.3 Requêtes avec l et m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Le premier langage étudié dans ce cours est l’algèbre relationnelle. Il consiste en un ensemble d’opéra-
tions qui permettent de manipuler des relations, considérées comme des ensemble de tuples : on peut ainsi
faire l’union ou la différence de deux relations, sélectionner une partie de la relation, effectuer des produits
cartésiens ou des projections, etc.
Une propriété fondamentale de chaque opération est qu’elle prend une ou deux relations en entrée, et
produit une relation en sortie. Cette propriété permet de composer des opérations : on peut appliquer une
sélection au résultat d’un produit cartésien, puis une projection au résultat de la sélection et ainsi de suite.
En fait on peut construire des expressions algébriques arbitrairement complexes qui permettent d’exprimer
des manipulations sur un grand nombre de relations.
Une requête est une expression algébrique qui s’applique à un ensemble de relations (la base de don-
nées) et produit une relation finale (le résultat de la requête). On peut voir l’algèbre relationnelle comme
un langage de programmation très simple qui permet d’exprimer des requêtes sur une base de données
relationnelle.
Dans tout ce chapitre on va prendre l’exemple de la (petite) base de données d’un organisme de voyage.
Cet organisme propose des séjours (sportifs, culturels, etc) se déroulant dans des stations de vacances.
Chaque station propose un ensemble d’activtés (ski, voile, tourisme). Enfin on maintient une liste des
clients (avec le solde de leur compte !) et des séjours auxquels ils ont participé avec leurs dates de début et
de fin.
– Station (nomStation, capacité, lieu, région, tarif)
– Activite (nomStation, libellé, prix)
– Client (id, nom, prénom, ville, région, solde)
– Séjour (idClient, station, début, nbPlaces)
56 CHAPITRE 5. L’ALGÈBRE RELATIONNELLE
5.1.1 La sélection, o
U U
La sélection Op s’applique à une relation, , et extrait de cette relation les tuples qui satisfont un
critère de sélection, q . Ce critère peut être :
– La comparaison entre deux attributs
- et
+ , qui s’écrit
-#rV
/ avec les mêmes opérateurs de
comparaison que précédemment.
Premier exemple : exprimer la requête qui donne toutes les stations aux Antilles.
*vwyx w
1{z)%!|~}{=>%`1 }0cDE7Dy3yN;
La sélection a pour effet de supprimer des lignes, mais chaque ligne garde l’ensemble de ses attributs.
5.1.2 La projection,
U U
La projection *=
=> =~: s’applique à une relation , et ne garde que les attributs
V
/7#"$"#"2
V .
Donc, contrairement à la sélection, on ne supprime pas des lignes mais des colonnes.
Exemple : donner le nom des stations, et leur région.
vwyx
'%z)]79`1{z)%: 1{z)%
0cDE7Dy3yN;
On obtient le résultat suivant, après suppression des colonnes capacité, lieu et tarif :
nomStation région
Venusa Antilles
Farniente Océan Indien
Santalba Antilles
Passac Europe
En principe le nombre de lignes dans le résultat est le même que dans la relation initiale. Il y a cependant
une petite subtilité : comme le résultat est une relation, il ne peut pas y avoir deux lignes identiques (il n’y a
pas deux fois le même élément dans un ensemble). Il peut arriver qu’après une projection, deux lignes qui
étaient distinctes initialement se retrouvent identiques, justement parce ce que l’attribut qui permettait de
les distinguer a été supprimé. Dans ce cas on ne conserve qu’une seule des deux (ou plus) lignes identiques.
Exemple : on souhaite connaître toutes les régions où il y a des stations. On exprime cette requête par :
vwyx
1{z)% 0cDE7Dy3yN;
et on obtient :
région
Antilles
Océan Indien
Europe
La ligne ’Antilles’ était présente deux fois dans la relation Station, et n’apparaît plus qu’en un seul exem-
plaire dans le résultat.
58 CHAPITRE 5. L’ALGÈBRE RELATIONNELLE
Le premier opérateur binaire, et le plus important, est le produit cartésien, . Le produit cartésien entre
U U U
deux relations et se note , et permet de créer une nouvelle relation où chaque tuple de est
associé à chaque tuple de .
U
Voici deux relations et :
C D
A B
c d
a b
u v
x y
x y
U
Et voici le résultat de ^ :
A B C D
a b c d
a b u v
a b x y
x y c d
x y u v
x y x y
U U
Le nombre de lignes dans le résultat est exactement O , ( dénote le nombre de lignes dans la
U
relation ).
En lui-même, le produit cartésien ne présente pas un grand intérêt puisqu’il associe aveuglément chaque
U
ligne de à chaque ligne de . Il ne prend vraiment son sens qu’associé à l’opération de sélection, ce qui
permet d’exprimer des jointures, opération fondamentale qui sera détaillée plus loin.
A B
m n
o p
La table <
La première solution pour lever l’ambiguité est de préfixer un attribut par le nom de la table d’où il
U
provient. Le résultat de .< devient alors :
Au lieu d’utiliser le nom de la relation en entier, on peut s’autoriser tout synonyme qui permet de lever
l’ambiguité. Par exemple, dans le produit cartésien Station Activite, on peut utiliser S comme
préfixe pour les attributs venant de Station, et A pour ceux venant d’Activite. Le résultat peut alors
être représenté comme sur la Fig. 5.3. On lève l’ambiguité sur les attributs nomStation qui apparaissent
deux fois. Ce n’est pas nécessaire pour les autres attributs.
5.1. LES OPÉRATEURS DE L’ALGÈBRE RELATIONNELLE 59
Renommage
Il existe une deuxième possibilité pour résoudre les conflits de noms : le renommage. Il s’agit d’un opé-
rateur particulier, dénoté , qui permet de renommer un ou plusieurs attributs d’une relation. L’expression
=~J~ ?aJ <+ permet ainsi de renommer
en et A en dans la relation < . Le produit cartésien
U
.:=~J~ ?aJJ<+
ne présente alors plus d’ambiguités. Le renommage est une solution très générale, mais asez lourde à
utiliser
Il est tout à fait possible de faire le produit cartésien d’une relation avec elle-même. Dans ceU cas U le
renommage où l’utilisation d’un préfixe distinctif est impératif. Voici par exemple le résultat de ,
U U
dans lequel on préfixe par 6 et 8 respectivement les attributs venant de chacune des opérandes.
R1.A R1.B R2.A R2.B
a b a b
a b x y
x y a b
x y x y
5.1.4 L’union,
Il existe deux autres opérateurs binaires, qui sont à la fois plus simples et moins fréquemment utilisés.
U
Le premier est l’union. L’expression b crée une relation comprenant tous les tuples existant dans l’une
U
ou l’autre des relations et . Il existe une condition impérative : les deux relations doivent avoir le même
schéma, c’est-à-dire même nombre d’attributs, mêmes noms et mêmes types.
60 CHAPITRE 5. L’ALGÈBRE RELATIONNELLE
U
L’union des relations 0
Y)Ab et V) données en exemple ci-dessus est donc interdite (on ne
saurait pas comment nommer les attributs dans le résultat). En revanche, en posant c~s FJ=F 4J? 0¡ ,
U
il devient possible de calculer [c , avec le résultat suivant :
A B
a b
x y
c d
u v
Comme
U
pour la projection, il faut penser à éviter les doublons. Donc le tuple (x,y) qui existe à la fois
dans et dans c ne figure qu’une seule fois dans le résultat.
5.1.5 La différence, ¢
U
Comme l’union, la différence s’applique à deux relations qui ont le même schéma. L’expression £
U
a alors pour résultat tous les tuples de qui ne sont pas dans .
U
Voici la différence de et c , les deux relations étant définies comme précédemment.
A B
a b
La différence est le seul opérateur qui permet d’exprimer des requêtes comportant une négation (on
veut ’rejeter’ quelque chose, on ’ne veut pas’ des lignes ayant telle propriété). Il s’agit d’une fonctionnalité
importante et difficile à manier : elle sera détaillée plus loin.
5.1.6 Jointure, ¤
Toutes les requêtes exprimables avec l’algèbre relationnelle peuvent se construire avec les 5 opérateurs
présentés ci-dessus. En principe, on pourrait donc s’en contenter. En pratique, il existe d’autres opéra-
tions, très couramment utilisées, qui peuvent se contruire par composition des opérations de base. La plus
importante est la jointure.
Afin de comprendre l’intérêt de cet opérateur, regardons à nouveau la Fig. 5.3 qui représente le produit
cartésien Station Activite. Le résultat est énorme et comprend manifestement un grand nombre
de lignes qui ne nous intéressent pas. Cela ne présente pas beaucoup de sens de rapprocher des informations
sur Santalba, aux Antilles et sur l’activité de ski à Passac.
Si, en revanche, on considère le produit cartésien comme un résultat intermédiaire, on voit qu’il devient
maintenant possible, avec une simple sélection, de rapprocher les informations générales sur une station et
la liste des activités de cette station.
La sélection est la suivante :
aDEQDy3yN;¦%z)`1§z)%!|~%z)79`1§z)%Z /@Dy3¥_Q3¥D
La jointure consiste donc à rapprocher les lignes de deux relations pour lesquelles les valeurs d’un (ou
plusieurs) attributs sont identiques. De fait, dans 90% des cas, ces attributs communs sont (1) la clé primaire
d’une des relations et (2) la clé étrangère dans l’autre relation. Dans l’exemple ci-dessus, c’est le cas pour
nomStation. La jointure permet alors de reconstruire l’association entre Station et Activite.
5.2. EXPRESSION DE REQUÊTES AVEC L’ALGÈBRE 61
U U
Une jointure p peut simplement être définie comme étant équivalent à Op ¡ . Le critère de
U
rapprochement, q , peut être n’importe quelle opération de comparaison liant un attribut de à un attribut
de . En pratique, on emploie peu les ©s ou ’ g ’ qui sont difficiles à interpréter, et on effectue des égalités.
Il faut être attentif aux ambiguités dans le nommage des attributs qui peut survenir dans la jointure au
même titre que dans le produit cartésien. Les solutions à employer sont les mêmes : on préfixe par le nom
de la relation ou par un synonyme clair, ou bien on renomme des attributs avant d’effectuer la jointure.
ª*«y¬#¬#«¥®°¯±²f³2´´Bµª*¶±¥·®{¸2¹º~»{¼>¹¯`®°½°½±¾y»9µ0¿cÀÁ7ÀyÂyÃÄ Å)Å
Ce qui revient à pouvoir exprimer une sélection avec une conjonction de critères. La requête précédente
est donc équivalente à celle ci-dessous, où le ’ Æ ’ dénote le ’et’ logique.
Donc la composition de plusieurs sélections permet d’exprimer une conjonction de critères de re-
cherche. De même la composition de la sélection et de l’union permet d’exprimer la disjonction. Voici
la requête qui recherche les stations qui sont aux Antilles, ou dont la capacité est supérieure à 200.
Enfin la différence permet d’exprimer la négation et “d’éliminer” des lignes. Par exemple, voici la
requête qui sélectionne les stations dont la capacité est supérieure à 200 mais qui ne sont pas aux Antilles.
62 CHAPITRE 5. L’ALGÈBRE RELATIONNELLE
En résumé, les opérateurs d’union et de différence permettent de définir une sélection ª*Ð où le critère
Ñ
est une expression booléenne quelconque. Attention cependant : si toute sélection avec un ’ou’ peut
s’exprimer par une union, l’inverse n’est pas vrai (exercice).
3. Nom et prénom des clients européens Ò ¹¸2Õ+Ý #¶9±y¹¸)Õ µ0ª ¶9±¥·®§¸)¹!º »{Þ ß ¶9¸¥$± »)µ0à-áÂ¥Ü(Ä>À2Å)Å
Des requêtes légèrement plus complexes - et extrêmement utiles - sont celles qui impliquent la jointure
(le produit cartésien ne présente d’intérêt que quand il est associé à la sélection). On doit utiliser la jointure
dès que les attributs nécessaires pour évaluer une requête sont réparties dans au moins deux tables. Ces
“attributs nécessaires” peuvent être :
Considérons par exemple la requête suivante : “Donner le nom et la région des stations où l’on pratique
la voile”. Une analyse très simple suffit pour constater que l’on a besoin des attributs région qui apparaît
dans la relation Station, libelle qui apparaît dans Activite, et nomStation qui apparaît dans
les deux relations.
Donc il faut faire une jointure, de manière à rapprocher les lignes de Station et de Activité.
Il reste donc à déterminer le (ou les) attribut(s) sur lesquels se fait ce rapprochement. Ici, comme dans la
plupart des cas, la jointure permet de “recalculer” l’association entre les relations Station et Activité.
Elle s’effectue donc sur l’attribut nomStation qui permet de représenter cette association.
Ò
¹¸2ÕÖ7¯¬9¯`®{¸2¹BÝ ¶±¥·®{¸2¹
µ0¿aÀÁQÀyÂyÃÄ^Ô¦¹7¸2ÕÖ7¯¬9¯`®{¸2¹!º
¹¸2ÕÖ7¯¬9¯`®{¸2¹bª\½®§×¥±¥½½§±yº » Ø
¸2®½± » µÙ+ÚÀyÂ¥Û7Â¥ÀÜÅ2Å
En pratique, la grande majorité des opérations de jointure s’effectue sur des attributs qui sont clé pri-
maire dans une relation, et clé secondaire dans l’autre. Il ne s’agit pas d’une règle absolue, mais elle résulte
du fait que la jointure permet le plus souvent de reconstituer le lien entre des informations qui sont naturel-
lement associées (comme une station et ses activités, ou une station et ses clients), mais qui ont été réparties
dans plusieurs relations au moment de la modélisation logique de la base. Cette reconstitution s’appuie sur
le mécanisme de clé étrangère qui a été étudié dans le chapitre consacré à la conception.
Voici quelques autres exemples qui illustrent cet état de fait :
La dernière requête comprend deux jointures, portant à chaque fois sur des clés primaires et/ou étran-
gères. Encore une fois ce sont les clés qui définissent les liens entre les relations, et elle servent donc
naturellement de support à l’expression des requêtes.
Voici maintenant un exemple qui montre que cette règle n’est pas systématique. On veut exprimer la
requête qui recherche les noms des clients qui sont partis en vacances dans leur région, ainsi que le nom de
cette région.
Ici on a besoin des informations réparties dans les relations Station, Sejour et Client. Voici
l’expression algébrique :
Ò
¹¸2Õ+Ý «½°®{±y¹¯¥é ¶9±¥·®{¸2¹ µà-á`ÂyÜ(Ä>ÀaÔ ®{â9º~®{â9ã~½°®{±y¹¯Ç:¶9±¥·®§¸)¹!º~¶9±¥·®{¸2¹ µ¿cÜåQÃæ*çJÔ ¾¥¯¬9¯`®{¸2¹!º
¹¸2ÕÖ7¯¬9¯`®{¸2¹ ¿cÀÁ7ÀyÂyÃÄ
Å)Å
Les jointures avec la table Sejour se font sur les couples (clé primaire, clé étrangère), mais on a en
plus un critère de rapprochement relatif à l’attribut région de Client et de Station. Noter que dans
la projection finale, on utilise la notation client.region pour éviter toute ambiguité.
Pour finir, voici quelques exemples de requêtes impliquant les deux opérateurs È et Ë . Leur utilisation
est moins fréquente, mais elle peut s’avérer absolument nécessaire puisque ni l’un ni l’autre ne peuvent
s’exprimer à l’aide des trois opérateurs “conjonctifs” étudiés précédemment. En particulier, la différence
permet d’exprimer toutes les requêtes où figure une négation : on veut sélectionner des données qui ne
satisfont pas telle propriété, ou tous les “untels” sauf les ’x’ et les ’y’, etc.
Illlustration concrète sur la base de données avec la requête suivante : quelles sont les stations qui ne
proposent pas de voile ?
Ò Ò
¹¸2ÕÖ7¯¬9¯`®{¸2¹>µ¿aÀÁQÀyÂyÃÄ
ÅaË ¹¸)Õ]Ö7¯¬9¯`®{¸)¹>µª\½®§×¥±¥½½§±yº » ØF¸)®°½± » µÙ+ÚÀyÂ¥Û7Â¥ÀÜÅ2Å
Comme le suggère cet exemple, la démarche générale pour construire une requête du type ’Tous les ì
qui ne satisfont pas la propriété í ” est la suivante :
Les requêtes Ù et î peuvent bien entendu être arbitrairement complexes et mettre en oeuvre des join-
tures, des sélections, etc. La seule contrainte est que le résultat de Ù et de î comprenne le même nombre
d’attributs.
Voici quelques exemples complémentaires qui illustrent ce principe.
La dernière requête construit l’ensemble des idClient pour les clients qui ne sont pas allés aux
Antilles. Pour obtenir le nom de ces clients, il suffit d’ajouter une jointure (exercice).
Ò Ò Ò
µ ®{â µ0à-áÂyÜ$Ä>À2Å¦Ó ¹7¸2ÕÖ7¯¬9¯`®{¸2¹ µ¿aÀÁQÀyÂyÃÄ
Å2ÅFË ®{â9ã~½°®{±y¹¯¥Ý ¾¥¯¬¯`®§¸)¹ µ¿cÜå7Ãæ'ç!Å
Quantification universelle
Enfin la différence est nécessaire pour les requêtes qui font appel à la quantification universelle : celles
où l’on demande par exemple qu’une propriété soit toujours vraie. A priori, on ne voit pas pourquoi la
différence peut être utile dans de tels cas. Cela résulte simplement de l’équivalence suivante : une propriété
est vraie pour tous les éléments d’un ensemble si et seulement si il n’existe pas un élément de cet ensemble
pour lequel la propriété est fausse.
En pratique, on se ramène toujours à la seconde forme pour exprimer des requêtes : donc on emploie
toujours la négation et la quantification existentielle à la place de la quantification universelle.
Par exemple : quelles sont les stations dont toutes les activités ont un prix supérieur à 100 ? On l’exprime
également par ’quelles sont stations pour lesquelles il n’existe pas d’activité avec un prix inférieur à 100’.
Ce qui donne l’expression suivante :
Ò Ò
¹7¸2ÕÖ7¯¬9¯`®{¸2¹ µ¿aÀÁQÀyÂyÃÄ
ÅFË ¹¸2ÕÖ7¯¬9¯`®{¸2¹ µª #¶®òó>ô´´ µ0Ù/ÚÀyÂ¥ÛQÂÀÜÅ)Å
Pour finir, voici une des requêtes les plus complexes, la division. L’énoncé (en français) est simple,
mais l’expression algébrique ne l’est pas du tout. L’exemple est le suivant : on veut les ids des clients qui
sont allés dans toutes les stations.
Traduit avec négation et quantification existentielle, cela donne : les ids des clients tels qu’il n’existe pas
de station où ils ne soient pas allés. On constate une double négation, ce qui donne l’expression algébrique
suivante :
Ò Ò Ò Ò Ò
®{â:µ0à-áÂ¥Ü(Ä>À2Å
Ë ®{â:µ2µ ®§â:µà-á`ÂyÜ(Ä>À2Å¦Ó ¹¸)Õ]Ö7¯¬9¯`®{¸)¹>µ0¿aÀÁQÀyÂyÃÄ
Å2ÅaË ®{â9ã~½®§±y¹!¯¥Ý ¾¥¯¬9¯`®{¸2¹
µ0¿cÜåQÃæ*ç!Å)Å
On réutilise l’expression donnant les clients et les stations où ils ne sont pas allés (voir plus haut) : on
obtient un ensemble î . Il reste à prendre tous les clients, sauf ceux qui sont dans î . Ce type de requête
est rare (heureusement) mais illustre la capacité de l’algèbre à exprimer par de simples manipulations
ensemblistes des opérations complexes.
5.3 Exercices
Exercice 5.1 La figure 5.5 donne une instance de la base “Immeubles” (le schéma est légèrement simpli-
fié).
Pour chacune des requêtes suivantes, exprimez en français sa signification, et donnez son résultat.
Ò
1. ¹¸)Õ+Ý ¬9·C±µõJÜ(ç!ö$ÃÄ>Ä~ÜÅ
5.3. EXERCICES 65
Ò
2. ¹¸)Õ]÷Õ]Õbµø7ù[ùÜ(æfúCáÜÅ
Ò
3. ¹¸)Õ]÷Õ]Õ+Ý ¹¸)¼*9:µª'¾ ß $±y¶û(®{«¥®§±9²>ô2ü2´\µ0Ù¡íí'ÁQç(À2Å)Å
Ò
4. ¹¸)Õ]ý
«y« ß $¬¹¯ µª ¹¸2Õ]÷9Õ]Õ]º »þ ¬¶9¬C×¥¬C¾ » ÊB¬¹!¹±±¼>¶)¶®ÿC±2±²>ô µ0ì-ÚCÚCæ7í'Á7Ä>À2Å)Å
Ò
5. ¹¸)Õ]÷Õ]Õ+Ý ¹¸)¼*9:µª*¹¸)¼*#º
±y¯¬9·C±µ0Á$í7í*ÁQçÀ2Å2Å
Ò
6. ¹¸)Õ
±y¶9¬¹¯¥Ý ¾ ß $±y¶9û(®§«¥®{± µø7ù.ù.Ü(æ>úáÜ/Ô ¹¸)Õ]÷9Õ¦Õ]º~¹7¸2Õ]÷9Õ]Õ Ù¡í7í*ÁQçÀ2Å
Ò
7. ¹¸)Õ]ý
«y« ß $¬¹¯¥Ý ¬¹!¹7±±y¼>¶¶)®§ÿC±±Ý ¾ ß $±y¶9û(®§«¥®{±µ0Ù¡í7í*ÁQçÀ¡Ô¦¹7¸2Õ]÷9Õ]Õ¦º
¹¸2Õ]÷9Õ]ÕÇ:¹¸2¼*9#º~¹¸)¼*9Vì-ÚCÚæQí*ÁQÄ>À2Å
Ò
8. #¶¸û±¾¾y®{¸)¹ µø7ù[ùÜ(æfúCáÜ/Ô ¹¸)Õ
±y¶9¬¹¯`º~¹7¸2Õ õJÜ(ç!ö(ÃÄ>Ä~ÜÅ
Ò
9. ¹¸)Õ
±y¶9¬¹¯µø7ù.ù.Ü(æ>úáÜ/Ô¦¹¸)Õ
±y¶9¬¹¯`º
¹¸2Õ]ýF«y« ß $¬¹!¯Ç:¹¸2Õ]÷9Õ]Õ]º~¹¸)Õ¦÷9Õ]Õdì-ÚCÚæQí*ÁQÄ>À2Å
Ò
10. ¾ ß $±y¶9û$®{«¥®{±!µª*¹¸)Õ¦ýF«y« ß #¬C¹¯`º » ¬C« ±¥½ » µì-ÚCÚæQí*ÁQÄ>À2Å4Ô¦¹¸)Õ]÷9Õ¦Õ]º~¹7¸2Õ]÷9Õ]Õ]Ç:¹7¸2¼*9#º~¹¸)¼*9+Ù¡íí'ÁQç(À2Å
Ò Ò
11. ¹¸)Õ]÷Õ]Õ+Ý ¹¸)¼*9:µÙ4íí'Á7çÀ2Å¡Ë ¹¸2Õ]÷9Õ]Õ+Ý ¹¸2¼*9\µ0ì-ÚCÚCæ7í'Á7Ä>À2Å
Ò Ò
12. ¹¸)Õ]÷Õ]Õbµø7ù[ùÜ(æfúCáÜÅ~Ë ¹7¸2Õ]÷9Õ]Õµ0ªO¹¸)Õ]ý
«y« ß $¬¹¯`º »
¸ ß · » µ0ì-ÚCÚæQí*ÁQÄ>À2Å)Å .
Ò
13. ¹¸)Õ]÷Õ]Õ µª ¹¸2Õ]ýF«y« ß $¬¹!¯)Ϻ »
¸ ß · » µì-ÚCÚæQí*ÁQÄ>À2Å2Å .
Exercice 5.2 Exprimez les requêtes suivantes, en algèbre relationnelle. Pour chaque requête, donnez le
résultat sur la base “Immeubles”.
12. Couples de personnes ayant emménagé dans le même immeuble la même année.
14. Qui habite, dans un immeuble de plus de 10 étages, un appartement de plus de 100 m³ ?
15. Couples de personnes habitant, dans le même immeuble, un appartement de même superficie.
Exercice 5.3 1. Montrez que la requête 4 dans l’exercice 5.1 peut s’exprimer avec l’union.
2. Inversement, donner une requête sur la base ’Immeuble’ qui peut s’exprimer avec l’union, mais pas
avec ª et É .
Chapitre 6
Le langage SQL
Sommaire
6.1 Requêtes simples SQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.1.1 Sélections simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.1.2 La clause WHERE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.1.3 Valeurs nulles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.2 Requêtes sur plusieurs tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.2.1 Jointures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.2.2 Union, intersection et différence . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.3 Requêtes imbriquées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.3.1 Conditions portant sur des relations . . . . . . . . . . . . . . . . . . . . . . . . 74
6.3.2 Sous-requêtes correllées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.4 Agrégration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.4.1 Fonctions d’agrégation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.4.2 La clause GROUP BY . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.4.3 La clause HAVING . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.5 Mises-à-jour . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.5.1 Insertion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.5.2 Destruction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.5.3 Modification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
SELECT nomStation
FROM Station
WHERE region = ’Antilles’
Ce premier exemple montre la structure de base d’une requête SQL, avec les trois clauses SELECT,
FROM et WHERE.
– FROM indique la (ou les) tables dans lesquelles on trouve les attributs utiles à la requête. Un attribut
peut être ’utile’ de deux manières (non exclusives) : (1) on souhaite afficher son contenu, (2) on
souhaite qu’il ait une valeur particulière (une constante ou la valeur d’un autre attribut).
– WHERE indique les conditions que doivent satisfaire les n-uplets de la base pour faire partie du
résultat.
Dans l’exemple précédent, l’interprétation est simple : on parcourt les n-uplets de la relation Station.
Pour chaque n-uplet, si l’attribut region a pour valeur ’Antilles’, on place l’attribut nomStation dans
le résultat 1 . On obtient donc le résultat :
nomStation
Venusa
Santalba
Le résultat d’un ordre SQL est toujours une relation (une table) dont les attributs sont ceux spécifiés
dans la clause SELECT. On peut donc considérer en première approche ce résultat comme un ’découpage’,
horizontal et vertical, de la table indiquée dans le FROM, similaire à une utilisation combinée de la sélection
et de la projection en algèbre relationnelle. En fait on dispose d’un peu plus de liberté que cela. On peut :
Les fonctions applicables aux valeurs des attributs sont par exemple les opérations arithmétiques ( ,
*, ...) pour les attributs numériques ou des manipulations de chaîne de caractères (concaténation, sous-
chaînes, mise en majuscule, ...). Il n’existe pas de norme mais la requête suivante devrait fonctionner sur
tous les systèmes : on convertit le prix des activités en euros et on affiche le cours de l’euro avec chaque
tuple.
Renommage
Les noms des attributs sont par défaut ceux indiqués dans la clause SELECT, même quand il y a des
expressions complexes. Pour renommer les attributs, on utilise le mot-clé AS.
On obtient alors :
libelle prixEnEuros ’Cours de l’euro =’ cours
Kayac 7.69 ’Cours de l’euro =’ 6.56
Doublons
L’introduction de fonctions permet d’aller au-delà de ce qui est possible en algèbre relationnelle. Il
existe une autre différence, plus subtile : SQL permet l’existence de doublons dans les tables (il ne s’agit
donc pas d’ensemble au sens strict du terme). La spécification de clés permet d’éviter les doublons dans
les relations stockées, mais il peuvent apparaître dans le résultat d’une requête. Exemple :
SELECT libelle
FROM Activite
libelle
Voile
Plongee
Plongee
Ski
Piscine
Kayac
Pour éviter d’obtenir deux tuples identiques, on peut utiliser le mot-clé DISTINCT.
Tri du résultat
Il est possible de trier le résultat d’un requête avec la clause ORDER BY suivie de la liste des attributs
servant de critère au tri. Exemple :
SELECT *
FROM Station
ORDER BY tarif, nomStation
70 CHAPITRE 6. LE LANGAGE SQL
trie, en ordre ascendant, les stations par leur tarif, puis, pour un même tarif, présente les stations se-
lon l’ordre lexicographique. Pour trier en ordre descendant, on ajoute le mot-clé DESC après la liste des
attributs.
Voici maintenant la plus simple des requêtes SQL : elle consiste à afficher l’intégralité d’une table. Pour
avoir toutes les lignes on omet la clause WHERE, et pour avoir toutes les colonnes, on peut au choix lister
tous les attributs ou utiliser le caractère ’*’ qui a la même signification.
SELECT *
FROM Station
Chaînes de caractères
Les comparaisons de chaînes de caractères soulèvent quelques problèmes délicats.
1. Il faut être attentif aux différences entre chaînes de longueur fixe et chaînes de longueur variable. Les
premières sont complétées par des blancs (’ ’) et pas les secondes.
2. Si SQL ne distingue pas majuscules et minuscules pour les mot-clés, il n’en va pas de même pour
les valeurs. Donc ’SANTALBA’ est différent de ’Santalba’.
SQL fournit des options pour les recherches par motif (pattern matching) à l’aide de la clause LIKE.
Le caractère ’_’ désigne n’importe quel caractère, et le ’%’ n’importe quelle chaîne de caractères. Par
exemple, voici la requête cherchant toutes les stations dont le nom termine par un ’a’.
SELECT nomStation
FROM Station
WHERE nomStation LIKE ’%a’
Quelles sont les stations dont le nom commence par un ’V’ et comprend exactement 6 caractères ?
SELECT nomStation
FROM Station
WHERE nomStation LIKE ’V_____’
6.1. REQUÊTES SIMPLES SQL 71
Dates
Une autre différence avec l’algèbre est la possibilité de manipuler des dates. En fait tous les systèmes
proposaient bien avant la normalisation leur propre format de date, et la norme préconisée par SQL2 n’est
de ce fait pas suivie par tous.
Une date est spécifiée en SQL2 par le mot-clé DATE suivi d’une chaîne de caractères au format ’aaaa-
mm-jj’, par exemple DATE ’1998-01-01’. Les zéros sont nécessaires afin que le mois et le quantième
comprennent systématiquement deux chiffres.
On peut effectuer des sélections sur les dates à l’aide des comparateurs usuels. Voici par exemple la
requête ’ID des clients qui ont commencé un séjour en juillet 1998’.
SELECT idClient
FROM Sejour
WHERE debut BETWEEN DATE ’1998-07-01’ AND DATE ’1998-07-31’
Les systèmes proposent de plus des fonctions permettant de calculer des écarts de dates, d’ajouter des
mois ou des années à des dates, etc.
– Toute comparaison avec NULL donne un résultat qui n’est ni vrai, ni faux mais une troisième valeur
booléenne, UNKNOWN.
Les valeurs booléennes TRUE, FALSE et UNKNOWN sont définies de la manière suivante : TRUE vaut
1, FALSE 0 et UNKNOWN 1/2. Les connecteurs logiques donnent alors les résultats suivants :
1. AND = ù[¥ġµ\Å
2. OR = ù.Á
µBÅ
3. NOT = ]Ë
Les conditions exprimées dans une clause WHERE sont évaluées pour chaque tuple, et ne sont conservés
dans le résultat que les tuples pour lesquels cette évaluation donne TRUE. La présence d’une valeur nulle
dans une comparaison a donc souvent (mais pas toujours !) le même effet que si cette comparaison échoue
et renvoie FALSE.
Voici une instance de la table SEJOUR avec des informations manquantes.
SEJOUR
idClient station début nbPlaces
10 Passac 1998-07-01 2
20 Santalba 1998-08-03
30 Passac 3
La présence de NULL peut avoir des effets surprenants. Par exemple la requête suivante
SELECT station
FROM Sejour
WHERE nbPlaces <= 10 OR nbPlaces >= 10
72 CHAPITRE 6. LE LANGAGE SQL
devrait en principe ramener toutes les stations de la table. En fait ’Santalba’ ne figurera pas dans le
résultat car nbPlaces est à NULL.
Autre piège : NULL est un mot-clé, pas une constante. Donc une comparaison comme nbPlaces =
NULL est incorrecte. Le prédicat pour tester l’absence de valeur dans une colonne est IS NULL (et
son inverse IS NOT NULL). La requête suivante sélectionne tous les séjours pour lesquels on connaît le
nombre de places.
SELECT *
FROM Sejour
WHERE nbPlaces IS NOT NULL
La présence de NULL est une source de problèmes : dans la mesure du possible il faut l’éviter en
spécifiant la contrainte NOT NULL ou en donnant une valeur par défaut.
6.2.1 Jointures
La jointure est une des opérations les plus utiles (et donc une des plus courantes) puisqu’elle permet
d’exprimer des requêtes portant sur des données réparties dans plusieurs tables. La syntaxe pour exprimer
des jointures avec SQL est une extension directe de celle étudiée précédemment dans le cas des sélections
simples : on donne simplement la liste des tables concernées dans la clause FROM, et on exprime les critères
de rapprochement entre ces tables dans la clause WHERE.
Prenons l’exemple de la requête suivante : donner le nom des clients avec le nom des stations où ils
ont séjourné. Le nom du client est dans la table Client, l’information sur le lien client/station dans la
table Sejour. Deux tuples de ces tables peuvent être joints s’ils concernent le même client, ce qui peut
s’exprimer à l’aide de l’identifiant du client. On obtient la requête :
On peut remarquer qu’il n’y a pas dans ce cas d’ambiguité sur les noms des attributs : nom et id
viennent de la table Client, tandis que station et idClient viennent de la table Sejour. Il peut
arriver (il arrive de fait fréquemment) qu’un même nom d’attribut soit partagé par plusieurs tables impli-
quées dans une jointure. Dans ce cas on résout l’ambiguité en préfixant l’attribut par le nom de la table.
Exemple : afficher le nom d’une station, son tarif hebdomadaire, ses activités et leurs prix.
Comme il peut être fastidieux de répéter intégralement le nom d’une table, on peut lui associer un
synonyme et utiliser ce synonyme en tant que préfixe. La requête précédente devient par exemple : 2
Bien entendu, on peut effectuer des jointures sur un nombre quelconque de tables, et les combiner avec
des sélections. Voici par exemple la requête qui affiche le nom des clients habitant Paris, les stations où ils
ont séjourné avec la date, enfin le tarif hebdomadaire pour chaque station.
Il n’y a pas d’ambiguité sur les noms d’attributs donc il est inutile en l’occurence d’employer des
synonymes. Il existe en revanche une situation où l’utilisation des synonymes est indispensable : celle ou
l’on souhaite effectuer une jointure d’une relation avec elle-même.
Considérons la requête suivante : Donner les couples de stations situées dans la même région. Ici toutes
les informations nécessaires sont dans la seule table Station, mais on construit un tuple dans le résultat
avec deux tuples partageant la même valeur pour l’attribut région.
Tout se passe comme s’il on devait faire la jointure entre deux versions distinctes de la table Station.
Techniquement, on résout le problème en SQL en utilisant deux synonymes distincts.
On peut imaginer que s1 et s2 sont deux ’curseurs’ qui parcourent indépendamment la table Station
et permettent de constituer des couples de tuples auxquels on applique la condition de jointure.
1. Boucles imbriquées. On considère chaque synonyme de table (ou par défaut chaque nom de table)
comme une variable tuple. Maintenant on construit des boucles imbriquées, chaque boucle corres-
pondant à une des tables du FROM et permettant à la variable correspondante d’itérer sur le contenu
de la table.
A l’intérieur de l’ensemble des boucles, on applique la clause WHERE.
2. Produit cartésien. On construit le produit cartésien des tables du FROM, en préfixant chaque attribut
par le nom ou le synonyme de sa table pour éviter les ambiguités.
On est alors ramené à la situation où il y a une seule table (le résultat du produit cartésien) et on
interprête l’ordre SQL comme dans le cas des requêtes simples.
La première interprétation est proche de ce que l’on obtiendrait si on devait programmer une requête
avec un langage comme le C ou Pascal, la deuxième s’inspire de l’algèbre relationnelle.
2. Donnez les régions où l’on trouve à la fois des clients et des stations.
3. Quelles sont les régions où l’on trouve des stations mais pas des clients ?
La norme SQL2 spécifie que les doublons doivent être éliminés du résultat lors des trois opérations
ensemblistes. Le coût de l’élimination de doublons n’étant pas négligeable, il se peut cependant que certains
systèmes fassent un choix différent.
L’union ne peut être exprimée autrement qu’avec UNION. En revanche INTERSECT peut être exprimée
avec une jointure, et la différence s’obtient, souvent de manière plus aisée, à l’aide des requêtes imbriquées.
SELECT station
6.3. REQUÊTES IMBRIQUÉES 75
FROM Sejour
WHERE idClient IN (SELECT id FROM Client
WHERE ville = ’Paris’)
est (partiellement) correct car la recherche dans la sous-requête s’effectue par la clé. En revanche il se
peut qu’aucun tuple ne soit ramené, ce qui génère une erreur.
Voici les conditions que l’on peut exprimer sur une relation construite avec une requête imbriquée.
2. À IN R où est un tuple dont le type est celui de . TRUE si À appartient à , FALSE sinon.
De plus, toutes ces expressions peuvent être préfixées par NOT pour obtenir la négation. Voici quelques
exemples.
SELECT nomStation
FROM Station
WHERE tarif >= ALL (SELECT tarif FROM Station)
– Dans quelle station pratique-t-on une activité au même prix qu’à Santalba ?
Ces requêtes peuvent s’exprimer sans imbrication (exercice), parfois de manière moins élégante ou
moins concise. La différence, en particulier, s’exprime facilement avec NOT IN ou NOT EXISTS.
76 CHAPITRE 6. LE LANGAGE SQL
Le id dans la requête imbriquée n’appartient pas à la table Sejour mais à la table Client référencée
dans le FROM de la requête principale.
Remarque : on peut employer un NOT IN à la place du NOT EXISTS (exercice), de même que l’on
peut toujours employer EXISTS à la place de IN. Voici une des requêtes précédentes où l’on a appliqué
cette transformation, en utilisant de plus des synonymes.
Dans quelle station pratique-t-on une activité au même prix qu’à Santalba ?
SELECT nomStation
FROM Activite A1
WHERE EXISTS (SELECT ’x’FROM Activite A2
WHERE nomStation = ’Santalba’
AND A1.libelle = A2.libelle
AND A1.prix = A2.prix)
Cette requête est elle-même équivalente à une jointure sans requête imbriquée.
6.4 Agrégration
Toutes les requêtes vues jusqu’à présent pouvaient être interprétées comme une suite d’opérations ef-
fectuées tuple à tuple. De même le résultat était toujours constitué de valeurs issues de tuples individuels.
Les fonctionnalités d’agrégation de SQL permettent d’exprimer des conditions sur des groupes de tuples,
et de constituer le résultat par agrégation de valeurs au sein de chaque groupe.
La syntaxe SQL fournit donc :
Il existe un groupe par défaut : c’est la relation toute entière. Sans même définir de groupe, on peut
utiliser les fonctions d’agrégation.
2. MAX et MIN.
On voit que la condition porte ici sur une propriété de l’ensemble des tuples du groupe, et pas de chaque
tuple pris individuellement. La clause HAVING est donc toujours exprimée sur le résultat de fonctions
d’agrégation.
6.5 Mises-à-jour
Les commandes de mise-à-jour (insertion, destruction, modification) sont considérablement plus simples
que les requêtes.
6.5.1 Insertion
L’insertion s’effectue avec la commande INSERT dont la syntaxe est la suivante :
INSERT INTO R( A1, A2, ... An) VALUES (v1, v2, ... vn)
R est le nom d’une relation, et les A1, ... An sont les noms des attributs dans lequels on souhaite
placer une valeur. Les autres attributs seront donc à NULL (ou à la valeur par défaut). Tous les attributs
spécifiés NOT NULL (et sans valeur par défaut) doivent donc figurer dans une clause INSERT.
Les v1, ... vn sont les valeurs des attributs. Exemple de l’insertion d’un tuple dans la table
Client.
Donc, à l’issue de cette insertion, les attributs ville et region seront à NULL.
Il est également possible d’insérer dans une table le résultat d’une requête. Dans ce cas la partie
VALUES ... est remplacée par la requête elle-même. Exemple : on a créé une table Sites (lieu,
region) et on souhaite y copier les couples (lieu, region) déjà existant dans la table Station.
Bien entendu le nombre d’attributs et le type de ces derniers doivent être cohérents.
6.5.2 Destruction
La destruction s’effectue avec la clause DELETE dont la syntaxe est :
DELETE FROM R
WHERE condition
6.6. EXERCICES 79
R est bien entendu la table, et condition est toute condition valide pour une clause WHERE. En
d’autres termes, si on effectue, avant la destruction, la requête
SELECT * FROM R
WHERE condition
on obtient l’ensemble des lignes qui seront détruites par DELETE. Procéder de cette manière est un des
moyens de s’assurer que l’on va bien détruire ce que l’on souhaite....
Exemple : destruction de tous les clients dont le nom commence par ’M’.
DELETE FROM Client
WHERE nom LIKE ’M%’
6.5.3 Modification
La modification s’effectue avec la clause UPDATE. La syntaxe est proche de celle du DELETE :
R est la relation, les Ai sont les attributs, les vi les nouvelles valeurs et condition est toute condition
valide pour la clause WHERE. Exemple : augmenter le prix des activités de la station Passac de 10%.
UPDATE Activite
SET prix = prix * 1.1
WHERE nomStation = ’Passac’
Une remarque importante : toutes les mises-à-jour ne deviennent définitives qu’à l’issue d’une valida-
tion par commit. Entretemps elles peuvent être annulées par rollback. Voir le cours sur la concurrence
d’accès.
6.6 Exercices
Exercice 6.1 Reprendre les expressions algébriques du premier exercice du chapitre algèbre, et les expri-
mer en SQL.
Exercice 6.2 Donnez l’expression SQL des requêtes suivantes, ainsi que le résultat obtenu avec la base du
chapitre “Le langage SQL”.
1. Donnez les résultats des requêtes suivantes (rappel : le ’||’ est la concaténation de chaînes de
caractères.).
2. Les deux dernières requêtes sont-elles équivalentes (i.e. donnent-elles le même résultat quel que soit
le contenu de la table) ?
3. Supposons que l’on ait conservé une logique bivaluée (avec TRUE et FALSE) et adopté la règle
suivante : toute comparaison avec un NULL donne FALSE. Obtient-on des résultats équivalents ?
Cette règle est-elle correcte ?
4. Même question, en supposant que toute comparaison avec NULL donne TRUE.
Exercice 6.4 On reprend la requête constituant la liste des stations avec leurs activités, légèrement modi-
fiée.
Chapitre 7
Schémas relationnels
Sommaire
7.1 Schémas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.1.1 Définition d‘un schéma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.1.2 Utilisateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.2 Contraintes et assertions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.3 Vues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
7.3.1 Création et interrogation d’une vue . . . . . . . . . . . . . . . . . . . . . . . . 85
7.3.2 Mise à jour d’une vue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7.4 Triggers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7.4.1 Principes des triggers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7.4.2 Syntaxe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Ce chapitre présente l’environnement d‘un utilisateur travaillant avec un SGBD relationnel. On se place
donc dans la situation d’un informaticien connecté à une machine sur laquelle tourne un SGBD gérant une
base de données.
Le principal élément d’un tel environnement est le schéma consistant principalement en un ensemble
de tables relatives à une même application. Il peut y avoir plusieurs schémas dans une même base : par
exemple on peut très bien faire coexister le schéma Officiel des spectacles ! ! et le schéma Agence de
voyage ! ! . En toute rigueur il faudrait donc distinguer l’instance de schéma ! ! de la base de données ! ! qui
est un sur-ensemble. Comme on se situe en général dans un et un seul schéma, on peut utiliser les deux
termes de manière équivalente.
Le schéma est le principal concept étudié dans ce chapitre. Outre les tables, un schéma peut comprendre
des vues, des contraintes de différents types, des triggers ( reflexes ! ! ) qui sont des procédures déclenchées
par certains évènements, enfin des spécifications de stockage et/ou d’organisation physique (comme les
index) qui ne sont pas traitées ici.
Dans tout ce chapitre, on basera les exemples sur le schéma Officiel ! ! qui est rappelé ci-dessous.
– Cinéma (nomCinéma, numéro, rue, ville)
– Salle (nomCinéma, no, capacité, climatisée)
– Horaire (idHoraire, heureDébut, heureFin)
– Séance (idFilm, nomCinéma, noSalle, idHoraire, tarif)
– Film (idFilm, titre, année, genre, résumé, idMES)
– Artiste (id, nom, prénom, annéeNaissance)
– Rôle (idActeur, idFilm, nomRôle)
82 CHAPITRE 7. SCHÉMAS RELATIONNELS
7.1 Schémas
Cette section décrit la notion de schéma au sens SQL2, ainsi que le système de droits d’accès à un
schéma destiné à garantir la sécurité de la base.
Deux schémas différents sont indépendants : on peut créer deux tables ayant le même nom. Bien en-
tendu on peut modifier un schéma en ajoutant ou en supprimant des éléments. La modification a lieu dans le
schéma courant que l’on peut modifier avec la commande SET SCHEMA. Par exemple, avant de modifier
la table FILM, on exécute :
Quand on souhaite accéder à une table qui n’est pas dans le schéma courant (par exemple dans un ordre
SQL), il faut préfixer le nom de la table par le nom du schéma.
La norme SQL2 définit deux niveaux supérieurs au schéma : les catalogues et les groupes (cluster). Ils
correspondent respectivement aux niveaux d’unicité de nom de schéma, et d’accessibilité à une table dans
une requête. Donc un utilisateur ne peut spécifier dans sa requête que les tables du cluster courant.
7.1.2 Utilisateurs
L’accès à une base de données est restreint, pour des raisons évidentes de sécurité, à des utilisateurs
connus du SGBD et identifiés par un nom et un mot de passe. Chaque utilisateur se voit attribuer certains
droits sur les schémas et les tables de chaque schéma.
La connexion se fait soit dans le cadre d’un programme, soit interactivement par une commande du
type :
CONNECT utilisateur
Suivie de l’entrée du mot de passe demandée par le système. Une session est alors ouverte pour laquelle
le SGBD connaît l’ID de l’utilisateur courant. Les droits de cet utilisateur sont alors les suivants :
1. Tous les droits sur les éléments du schéma comme les tables ou les vues des schémas que l’utilisateur
a lui-même créé. Ces droits concernent aussi bien la manipulation des données que la modification
ou la destruction des éléments du schéma.
7.2. CONTRAINTES ET ASSERTIONS 83
2. Les droits sur les éléments d’un schéma dont on n’est pas propriétaire sont accordés par le proprié-
taire du schéma. Par défaut, on n’a aucun droit.
En tant que propriétaire d’un schéma, on peut donc accorder des droits à d’autres utilisateurs sur ce
schéma ou sur des éléments de ce schéma. SQL2 définit 6 types de droits. Les quatre premiers portent sur
le contenu d’une table, et se comprennent aisément.
1. Insertion (INSERT).
2. Modification (UPDATE).
3. Recherche (SELECT).
4. Destruction (DELETE).
1. REFERENCES donne le droit à un utilisateur non propriétaire du schéma de faire référence à une
table dans une contrainte d’intégrité.
2. USAGE permet à un utilisateur non propriétaire du schéma d’utiliser une définition (autre qu’une
table ou une assertion) du schéma.
Les droits sont accordés par la commande GRANT dont voici la syntaxe :
GRANT <privilege>
ON <element du schema>
TO <utilisateur>
[WITH GRANT OPTION]
Bien entendu, pour accorder un privilège, il faut en avoir le droit, soit parce que l’on est propriétaire de
l’élément du schéma, soit parce que le droit a été accordé par la commande WITH GRANT OPTION.
Voici la commande permettant à Marc de consuter les films.
On peut désigner tous les utilisateurs avec le mot-clé PUBLIC, et tous les privilèges avec l’expression
ALL PRIVILEGES.
On supprime un droit avec la commande REVOKE dont la syntaxe est semblable à celle de GRANT.
CHECK (condition)
84 CHAPITRE 7. SCHÉMAS RELATIONNELS
permet d’exprimer toute contrainte portant soit sur un attribut, soit sur un tuple. La condition elle-même
peut être toute expression suivant la clause WHERE dans une requête SQL. Les contraintes les plus cou-
rantes sont celles consistant à restreindre un attribut à un ensemble de valeurs, mais on peut trouver des
contraintes arbitrairement complexes, faisant référence à d’autres relations. Dans ce cas, on doit obligatoi-
rement utiliser des sous-requêtes.
Exemple simple : on restreint les valeurs possibles des attributs capacité et climatisée dans la
table Salle.
Il s’agit de contraintes portant sur des valeurs d’attributs. A chaque insertion d’un tuple, ou mise-à-jour
de ce tuple affectant un des attributs contraints, le contrôle sera effectué. La règle est que la condition ne
doit pas s’évaluer à FALSE (donc la valeur UNKNOWN est acceptée).
Voici un autre exemple illustrant l’utilisation d’une sous-requête : on souhaite remplacer la contrainte
FOREIGN KEY par une clause CHECK.
Il s’agit d’une illustration simple d’une clause CHECK avec sous-requête, mais elle est incorrecte pour
garantir l’intégrité référentielle. Pourquoi ? (penser aux événements qui déclenchent respectivement les
contrôles des clauses CHECK et FOREIGN KEY).
Au lieu d’associer une contrainte à un attribut particulier, on peut la définir globalement. Dans ce cas
la contrainte peut faire référence à n’importe quel attribut de la table et est testée tuple à tuple.
Exemple : toute salle de plus de 300 places doit être climatisée :
L’utilisation des sous-requêtes n’est pas recommandée, à cause du problème souligné précédemment :
la contrainte peut être satisfaite au moment de l’insertion du tuple, et ne plus l’être après.
Exemple : la grande salle du Rex doit rester la plus grande !
capacite INTEGER,
climatisee CHAR(1),
PRIMARY KEY (nomCinema, no),
FOREIGN KEY nomCinema REFERENCES Cinema,
CHECK (capacité
(SELECT Max(capacite) FROM Salle
WHERE nomCinema = ’Rex’)))
Problème : si on diminue la taille de la salle du Rex, la contrainte peut ne plus être respectée. Il est donc
préférable de ne pas utiliser la clause CHECK pour des contraintes impliquant d’autres tables.
Il est possible, et recommandé, de donner un nom aux contraintes avec la clause CONSTRAINT.
Cela facilite la compréhension des messages, et permet de modifier ou de détruire une contrainte :
7.3 Vues
Cette section est consacrée à l’une des fonctionnalités les plus remarquables des SGBD relationnels :
les vues.
Comme nous l’avons vu dans la partie consacrée à SQL, une requête produit toujours une relation. Cela
suggère la possibilité d’ajouter au schéma des tables ’virtuelles’ qui ne sont rien d’autres que le résultat
de requêtes stockées. De telles tables sont nommées des vues dans la terminologie relationnelle. On peut
interroger des vues comme des tables stockées.
Une vue n’induit aucun stockage puisqu’elle n’existe pas physiquement, et permet d’obtenir une repré-
sentation différente des tables sur lesquelles elle est basée.
Exemple : on peut créer une vue qui ne contient ! ! que les cinémas parisiens :
On peut aussi en profiter pour restreindre la vision des cinémas parisiens à leur nom et à leur nombre
de salles.
Enfin un des intérêts des vues est de donner une représentation dénormalisée ! ! de la base, en regrou-
pant des informations par des jointures. Par exemple on peut créer une vue Casting donnant explicitement
les titres des films, leur année et les noms et prénoms des acteurs.
Remarque : on a donné explicitement des noms d’attributs au lieu d’utiliser les attributs de la clause
SELECT.
Maintenant, on peut utiliser les vues et les tables dans des requêtes SQL. Par exemple la requête Quels
acteurs ont tourné un film en 1997 ! ! s’exprime par :
On peut ensuite donner des droits en lecture sur cette vue pour que cette information limitée soit dispo-
nible à tous.
Cet ordre s’adresse à une vue issue de trois tables. Il n’y a clairement pas assez d’information pour
alimenter ces tables de manière cohérente, et l’insertion n’est pas possible (de même que toute mise à
jour). De telles vues sont dites non modifiables.
Les règles définissant les vues modifiables sont très strictes.
2. Toute colonne non référencée dans la vue doit pouvoir être mise à NULL ou disposer d’une valeur
par défaut.
3. On ne peut pas mettre-à-jour un attribut qui résulte d’un calcul ou d’une opération.
Il est donc tout à fait possible d’insérer, modifier ou détruire la table Film au travers de la vue Paris-
Cinema.
En revanche, en admettant que la ville est définie à NOT NULL, il n’est pas possible d’insérer dans
SimpleParisCinemas.
L’insertion précédente illustre une petite subtilité : on peut insérer dans une vue, sans être en mesure de
voir la ligne insérée au travers de la vue par la suite ! Afin d’éviter ce genre d’incoéherence, SQL2 propose
7.4. TRIGGERS 87
l’option WITH CHECK OPTION qui permet de garantir que toute ligne insérée dans la vue satisfait les
critères de sélection de la vue.
L’insertion donnée en exemple ci-dessus devient impossible. Enfin on détruit une vue avec la syntaxe
courante SQL :
DROP VIEW ParisCinemas
7.4 Triggers
Le mécanisme de triggers (que l’on peut traduire par ’déclencheur’ ou ’réflexe’) implanté dans de
nombreux SGBD n’est pas évoqué dans la norme SQL2 mais constitue un des points de discussion de la
norme SQL3. Un trigger est une procédure qui est déclenchée par des évènements de mise-à-jour spécifiés
par l’utilisateur et ne s’exécute que quand une condition est satisfaite.
On peut considérer les triggers comme une extension du système de contraintes proposé par la clause
CHECK : à la différence de cette dernière, l’évènement déclencheur est explictement indiqué, et l’action
n’est pas limitée à la simple alternative acceptation/rejet. Les possibilités offertes sont très intéressantes.
Citons :
1. La possibilité d’éviter les risques d’incohérence dus à la présence de redondance.
2. L’enregistrement automatique de certains évèvenements (auditing).
3. La spcécification de contraintes liées à l’évolution des données (exemple : le prix d’une séance ne
peut qu’augmenter).
4. Toute règle complexe liée à l’environnement d’exécution (restrictions sur les horaires, les utilisateurs,
etc).
1. un trigger est déclenché par un évènement, spécifié par le programmeur, qui est en général une
insertion, destruction ou modification sur une table ;
2. la première action d’un trigger est de tester une condition : si cette condition ne s’évalue pas à TRUE,
l’exécution s’arrète ;
3. enfin l’action proprement dite peut consister en toute opération sur la base de données : les SGBD
fournissent un langage impératif permettant de créer de véritables procédures.
Une caractéristique importante de cette procédure (action) est de pouvoir manipuler simultanément les
valeurs ancienne et nouvelle de la donnée modifiée, ce qui permet de faire des tests sur l’évolution de la
base.
Parmi les autres caractéristiques importantes, citons les deux suivantes. Tout d’abord un trigger peut
être exécuté au choix une fois pour un seul ordre SQL, ou à chaque ligne concernée par cet ordre. Ensuite
l’action déclenchée peut intervenir avant l’évènement, ou après.
L’utilisation des triggers permet de rendre une base de données dynamique : une opération sur la base
peut en déclencher d’autres, qui elles-mêmes peuvent entraîner en cascade d’autres réflexes. Ce mécanisme
n’est pas sans danger à cause des risques de boucle infinie.
88 CHAPITRE 7. SCHÉMAS RELATIONNELS
7.4.2 Syntaxe
Voici tout d’abord un exemple de trigger qui maintient la capacité d’un cinéma à chaque mise-à-jour
sur la table Salle. 1
CREATE TRIGGER CumulCapacite
AFTER UPDATE ON Salle
FOR EACH ROW
WHEN (new.capacite != old.capacite)
BEGIN
UPDATE Cinema
SET capacite = capacite - :old.capacite + :new.capacite
WHERE nom = :new.nomCinema;
END;
Pour garantir la validité du cumul, il faudrait créer des triggers sur les événements UPDATE et INSERT.
Une solution plus concise (mais plus coûteuse) est de recalculer systématiquement le cumul : dans ce cas
on peut utiliser un trigger qui se déclenche globalement pour la requête :
CREATE TRIGGER CumulCapaciteGlobal
AFTER UPDATE OR INSERT OR DELETE ON Salle
BEGIN
UPDATE Cinema C
SET capacite = (SELECT SUM (capacite)
FROM Salle S
WHERE C.nom = S.nomCinema);
END;
La syntaxe de création d’un trigger est la suivante :
CREATE trigger <nom-trigger>
<quand> <événements> ON <table>
[FOR EACH ROW [WHEN <condition>]]
BEGIN
<action>
END;
/
Les choix possibles sont :
– quand peut être BEFORE ou AFTER.
– événements spécifie DELETE, UPDATE ou INSERT séparés par des OR.
– FOR EACH ROW est optionnel. En son absence le trigger est déclenché une fois pour toute requête
modifiant la table, et ce sans condition.
Sinon condition est toute condition booléenne SQL. De plus on peut rérférencer les anciennes et
nouvelles valeurs du tuple courant avec la syntaxe new.attribut et old.attribut respecti-
vement.
– action est une procédure qui peut être implantée, sous Oracle, avec le langage PL/SQL. Elle peut
contenir des ordres SQL mais pas de mise-à-jour de la table courante.
Les anciennes et nouvelles valeurs du tuple courant sont référencées par :new.attr et :old.attr.
Il est possible de modifier new et old. Par exemple :new.prix=500; forcera l’attribut prix à
500 dans un BEFORE trigger.
Remarque : la disponibilité de new et old dépend du contexte. Par exemple new est à NULL dans un
trigger déclenché par DELETE.
1. Tous les exemples qui suivent utilisent la syntaxe des triggers Oracle, très proche de celle de SQL3.
7.5. EXERCICES 89
7.5 Exercices
Exercice 7.1 On reprend le schéma suivant décrivant une bibliothèque avec des livres et leurs auteurs.
Indiquez comment exprimer les contraintes suivantes sur le schéma relationnel, avec la syntaxe SQL2.
1. L’année de parution d’un livre est toujours connue.
2. Le nombre de pages d’un chapitre est supérieur à 0.
3. Un éditeur doit faire partie de la liste {Seuil, Gallimard, Grasset}
Exercice 7.2 On veut créer un ensemble de vues sur la base Agence de voyages ! ! qui ne donne que les
informations sur les stations aux Antilles. Il existe un utilisateur, lambda, qui ne doit pouvoir accéder
qu’à cet ensemble de vues, et en lecture uniquement.
1. Définir la vue StationAntilles qui est identique à Station, sauf qu’elle ne montre que les stations aux
Antilles.
2. Définir la vue ActivitéAntilles donnant les activités proposées dans les stations de StationAntilles
3. Définir la vue SejourAntilles avec les attributs nomClient, prénomClient, ville, station, début. Cette
vue donne un résumé des séjours effectués dans les stations aux Antilles.
4. Dans quelles vues peut-on insérer ? Sur quelles vues est-il utile de mettre la clause WITH CHECK
OTPION ?
5. Donner les ordres GRANT qui ne donnent à l’utilisateur lambda que la possibilité de voir les
informations sur les vues ’Antilles’.
Exercice 7.3 Une vue sur une table qui ne comprend pas la clé primaire de est-elle modifiable ?
Exercice 7.4 Les cinémas changent régulièrement les films qui passent dans leurs salles. On souhaite
garder l’historique de ces changements, afin de connaître la succesion des films proposés dans chaque
salle.
Voici l’ordre de création de la table Séance.
CREATE TABLE Seance (idFilm INTEGER NOT NULL,
nomCinema VARCHAR (30) NOT NULL,
noSalle INTEGER NOT NULL,
idHoraire INTEGER NOT NULL,
PRIMARY KEY (idFilm, nomCinema, noSalle, idHoraire),
FOREIGN KEY (nomCinema, noSalle) REFERENCES Salle,
FOREIGN KEY (idFilm) REFERENCES Film,
FOREIGN KEY (idHoraire) REFERENCES Horaire);
Chaque fois que l’on modifie le code du film dans une ligne de cette table, il faut insérer dans une table
AuditSeance l’identifiant de la séance, le code de l’ancien film et le code du nouveau film.
2. Donnez le trigger qui alimente la table AuditSéance en fonction des mises à jour sur la table Séance.
Exercice 7.5 Supposons qu’un système propose un mécanisme de triggers, mais pas de contrainte d’inté-
grité référentielle. On veut allors implanter ces contraintes avec des triggers.
Donner les triggers qui implantent la contrainte d’intégrité référentielle entre Artiste et Film. Pour
simplifier, on suppose qu’il n’y a jamais de valeur nulle.
91
Chapitre 8
Sommaire
8.1 Interfaçage avec le langage C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.1.1 Un exemple complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.1.2 Développement en C/SQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.1.3 Autres commandes SQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
8.2 L’interface Java/JDBC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.2.1 Principes de JDBC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.2.2 Le plus simple des programmes JDBC . . . . . . . . . . . . . . . . . . . . . . 99
8.2.3 Exemple d’une applet avec JDBC . . . . . . . . . . . . . . . . . . . . . . . . . 100
Voici un programme qui se connecte et recherche le film d’id 1. Bien entendu les numéros en fin de
ligne sont destinés aux commentaires.
#include <stdio.h>
ora_id_film = 1; (7)
ora_id_mes = 0; ora_annee = 0;
strcpy (ora_titre,"");
Il reste à précompiler ce programme (le SGBD remplace alors tous les EXEC SQL par des appels à ses
propres fonctions C), à compiler le .c résultant de la précompilation, et à faire l’édition de lien avec les
librairies pertinentes. Voici les commentaires pour chaque partie du programme ci-dessus.
1. cette ligne est spécifique à Oracle aui communique avec le programme via la structure sqlca : il
faut inclure le fichier sqlca.h avant la précompilation, ce qui se fait avec la commande EXEC
SQL INCLUDE.
2. Le principal problème en PRO*C est la conversion des VARCHAR de SQL en chaînes de caractères
C contenant le fameux \0. Le plus simple est de définir explicitement l’équivalence entre un type
8.1. INTERFAÇAGE AVEC LE LANGAGE C 93
manipulé par le programme et le type SQL correspondant. Cela se fait en deux étapes :
(a) On fait un typedef pour définir le type du programme : ici le type asc31 est synonyme
d’une chaîne de 31 caractères C.
(b) On utilise (ligne 2’) la commande EXEC SQL TYPE pour définir l’équivalence avec le type
SQL.
Maintenant, le SGBD gérera convenablement la conversion des VARCHAR vers une variable C (2”)
en ajoutant le \0 après le dernier caractère non-blanc.
3. Le transfert entre la base de données et le C se fait par l’intermédiaire de “variables hôtes” qui doivent
être déclarées dans un bloc spécifique (3 et 3’).
4. Il n’y a pas, en C, l’équivalent de la “valeur nulle” (qui correspond en fait à l’absence de valeur).
Pour savoir si une valeur ramenée dans un ordre SQL est nulle, on doit donc utiliser une variable
spécifique, dite indicatrice. Cette variable est toujours de type short
5. Dans le cas où une erreur survient au moment de l’exécution d’un ordre SQL, il faut indiquer le
comportement à adopter. Ici on se déroute sur une étiquette sqlerror.
6. Connexion à la base : indispensable avant tout autre ordre. Ici on utilise la connexion automatique
Oracle.
8. Exemple d’un ordre SELECT. Pour chaque attribut sélectionné, on indique dans la clause INTO la
variable réceptrice suivi de la variable indicatrice. Attention le SGBD génère une erreur si on lit
une valeur nulle sans utiliser de variable indicatrice.
9. Gestion des erreurs : le champ sqlcode de la structure sqlca et mis à jour après chaque ordre
SQL. Quand il vaut 0, c’est qu’on n’a pas rencontré d’erreur. La valeur 1403 (spécifique Oracle) in-
dique qu’aucune ligne n’a été trouvée. Toute valeur négative indique un erreur, auquel cas le message
se trouve dans sqlca.sqlerrm.sqlerrmc.
A peu près l’essentiel de ce qui est suffisant pour écrire un programme C/SQL se trouve dans le code
précédent. La principale fonctionnalité non évoquée ci-dessus est l’emploi de curseurs pour parcourir un
ensemble de n-uplets. SQL manipule des ensembles, notion qui n’existe pas en C : il faut donc parcourir
l’ensemble ramené par l’ordre SQL et traiter les tuples un à un. Voici la partie du code qui change si on
souhaite parcourir l’ensemble des films.
ora_id_film = 0; ora_id_mes = 0;
ora_annee = 0; strcpy (ora_titre,"");
{
printf ("Film no %d. Titre : %s Annee : %d Id mes %d \n",
ora_id_film, ora_titre, ora_annee, ora_id_mes);
On déclare un curseur dès qu’un ordre SQL ramène potentiellement plusieurs n-uplets. Ensuite chaque
appel à la clause FETCH accède à un n-uplet, jusqu’à ce que sqlca.sqlcode soit égal à 1403 (ici on a
déclaré une constante ORA_NOTFOUND).
Comme d’habitude, il est recommandé d’organiser le code avec des fonctions. D’une manière générale,
il paraît préférable de bien séparer le code gérant les accès à la base du code implantant l’application
proprement dite. Quelques suggestions sont données dans la section suivante.
2. Boucle sur les n-uplets d’une table en fonction d’un intervalle de valeurs pour la clé.
Du point de vue de la structuration du code, voici les stratégies qui me semblent les plus recommandables
pour chaque cas.
1. On définit une structure correspondant au sous-ensemble des attributs de la table que l’on souhaite
charger dans le programme.
2. On définit une fonction de lecture (par exemple LireFilm) qui prend en entrée un pointeur sur une
structure et renvoie un booléen. Au moment de l’appel à la fonction, on doit avoir initialisé le champ
correspondant à la clé.
3. Dans la fonction, on exécute l’ordre SQL, on effectue les contrôles nécessaires, on place les données
dans les champs de la structure. On renvoie TRUE si on a trouvé quelque chose, FALSE sinon.
/* Ordre SELECT */
EXEC SQL SELECT ...
/* Test */
if (sqlca.sqlcode == ORA_NOTFOUND) return FALSE;
else ...
Film film;
...
film.id_film = 34;
if (LireFilm (&film))
... /* On a trouve le n-uplet */
else
... /* On n’a rien trouve */
Donc la fonction appelante ne voit rien de l’interface SQL et peut se consacrer uniquement à la mani-
pulation des données.
Pour le deuxième point on peut procéder comme suit. On place dans la fonction une variable statique
initialisée à 0. Au premier appel, cette variable est nulle, et on doit ouvrir le curseur et changer la valeur
à 1 avant de faire le premier FETCH. Aux appels suivants la valeur est 1 et on peut faire simplement des
FETCH. Quand on a atteint le dernier n-uplet, on ferme le curseur et on remet la variable à 0. Voici le
squelette de la fonction BoucleFilms qui effectue une recherche sur un intervalle de clés.
if (sqlca.sqlcode == ORA_NOTFOUND)
{
EXEC SQL CLOSE ...
debut = 0;
return FALSE;
}
else
{
/* Faire les contrôles et placer les données dans film */
...
return TRUE
}
}
Voici comment on utilise cette fonction.
Film film;
int cle_min, cle_max;
...
while (BoucleFilms (&film, cle_min, cle_max))
{
....
}
Notez qu’avec l’utilisation combinée des fonctions et des structures, non seulement on clarifie beau-
coup le code, mais on rend très facile l’ajout d’une nouvelle donnée. Il suffit de modifier la structure et
l’implantation de la fonction de lecture. Tout le reste est inchangé.
Validation et annulation
1. Validation : EXEC SQL COMMIT WORK;
2. Anulation : EXEC SQL ROLLBACK WORK;
Si on ne fait pas de COMMIT explicite, Oracle effectue un ROLLBACK à la fin du programme.
Valeurs nulles
On teste les valeurs nulles avec les variables indicatrices (voir ci-dessus). Une valeur de -1 après l’exé-
cution d’un SELECT indique que la valeur extraite de la base est nulle (spécifique Oracle).
#define ORA_NULL -1
...
EXEC SQL SELECT ... INTO :ora_id_mes:vi ...
...
if (vi == ORA_NULL)
/* L’identifiant du metteur en scene est inconnu */
...
– JDBC offre une intégration très étroite du client et des modules chargés de l’accès à la base. Cela
permet de limiter le trafic réseau.
– JDBC est complètement indépendant de tout SGBD : la même application peut être utilisée pour
accéder à une base ORACLE, SYBASE, MySQL, etc. Conséquences : pas besoin d’apprendre une
nouvelle API quand on change de système, et réutilisation totale du code.
– Enfin, JDBC est relativement simple, beaucoup plus simple par exemple que l’interface C+SQL
proposée par les SGBD relationnels.
Cette présentation ne couvre pas tous les aspects de JDBC. Il existe un livre, très correct, qui donne une
présentation presque exhaustive :
Une traduction en français est disponible. Dans la suite de ce texte vous trouverez une description
des principes de JDBC, et une introduction à ses fonctionnalités, essentiellement basée sur des exemples
simples utilisant un accès à une base MySQL ou ORACLE. Le code est disponible sur le site http://sikkim.cnam.fr/or
Connexion
Quand une requête doit être exécutée, elle le fait par l’intermédiaire d’une connexion. Une connexion
est un objet Java de la classe Connection qui est chargé de dialoguer avec une base de données. Dans
98 CHAPITRE 8. PROGRAMMATION AVEC SQL
DriverManager
Serveur ORACLE
Connexion
Driver
ORACLE
ORACLE
Requetes
SQL
Reseau
Driver
Connexion
SYBASE
SYBASE
Serveur SYBASE
le cas où on souhaite accéder à plusieurs bases de données, comme montré sur la figure 8.1, il faut autant
d’objets Connection.
Une connexion correspond à la notion de transaction : on effectue des requêtes ou des mises-à-jour que
l’on valide ou annule ensuite. On peut donc ouvrir plusieurs connexions sur une même base si on souhaite
gérer plusieurs transactions simultanément.
Drivers
Quand on veut établir une connexion avec une base distante, on doit passer par l’intermédiaire d’un
driver. Le driver est la partie de JDBC qui est spécifique à un SGBD particulier comme ORACLE ou SY-
BASE. Le driver ORACLE sait comment dialoguer avec un serveur ORACLE, mais est incapable d’échan-
ger des données avec un serveur SYBASE. Pour accéder à un SGBD particulier, il suffit d’instancier un
object de la classe Driver propre à ce SGBD.
Ce n’est pas en contradiction avec l’indépendance du code Java. Tous les drivers ont la même interface
et s’utilisent de la même façon. On peut, de manière totalement dynamique (par exemple au moment de
l’exécution de l’applet) choisir la base à laquelle on veut accéder, et instancier le driver correspondant.
Il existe plusieurs types de drivers. Le choix dépend de l’utilisation de JDBC. En local, pour une ap-
plication, ou en distribué, pour une applet. Dans ce dernier cas on utilise un driver de type 3 ou 4 qui
ne nécessite pas l’installation d’un logiciel spécifique sur le client. Le driver utilisé dans les exemples ci-
dessous et le driver thin ! ! MySQL, de type 4, qui communique directement avec le serveur MySQL par
des sockets.
Serveur
Dernier élément de cette architecture : le SGBD doit gérer un serveur sur la machine hôte, qui reçoit,
interprète et exécute les demandes du driver. Il existe plusieurs solutions possibles, qui dépendent du type
de driver utilisé. Ce qui importe, du point de vue de l’utilisateur d’une applet JDBC, c’est de connaître le
nom de la machine hôte, et le numéro du port sur lequel le serveur est en écoute. Pour MySQL, le port est
en général le 3306, pour ORACLE le 1521.
Dans ce qui suit, nous prendrons l’exemple de la machine cartier.cnam.fr hébergeant une base
de données MySQL dont le nom est Films. Comme son nom l’indique, cette base contient des données
diverses et variées sur des films, des metteurs en scène, des acteurs, etc. Le serveur est en écoute sur le port
3306.
Important : quand on utilise une applet, les règles de sécurité Java limitent les possibilités d’ouverture
de socket pour dialoguer avec d’autres machines. La règle, par défaut, est de n’autoriser un dialogue par
socket qu’avec la machine qui héberge le serveur httpd. Cela signifie ce serveur et le serveur MySQL ou
ORACLE doivent être situés sur le même hôte.
8.2. L’INTERFACE JAVA/JDBC 99
Au lieu d’utiliser un navigateur, on peut toujours tester une applet avec le programme appletviewer
qui ne passe pas par le réseau et n’est donc pas soumis aux règles de sécurité Java.
class films
{
public static void main (String args [])
throws SQLException
{
Connection conn ;
// Connection à la base
try {
conn = DriverManager.getConnection
("jdbc:mysql://localhost/Films",
"visiteurFilms", "mdpVisiteur");
// Affichage du résultat
while (rset.next ())
System.out.println (rset.getString (1));
}
catch (SQLException e)
{
System.out.println ("Problème quelque part !!!");
System.out.println (e.getMessage());
}
}
}
Le programme commence par importer le package java.sql.* qui correspond à l’ensemble des
classes JDBC 1 .
La première instruction consiste à instancier le driver MySQL, et à l’enregistrer dans le DriverManager.
Ce dernier est alors prêt à utiliser ce driver si on demande une connexion à une base MySQL.
C’est justement ce que fait l’instruction suivante : on instancie un objet de la classe Connection en
lui passant en paramètres :
– Une URL contenant les coordonnées de la base. Ici on indique le driver MySQL dont le nom est
1. Attention : ce package n’existe en standard qu’avec la version 1.1 du JDK. Pour la version 1.0, les classes JDBC font partie du
package comprenant le driver, fourni par chaque SGBD.
100 CHAPITRE 8. PROGRAMMATION AVEC SQL
– Le nom et le mot de passe de l’utilisateur qui se connecte à la base. Ici, il s’agit d’un compte qui peut
seulement effectuer des lectures dans la base.
Il est important de noter que l’instanciation du driver et la connexion (ainsi que toutes les requêtes qui
suivent) peuvent échouer pour quantité de raisons. Dans ce cas une exception de type SQLException est
levée. Il est indispensable de placer les instructions dans des blocs try et de gérer les exceptions.
Il ne reste plus qu’à effectuer une requête pour tester la connexion. Une requête (au sens large : interro-
gation ou mise à jour) correspond à un objet de la classe Statement. Cet objet doit avoir été créé par un
objet Connection, ce qui le rattache automatiquement à l’une des transactions en cours.
La méthode executeQuery, comme son nom l’indique, exécute une requête (d’interrogation) placée
dans une chaîne de caractères. Le résultat est placé dans un objet ResultSet qui, comme son nom
l’indique encore une fois, contient l’ensemble des lignes du résultat.
Un objet ResultSet correspond à peu près à la notion de curseur employée systématiquement dans
les interfaces entre un langage de programmation et SQL. Un curseur permet de récupérer les lignes du
résultat à la demande, une par une. Ici on appelle simplement la méthode booléenne next qui renvoie
true tant que le résultat n’a pas été parcouru entièrement. Chaque appel à next positionne le curseur sur
une nouvelle ligne.
Finalement, la classe ResultSet propose un ensemble de méthodes get*** qui prennent un numéro
d’attribut en entrée et renvoient la valeur de cet attribut. Toute erreur de type ou d’indice renvoie une
SQLException.
Il est facile de se convaincre, à la lecture de ce petit programme, de la simplicité de JDBC. L’utilisation
de quelques classes bien conçues permet de s’affranchir de tous les détails techniques fastidieux que l’on
trouve, par exemple, dans les protocoles d’échange C/SQL.
Description de l’applet
L’applet s’appelle JdbcFilms et se trouve dans le fichier JdbcFilms.java. On inclut la demande
d’exécution dans une page HTML, dont voici le contenu :
<html>
<head>
<title>Illustration d’une Applet JDBC</title>
</head>
<body>
<p>
<hr>
<CENTER><applet code="JdbcFilms" width=700 height=200>
</applet>
</CENTER>
<hr>
</BODY>
</HTML>
Le code Java/JDBC
Voici le code complet de l’applet. La majeure partie correspond à la création de l’interface graphique.
Le code JDBC lui même est très réduit.
// Import du package JDBC.
import java.sql.*;
String requete;
int nb_lignes;
ResultSet rset;
// Execution de la requête
nb_lignes =0;
rset = stmt.executeQuery (requete);
8.2. L’INTERFACE JAVA/JDBC 103
// Affichage du résultat
while (rset.next ())
{
fenetre_res.appendText (
"Film: " + rset.getString (1)
+ ", " + rset.getString (2)
+ ", " + rset.getString (3)
+ " Réalisé par " + rset.getString (4)
+ " " + rset.getString (5) + "\n");
nb_lignes++;
}
if (nb_lignes == 0)
fenetre_res.appendText (
"Rien trouvé pour les films " + titre_f.getText()
+ " et la période " + anMin.getText()
+ "/" + anMax.getText());
}
catch (Exception e)
{
// Caramba: pb quelque part
fenetre_res.appendText ("Erreur rencontrée !\n");
fenetre_res.appendText (e.getMessage () + "\n");
}
return true;
}
else if (ev.target == bouton_eff)
{
fenetre_res.setText (" ");
titre_f.setText("%");
anMin.setText ("1900");
anMax.setText ("2100");
return true;
}
else return false;
}
}
104 CHAPITRE 8. PROGRAMMATION AVEC SQL
105
Deuxième partie
Aspects systèmes
107
Chapitre 9
Techniques de stockage
Sommaire
9.1 Stockage de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
9.1.1 Supports . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
9.1.2 Fonctionnement d’un disque . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
9.1.3 Optimisations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
9.1.4 Technologie RAID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
9.2 Fichiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
9.2.1 Enregistrements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
9.2.2 Blocs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
9.2.3 Organisation d’un fichier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
9.3 Oracle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
9.3.1 Fichiers et blocs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
9.3.2 Les tablespaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
9.3.3 Création des tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
Une base de données est constituée, matériellement, d’un ou plusieurs fichiers volumineux stockés
sur un support non volatile. Le support le plus couramment employé est le disque magnétique ( " " disque
dur # # ) qui présente un bon compromis en termes de capacité de stockage, de prix et de performance. Il y
a deux raisons principales à l’utilisation de fichiers. Tout d’abord il est courant d’avoir affaire à des bases
de données dont la taille dépasse de loin celle de la mémoire principale. Ensuite – et c’est la justification
principale du recours aux fichiers, même pour des bases de petite taille – une base de données doit survivre
à l’arrêt de l’ordinateur qui l’héberge, que cet arrêt soit normal ou dû à un incident matériel.
L’accès à des données stockées sur un périphérique, par contraste avec les applications qui manipulent
des données en mémoire centrale, est une des caractéristiques essentielles d’un SGBD. Elle implique no-
tamment des problèmes potentiels de performance puisque le temps de lecture d’une information sur un
disque est considérablement plus élevé qu’un accès en mémoire principale. L’organisation des données sur
un disque, les structures d’indexation mises en œuvre et les algorithmes de recherche utilisés constituent
donc des aspects très importants des SGBD. Un bon système se doit d’utiliser au mieux les techniques
disponibles afin de minimiser les temps d’accès. Il doit aussi offrir à l’administrateur des outils de para-
métrage et de contrôle qui vont lui permettre d’exploiter au mieux les ressources matérielles et logicielles
d’un environnement donné.
Dans ce chapitre nous décrivons les techniques de stockage de données et leur transfert entre les dif-
férents niveaux de mémoire d’un ordinateur. Dans une première partie nous décrivons les aspects maté-
riels liées au stockage des données par un ordinateur. Nous détaillons successivement les différents types
de mémoire utilisées, en insistant particulièrement sur le fonctionnement des disques magnétiques. Nous
abordons ensuite les mécanismes de transfert d’un niveau de mémoire à un autre, et leur optimisation.
La deuxième partie de ce chapitre est consacrée à l’organisation des données sur disque. Nous y abor-
dons les notions d’enregistrement, de bloc et de fichier, ainsi que leur représentation physique.
108 CHAPITRE 9. TECHNIQUES DE STOCKAGE
9.1.1 Supports
D’une manière générale, plus une mémoire est rapide, plus elle est chère et – conséquence directe – plus
sa capacité est réduite. Les différentes mémoires utilisées par un ordinateur constituent donc une hiérarchie
(figure 9.1), allant de la mémoire la plus petite mais la plus efficace à la mémoire la plus volumineuse mais
la plus lente.
1. la mémoire cache est utilisée par le processeur pour stocker ses données et ses instructions ;
2. la mémoire vive, ou mémoire principale stocke les données et les processus constituant l’espace
de travail de la machine ; toute donnée ou tout programme doit d’abord être chargé en mémoire
principale avant de pouvoir être traité par un processeur ;
3. les disques magnétiques constituent le principal périphérique de type mémoire ; ils offrent une grande
capacité de stockage tout en gardant des accès en lecture et en écriture relativement efficaces ;
4. enfin les bandes magnétiques sont des supports très économiques mais leur lenteur les destine plutôt
aux sauvegardes.
Processeur
Mémoire
Disque
secondaire
Mémoire
Bandes
tertiaire
La mémoire vive et les disques sont les principaux niveaux à considérer pour des applications de bases
de données. Une base de données est à peu près toujours placée sur disque, pour les raisons de taille et de
persistance déjà évoquées, mais les données doivent impérativement être placées en mémoire vive pour être
traitées. Dans l’hypothèse (réaliste) où seule une petite fraction de la base peut résider en mémoire centrale,
un SGBD doit donc en permanence effectuer des transferts entre mémoire principale et mémoire secondaire
pour satisfaire les requêtes des utilisateurs. Le coût de ces transferts intervient de manière prépondante dans
les performances du système.
La technologie évoluant rapidement, il est délicat de donner des valeurs précises pour la taille et les
temps d’accès des différentes mémoires. Le tableau 9.1 propose quelques ordres de grandeur. On peut
retenir qu’en 2001, un ordinateur est équipé de quelques centaines de mégaoctets de mémoire vive (ty-
piquement 256 Mo à l’heure où ces lignes sont écrites) et que les disques stockent quelques gigaoctets
(typiquement 6 à 10 Go). En contrepartie, le temps d’accès à une information en mémoire vive est de
9.1. STOCKAGE DE DONNÉES 109
l’ordre de 10 nanosecondes ( %0'*),+ ) tandis que le temps d’accès sur un disque est de l’ordre de 10 millise-
condes ( %0' )71 ), ce qui représente un ratio approximatif de 1 000 000 entre les performances respectives de
ces deux supports ! Il est clair dans ces conditions que le système doit tout faire pour limiter les accès au
disque.
Dispositif
La petite information stockée sur un disque est un bit qui peut valoir 0 ou 1. Les bits sont groupés par
8 pour former des octets, et une suite d’octets forme un cercle ou piste sur la surface du disque.
Un disque est entraîné dans un mouvement de rotation régulier par un axe. Une tête de lecture (deux si
le disque est double-face) vient se positionner sur une des pistes du disque et y lit ou écrit les données. Le
nombre minimal d’octets lus par une tête de lecture est physiquement défini par la taille d’un secteur (en
général 512K). Cela étant le système d’exploitation peut choisir, au moment de l’initialisation du disque,
de fixer une unité d’entrée/sortie supérieure à la taille d’un secteur, et multiple de cette dernière. On obtient
des blocs, dont la taille est typiquement 512K (un secteur), 1024K (deux secteurs) ou 4096K (huit secteurs).
Chaque piste est donc divisée en blocs (ou pages) qui constituent l’unité d’échange entre le disque et la
mémoire principale.
disque
tête de
cylindre lecture
Contrôleur
données
disque
disque
déplacement
rotation
des têtes
Toute lecture ou toute écriture sur les disques s’effectue par blocs. Même si la lecture ne concerne
qu’une donnée occupant 4 octets, tout le bloc contenant ces 4 octets sera transmis en mémoire centrale.
Cette caractéristique est fondamentale pour l’organisation des données sur le disque. Un des objectifs du
SGBD est de faire en sorte que quand il est nécessaire de lire un bloc de 4096 octets pour accéder à un entier
de 4 octets, les 4094 octets constituant le reste du bloc ont de grandes chances d’être utiles à court terme
et se trouveront donc déjà chargée en mémoire centrale quand le système en aura besoin. Cette motivation
est à la base du mécanisme de regroupement qui fonde, notamment, les structures d’index et de hachage.
La tête de lecture n’est pas entraînée dans le mouvement de rotation. Elle se déplace dans un plan fixe
qui lui permet de se rapprocher ou de s’éloigner de l’axe de rotation des disques, et d’accéder à une des
pistes. Pour limiter le coût de l’ensemble de ce dispositif et augmenter la capacité de stockage, les disques
sont empilés et partagent le même axe de rotation (voir figure 9.2). Il y a autant de têtes de lectures que de
disques (deux fois plus si les disques sont à double face) et toutes les têtes sont positionnées solidairement
dans leur plan de déplacement. À tout moment, les pistes accessibles par les têtes sont donc les mêmes
pour tous les disques de la pile, ce qui constitue une contrainte dont il faut savoir tenir compte quand on
cherche à optimiser le placement des données.
L’ensemble des pistes accessibles à un moment donné constitue le cylindre. La notion de cylindre
correspond donc à toutes les données disponibles sans avoir besoin de déplacer les têtes de lecture.
Enfin le dernier élément du dispositif est le contrôleur qui sert d’interface avec le système d’exploita-
tion. Le contrôleur reçoit du système des demandes de lecture ou d’écriture, et les transforme en mouve-
ments appropriés des têtes de lectures, comme expliqué ci-dessous.
1. le numéro du disque dans la pile ou le numéro de la surface si les disques sont à double-face ;
2. le numéro de la piste ;
3. le numéro du bloc sur la piste.
La lecture d’un bloc, étant donné son adresse, se décompose en trois étapes :
La durée d’une opération de lecture est donc la somme des temps consacrés à chacune des trois opéra-
tions, ces temps étant désignés respectivement par les termes délai de positionnement, délai de latence et
temps de transfert. Le temps de transfert est négligeable pour un bloc, mais peu devenir important quand
des milliers de blocs doivent être lus. Le mécanisme d’écriture est à peu près semblable à la lecture, mais
peu prendre un peu plus de temps si le contrôleur vérifie que l’écriture s’est faite correctement.
Le tableau 9.2 donne les spécifications d’un disque en 2001, telles qu’on peut les trouver sur le site
de n’importe quel constructeur (ici Seagate, www.seagate.com). Les chiffres donnent un ordre de grandeur
pour les performances d’un disque, étant bien entendu que les disques destinés aux serveurs sont beau-
coup plus performants que ceux destinés aux ordinateurs personnels. Le modèle donné en exemple dans le
tableau 9.2 appartient au mileu de gamme.
Le disque comprend 17 783 secteurs de 512K chacun, la multiplication des deux chiffres donnant bien
la capacité totale de 9,1 Go. Les secteurs étant répartis sur 3 disques double-face, ll y a donc %=<><@?BADC2AB?9E@FHG
IKJ J
FBA 'BF secteurs par surface.
9.1. STOCKAGE DE DONNÉES 111
Caractéristique Performance
Capacité 9,1 Go
Taux de transfert 80 Mo par seconde
Cache 1 Mo
Nbre de disques 3
Nbre de têtes 6
Nombre total secteurs (512K) 17 783 438
Nombre de cylindres 9 772
Vitesse de rotation 10 000 rpm (rotations par minute)
Délai de latence En moyenne 3 ms
Temps de positionnement moyen 5.2 ms
Déplacement de piste à piste 0.6 ms
Le nombre de secteurs par piste n’est pas constant, car les pistes situées près de l’axe sont bien entendu
beaucoup plus petite que elles situées près du bord du disque. On ne peut, à partir des spécifications, que
IDJ J J I
calculer le nombre moyen de secteurs par piste, qui est égal à FBA 'BF9E <2< GLAB'BA . On peut donc
I IBJ2I
estimer qu’une piste stocke en moyenne AB'2ANMPOQ% G&%=OBO octets. Ce chiffre donne le nombre d’octets
qui peuvent être lus sans délai de latence ni délai de positionnement.
Ce qu’il faut surtout noter, c’est que les temps donnés pour le temps de latence et le délai de rotation ne
sont que des moyennes. Dans le meilleur des cas, les têtes sont positionnées sur la bonne piste, et le bloc
à lire est celui qui arrive sous la tête de lecture. Le bloc peut alors être lu directement, avec un délai réduit
au temps de transfert.
Ce temps de transfert peut être considéré comme négligeable dans le cas d’un bloc unique, comme
le montre le raisonnement qui suit, basé sur les performances du tableau 9.2. Le disque effectue 10000
rotations par minute, ce qui correspond à 166,66 rotations par seconde, soit une rotation toutes les 0,006
secondes (6 ms). C’est le temps requis pour lire une piste entièrement. Cela donne également le temps
moyen de latence de 3 ms.
Pour lire un bloc sur une piste, il faudrait tenir compte du nombre exact de secteurs, qui varie en
fonction de la position exacte. En prenant comme valeur moyenne 303 secteurs par piste, et une taille de
bloc égale à 4 096 soit huit secteurs, on obtient le temps de transfert moyen pour un bloc :
FBRPSTMU?
GV'QW0%0FXRYS
AB'BA
Le temps de transfert ne devient significatif que quand on lit plusieurs blocs consécutivement. Notez
quand même que les valeurs obtenues restent beaucoup plus élevées que les temps d’accès en mémoire
principale qui s’évaluent en nanosecondes.
Dans une situation moyenne, la tête n’est pas sur la bonne piste, et une fois la tête positionnée (temps
moyen 5.2 ms), il faut attendre une rotation partielle pour obtenir le bloc (temps moyen 3 ms). Le temps de
lecture est alors en moyenne de 8.2 ms, si on ignore le temps de transfert.
9.1.3 Optimisations
Maintenant que nous avons une idée précise du fonctionnement d’un disque, il est assez facile de mon-
trer que pour un même volume de données, le temps de lecture peut varier considérablement en fonction
de facteurs tels que le placement sur le disque, l’ordre des commandes d’entrées/sorties ou la présence des
données dans une mémoire cache.
Toutes les techniques permettant de réduire le temps passé à accéder au disque sont utilisées intensi-
vement par les SGBD qui, répétons-le, voient leurs performances en grande partie conditionnés par ces
accès. Nous étudions dans cette section les principales techniques d’optmisation mises en œuvre dans une
architecture simple comprenant un seul disque et un seul processeur. Nous verrons dans la partie suivante
consacrée à la technologie RAID, comment on peut tirer parti de l’utilisation de plusieurs disques.
112 CHAPITRE 9. TECHNIQUES DE STOCKAGE
Regroupement
Prenons un exemple simple pour se persuader de l’importance d’un bon regroupement des données
sur le disque : le SGBD doit lire 5 chaînes de caractères de 1000 octets chacune. Pour une taille de bloc
égale à 4096 octets, deux blocs peuvent suffire. La figure 9.3 montre deux organisations sur le disque. Dans
la première chaque chaîne est placée dans un bloc différent, et les blocs sont répartis aléatoirement sur
les pistes du disque. Dans la seconde organisation, les chaînes sont rassemblés dans deux blocs qui sont
consécutifs sur une même piste du disque.
(a) (b)
La lecture dans le premier cas implique 5 déplacements des têtes de lecture, et 5 délais de latence ce
I_^
qui donne un temps de OZM[.\OQ] A3DG`Ca% ms. Dans le second cas, on aura un déplacement, et un délai de
latence pour la lecture du premier bloc, mais le bloc suivant pourra être lu instantanément, pour un temps
total de 8,2 ms.
Les performances obtenues sont dans un rapport de 1 à 5, le tempsminimal s’obtenant en combinant
deux optimisations : regroupement et contiguïté. Le regroupement consiste à placer dans le même bloc des
données qui ont de grandes chances d’êtres lues au même moment. Les critères permettant de déterminer
le regroupement des données constituent un des fondements des structures de données en mémoire secon-
daire qui seront étudiées par la suite. Le placement dans des blocs contigus est une extension directe du
principe de regroupement. Il permet d’effectuer des lectures séquentielles qui, comme le montre l’exemple
ci-dessus, sont beaucoup plus performantes que les lectures aléatoires car elles évitent des déplacements
de têtes de lecture.
Plus généralement, le gain obtenu dans la lecture de deux données b et b est d’autant plus impor-
8 1
tant que les données sont " " proches # # , sur le disque, cette proximité étant définie comme suit, par ordre
décroissant :
– la proximité maximale est obtenue quand b et b sont dans le même bloc : elles seront alors toujours
8 1
lues ensembles ;
– le niveau de proximité suivant est obtenu quand les données sont placées dans deux blocs consécu-
tifs ;
– quand les données sont dans deux blocs situés sur la même piste du même disque, elles peuvent
être lues par la même tête de lecture, sans déplacement de cette dernière, et en une seule rotation du
disque ;
– l’étape suivante est le placement des deux blocs dans un même cylindre, qui évite le déplacement
des têtes de lecture ;
– enfin si les blocs sont dans deux cylindres distincts, la proximité est définie par la distance (en nombre
de pistes) à parcourir.
9.1. STOCKAGE DE DONNÉES 113
Les SGBD essaient d’optimiser la proximité des données au moment de leur placement sur le disque.
Une table par exemple devrait être stockée sur une même piste ou, dans le cas où elle occupe plus d’une
piste, sur les pistes d’un même cylindre, afin de pouvoir effectuer efficacement un parcours séquentiel.
Pour que le SGBD puisse effectuer ces optimisations, il doit se voir confier, à la création de la base,
un espace important sur le disque dont il sera le seul à gérer l’organisation. Si le SGBD se contentait de
demander au système d’exploitation de la place disque quand il en a besoin, le stockage physique obtenu
serait extrêmement fragmenté.
Séquencement
En théorie, si un fichier occupant c blocs est stocké contiguement sur une même piste, la lecture sé-
quentielle de ce fichier sera – en ignorant le temps de transfert – approximativement c fois plus efficace
que si tous les blocs sont répartis aléatoirement sur les pistes du disque.
Cet analyse doit cependant être relativisée car un système est souvent en situation de satisfaire simul-
tanément plusieurs utilisateurs, et doit gérer leurs demandes concuramment. Si un utilisateur d demande
la lecture du fichier e tandis que l’utilisateur f demande la lecture du fichier e , le système alternera
8 1
probablement les lectures des blocs des deux fichiers. Même s’ils sont tous les deux stockés séquentielle-
ment, des déplacements de tête de lecture interviendront alors et minimiseront dans une certaine mesure
cet avantage.
Mémoire tampon
L(1−18) L(2−24)
L(1−16)
demande des blocs sur la piste 1 alors que les têtes viennent juste de passer à la piste 2 devra attende un
temps respectable avant de voir sa requête satisfaite.
Mémoire tampon
La dernière optimisation, très largement utilisée dans tous les SGBD, est l’utilisation de mémoires
tampon, ou buffer. Un buffer est un ensemble de blocs en mémoire principale qui sont des copies des blocs
sur le disque. Quand le système demande à accéder à un bloc, une première inspection a lieu dans le buffer.
Si le bloc s’y trouve déjà, une lecture a été évitée. Sinon on effectue la lecture et on stocke la page dans le
buffer.
Mémoire
centrale
L’idée est donc simplement de maintenir en mémoire principale une copie aussi large que possible
du disque, même si une grande partie des blocs mis ainsi dans un buffer n’est pas directement utile. Une
part importante du paramétrage et de l’administration d’une base de données consiste à spécifier quelle
est la part de la mémoire disponible qui peut être attribuée en permanence au SGBD. Plus cette mémoire
est importante, et plus il sera possible d’y conserver une partie significative de la base, avec des gains
importants en terme de performance.
Quand il reste de la place dans les buffers, on peut l’utiliser en effectuant des lectures en avance (read
ahead, ou prefetching). Une application typique de ce principe est donnée par la lecture d’une table. Comme
nous le verrons au moment de l’étude des algorithmes de jointure, il est fréquent d’avoir à lire une table
séquentiellement, bloc à bloc. Il s’agit d’un cas où, même si à un moment donné on n’a besoin que d’un
ou de quelques blocs, on sait que toute la table devra être parcourue. Il vaut mieux alors, au moment où on
effectue une lecture sur une piste, charger en mémoire tous les blocs de la relation, y compris ceux qui ne
serviront que dans quelques temps et peuvent être placés dans un buffer en attendant.
s’assurer que la défaillance de l’un des disques n’entraîne ni perte de données, ni même l’indisponibilité
du système.
Il existe plusieurs niveaux RAID (de 0 à 6), chacun correspondant à une organisation différente des
données et donc à des caractéristiques différentes. Le niveau 0 est simplement celui du stockage sur un
seul disque, avec les risques discutés précédemment. Nous présentons ci-dessous les caractéristiques des
principaux niveaux.
Duplication (RAID 1)
Le RAID 1 applique une solution brutale : toutes les entrées/sorties s’effectuent en parallèle sur deux
disques. Les écritures ne sont pas simultanées afin d’éviter qu’une panne électrique ne vienne interrompre
les têtes de lecture au moment où elles écrivent le même bloc, qui serait alors perdu. L’écriture a donc
d’abord lieu sur le disque principal, puisque sur le second (dit " " disque miroir # # ).
Le RAID 1 est coûteux puisqu’il nécessite deux fois plus d’espace que de données. Il permet certaines
optimisations en lecture : par exemple la demande d’accès à un bloc peut être être transmise au disque dont
la tête de lecture est la plus proche de la piste contenant le bloc.
Les performances sont également améliorées en écriture car deux demandes de deux processus distincts
peuvent être satisfaites en parallèle. En revanche il n’y a pas d’amélioration du taux de transfert puisque
les données ne sont pas réparties sur les disques.
Exemple 9.1 Supposons qu’il y ait 3 disques de données, et que le contenu du premier octet de chaque
disque soit le suivant :
D1: 11110000
D2: 10101010
D3: 00110011
Alors il suffit de prendre chaque colonne et de compter le nombre g de 1 dans la colonne. La valeur du bit
I I
de parité est gHRUh@b . Pour la première colonne on a giG , et le bit de parité vaut 0. Voici le premier octet
du disque de contrôle.
DC: 01101001
116 CHAPITRE 9. TECHNIQUES DE STOCKAGE
Si on considère les quatre disques dans l’exemple précédent, le nombre de bits à 1 pour chaque position
est pair. Il y a deux 1 pour la première et la seconde position, 4 pour la troisième, etc. La reconstruction de
l’un des c disques après une panne devient alors très facile puisqu’il suffit de rétablir la parité en se basant
sur les informations des cU4j% autres disques et du disque de contrôle.
Supposons par exemple que le disque 2 tombe en panne. On dispose des informations suivantes :
D1: 11110000
D3: 00110011
DC: 01101001
On doit affecter des 0 et des 1 aux bits du disque 2 de manière à rétablir un nombre pair de 1 dans
chaque colonne. Pour la première position, il faut mettre 1, pour la seconde 0, pour la troisième 1, etc. On
reconstitue ainsi facilement la valeur initiale 10101010.
Les lectures s’effectuent de manière standard, sans tenir compte du disque de contrôle. Pour les écri-
tures il faut mettre à jour le disque de contrôle pour tenir compte de la modification des valeurs des bits.
Une solution peu élégante est de lire, pour toute écriture d’un bloc sur un disque, les valeurs des blocs
correspondant sur les cU4j% autres disques, de recalculer la parité et de mettre à jour le disque de contrôle.
^
Cette solution est tout à fait inefficace puisqu’elle nécessite c % entrées/sorties.
Il est nettement préférable d’effectuer le calcul en tenant compte de la valeur du bloc avant la mise à
jour. En calculant la parité des valeurs avant et après mise à jour, on obtient un 1 pour chaque bit dont la
valeur a changé. Il suffit alors de reporter ce changement sur le disque de contrôle.
Exemple 9.2 Reprenons l’exemple précédent, avec trois disques D1, D2, D3, et le disque de contrôle DC.
D1: 11110000
D2: 10101010
D3: 00110011
DC: 01101001
Supposons que D1 soit mis à jour et devienne 10011000. On doit calculer la parité des valeurs avant et
après mise à jour :
avant : 11110000
après : 10011000
On obtient l’octet 01101000 qui indique que les positions 2, 3, et 5 ont été modifiées. Il suffit de reporter
ces modifications sur le disque de contrôle en changeant les 0 en 1, et réciproquement, pour les positions
2, 3 et 5. On obtient finalement le résultat suivant.
D1: 10011000
D2: 10101010
D3: 00110011
DC: 00000001
k
En résumé le RAID 4 offre un mécanisme de redondance très économique en espace, puisque un seul
disque supplémentaire est nécessaire quel que soit le nombre de disques de données. En contrepartie il ne
peut être utilisé dans le cas – improbable – où deux disques tombent simultanément en panne. Un autre
inconvénient possible est la nécessité d’effectuer une E/S sur le disque de contrôle pour chaque écriture
sur un disque de données, ce qui implique qu’il y a autant d’écritures sur ce disque que sur tous les autres
réunis.
en se basant sur une remarque simple : si c’est le disque de contrôle lui-même qui tombe en panne, il est
possible de le reconstituer en fonction des autres disques. En d’autres termes, pour la recontruction après
une panne, la distinction disque de contrôle/disque de données n’est pas pertinente.
D’où l’idée de ne pas dédier un disque aux données de parité, mais de répartir les blocs de parité sur les
^
c % disques. La seule modification à apporter par rapport au RAID 5 est de savoir, quand on modifie un
bloc sur un disque l , quel est le disque l qui contient les données de parité pour ce bloc. Il est possible
8 1
par exemple de décider que pour le bloc m , c’est le disque m2RPh@bDc qui stocke le bloc de parité.
9.2 Fichiers
Il n’est jamais inutile de rappeler qu’une base de données n’est rien d’autre qu’un ensemble de données
stockées sur un support persistant. La technique de très loin la plus répandue consiste à organiser le stockage
des données sur un disque au moyen de fichiers.
La gestion de fichier est un aspect commun aux systèmes d’exploitation et aux SGBD. En théorie
le SGBD pourrait s’appuyer sur les fonctionnalités du système d’exploitation qui l’hébèrge, mais cette
solution soulève quelques inconvénients
1. il est délicat, en terme d’implantation, de dépendre de modules qui peuvent varier d’un système à
l’autre ;
2. les éditeurs de SGBD peuvent ne pas se satisfaire des techniques d’accès aux données proposées par
le système ;
3. enfin les systèmes gèrent en général une mémoire tampon qui peut être génante pour les SGBD,
notamment pour tout ce qui concerne la concurrence d’accès (rappelons qu’un commit doit garantir
l’écriture des données sur le disque).
Sauf exception (par exemple MySQL qui a choisi le parti-pris d’une simplicité maximale), les SGBD
ont donc leur propre module de gestion de fichiers et de mémoire cache. Leurs principes généraux sont
décrits dans ce qui suit.
9.2.1 Enregistrements
Pour le système d’exploitation, un fichier est une suite d’octets répartis sur un ou plusieurs blocs. Les
fichiers gérés par un SGBD sont un peu plus structurés. Ils sont constitués d’enregistrements (records en
anglais) qui représentent physiquement les " " entités # # du SGBD. Selon le modèle logique du SGBD, ces
entités peuvent être des n-uplets dans une relation, ou des objets. Nous nous limiterons au premier cas dans
ce qui suit.
Un n-uplet dans une table relationnelle est constitué d’une liste d’attributs, chacun ayant un type. À
ce n-uplet correspond un enregistrement, constitué de champs (field en anglais). Chaque type d’attribut
détermine la taillle du champ nécessaire pour stocker une instance du type. Le tableau 9.3 donne la taille
habituelle utilisée pour les principaux types de la norme SQL, étant entendu que les systèmes sont libres
de choisir le mode de stockage.
118 CHAPITRE 9. TECHNIQUES DE STOCKAGE
La taille d’un n-uplet est, en première approximation, la somme des tailles des champs stockant ses
attributs. En pratique les choses sont un peu plus compliquées. Les champs – et donc les enregistrements
– peuvent être de taille variable par exemple. Si la taille de l’un de ces enregistrements de taille variable,
augmente au cours d’une mise à jour, il faut pouvoir trouver un espace libre. Se pose également la question
de la représentation des valeurs NULL. Nous discutons des principaux aspects de la représentation des
enregistrements dans ce qui suit.
La convention adoptée influe sur les comparaisons puisque dans un cas on a stocké ’Bou ’ (avec deux
blancs), et dans l’autre ’Bou’ sans caractères de terminaison. Si on utilise le type CHAR il est important
d’étudier la convention adoptée par le SGBD.
On utilise beaucoup plus souvent le type VARCHAR(n) qui permet de stocker des chaînes de longueur
variable. Il existe (au moins) deux possibilités :
^
– le champ est de longueur c % , le premier octet contenant un entier indiquant la longueur exacte
de la chaîne ; si on stocke ’Bou’ dans un VARCHAR(10), on aura donc ’3Bou’, le premier octet
stockant un 3 au format binaire, les trois octets suivants des caratères ’B’, ’o’ et ’u’, et les 7 octets
suivants restant inutilisés ;
^
– le champ est de longueur p % , avec p>nqc ; ici on ne stocke pas les octets inutilisés, ce qui permet
d’économiser de l’espace.
9.2. FICHIERS 119
Noter qu’en représentant un entier sur un octet, on limite la taille maximale d’un VARCHAR à 255. Une
variante qui peut lever cette limite consiste à remplacer l’octet initial contenant la taille par un caractère de
terminaison de la chaîne (comme en C).
Le type BIT VARYING peut être représenté comme un VARCHAR, mais comme linformation stockée
ne contient pas que des caractères codés en ASCII, on ne peut pas utiliser de caractère de terminaison
puisqu’on ne saurait par le distinguer des caractères de la valeur stockée. On préfixe donc le champ par la
taille utile, sur 2, 4 ou 8 octets selon la taille maximale autorisé pour ce type.
On peut utiliser un stockage optimisé dans le cas d’un type énuméré dont les instances ne peuvent
prendre leur (unique) valeur que dans un ensemble explicitement spécifié (par exemple avec une clause
CHECK). Prenons l’exemple de l’ensemble de valeurs suivant :
Le SGBD doit contrôler, au moment de l’affectation d’une valeur à un attribut de ce type, qu’elle ap-
partient bien à l’ensemble énuméré {’valeur1’, ’valeur2’, ... ’valeurN’}. On peut alors stocker
l’indice de la valeur, sur 1 ou 2 octets selon la taille de l’ensemble énuméré (au maximum 65535 valeurs
pour 2 octets). Cela représente un gain d’espace, notamment si les valeurs consistent en chaînes de carac-
tères.
En-tête d’enregistrement
De même que l’on préfixe un champ de longueur variable par sa taille utile, il est souvent nécessaire de
stocker quelques informations complémentaires sur un enregistrement dans un en-tête. Ces informations
peuvent être ;
– un pointeur vers le schéma de la table, pour savoir quel est le type de l’enregistrement ;
– etc
On peut également utiliser cet en-tête pour les valeurs NULL. L’absence de valeur pour un des attributs
est en effet délicate à gérer : si on ne stocke rien, on risque de perturber le découpage du champ, tandis
que si on stocke une valeur conventionnelle, on perd de l’espace. Une solution possible consiste à créer
un masque de bits, un pour chaque champ de l’enregistrement, et à donner à chaque bit la valeur 0 si le
champ est NULL, et 1 sinon. Ce masque peut être stocké dans l’en-tête de l’enregistrement, et on peut
alors se permettre de ne pas utiliser d’espace pour une valeur NULL, tout en restant en mesure de décoder
correctement la chaîne d’octets constituant l’enregistrement.
Exemple 9.3 Prenons l’exemple d’une table Film avec les attributs id de type INTEGER, titre de
type VARCHAR(50) et annee de type INTEGER. Regardons la représentation de l’enregistrement (123,
’Vertigo’, NULL) (donc l’année est inconnue).
L’identifiant est stocké sur 4 octets, et le titre sur 8 octets, dont un pour la longueur. L’en-tête de
l’enregistrement contient un pointeur vers le schéma de la table, sa longueur totale (soit 4 + 8), et un
masque de bits 110 indiquant que le troisième champ est à NULL. La figure 9.6 montre cet enregistrement :
notez qu’en lisant l’en-tête, on sait calculer l’adresse de l’enregistrement suivant.
k
9.2.2 Blocs
Le stockage des enregistrements dans un fichier doit tenir compte du découpage en blocs de ce fichier.
En général il est possible de placer plusieurs enregistrements dans un bloc, et on veut éviter qu’un enregis-
trement chevauche deux blocs. Le nombre maximal d’enregistrements de taille r pour un bloc de taille f
est donné par sfNEXtvu où la notation sxwQu désigne le plus grand entier inférieur à w .
120 CHAPITRE 9. TECHNIQUES DE STOCKAGE
en−tête id titre
12 110 1237 v e r t i go
pointeur
Prenons l’exemple d’un fichier stockant une table qui ne contient pas d’attributs de longueur variable –
en d’autres termes, elle n’utilise pas les types VARCHAR ou BIT VARYING. Les enregistrements ont alors
une taille fixe obtenue en effectuant la somme des tailles de chaque attribut. Supposons que cette taille soit
l’occurrence 84 octets, et que la taille de bloc soit 4096 octets. On va de plus considérer que chaque bloc
contient un en-tête de 100 octets pour stocker des informations comme l’espace libre disponible dans le
bloc, un chaînage avec d’autres blocs, etc. On peut donc placer szy|{|}|~ ) 8 {|{ uGqC*< enregistrements dans un
JBJ + y
bloc. Notons qu’il reste dans chaque bloc A F4.C*<ZMU?BC3KGVC2? octets inutilisés dans chaque bloc.
Blocs
12
...
Fichier F1
Enregistrements
En−tête bloc ...
46
F1 12
...
Adresse Adresse
logique physique 46
...
#90887 F1.12.46
revanche 46 est une identification logique de l’enregistrement, gérée au sein du bloc. La figure 9.9 montre
cet adressage à deux niveaux : dans le bloc F1.12, l’enregistrement 46 correspond à un emplacement au
sein du bloc, tandis que l’enregistrement 57 a été déplacé dans un autre bloc.
Bloc F1.12
En-tête 16 46 57
Espace libre indirection
Enregistrements
Noter que l’espace libre dans le bloc est situé entre l’en-tête du bloc et les enregistrements eux-mêmes.
Cela permet d’augmenter simultanément ces deux composantes au moment d’une insertion par exemple,
sans avoir à effectuer de réorganisation interne du bloc.
Ce mode d’identification offre beaucoup d’avantages, et est utilisé par ORACLE par exemple. Il permet
de réorganiser souplement l’espace interne à un bloc.
3. on s’aperçoit alors que le titre exact est " " Pas de printemps pour Marnie # # , ce qui peut se corriger
avec un ordre UPDATE : si l’espace libre restant dans le bloc est suffisant, il suffit d’effectuer une
réorganisation interne pendant que le bloc est en mémoire centrale, réorganisation qui a un coût nul
en terme d’entrées/sorties ;
4. enfin on met à nouveau l’enregistrement à jour pour stocker le résumé qui était resté à NULL : cette
fois il ne reste plus assez de place libre dans le bloc, et l’enregistrement doit être déplacé dans un
autre bloc, tout en gardant la même adresse.
Au lieu de déplacer l’enregistrement entièrement (solution adoptée par Oracle par exemple), on pour-
rait le fragmenter en stockant le résumé dans un autre bloc, avec un chaînage au niveau de l’enregistrement
(solution adoptée par MySQL). Le déplacement (ou la fragmentation) des enregistrements de taille va-
riable est évidemment pénalisante pour les performances. Il faut effectuer autant de lectures sur le disque
qu’il y a d’indirections (ou de fragments), et on peut donc assimiler le coût d’une lecture d’un enregis-
trement en c parties, à c fois le coût d’un enregistrement compact. Comme nous le verrons plus loin, un
SGBD comme Oracle permet de réserver un espace disponible dans chaque bloc pour l’agrandissement des
enregistrements afin d’éviter de telles réorganisations.
Les enregistrements de taille variable sont un peu plus compliqués à gérer que ceux de taille fixe. Les
programmes accédant au fichier doivent prendre en compte les en-têtes de bloc ou d’enregistrement pour
savoir où commence et où finit un enregistrement donné.
En contrepartie, un fichier contenant des enregistrements de taille variable utilise souvent mieux l’es-
pace qui lui est attribué. Si on définissait par exemple le titre d’un film et les autres attributs de taille
variable comme des CHAR et pas comme des VARCHAR, tous les enregistrements seraient de taille fixe, au
prix de beaucoup d’espace perdu puisque la taille choisie correspond souvent à des cas extrêmes rarement
rencontrés – un titre de film va rarement jusqu’à 50 octets.
– Espace. La situation optimale est celle où la taille d’un fichier est la somme des tailles des enregis-
trements du fichier. Cela implique qu’il y ait peu, ou pas, d’espace vide dans le fichier.
– Temps. Une bonne organisation doit favoriser les opérations sur un fichier. En pratique, en s’inté-
resse plus particulièrement à la recherche d’un enregistrement, notamment parce que cette opération
conditionne l’efficacité de la mise à jour et de la destruction. Il ne faut pas pour autant négliger le
coût des insertions.
L’efficacité en espace peut être mesurée comme le rapport entre le nombre de blocs utilisés et le nombre
minimal de blocs nécessaire. Si, par exemple, il est possible de stocker 4 enregistrements dans un bloc, un
stockage optimal de 1000 enregistrements occupera 250 blocs. Dans une mauvaise organisation il n’y aura
qu’un enregistrement par bloc et 1000 blocs seront nécessaires. Dans le pire des cas l’organisation autorise
des blocs vides et la taille du fichier devient indépendante du nombre d’enregistrements.
Il est difficile de garantir une utilisation optimale de l’espace à tout moment à cause des destructions et
modifications. Une bonne gestion de fichier doit avoir pour but – entre autres – de réorganiser dynamique-
ment le fichier afin de préserver une utilisation satisfaisante de l’espace.
L’efficacité en temps d’une organisation de fichier se définit p en fonction d’une opération donnée
(par exemple l’insertion, ou la recherche) et se mesure par le rapport entre le nombre de blocs lus et la
taille totale du fichier. Pour une recherche par exemple, il faut dans le pire des cas lire tous les blocs
du fichier pour trouver un enregistrement, ce qui donne une complexité linéaire. Certaines organisations
permettent d’effectuer des recherches en temps sous-linéaire : arbres-B (temps logarithmique) et hachage
(temps constant).
Une bonne organisation doit réaliser un bon compromis pour les quatres principaux types d’opérations :
Dans ce qui suit nous discutons de ces quatre opérations sur la structure la plus simple qui soit, le
fichier séquentiel (non ordonné). Le chapitre suivant est consacré aux techniques d’indexation et montrera
comment on peut optimiser les opérations d’accès à un fichier séquentiel.
Dans un fichier séquentiel (sequential file ou heap file), les enregistrements sont stockés dans l’ordre
d’insertion, et à la première place disponible. Il n’existe en particulier aucun ordre sur les enregistrements
qui pourrait faciliter une recherche. En fait, dans cette organisation, on recherche plutôt une bonne utilisa-
tion de l’espace et de bonnes performances pour les opérations de mise à jour.
Recherche
La recherche consiste à trouver le ou les enregistrements satisfaisant un ou plusieurs critères. On peut
rechercher par exemple tous les films parus en 2001, ou bien ceux qui sont parus en 2001 et dont le titre
commence par ’V’, ou encore n’importe quelle combinaison booléenne de tels critères.
124 CHAPITRE 9. TECHNIQUES DE STOCKAGE
La complexité des critères de sélection n’influe pas sur le coût de la recherche dans un fichier séquentiel.
Dans tous les cas on doit partir du début du fichier, lire un par un tous les enregistrements en mémoire
centrale, et effectuer à ce moment là le test sur les critères de sélection. Ce test s’effectuant en mémoire
centrale, sa complexité peut être considérée comme négligeable par rapport au temps de chargement de
tous les blocs du fichier.
Quand on ne sait par à priori combien d’enregistrements on va trouver, il faut systématiquement par-
courir tout le fichier. En revanche, si on fait une recherche par clé unique, on peut s’arréter dès que l’enre-
gistrement est trouvé. Le coût moyen est dans ce cas égal à , c étant le nombre de blocs.
1
Si le fichier est trié sur le champ servant de critère de recherche, il est possible d’effectuer un recherche
par dichotomie qui est beaucoup plus efficace. Prenons l’exemple de la recherche du film Scream. L’algo-
rithme est simple :
3. sinon, soit les films contenus dans le bloc précèdent Scream dans l’ordre lexicographique, et la re-
cherche doit continuer dans la partie droite, du fichier, soit la recherche doit continuer dans la partie
gauche ;
4. on recommence à l’étape (1), en prenant pour espace de rercherche la moitié droite ou gauche du
fichier, selon le résultat de l’étape 2.
L’algorithme est récursif et permet de diminuer par deux, à chaque étape, la taille de l’espace de re-
cherche. Si cette taille, initialement, est de c blocs, elle passe à à l’étape 1, à à l’étape 2, et plus
1 1
généralement à à l’étape .
1
Au pire, la recherche se termine quand il n’y a plus qu’un seul bloc à explorer, autrement dit quand
I2 I2
est tel que cn . On en déduit le nombre maximal d’étapes : c’est le plus petit tel que cqn , soit
ph( .c3n` , soit Gph( .c3 .
1 1
Pour un fichier de 100 Mo, un parcours séquentiel implique la lecture des 25 000 blocs, alors qu’une
I
recherche par dichotomie ne demande que ph( . OX'2'B'3G%=O lectures de blocs !! Le gain est considé-
1
rable.
L’algorithme décrit ci-dessus se heurte cependant en pratique à deux obstacles.
1. en premier lieu il suppose que le fichier est organisé d’un seul tenant, et qu’il est possible à chaque
étape de calculer le bloc du milieu ; en pratique cette hypothèse est très difficile à satisfaire ;
2. en second lieu, le maintien de l’ordre dans un fichier soumis à des insertions, suppressions et mises
à jour est très difficile à obtenir.
Cette idée de se baser sur un tri pour effectuer des recherches efficaces est à la source de très nombreuses
structures d’index qui seront étudiées dans le chapitre suivant. L’arbre-B, en particulier, peut être vu comme
une structure résolvant les deux problèmes ci-dessus. D’une part il se base sur un système de pointeurs
décrivant, à chaque étape de la recherche, l’emplacement de la partie du fichier qui reste à explorer, et
d’autre part il utilise une algorithmique qui lui permet de se réorganiser dynamiquement sans perte de
performance.
Mises à jour
Au moment où on doit insérer un nouvel enregistrement dans un fichier, le problème est de trouver un
bloc avec un espace libre suffisant. Il est hors de question de parcourir tous blocs, et on ne peut pas se
permettre d’insérer toujours à la fin du fichier car il faut réutiliser les espaces rendus disponibles par les
destructions. La seule solution est de garder une structure annexe qui distingue les blocs pleins des autres,
et permette de trouver rapidement un bloc avec de l’espace disponible. Nous présentons deux structures
possibles.
9.3. ORACLE 125
La première est une liste doublement chaînée des blocs libres (voir figure 9.11). Quand de l’espace
se libère dans un bloc plein, on l’insère à la fin de la liste chaînée. Inversement, quand un bloc libre
devient plein, on le supprime de la liste. Dans l’exemple de la figure 9.11, en imaginant que le bloc 8
devienne plein, on chainera ensemble les blocs 3 et 7 par un jeu classique de modification des adresses.
Cette solution nécessite deux adresses (bloc précédent et bloc suivant) dans l’en-tête de chaque bloc, et
l’adresse du premier bloc de la liste dans l’en-tête du fichier.
1 2 3 4
5 6 7 8
Un inconvénient de cette structure est qu’elle ne donne pas d’indication sur la quantité d’espace dis-
ponible dans les blocs. Quand on veut insérer un enregistrement de taille volumineuse, on risque d’avoir à
parcourir une partie de la liste – et donc de lire plusieurs blocs – avant de trouver celui qui dispose d’un
espace suffisant.
La seconde solution repose sur une structure séparée des blocs du fichier. Il s’agit d’un répertoire qui
donne, pour chaque page, un indicateur O/N indiquant s’il reste de l’espace, et un champ donnant le nombre
d’octets (figure 9.12). Pour trouver un bloc avec une quantité d’espace libre donnée, il suffit de parcourir
ce répertoire.
Le répertoire doit lui-même être stocké dans une ou plusieurs pages associées au fichier. Dans la mesure
où l’on n’y stocke que très peu d’informations par bloc, sa taille sera toujours considérablement moins élé-
vée que celle du fichier lui-même, et on peut considérer que le temps d’accès au répertoire est négligeable
comparé aux autres opérations.
9.3 Oracle
Le système de représentation physique d’Oracle est assez riche et repose sur une terminologie qui porte
facilement à confusion. En particulier les termes de " " représentation physique # # et " " représentation logique # #
ne sont pas employés dans le sens que nous avons adopté jusqu’à présent. Pour des raisons de clarté, nous
adaptons quand c’est nécessaire la terminologie d’Oracle pour rester cohérent avec celle que nous avons
employée précédemment.
Un système Oracle (une instance dans la documentation) stocke les données dans un ou plusieurs
fichiers. Ces fichiers sont entièrement attribués au SGBD. Ils sont divisés en blocs dont la taille – pa-
126 CHAPITRE 9. TECHNIQUES DE STOCKAGE
ramétrable – peut varier de 1K à 8K. Au sein d’un fichier des blocs consécutifs peuvent être regroupés
pour former des extensions (extent). Enfin un ensemble d’extensions permettant de stocker un des objets
physiques de la base (une table, un index) constitue un segment.
Il est possible de paramétrer, pour un ou plusieurs fichiers, le mode de stockage des données. Ce pa-
ramétrage comprend, entre autres, la taille des extensions, le nombre maximal d’extensions formant un
segment, le pourcentage d’espace libre laissé dans les blocs, etc. Ces paramétres, et les fichiers auxquels il
s’applique, portent le nom de tablespace.
Nous revenons maintenant en détail sur ces concepts.
Bloc Oracle
En-tête (adresse du bloc, type dusegment)
Tables représentées dans le bloc
Espace libre
Enregistrements
La structure d’un bloc est identique quel que soit le type d’information qui y est stocké. Elle est consti-
tuée des cinq parties suivantes (voir figure 9.13) :
– l’entête (header) contient l’adresse du bloc, et son type (données, index, etc) ;
– le répertoire des tables donne la liste des tables pour lesquelles des informations sont stockées dans
le bloc ;
– un espace libre est laissé pour faciliter l’insertion de nouveaux enregistrements, ou l’agrandissement
des enregistrements du bloc (par exemple un attribut à NULL auquel on donne une valeur par un
UPDATE).
– enfin l’espace des données contient les enregistrements.
Les trois premières parties constituent un espace de stockage qui n’est pas directement dédié aux don-
nées (ORACLE le nomme l’overhead). Cet espace « perdu » occupe environ 100 octets. Le reste permet de
stocker les données des enregistrements.
Enregistrements
Un enregistrement est une suite de données stockés, à quelques variantes près, comme décrit dans le
tableau 9.3, page 118. Par exemple les données de type CHAR(n) sont stockées dans un tableau d’octets
^
de longueur c % . Le premier octet indique la taille de la chaîne, qui doit donc être comprise entre 1 et 255.
Les c octets suivants stockent les caractères de la chaînes, complétés par des blancs si la longueur de cette
dernière est inférieure à la taille maximale. Pour les données de type VARCHAR(n) en revanche, seuls les
octets utiles pour la représentation de la chaîne sont stockés. C’est un cas où une mise à jour élargissant la
chaîne entraîne une réorganisation du bloc.
Chaque attribut est précédé de la longueur de stockage. Dans Oracle les valeurs NULL sont simple-
ment représentées par une longueur de 0. Cependant, si les c derniers attributs d’un enregistrement sont
128 CHAPITRE 9. TECHNIQUES DE STOCKAGE
NULL, ORACLE se contente de placer une marque de fin d’enregistrement, ce qui permet d’économiser de
l’espace.
Chaque enregistrement est identifié par un ROWID, comprenant trois parties :
Un enregistrement peut occuper plus d’un bloc, notamment s’il contient les attributs de type LONG.
Dans ce cas ORACLE utilise un chaînage vers un autre bloc. Un situation comparable est celle de l’agran-
dissement d’un enregistrement qui va au-delà de l’espace libre disponible. Dans ce cas ORACLE effctue
une migration : l’enregistrement est déplacé en totalité dans un autre bloc, et un pointeur est laissé dans le
bloc d’origine pour ne pas avoir à modifier l’adresse de l’enregistrement (ROWID). Cette adresse peut en
effet être utilisée par des index, et une réorganisation totale serait trop coûteuse. Migration et chaînage sont
bien entendu pénalisants pour les performances.
Extensions et segments
Une extension est un suite contiguë (au sens de l’emplacement sur le disque) de blocs. En général une
extension est affectée à un seul type de données (par exemple les enregistrements d’une table). Comme
nous l’avons vu en détail, cette contiguïté est un facteur essentiel pour l’efficacité de l’accès aux données,
puisqu’elle évite les déplacements des têtes de lecture, ainsi que le délai de rotation.
Le nombre de blocs dans une extension peut être spécifié par l’administrateur. Bien entendu des exten-
sions de tailles importante favorisent de bonnes performances, mais il existe des contreparties :
1. si une table ne contient que quelques enregistrements, il est inutile de lui allouer une extension
contenant des milliers de blocs ;
2. l’utilisation et la réorganisation de l’espace de stockage peuvent être plus difficiles pour des exten-
sions de grande taille.
Les extensions sont l’unité de stockage constituant les segments. Si on a par exemple indiqué que la
taille des extensions est de 50 blocs, un segment (de données ou d’index) consistera en c extensions de 50
blocs chacune. Il existe quatre types de segments :
1. les segments de données contiennent les enregistrements des tables, avec un segment de ce type par
table ;
2. les segments d’index contiennent les enregistrements des index ; il y a un segment par index ;
3. les segments temporaires sont utilisés pour stocker des données pendant l’exécution des requêtes
(par exemple pour les tris) ;
4. enfin les segments rollbacks contiennent les informations permettant d’effectuer une reprise sur
panne ou l’annulation d’une transaction ; il s’agit typiquement des données avant modification, dans
une transaction qui n’a pas encore été validée.
Une extension initiale est allouée à la création d’un segment. De nouvelles extensions sont allouées
dynamiquement (autrement dit, sans intervention de l’administrateur) au segment au fur et à mesure des
insertions : rien ne peut garantir qu’une nouvelle extension est contiguë avec les précédentes. En revanche
une fois qu’une extension est affectée à un segment, il faut une commande explicite de l’administrateur, ou
une destruction de la table ou de l’index, pour que cette extension redevienne libre.
Quand ORACLE doit créer une nouvelle extension et se trouve dans l’incapacité de constituer un espace
libre suffisant, une erreur survient. C’est alors à l’administrateur d’affecter un nouveau fichier à la base, ou
de réorganiser l’espace dans les fichiers existant.
9.3. ORACLE 129
Un exemple typique est la séparation des données et des index, si possible sur des disques différents, afin
d’optimiser la charge des contrôleurs de disque. Il est également possible de créer des tablespaces dédiées
aux données temporaires ce qui évite de mélanger les enregistrements des tables et ceux temporairement
créés au cours d’une opération de tri. Enfin un tablespace peut être placé en mode de lecture, les écritures
étant interdites. Toutes ces possibilités donnent beaucoup de flexibilité pour la gestion des données, aussi
bien dans un but d’améliorer les performances que pour la sécurité des accès.
Au moment de la création d’un tablespace, on indique les paramètres de stockage par défaut des tables
ou index qui seront stockés dans ce tablespace. L’expression " " par défaut # # signifie qu’il est possible, lors
de la création d’une table particulière, de donner des paramètres spécifiques à cette table, mais que les
paramètres du tablespace s’appliquent si on ne le fait pas. Les principaux paramètres de stockage sont :
La commande crée un tablespace, nommé TB1, et lui affecte un premier fichier de 50 mégaoctets. Les
paramètres de la partie DEFAULT STORAGE indiquent, dans l’ordre :
En supposant que la taille d’un bloc est 4K, on obtient une première extension de 25 blocs, une seconde
I I
de 10 blocs, une troisième de %0'/M%BW G% blocs, etc.
Le fait d’indiquer une taille maximale permet de contrôler que l’espace ne sera pas utilisé sans limite,
et sans contrôle de l’administrateur. En contrepartie, ce dernier doit être prêt à prendre des mesures pour
répondre aux demandes des utilisateurs quand des messages sont produits par ORACLE indiquant qu’une
table a atteint sa taille limite.
Voici un exemple de tablespace défini avec un paramétrage plus souple : d’une part il n’y a pas de limite
au nombre d’extensions d’une table, d’autre part le fichier est en mode " " auto-extension # # , ce qui signifie
qu’il s’étend automatiquement, par tranches de 5 mégaoctets, au fur et à mesure que les besoins en espace
augmentent. La taille du fichier est elle-même limitée à 500 mégaoctets.
Il est possible, après la création d’un tablespace, de modifier ses paramètres, étant entendu que la
modification ne s’applique pas aux tables existantes mais à celles qui vont être créées. Par exemple on peut
modifier le tablespace TB1 pour que les extensions soient de 100K, et le nombre maximal d’extensions
porté à 200.
1. On peut mettre un tablespace hors-service, soit pour effectuer une sauvegarde d’une partie de la base,
soit pour rendre cette partie de la base indisponible.
Cette commande permet en quelque sorte de traiter un tablespace comme une sous-base de données.
2. On peut mettre un tablespace en lecture seule.
3. Enfin on peut ajouter un nouveau fichier à un tablespace afin d’augmenter sa capacité de stockage.
Au moment de la création d’une base, on doit donner la taille et l’emplacement d’un premier fichier qui
sera affecté au tablespace SYSTEM. À chaque création d’un nouveau tablespace par la suite, il faudra créer
un fichier qui servira d’espace de stockage initial pour les données qui doivent y être stockées. Il faut bien
noter qu’un fichier n’appartient qu’à un seul tablespace, et que, dès le moment où ce fichier est créé, son
contenu est exlusivement géré par ORACLE, même si une partie seulement est utilisée. En d’autres termes
il ne faut pas affecter un fichier de 1 Go à un tablespace destiné seulement à contenir 100 Mo de données,
car les 900 Mo restant ne servent alors à rien.
ORACLE utilise l’espace disponible dans un fichier pour y créer de nouvelles extensions quand la taille
des données augmente, ou de nouveaux segments quand des tables ou index sont créés. Quand un fichier est
9.3. ORACLE 131
plein – ou, pour dire les choses plus précisément, quand ORACLE ne trouve pas assez d’espace disponible
pour créer un nouveau segment ou une nouvelle extension –, un message d’erreur avertit l’administrateur
qui dispose alors de plusieurs solutions :
Ces vues sont gérées sous le compte utilisateur SYS qui est réservé à l’administrateur de la base. Voici
quelques exemples de requêtes permettant d’inspecter une base. On suppose que la base contient deux
tablespace, SYSTEM avec un fichier de 50M, et TB1 avec deux fichiers dont les tailles repectives sont
100M et 200M.
La première requête affiche les principales informations sur les tablespaces.
SELECT tablespace_name "TABLESPACE",
initial_extent "INITIAL_EXT",
next_extent "NEXT_EXT",
max_extents "MAX_EXT"
FROM sys.dba_tablespaces;
Enfin on peut obtenir l’espace disponible dans chaque tablespace. Voici par exemple la requête qui
donne des informtions statistiques sur les espaces libres du tablespace SYSTEM.
COUNT(*) "PIECES",
MAX(blocks) "MAXIMUM",
MIN(blocks) "MINIMUM",
AVG(blocks) "AVERAGE",
SUM(blocks) "TOTAL"
FROM sys.dba_free_space
WHERE tablespace_name = ’SYSTEM’
GROUP BY tablespace_name, file_id;
SUM donne le nombre total de blocs libres, PIECES montre la fragmentation de l’espace libre, et
MAXIMUM donne l’espace contigu maximal. Ces informations sont utiles pour savoir s’il est possible de
créer des tables volumineuses pour lesquelles on souhaite réserver dès le départ une extension de taille
suffisante.
On indique donc que la table doit être stockée dans le tablespace TB1, et on remplace les paramètres
de stockage de ce tablespace par des paramètres spécifiques à la table Film.
Par défaut une table est organisée séquentiellement sur une ou plusieurs extensions. Les index sur la
table sont stockés dans un autre segment, et font référence aux enregistrements grâce au ROWID.
Il est également possible d’organiser sous forme d’un arbre, d’une table de hachage ou d’un regroupe-
ment cluster avec d’autres tables. Ces structures seront décrites dans le chapitre consacré à l’indexation.
133
Chapitre 10
Indexation
Sommaire
10.1 Indexation de fichiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
10.1.1 Index non-dense . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
10.1.2 Index dense . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
10.1.3 Index multi-niveaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
10.2 L’arbre-B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
10.2.1 Présentation intuitive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
10.2.2 Recherches avec un arbre-B+ . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
10.3 Hachage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
10.3.1 Principes de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
10.3.2 Hachage extensible . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
10.4 Les index bitmap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
10.5 Indexation dans Oracle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
10.5.1 Arbres B+ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
10.5.2 Arbres B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
10.5.3 Indexation de documents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
10.5.4 Tables de hachage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
10.5.5 Index bitmap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
Quand une table est volumineuse, un parcours séquentiel est une opération relativement lente et péna-
lisante pour l’exécution des requêtes, notamment dans le cas des jointures où ce parcours séquentiel doit
parfois être effectué répétitivement. La création d’un index permet d’améliorer considérablement les temps
de réponse en créant des chemins d’accès aux enregistrements beaucoup plus directs. Un index permet de
satisfaire certaines requêtes (mais pas toutes) portant sur un ou plusieurs attributs (mais pas tous). Il ne
s’agit donc jamais d’une méthode universelle qui permettrait d’améliorer indistinctement tous les types
d’accès à une table.
L’index peut exister indépendamment de l’organisation du fichier de données, ce qui permet d’en créer
plusieurs si on veut être en mesure d’optimiser plusieurs types de requêtes. En contrepartie la création
sans discernement d’un nombre important d’index peut être pénalisante pour le SGBD qui doit gérer, pour
chaque opération de mise à jour sur une table, la répércussion de cette mise à jour sur tous les index de la
table. Un choix judicieux des index, ni trop ni trop peu, est donc un des facteurs essentiels de la performance
d’un système.
Ce chapitre présente les structures d’index les plus classiques utilisées dans les systèmes relationnels.
Après un introduction présentant les principes de base des index, nous décrivons en détail une structure de
données appelée arbre-B qui est à la fois simple, très performante et propre à optimiser plusieurs types de
requêtes : recherche par clé, recherche par intervalle, et recherche avec un préfixe de la clé. Le " " B # # vient
134 CHAPITRE 10. INDEXATION
de balanced en anglais, et signifie que l’arbre est équilibré : tous les chemins partant de la racine vers une
feuille ont la même longueur. L’arbre B est utilisé dans tous les SGBD relationnels.
Une structure concurrente de l’arbre B est le hachage qui offre, dans certains cas, des performances
supérieures, mais ne couvre pas autant d’opérations. Nous verrons également dans ce chapitre des structures
d’index dédiées à des données non-traditionnelles pour lesquels l’arbre B n’est pas adapté. Ce sont les index
bitmap pour les entrepôts de données, et les index spatiaux pour les données géographiques.
Pour illustrer les techniques d’indexation d’une table nous prendrons deux exemples.
Exemple 10.1 Le premier est destiné à illustrer les structures et les algorithmes sur un tout petit ensemble
de données, celui de la table Film, avec les 16 lignes du tableau 10.1. Nous ne donnons que les deux
k
attributs titre et année qui seront utilisés pour l’indexation.
Exemple 10.2 Le deuxième exemple est destiné à montrer, avec des ordres de grandeur réalistes, l’amé-
lioration obtenue par des structures d’index, et les caractéristiques, en espace et en temps, de ces structures.
Nous supposerons que la table contient 1 000 000 films, la taille de chaque enregistrement étant de 120
octets. Pour une taille de bloc de 4 096 octets, on aura donc au mieux 34 enregistrements par bloc. Il faut
donc 29 412 blocs ( ;%0'B'2'B'2'B'EXAXCB ) occupant un peu plus de 120 Mo (120 471 552 octets, le surplus étant
imputable à l’espace perdu dans chaque bloc). C’est sur ce fichier de 120 octets que nous allons construire
k
nos index.
SELECT *
FROM Film
WHERE titre = ’Vertigo’
La clé est ici le titre du film, que rien n’empêche par ailleurs d’être également la clé primaire de la
table. En pratique, la clé primaire est un critère de recherche très utilisé.
10.1. INDEXATION DE FICHIERS 135
Outre les recherches par valeur, illustrées ci-dessus, on veut fréquemment optimiser des recherches par
intervalle. Par exemple :
SELECT *
FROM Film
WHERE annee BETWEEN 1995 AND 2002
Ici la clé de recherche est l’année du film, et l’existence d’un index basé sur le titre ne sera d’aucune
utilité. Enfin les clés peuvent être composées de plusieurs attributs, comme, par exemple, les nom et prénom
des artistes.
SELECT *
FROM Artiste
WHERE nom = ’Alfred’ AND prenom=’Hitchcock’
Pour toutes ces requêtes, en l’absence d’un index approprié, il n’existe qu’une solution possible : par-
courir séquentiellement le fichier (la table) en testant chaque enregistrement. Sur notre exemple, cela revient
à lire les 30 000 blocs du fichier, pour un coût qui peut être de l’ordre de 30 secondes si le fichier est très
mal organisé sur le disque (chaque lecture comptant alors pour environ 10 ms).
Un index permet d’éviter ce parcours séquentiel. La recherche par index d’effectue en deux étapes :
2. par accès direct au fichier en utilisant l’adresse obtenue précédemment, on obtient l’enregistrement
(ou le bloc contenant l’enregistrement, ce qui revient au même en terme de coût).
Il existe des variantes à ce schéma, notamment quand l’index est plaçant et influence l’organisation du
fichier, mais globalement nous retrouverons ces deux étapes dans la plupart des structures.
entre Metropolis et Smoke. On en déduit donc que Shining se trouve dans le même bloc que Metropolis.
Il suffit de lire ce bloc et d’y rechercher l’enregistrement. Le même algorithme s’applique aux recherches
basées sur un préfixe de la clé (par exemple tous les films dont le titre commence par ’V’).
Le coût d’une recherche dans l’index est considérablement plus réduit que celui d’une recherche dans
le fichier principal. D’une part les enregistrements dans l’index sont beaucoup plus petits que ceux du
fichier de données puisque seule la clé (et un pointeur) y figurent. D’autre part l’index ne comprend qu’un
enregistrement par bloc.
Exemple 10.3 Considérons l’exemple 10.2 de notre fichier contenant un million de films (voir page 134).
Il est constitué de 29 142 blocs. Supposons qu’un titre de films occupe 20 octets en moyenne, et l’adresse
IBJ I> I ^ J
d’un bloc 8 octets. La taille de l’index est donc %C . ' ?23GV?Q%=O <XF octets, à comparer aux 120 Mo
k
du fichier de données.
Le fichier d’index étant trié, il est bien entendu possible de recourir à une recherche par dichotomie
pour trouver l’adresse du bloc contenant un enregistrement. Une seule lecture suffit alors pour trouver
l’enregistrement lui-même.
Dans le cas d’une recherche par intervalle, l’agorithme est très semblable : on recherche dans l’index
l’adresse de l’enregistrement correspondant à a borne inférieure de l’intervalle. On accède alors au fichier
grâce à cette adresse et il suffit de partir de cet emplacement et d’effectuer un parcours séquentiel pour
obtenir tous les enregistrements cherchés. La recherche s’arrête quand on trouve un enregistrement donc la
clé est supérieure à la borne supérieure de l’intervalle.
Exemple 10.4 Supposons que l’on recherche tous les films dont le titre commence par une lettre entre ’J’
et ’P’. On procède comme suit :
1. on recherche dans l’index la plus grande valeur strictement inférieure à ’J’ : pour l’index de la fi-
gure 10.1 c’est Greystoke ;
2. on accède au bloc du fichier de données, et on y trouve le premier enregistrement avec un titre
commençant par ’J’, soit Jurassic Park ;
3. on parcourt la suite du fichier jusqu’à trouver Reservoir Dogs qui est au-delà de l’intervalle de re-
cherche, : tous les enregistrements trouvés durant ce parcours constituent le résultat de la requête.
k
10.1. INDEXATION DE FICHIERS 137
Le coût d’une recherche par intervalle peut être assimilé, si néglige la recherche dans l’index, au par-
cours de la partie du fichier qui contient le résultat, soit , où désigne le nombre d’enregistrements du
résultat, et ¡ le nombre d’enregistrements dans un bloc. Ce coût est optimal.
Un index dense est extrêmement efficace pour les opérations de recherche. Bien entendu le problème
est de maintenir l’ordre du fichier au cours des opérations d’insertions et de destructions, problème encore
compliqué par la nécessité de garder une étroite correspondance entre l’ordre du fichier de données et
l’ordre du fichier d’index. Ces difficultés expliquent que ce type d’index soit peu utilisé par les SGBD, au
profit de l’arbre-B qui offre des performances comparables pour les recherches par clé, mais se réorganise
dynamiquement.
Exemple 10.5 Considérons l’exemple 10.2 de notre fichier contenant un million de films (voir page 134).
Il faut créer une entrée d’index pour chaque film. Une année occupe 4 octets, et l’adresse d’un bloc 8 octets.
^ I
La taille de l’index est donc %0'B'2'B'2'B' .C ?23DG% 'B'2'H'B'2' octets, soit seulement dix fois moins que les
k
120 Mo du fichier de données.
Un index dense peut coexister avec un index non-dense. Comme le suggèrent les deux exemples qui
précèdent, on peut envisager de trier un fichier sur la clé primaire et de créer un index non-dense, puis
138 CHAPITRE 10. INDEXATION
d’ajouter des index dense pour les attributs qui servent fréquemment de critère de recherche. On parle alors
parfois d’index primaire et d’index secondaire, bien que ces termes soient moins précis.
Il est possible en fait de créer autant d’index denses que l’on veut puisqu’ils sont indépendants du
fichier de données. Cette remarque n’est plus vraie dans le cas d’un index non-dense puisqu’il s’appuie sur
le tri du fichier et qu’un fichier ne peut être trié que d’une seule manière.
La recherche par clé ou par préfixe avec un index dense est similaire à celle déjà présentée pour un
index non-dense. Si la clé n’est pas unique (cas des années de parution des films), il faut prendre garde
à lire dans l’index toutes les entrées correspondant au critère de recherche. Par exemple, pour rechercher
tous les films parus en 1992 dans l’index de la figure 10.2, on trouve d’abord la première occurence de
1992, pointant sur Jurasic Park, puis on lit en séquence les entrées suivantes dans l’index pour accéder
successivement à Impitoyable puis Reservoir Dogs. La recherche s’arrête quand on trouve l’entrée 1995 :
l’index étant trié, aucun film paru en 1992 ne peut être trouvé en continuant.
Notez que rien ne garantit que les films parus en 1992 sont situés dans le même bloc : on dit que l’index
est non-plaçant. Cette remarque a surtout un impact sur les recherches par intervalle, comme le montre
l’exemple suivant.
J J JX¥
Exemple 10.6 Voici l’algorithme qui recherche tous les films parus dans l’intervalle ¢£% OX'¤W% < .
1. on recherche dans l’index la première valeur comprise dans l’intervalle : pour l’index de la figure 10.2
c’est 1958 ;
2. on accède au bloc du fichier de données pour y prendre l’enregistrement Vertigo : notez que cet
enregistrement est placé dans le dernier bloc du fichier ;
3. on parcourt la suite de l’index, en accédant à chaque fois à l’enregistrement correspondant dans le
fichier de données, jusqu’à trouver une année supérieure à 1979 : on trouve successivement Psychose
(troisème bloc), Easy Rider, Annie Hall (premier bloc) et Manhattan (deuxième bloc).
k
Pour trouver 5 enregistements, on a dû accéder aux quatre blocs. Le coût d’une recherche par intervalle
est, dans le pire des cas, égale à , où désigne le nombre d’enregistrements du résultat (soit une lecture de
bloc par enregistrement). Il est intéressant de le comparer avec le coût d’une recherche par intervalle avec
un index non-dense : on a perdu le facteur de blocage obtenu par un regroupement des enregistrements dans
un bloc. Retenons également que la recherche dans l’index peut être estimée comme tout à a fait négligeable
comparée aux nombreux accès aléatoires au fichier de données pour lire les enregistrements.
Une recherche, par clé ou par intervalle, part toujours du niveau le plus élevé, et reproduit d’un niveau à
l’autre les procédures de recherches présentées précédemment. Pour une recherche par clé, le coût est égal
au nombre de niveaux de l’arbre.
Exemple 10.7 On recherche le ou les films parus en 1990. Partant du second niveau d’index, on sélectionne
la troisième entrée correspondant à la clé 1984. L’entrée suivante a en effet pour valeur 1992, et ne pointe
donc que sur des films antérieurs à cette date.
La troisième entrée mène au troisième bloc de l’index de premier niveau. On y trouve une entrée avec
k
la valeur 1990 (il pourrait y en avoir plusieurs). Il reste à accéder à l’enregistrement.
Les index multi-niveaux sont très efficaces en recherche, et ce même pour des jeux de données de très
grande taille. Le problème est, comme toujours, la difficulté de maintenir des fichiers triés sans dégradation
des performances. L’arbre-B, étudié dans la section qui suit, représente l’aboutissement des idées présentées
jusqu’ici, puisqu’à des performances équivalentes à celles des index en recherche, il ajoute des algorithmes
de réorganisation dynamique qui garantissent que la structure reste valide quelles que soient les séquences
d’insertion et suppression subies par les données.
10.2 L’arbre-B
L’arbre-B est une structure d’index qui offre un excellent compromis pour les opérations de recheche
par clé et par intervalle, ainsi que pour les mises à jour. Ces qualités expliquent qu’il soit systématiquement
utilisé par tous les SGBD, notamment pour indexer la clé primaire des tables relationnelles. Dans ce qui
suit nous supposons que le fichier des données stocke séquentiellement les enregistrements dans l’ordre de
leur création et donc indépendamment de tout ordre lexicographique ou numérique sur l’un des attributs.
Notre présentation est essentiellement consacrée à la variante de l’arbre-B dite « l’arbre-B+ ».
140 CHAPITRE 10. INDEXATION
Vertigo 1958 Brazil 1984 Twin Peaks 1990 Underground 1995 Easy Rider 1969 Psychose 1960
Données
Greystoke 1984 Shining 1980 Annie Hall 1977 Jurassic Park 1992 Metropolis 1926
Manhattan 1979 Reservoir Dogs 1992 Impitoyable 1992 Casablanca 1942 Smoke 1995
1. dans le bloc situé à gauche de Easy Rider, on ne trouve que des titres inférieurs ou égaux, selon
l’ordre lexicographique, à Easy Rider ;
2. dans le bloc situé entre Easy Rider et Manhattan, on ne trouve que des titres strictement supérieurs à
Easy Rider et inférieurs ou égaux à Manhattan ;
3. et ainsi de suite : le dernier bloc contient des titres strictement supérieurs à Shining.
Le dernier niveau (le second dans notre exemple) est celui des feuilles de l’arbre. Il constitue un index
dense alors que les niveaux supérieurs sont non-denses. À ce niveau on associe à chaque titre l’adresse du
film dans le fichier des données. Étant donné cette adresse, on peut accéder directement au film sans avoir
besoin d’effectuer un parcours séquentiel sur le fichier de données. Dans la figure 10.4, nous ne montrons
que quelques-uns de ces chaînages (index, données).
Il existe un deuxième chaînage dans un arbre-B+ : les feuilles sont liées entre elles en suivant l’ordre
lexicographique des valeurs qu’elles contiennent. Ce second chaînage – représenté en pointillés dans la
figure 10.4 – permet de répondre aux recherches par intervalle.
L’attribut titre est la clé unique de Film. Il n’y a donc qu’une seule adresse associée à chaque film.
On peut créer d’autre index sur le même fichier de données. Si ces autres index ne sont pas construits sur
des attributs formant une clé unique, on aura plusieurs adresses associés à une même valeur.
La figure 10.5 montre un index construit sur l’année de parution des films. Cet index est naturellement
non-unique puisque plusieurs films paraissent la même année. On constate par exemple que la valeur 1995
10.2. L’ARBRE-B 141
est associée à deux films, Smoke et Underground. La valeur 1995 est associé à trois films (non illustré
sur la figure), etc. Ce deuxième index permet d’optimiser des requêtes utilisant l’année comme critère de
recherche.
Quand un arbre-B+ est créé sur une table, soit directement par la commande CREATE INDEX, soit in-
directement avec l’option PRIMARY KEY, un SGBD relationnel effectue automatiquement les opérations
nécessaires au maintien de la structure : insertions, destructions, mises à jour. Quand on insère un film,
il y a donc également insertion d’une nouvelle valeur dans l’index des titres et dans l’index des années.
Ces opérations peuvent être assez coûteuses, et la création d’un index, si elle optimise des opérations de
recherche, est en contrepartie pénalisante pour les mises à jour.
Vertigo 1958 Brazil 1984 Twin Peaks 1990 Underground 1995 Easy Rider 1969 Psychose 1960
Données
Greystoke 1984 Shining 1980 Annie Hall 1977 Jurassic Park 1992 Metropolis 1926
Manhattan 1979 Reservoir Dogs 1992 Impitoyable 1992 Casablanca 1942 Smoke 1995
SELECT *
FROM Film
WHERE titre = ’Impitoyable’
En l’absence d’index, la seule solution est de parcourir le fichier. Dans l’exemple de la figure 10.4, cela
implique de lire inutilement 13 films avant de trouver Impitoyable qui est en quatorzième position. L’index
permet de trouver l’enregistrement beaucoup plus rapidement.
– on lit la racine de l’arbre : Impitoyable étant situé dans l’ordre lexicographique entre Easy Rider et
Manhattan, on doit suivre le chaînage situé entre ces deux titres ;
– on lit le bloc feuille dans lequel on trouve le titre Impitoyable associé à l’adresse de l’enregistrement
dans le fichier des données ;
Donc trois lectures sont suffisantes. Plus généralement, le nombre d’accès disques nécessaires pour
une recherche par clé est égal au nombre de niveaux de l’arbre, plus une lecture pour accéder au fichier
de données. Dans des conditions réalistes, le nombre de niveaux d’un index est très faible, même pour de
grands ensembles de données. Cette propriété est illustrée par l’exemple suivant.
Exemple 10.8 Reprenons l’exemple 10.2 de notre fichier contenant un million de films. Une entrée d’index ¶
occupe 28 octets. On place donc ¦z§|¨«|©¬P ª ¯®±°0²2³ entrées (au maximum) dans un bloc. Il faut ´0µ;¨¨|¨|¨¨|¨ ®
³D·¸X¹ blocs pour le premier niveau de l’arbre-B+. µ;§ª
¬|Le
º deuxième niveau comprend 6 850 entrées, une pour chaque bloc du premier niveau. Il faut donc
¦ ª ¨ T®²9» blocs. Finalement, un troisième niveau, constitué d’un bloc avec 47 entrées suffit pour com-
µ §ª
pléter l’arbre-B+. ¼
Quatre accès disques (trois pour l’index, un pour l’enregistrement) suffisent pour une recherche par clé,
alors qu’il faudrait parcourir les 30 000 blocs d’un fichier en l’absence d’index.
Le gain est d’autant plus spectaculaire que le nombre d’enregistrements est élevé. Voici une petite
extrapolation montrant le nombre de films indexés en fonction du nombre de niveaux dans l’arbre 1 .
1. avec un niveau d’index (la racine seulement) on peut donc référencer 146 films ;
«
2. avec deux niveaux on indexe 146 blocs de 146 films chacun, soit °²2³ ®¾½Q°¿Q°(³ films ;
3. avec trois niveaux on indexe °²³BÀ_®V¿H°B°(½_°0¿B³ films ;
4. enfin avec quatre niveaux on index plus de 450 millions de films.
Il y a donc une croissance très rapide – exponentielle – du nombre de films indexés en fonction du
nombre de niveaux et, réciproquement, une croissance très faible – logarithmique – du nombre de niveaux
en fonction du nombre d’enregistrements. Le coût d’une recherche par clé étant proportionnel au nombre
de niveaux et pas au nombre d’enregistrements, l’indexation permet d’améliorer les temps de recherche de
manière vraiment considérable.
L’efficacité d’un arbre-B+ dépend entre autres de la taille de la clé : plus celle-ci est petite, et plus
l’index sera petit et efficace.¶
Si on indexait les films avec une clé numérique sur 4 octets (un entier), on
pourrait référencer ´ §¨©¬ ª ®¿B²¤° films dans un bloc, et un index avec trois niveaux permettrait d’indexer
§Á
¿X²a° À ®±¿BÂ>³2¸*°·2½*° films ! Du point de vue des performances, le choix d’une chaîne de caractères assez
longue comme clé des enregistrements est donc assez défavorable.
SELECT *
FROM Film
WHERE annee BETWEEN 1960 AND 1975
On peut utiliser l’index sur les clés pour répondre à cette requête. Tout d’abord on fait une recherche
par clé pour l’année 1960. On accède alors à la seconde feuille (voir figure 10.5) dans laquelle on trouve la
valeur 1960 associée à l’adresse du film correspondant (Psychose) dans le fichier des données.
On parcourt ensuite les feuilles en suivant le chaînage indiqué en pointillés dans la figure 10.5. On
accède ainsi successivement aux valeurs 1969, 1977 (dans la troisième feuille) puis 1979. Arrivé à ce
point, on sait que toutes les valeurs suivantes seront supérieures à 1979 et qu’il n’existe donc pas de film
paru en 1975 dans la base de données. Toutes les adresses des films constituant le résultat de la requête ont
été récupérées : il reste à lire les enregistrements dans le fichier des données.
1. Pour être plus précis le calcul qui suit devrait tenir compte du fait qu’un bloc n’est pas toujours plein.
10.3. HACHAGE 143
C’est ici que les choses se gâtent : jusqu’à présent chaque lecture d’un bloc de l’index ramenait un
ensemble d’entrées pertinentes pour la recherche. Autrement dit on bénéficiait du « bon » regroupement
des entrées : les clés de valeurs proches – donc susceptibles d’être recherchées ensembles – sont proches
dans la structure. Dès qu’on accède au fichier de données ce n’est plus vrai puisque ce fichier n’est pas
organisé de manière à regrouper les enregistrements ayant des valeurs de clé proches.
Dans le pire des cas, comme nous l’avons souligné déjà pour les index simples, il peut y avoir une
lecture de bloc pour chaque lecture d’un enregistrement. L’accès aux données est alors de loin la partie
la plus pénalisante de la recherche par intervalle, tandis que le parcours de l’arbre-B+ peut être considéré
comme néligeable.
SELECT *
FROM Film
WHERE titre LIKE ’M%’
On veut donc tous les films dont le titre commence par ’M’. Cela revient à faire une recherche par
intervalle sur toutes les valeurs comprises, selon l’ordre lexicographique, entre le ’M’ (compris) et le ’N’
(exclus). Avec l’index, l’opération consiste à effectuer une recherche par clé avec la lettre ’M’, qui mène
à la seconde feuille (figure 10.4) dans laquelle on trouve le film Manhattan. En suivant le chaînage des
feuilles on trouve le film Metropolis, puis Psychose qui indique que la recherche est terminée.
Le principe est généralisable à toute recherche qui peut s’appuyer sur la relation d’ordre qui est à la
base de la construction d’un arbre-B+. En revanche une recherche sur un suffixe de la clé ( Ã Ã tous les films
terminant par ’S’ Ä Ä ) ou en appliquant une fonction ne pourra pas tirer parti de l’index et sera exécutée par
un parcours séquentiel. C’est le cas par exemple de la requête suivante :
SELECT *
FROM Film
WHERE titre LIKE ’%e’
Ici on cherche tous les films dont le titre se finit par ’e’. Ce critère n’est pas compatible avec la relation
d’ordre qui est à la base de la construction de l’arbre, et donc des recherches qu’il supporte.
Le temps d’exécution d’une requête avec index peut s’avérer sans commune mesure avec celui d’une
recherche sans index, et il est donc très important d’être conscient des situations où le SGBD pourra effec-
tuer une recherche par l’index. Quand il y a un doute, on peut demander des informations sur la manière
dont la requête est exécutée (le à à plan d’exécution Ä Ä ) avec les outils de type « EXPLAIN ».
10.3 Hachage
Les tables de hachage sont des structures très couramment utilisées en mémoire centrale pour organiser
des ensembles et fournir un accès peformant à ses éléments. Nous commençons par rappeler les principes
du hachage avant d’étudier les spécificités apportées par le stockage en mémoire secondaire.
1. le résultat de la fonction, pour n’importe quelle chaîne de caractères, doit être un adresse de bloc,
soit pour notre exemple un entier compris entre 0 et 4 ;
2. la distribution des résultats de la fonction doit être uniforme sur l’intervalle É ¹¤Ê²XË ; en d’autres termes
les probabilités un des 5 chiffres pour une chaîne de caractère quelconque doivent être égales.
Si le premier critère est relativement facile à satisfaire, le second soulève quelques problèmes car l’en-
semble des chaînes de caractères auxquelles on applique une fonction de hachage possède souvent des
propriétés statistiques spécifiques. Dans notre exemple, l’ensemble des titres de film commencera souvent
par « Le » ou « La » ce qui risque de perturber la bonne distribution du résultat si on ne tient pas compte de
ce facteur.
0
Brazil 1984
1
Vertigo 1958
2 Greystoke 1984
3
4
Répertoire
Manhattan 1979
Metropolis 1926
Impitoyable 1992
Casablanca 1942
Shining 1980
Reservoir Dogs 1992
Smoke 1995
Nous allons utiliser un principe simple pour notre exemple, en considérant la première lettre du titre,
et en lui affectant son rang dans l’alphabet. Donc Ì vaudra 1, Í vaudra ½ , Î vaudra 8, etc. Ensuite, pour se
ramener à une valeur entre 0 et 4, on prendra simplement le reste de la division du rang de la lettre par 5
(« modulo 5 »). En résumé la fonction Î est définie par :
La figure 10.6 montre la table de hachage obtenue avec cette fonction. Tous les films commençant par
Ì , Æ , Ù , Ú , Û et Ü sont affectés au bloc 1 ce qui donne, pour notre ensemble de films, Annie Hall, Psychose
10.3. HACHAGE 145
et Underground. les lettres Í , Ô , Ý , Þ et ß sont affectées au bloc 2 et ainsi de suite. Notez que la lettre Ò a
pour rang 5 et se trouve donc affectée au bloc 0.
La figure 10.6 présente, outre les cinq blocs stockant des films, un répertoire à cinq entrées permettant
d’associer une valeur entre 0 et 4 à l’adresse d’un bloc sur le disque. Ce répertoire fournit une indirection
entre l’identification « logique » du bloc et son emplacement physique, selon un mécanisme déjà rencontré
dans la partie du chapitre 9 consacrée aux techniques d’adressage de blocs (voir section 9.2.2, page 119).
On peut raisonnablement supposer que sa taille est faible et qu’il peut donc résider en mémoire principale.
On est assuré avec cette fonction d’obtenir toujours un chiffre entre 0 et 4, mais en revanche la distribu-
tion risque de ne pas être uniforme : si, comme on peut s’y attendre, beaucoup de titres commencent par la
lettre Ý , le bloc 2 risque d’être surchargé. et l’espace initialement prévu s’avèrera insuffisant. En pratique,
on utilise un calcul beaucoup moins sensible à ce genre de biais : on prend par exemple les 4 ou 8 premiers
caractères de la chaînes, on traite ces caractères commes des entiers dont on effectue la somme, et on définit
la fonction sur le résultat de cette somme.
Mises à jour
Si le hachage peut offrir des performances sans équivalent pour les recherches par clé, il est – du moins
dans la version simple que nous présentons pour l’instant – mal adapté aux mises à jour. Prenons tout
d’abord le cas des insertions : comme on a évalué au départ la taille de la table pour déterminer le nombre
de blocs nécessaire, cet esapec initial risque de ne plus être suffisant quand des insertions conduisent à
dépasser la taille estimée initialement. La seule solution est alors de chaîner de nouveaux blocs.
Cette situation est illustrée dans la figure 10.7. On a inséré un nouveau film, Citizen Kane. La valeur
donnée par la fonction de hachage est 3, rang de la lettre Å dans l’aplhabet, mais le bloc 3 est déjà plein.
0
Brazil 1984
1
Vertigo 1958
2 Greystoke 1984
3
4
Répertoire
Manhattan 1979 Citizen Kane 1941
Metropolis 1926
Impitoyable 1992
Casablanca 1942
Shining 1980
Reservoir Dogs 1992
Smoke 1995
Il est impératif pourtant de stocker le film dans l’espace associé à la valeur 3 car c’est là que les
recherches iront s’effectuer. On doit alors chaîner un nouveau bloc au bloc 3 et y stocker le nouveau
film. À une entrée dans la table, correspondant à l’adresse logique 3, sont associés maintenant deux blocs
physiques, avec une dégradation potentielle des performances puisqu’il faudra, lors d’une recherche, suivre
le chaînage et inspecter tous les enregistrements pour lesquels la fonction de hachage donne la valeur 3.
Dans le pire des cas, une fonction de hachage mal conçue affecte tous les enregistrements à la même
adresse, et la structure dégénère vers un simple fichier séquentiel. Ce peut être le cas, avec notre fonction
basée sur la première lettre du titre, pour tous les films dont le titre commence par Ý . Autrement dit, ce type
de hachage n’est pas dynamique et ne permet pas, d’une part d’évoluer parallèlement à la croissance ou
décroissance des données, d’autre part de s’adapter aux déviations statistiques par rapport à la normale.
En résumé, les avantages et inconvénients du hachage statique, comparé à l’arbre-B, sont les suivantes :
– Avantages : (1) recherche par accès direct, en temps constant ; (2) n’occupe pas d’espace disque.
Il n’est pas inutile de rappeler qu’en pratique la hauteur d’un arbre-B est de l’ordre de 2 ou 3 niveaux,
ce qui relativise l’avantage du hachage. Une recherche avec le hachage demande une lecture, et 2 ou 3 avec
l’arbre B, ce qui n’est pas vraiment significatif. Cette considération explique que l’arbre-B, plus généraliste
et presque aussi efficace, soit employé par défaut pour l’indexation dans tous les SGBD relationnels.
10.3. HACHAGE 147
titre Î (titre)
Vertigo 01110010
Brazil 10100101
Twin Peaks 11001011
Underground 01001001
Easy Rider 00100110
Psychose 01110011
Greystoke 10111001
Shining 11010011
Enfin signalons que le hachage est une structure plaçante, et qu’on ne peut donc créer qu’une seule
table de hachage pour un ensemble de données, les autres index étant obligatoirement des arbres B+.
Nous présentons dans ce qui suit des techniques plus avancées de hachage dit dynamique qui permettent
d’obtenir une structure plus évolutive. La caractéristique comune de ces méthodes est d’adapter le nombre
d’entrées dans la table de hachage de manière à ce que le nombre de blocs corresponde approximativement
à la taille nécessaire pour stocker l’ensemble des enregistrements. On doit se retrouver alors dans une
situation où il n’y a qu’un bloc par entrée en moyenne, ce qui garantit qu’on peut toujours accéder aux
enregistrements avec une seule lecture.
Vertigo
Easy Rider
Underground
0
1
Brazil
Twin Peaks
Supposons, pour la clarté de l’exposé, que l’on ne puisse placer que 3 enregistrements dans un bloc.
Alors l’insertion de Psychose, avec pour valeur de hachage 01110011, entraine le débordement du bloc
148 CHAPITRE 10. INDEXATION
associé à l’entrée 0.
On va alors doubler la taille du« répertoire pour la faire passer à quatre entrées, avec pour valeurs res-
pectives 00, 01, 10, 11, soit les ½ combinaisons possibles de 0 et de 1 sur deux bits. Ce doublement de
taille du répertoire entraine la réorganisation suivante (figure 10.9) :
Easy Rider
00 Vertigo
01 Underground
10 Psychose
11
Brazil
Twin Peaks
1. les films de l’ancienne entrée 0 sont répartis sur les entrées 00 et 01 en fonction de la valeur de leurs
deux premiers bits : Easy Rider dont la valeur de hachage commence par 00 est placé dans le premier
bloc, tandis que Vertigo, Underground et Psychose, dont les valeurs de hachage commencent par 01,
sont placées dans le second bloc.
2. les films de l’ancienne entrée 1 n’ont pas de raison d’être répartis dans deux blocs puisqu’il n’y a pas
eu de débordement pour cette valeur : on va donc associer le même bloc aux deux entrées 10 et 11.
Maintenant on insère Greystoke (valeur 10111001) et Shining (valeur) 11010011. Tous deux com-
mencent par 10 et doivent donc être placés dans le troisième bloc qui déborde alors. Ici il n’est cependant
pas nécessaire de doubler le répertoire puisqu’on est dans une situation où plusieurs entrées de ce répertoire
pointent sur le même bloc.
On va donc allouer un nouveau bloc à la structure, et l’associer à l’entrée 11, l’ancien bloc restant
associé à la seule entrée 10. Les films sont répartis dans les deux blocs, Brazil et Greystoke avec l’entrée
10, Twin Peaks et Shining avec l’entrée 11 (figure 10.10.
Easy Rider
00 Vertigo
01 Underground
10 Psychose
11
Brazil
Greystoke
Twin Peaks
Shining
Quand on recherche les lignes avec la valeur ß , il suffit donc de prendre le bitmap associé à ß , de
chercher tous les bits à 1, et d’accéder les enregistrements correspondant. Un index bitmap est très efficace
si le nombre de valeurs possible pour un attribut est faible.
Exemple 10.9 Reprenons l’exemple de nos 16 films, et créons un index sur le genre (voir le table 10.3).
L’utilisation d’un arbre-B ne donnera pas de bons résultats car l’attribut est trop peu sélectif (autrement dit
une partie importante de la table peut être sélectionnée quand on effectue une recherche par valeur).
En revanche un index bitmapest tout à fait approprié puisque le genre fait partie d’un ensemble énu-
méré avec relativement peu de valeurs. Voici par exemple le bitmap pour les valeurs « Drame », « Science-
150 CHAPITRE 10. INDEXATION
Un index bitmap est très petite taille comparé à un arbre-B construit sur le même attribut. Il est donc
très utile dans des applications de type « Entrepôt de données » gérant de gros volumes, et classant les
informations par des attributs catégoriels définis sur de petits domaines de valeur (comme, dans notre
exemple, le genre d’un film). Certains requêtes peuvent alors être exécutées très efficacement, parfois sans
même recourir à la table. Prenons l’exemple suivant : « Combien y a-t-il de film dont le genre est Drame
ou Comédie ? ».
SELECT COUNT(*)
FROM Film
WHERE genre IN (’Drame’, ’Comédie’)
Pour répondre à cette requête, il suffit de compter le nombre de 1 dans les bitmap associés à ces deux
valeurs !
10.5.1 Arbres B+
La principale structure d’index utilisée par Oracle est l’arbre B+, ce qui s’explique par les bonnes
performances de cet index dans la plupart des situations (recherche, recherches par préfixe, mises à jour).
Par défaut un arbre B+ est créé la clé primaire de chaque table, ce qui offre un double avantage :
1. l’index permet d’optimiser les jointures, comme nous le verrons plus tard‘ ;
2. au moment d’une insertion, l’index permet de vérifier très rapidement que la nouvelle clé n’existe
pas déjà.
Oracle maintient automatiquement l’arbre B+ au cours des insertions, suppressions et mises à jour
affectant la table, et ce de manière transparente pour l’utilisateur. Ce dernier, s’il effectue des recherches
par des attributs qui ne font pas partie de la clé, peut optimiser ses recherches en créant un nouvel index avec
la commande CREATE INDEX. Par exemple on peut créer un index sur les nom et prénom des artistes :
CREATE UNIQUE INDEX idxNomArtiste ON Artiste (nom, prenom)
Cette commande ne fait pas partie de la norme SQL ANSI mais on la retrouve à peu de choses
près dans tous les SGBD relationnels. Notons que Oracle crée le même index si on spécifie une clause
UNIQUE(nom, prenom) dans le CREATE TABLE.
La clause UNIQUE est optionnelle. On peut créer un index non-unique sur des attributs susceptibles
de contenir la même valeur pour deux tables différentes. Voici un exemple permettant d’optimiser les
recherches portant sur le genre d’un film.
CREATE INDEX idxGenre ON Film (genre)
10.5. INDEXATION DANS ORACLE 151
Attention cependant à la sélectivité des recherches avec un index non-unique. Si, avec une valeur, on en
arrive à sélectionner une partie importante de la table, l’utilisation d’un index n’apportera pas grand chose
et risque même de dégrader les performances. Il est tout à fait déconseillé par exemple de créer un index
sur une valeur booléenne car une recherche séquentielle sur le fichier sera beaucoup plus efficace.
L’arbre B+ est placé dans le segment d’index associé à la table. On peut indiquer dans la clause CREATE
INDEX le tablespace où ce segment doit être stocké, et paramétrer alors ce tablespace pour optimiser le
stockage des blocs d’index.
Au moment de la création d’un index, Oracle commence par trier la table dans un segment temporaire,
puis construit l’arbre B+ de bas en haut afin d’obtenir un remplissage des blocs conforme au paramètre
PCTFREE du tablespace. Au niveau des feuilles de l’arbre B+, on trouve, pour chaque valeur, le (cas de
l’index unique) ou les (cas de l’index non-unique) ROWID des enregistrements associés à cette valeur.
10.5.2 Arbres B
Rappelons qu’un arbre-B consiste à créer une structure d’index et à stocker les enregistrements dans
les nœuds de l’index. Cette structure est plaçante, et il ne peut donc y avoir qu’un seul arbre-B pour une
table.
Oracle nomme index-organized tables la structure d’arbre-B. Elle est toujours construite sur la clé pri-
maire d’une table, des index secondaires (en arbre-B+ cette fois) pouvant toujours être ajoutés sur d’autres
colonnes.
À la différence de ce qui se passe quand la table est stockée dans une structure séquentielle, un enregis-
trement n’est pas identifié par son ROWID mais par sa clé primaire. En effet les insertions ou destructions
entraînent des réorganisations de l’index qui amènent à déplacer les enregistrements. Les pointeurs dans
les index secondaires, au niveau des feuilles, sont donc les valeurs de clé primaire des enregistrements.
Étant donné un clé primaire obtenue par traversée d’un index secondaire, l’accès se fait par recherche dans
l’arbre-B principal, et non plus par accès direct avec le ROWID.
Une table organisée en arbre-B fournit un accès plus rapide pour les recherches basées sur la valeur
de clé, ou sur un intervalle de valeur. La traversée d’index fournit en effet directement les enregistrements,
alors qu’elle ne produit qu’une liste de ROWID dans le cas d’un arbre-B+. Un autre avantage, moins sou-
vent utile, est que les enregistrements sont obtenus triés sur la clé primaire, ce qui peut faciliter certaines
jointures, ou les requêtes comportant la clause ORDER BY.
En contrepartie, Oracle met en garde contre l’utilisation de cette structure quand les enregistrements
sont de taille importante car on ne peut alors mettre que peu d’enregistrements dans un nœud de l’arbre, ce
qui risque de faire perdre à l’index une partie de son efficacité.
Pour créer une table en arbre-B, il faut indiquer la clause ORGANIZATION INDEXED au moment du
CREATE TABLE. Voici l’exemple pour la table Internaute, la clé primaire étant l’email.
Il est possible de créer une table stockée séquentiellement, et de l’indexer sur le mot-clé. L’inconvénient
est que c’est aors une arbre-B+ qui est créé, ce qui implique un accès supplémentaire par ROWID pour
chaque recherche, et la duplication des clés dans l’index et dans la table. La structuration de cette table par
un arbre-B est alors recommandée car elle résout ces deux problèmes.
Remarque : Il existe dans Oracle un autre type de regroupement dit indexed cluster, qui n’est pas présenté
ici. Elle consiste à grouper dans des blocs les lignes de plusieurs tables en fonction de leurs clés.
La création d’une table de hachage s’effectue en deux étapes. On définit tout d’abord les paramètres de
l’espace de hachage avec la commande CREATE CLUSTER, puis on indique ce cluster au moment de la
création de la table. Voici un exemple pour la table Film.
La commande CREATE CLUSTER, combinée avec la clause HASHKEYS, crée une table de hachage
définie par paramètres suivants :
1. la clé de hachage est spécifiée dans l’exemple comme étant un id de type INTEGER :
Oracle utilise une fonction de hachage appropriée pour chaque type d’attribut (ou combinaison de type).
Il est cependant possible pour l’administrateur de donner sa propre fonction, à ses risques et périls.
Dans l’exemple qui précède, le paramètre SIZE est égal à 500. L’administrateur estime donc que la
somme des tailles des enregistrements qui seront associés à une même entrée est d’environ 500 octets.
Pour une taille de bloc de 4 096 octets, Oracle affectera alors §|º ¨|©|ª ¦ ®á² entrées de la table de hachage à
un même bloc. Cela étant, si une entrée ocupe à elle seule tout le¨¨ bloc, les autres seront insérées dans un
bloc de débordement.
Pour structurer une table en hachage, on l’affecte simplement à un cluster existant :
Chapitre 11
Évaluation de requêtes
Sommaire
11.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
11.2 Evaluation d’une requête . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
11.2.1 Evaluation de requêtes efficace . . . . . . . . . . . . . . . . . . . . . . . . . . 157
11.2.2 Mesure du coût d’une opération . . . . . . . . . . . . . . . . . . . . . . . . . . 157
11.2.3 Techniques d’accès et prétraitement . . . . . . . . . . . . . . . . . . . . . . . . 158
11.2.4 Le Tri externe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
11.2.5 La Sélection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
11.2.6 Projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
11.2.7 Jointure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
11.3 Compilation d’une requête et optimisation . . . . . . . . . . . . . . . . . . . . . . . 173
11.3.1 Traduction de la requête en un plan d’exécution logique . . . . . . . . . . . . . 173
11.3.2 Lois algébriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
11.3.3 Amélioration d’un plan d’exécution logique . . . . . . . . . . . . . . . . . . . 175
11.3.4 Estimation des coûts et choix d’un plan d’exécution physique . . . . . . . . . . 178
11.3.5 Exemple d’estimation du coût d’une opération . . . . . . . . . . . . . . . . . . 182
11.3.6 Choix d’un opérateur pour la sélection . . . . . . . . . . . . . . . . . . . . . . 182
11.3.7 Stratégies pour le choix d’un opérateur pour la jointure . . . . . . . . . . . . . . 183
11.3.8 Pipelinage ou matérialisation des résultats intermédiaires . . . . . . . . . . . . 183
11.1 Introduction
L’objectif de ce chapitre est de montrer comment le processeur de requêtes répond à une requête SQL.
On s’appuie sur les techniques développées dans les deux chapitres précédents et on suppose le lecteur
familier avec SQL et l’algèbre relationnelle. Le processeur de requête est décomposé en deux couches. La
première appelée compilation d’une requête traduit une requête SQL en un plan d’exécution physique. La
deuxième couche appelée évaluation d’une requête exécute ce plan d’exécution (figure 11.1). La compila-
tion d’une requete (section 11.3 ) consiste en trois étapes:
1. Analyse de la requête: le résultat est un plan d’exécution logique initial, représentation algébrique de
la requête. L’interprétation de ce plan est une séquence d’opérations de l’algèbre relationnelle.
2. Réécriture de la requête: le plan initial est transformé en un plan équivalent grâce à des règles ou lois
algébriques, plan qui est censé être plus efficace que le plan initial.
156 CHAPITRE 11. ÉVALUATION DE REQUÊTES
3. Génération d’un plan d’exécution physique: on sélectionne des algorithmes pour implanter chacune
des opérations algébriques du plan logique et un ordre d’exécution. Le choix du meilleur plan dépend
des opérations physiques implantant les divers opérateurs de l’algèbre, disponibles dans le processeur
de requêtes. Il dépend également des chemins d’accès aux fichiers représentant les relations dispo-
nibles, c’est-à-dire de l’existence d’index ou de tables de hachage. Enfin il dépend aussi des données
statistiques enregistrées ou estimées pour chaque relation (nombre de nuplets, de page d’une rela-
tion, sélectivité d’un attribut dans une relation, etc.). Le plan d’opérations physiques est également
représenté sous forme d’arbre. Le plan comprend des détails tels que comment se fait l’accès à un
fichier et si et quand une relation doit être triée.
Requete SQL
Traduction
algebrique
Plan d’execution logique
Optimisation
Plan d’execution physique
Evaluation
requete
Les informations telles que l’existence et la spécification d’index sur une table et les données statis-
tiques enregistrées sont stockées dans le catalogue de la base. Celui-ci est également représenté sous forme
de relations accédées et gérées par le sytème. Le catalogue est également appelé schéma physique. On dit
qu’il contient des méta-données.
Les étapes 2 et 3 forment ce qu’on appelle l’optimisation d’une requête. Bien que nous distinguions ces
deux étapes pour pédagogiquement mettre en évidence les différents types d’optimisation, il n’est pas clair
que ces étapes soient séparées dans la sous couche optimisation d’un processeur de requête du commerce.
Ces différentes étapes seront étudiées dans la section 11.3. Avant de traiter la compilation d’une requête,
on étudie en détail les différents algorithmes pour implanter les opérateurs de l’algèbre relationnelle.
la sélection, la projection et la jointure. L’implantation des autres opérations de l’algèbre relationnelle uti-
lise des techniques analogues, mais peut aussi utiliser des variantes plus efficaces.
On étudiera successivement, (1) les algorithmes pour les opérations unaires, c’est-à-dire la sélection et
la projection et (2) les algorithmes de jointure. On verra pour chaque algorithme, l’impact de la place en
mémoire centrale sur l’efficacité de l’algorithme.
Avant de démarrer l’étude des algorithmes pour la sélection, la projection et la jointure, il est nécessaire
de rappeler ce qu’est une évaluation de requête performante, nos critères d’efficacité des algorithmes, de
lister les techniques simples que partagent tous ces algorithmes et enfin de donner l’algorithme de tri.
d’être réutilisées ultérieurement. Certains systèmes implantent un mécanisme simple basé sur le concepts
suivants:
– page statique: la page reste en mémoire jusqu’à ce que le processeur de requêtes demande au ges-
tionnaire de mémoire de libérer la page.
– page volatile: la page est à la disposition du gestionnaire de mémoire.
Par conséquent l’unité d’entrée/sortie d’un SGBD (un bloc ou page) est souvent un multiple de celle du
gestionnaire de fichier: la taille d’un tampon en mémoire est en général un multiple de la taille d’un bloc
(ou page) physique.
1. Découpage de la table en partitions telles que chaque partition tienne en mémoire centrale et tri de
chaque partition en mémoire. On utilise en général l’algorithme de Quicksort.
Phase de tri
Supposons que nous disposons pour faire le tri de â tampons en mémoire. La relation est lue séquen-
tiellement, â blocs par â blocs. Lorsque les â tampons ont été remplis par â blocs de la table, les
nuplets de ces â tampons ¶
sont triés: ils forment alors une partition qui est écrite sur disque. A l’issue de
cette phase on a ´ã ç â partitions triées, où ã est le nombre de blocs de la relation.
Phase de fusion
La phase de fusion consiste à récursivement fusionner les partitions. A chaque étape on obtient des
partitions triées plus grosses jusqu’à ce qu’ on obtienne la relation tout entière.
Commençons par regarder comment on fusionne en mémoire centrale deux listes triées à et ã . On a
besoin de trois tampons. Dans les deux premiers, les deux listes à trier sont stockées. Le troisième tampon
sert pour le résultat c’est-à-dire la liste résultante triée. L’algorithme est donné ci-dessous:
a= premier élément de A;
b= premier élément de B;
tant qu’il reste un élément dans A ou B {
si a avant b {
si tampon sortie T plein {
vider T
}
ecrire a dans T
a= élément suivant dans A
}
sinon {
si tampon sortie T plein {
vider
}
ecrire b dans T
b= élément suivant dans B
}
}
Algorithme fus: Fusion en mémoire de deux listes triées
Par convention, lorsque tous les éléments de à ( ã ) ont été lus, l’élément suivant est égal à eof qui est
“après” tous les éléments de ã ( à ).
2. Ce type d’algorithmes a deux phases. Dans la première phase on décompose le problème récursivement en sous problèmes
jusqu’à ce que le sous-problème peut être résolu de façon simple. La deuxième phase consiste à fusionner récursivement les solutions.
160 CHAPITRE 11. ÉVALUATION DE REQUÊTES
Remarquons que:
– L’algorithme fus se généralise facilement au cas de â >3 tampons, où on fusionne en même temps
âìë ° listes
– Si on fusionne âìë ° listes de taille 1 page chacune, la liste résultante a une taille de âíë ° pages.
¶
La première étape de la phase de fusion de la relation consiste à fusionner les ´ã ç â partitions triées
¶
obtenues après la phase de tri, âíë ° par âíë ° . On obtient ´ã ç Ç\âîÇïâìë ° ÈÈ partitions triées, chacune
(sauf la dernière qui est plus petite) ayant pour taille âñðÇ\âìë ° È blocs. Pour ce faire, on commence par
lire le premier bloc des âòë ° premières partitions dans les âòë ° premiers blocs, on applique l’algorithme
fus. Les nuplets triés sont stockés dans une nouvelle partition sur disque. On continue avec les âóë ° blocs
suivants de chaque partition, jusqu’à ce que les âôë ° partitions initiales aient été entièrement lues et
triées 3 . On a alors sur disque une nouvelle partition de taille âôðõÇ\âöë ° È . On répète le processus avec
les âìë ° partitions suivantes, etc.
La première phase de la fusion est résumée par l’algorithme ci-dessous en supposant â ®¿ et que la
table R est représentée par un ensemble ÷ de fichiers, un par partition triée. Le résultat est un ensemble P’
de partitions.
La deuxième étape consiste à recommencer le même processus mais avec âøë ° fois moins de partitions
chacune étant âíë ° fois plus grande.
La figure 11.2 résume la phase de fusion. La phase de fusion peut être représentée par un arbre, chaque
noeud (agrandi à droite) correspondant à une fusion de âìë ° partitions.
La figure 11.3 résume l’algorithme de tri-fusion sur un ensemble de films qu’on trie sur le nom du film.
La partie gauche est un ensemble de 12 films non triés. La phase de droite illustre les 3 étapes de fusion.
Celle-ci démarre avec 4 partitions triées de deux films chaque.
Coût du tri-fusion
La phase de tri coûte ã lectures et ã écritures pour créer les partitions triées. A chaque étape de la
phase fusion, chaque partition est lue une fois et les nouvelles partitions créés sont âùë ° fois plus grandes
mais âúë ° fois moins nombreuses. Par conséquent à chaque étape (pour chaque niveau de l’arbre de
fusion). il y a ½ ðûã entrées/sorties. Le nombre d’ étapes c’est-à-dire le nombre de niveaux dans l’arbre
est ü/ÇÝ\×(Ô2ýþ ãZÈ . Par conséquent le coût de la phase de fusion est ü/ÇãZÝ×(Ô2ýUãZÈ . Il prédomine celui de la
µ
phase de tri. En résumé, le cout de l’algorithme de tri-fusion est ü/ÇãZÝ×(Ô2ýUãZÈ .
3. En fait on utilise une variante de fus dans laquelle dès qu’un bloc correspondant à la partition a été entièrement lu, on n’attend
pas que tous les autres blocs (des autres partitions) aient été entièrement lus, mais on lit le bloc suivant de la partition. L’algorithme
correspondant à cette variante est laissé comme exercice.
11.2. EVALUATION D’UNE REQUÊTE 161
...
... o
o
... ...
11.2.5 La Sélection
.
Il existe deux algorithmes pour la sélection suivant le chemin d’accès à la table. Le premier consiste
à balayer séquentiellement la table et pour chaque nuplet vérifier le critère de sélection. La deuxième
méthode, s’il existe un index sur cette table dont la clé appartient à l’un des critères de sélection, est de
sélectionner le sous-ensemble de nuplets satisfaisant ce critère par l’index 4 (Accès par index), et ensuite
d’accéder à ces nuplets (Accès par adresse) et de vérifier les autres critères de sélection. On montrera que
les algorithmes permettent de grouper en une seule étape, lors de l’accès aux nuplets, une conjonction de
sélections ainsi que des projections.
rithmes de jointure utilisent le balayage d’au moins une des deux tables. On peut également vouloir accéder
à un ou plusieurs nuplets d’une table satisfaisant un critère de sélection.
Ainsi on peut implanter la sélection relationnelle par un parcours séquentiel de la table, nuplet par
nuplet, soit parce qu’il n’y a pas d’index sur le critère de sélection, soit parce que la table est stockée sur
un petit nombre de pages.
L’algorithme est très simple. Il consiste à lire en séquence les pages de la relation, une à une, en mémoire
centrale. Il suffit d’un tampon en mémoire pour stocker la page courante lue du disque. Les nuplets de cette
page sont parcourus séquentiellement et traités au fur et à mesure. Ce balayage séquentiel permet de faire
en même temps que la sélection une projection. Chaque nuplet du tampon est testé en fonction du critère
de sélection. S’il le satisfait, il est projeté et rangé dans un tampon de sortie (figure 11.4). L’algorithme
ci-dessous résume ces opérations. Comme la plupart des algorithmes de cette section, il correspond à une
boucle sur les lectures/écritures de pages et une boucle sur les nuplets en mémoire centrale.
p:= première page de R;
n:= premier nuplet de p;
s:= premier octet de S;
Pour chaque page p de R {
lire p dans le tampon d’entrée E;
pour chaque nuplet n dans E {
IF (n satisfait le critère de sélection) {
projeter n;
IF (S plein) {
vider S sur disque;
s:= premier octet
}
ranger le résultat dans le tampon de sortie S;
incrémenter s avec la taille de la projection;
}
}
}
Algorithme Selbal: Sélection/projection par balayage séquentiel
Le coût de cette opération est donc de B: B pages sont lues. Cependant rappelons que si nous avons
M>1 tampons disponibles en mémoire centrale et si les pages de la relation sont contigues sur le disque,
nous pouvons lire M pages à la fois. Or la lecture de M pages contigues sur disque est beaucoup moins
chère que la lecture successive de M blocs dont l’emplacement sur disque est quelconque. Plus M est grand,
plus important est le gain.
L’estimation du coût d’une sélection/projection par traversée d’index est résumée ci-dessous. On note
par le nombre de pages lues lors de la traversée d’index.
1. index unique :
°
L’algorithme ci-dessous résume ces opérations dans le cas d’un index dense. Le cas d’un index non
dense est laissé comme exercice.
a
a
autres autres
E select. S E select. S
proj . proj.
(i) (ii)
F IG . 11.5 – Sélection/projection par traversée d’index (i) index dense; (ii) index non dense
La traversée d’index est implantée par TRAV(I,a) qui prend en entrée un index et une valeur de clé, et
sort une liste de une ou plusieurs adresses de nuplet. Page (adr) où adr est une adresse de nuplet, donne
l’adresse de page. Noter que tous les nuplets de la page sont balayés, y compris ceux pour lesquels à® Ì .
Pour éviter de lire deux fois la même page, au lieu de trier la liste d’adresses, l’algorithme ci-dessus utilise
une variante consistant à tester si la page n’a pas été déja lue (elle n’est pas dans Dejalue). Plus le nombre
de tampons affectés à Dejalue est grand 6, plus on a de chances de trouver une page déja lue en mémoire
lors d’une lecture ultérieure.
11.2.6 Projection
S’il n’y a pas de sélection, la projection d’une relation consiste à examiner ses nuplets un par un, à
effectuer sur chacun la projection, c’est-à-dire à éliminer les champs qu’on ne veut pas garder et enfin à
éliminer les nuplets en double. C’est cette dernière étape qui coûte cher. Pour éliminer les dupliqués, il
existe deux techniques, le tri et le hachage.
Dans le cas où les champs à projeter appartiennent à la clé d’un index de la table, il suffit de parcourir
en séquence les feuilles de l’index. Celles-ci sont triées sur la clé. Il suffit de garder la clé ou son préfixe et
lectures, si est le nombre de feuilles.
d’éliminer les doublons voisins en séquence. Ce cas laissé comme exercice est très efficace puisqu’il coûte
1. Accès séquentiel de la table å et projection de chaque nuplet. C’est l’algorithme Selbal de la sélec-
tion/projection, voir Section 11.2.5. Le résultat est une table de taille pages.
2. Tri de cette table temporaire sur les attributs à projeter: voir l’algorithme de la section 11.2.4. Le
résultat est une deuxième table intermédiaire de pages.
3. Parcours séquentiel de la table triée et en comparant les nuplets voisins, élimination des doublons.
La première étape coûte ã lectures , où ã est le nombre de pages de å et écritures; la deuxième étape
est en ü/Ç Ý×(Ô
vÈ . La troisième étape coûte lectures.
On peut améliorer cet algorithme en faisant la projection et l’élimination des dupliqués en même temps
que le tri:
11.2.7 Jointure
On peut classer les algorithmes de jointure en deux catégories, suivant l’absence ou la présence d’index
sur les attributs de jointure. On étudiera successivement trois algorithmes de la première catégorie et deux
algorithmes de la deuxième catégorie. Dans le cas où les deux tables à joindre n’ont pas d’index sur l’attri-
but de jointure on utilise généralement l’algorithme par boucles imbriquées, le tri-fusion ou un algorithme
basé sur le hachage des tables. Lorsqu’une table au moins est indexée sur l’attribut de jointure on utilise
une variante de l’algorithme par boucles imbriquées avec trversée d’index. Enfin si les deux tables sont
indexées, on utilise parfois une variante du tri-fusion sur les index. On notera å et æ les relations à joindre
et la relation résultat. Le nombre de pages est noté respectivement ã , ã . Le nombre de nuplets de
chaque relation est respectivement ä et ä . On précisera pour chaque algorithme s’il peut être utilisé
quel que soit le prédicat de jointure.
}
}
Procédure BIM (R,S): boucles imbriquées en mémoire
Illustrons cet algorithme sur un exemple. Soit les tables Films et Artistes de schéma:
Films(nom-film, année)
Artistes(Nom,nom-film)
La jointure naturelle
ÐÝÖ
õàÑ(Ï Ð
0Ï;Ò
par boucles imbriquées est illustrée dans la figure 11.6
Comparaison
Association
En fait l’algorithme précédent ne marche que si et sont entièrement en mémoire centrale. Comme
en général ce n’est pas le cas, on lit en séquence les pages de . Pour chaque page de , on lit en séquence,
les pages de . Pour chaque page de on fait la jointure avec la page . On applique l’algorithme BIM
ci-dessus pour les nuplets de la page et les nuplets de la page qui sont dans deux tampons mémoire.
Lorsque la jointure entre et est terminée, on passe à la page suivante de . Lorsque toutes les pages de
ont été visitées, on recommence tout le processus avec la page suivante de .
Cet algorithme illustré ci-dessous nécessite donc 3 tampons en mémoire, deux pour lire une page de
chaque relation et un pour résultat de la jointure. Le coût de la jointure avec cet algorithme est de !"$#!%
lectures.
Si le nombre de tampons disponibles est plus important on peut faire la jointure avec la variante suivante
plus efficace.
168 CHAPITRE 11. ÉVALUATION DE REQUÊTES
3) Tri-fusion
L’algorithme de jointure par tri-fusion que nous présentons ici s’applique à l’équijointure. C’est un
exemple de technique à deux phases: la première consiste à trier les deux tables sur l’attribut de jointure
si elles ne sont pas déjà triées. Ce tri facilite l’identification des groupes de nuplets avec la même valeur
d’attribut de jointure.
Le résultat est deux tables temporaires stockées sur disque. On utilise l’algorithme de tri externe vu
précédemment pour cette première étape. La deuxième phase appelée fusion consiste à lire page par page,
chacune des deux tables temporaires et à parcourir séquentiellement en parallèle ces deux tables tempo-
raires pour trouver les nuplets à joindre. Comme les tables fusionnées sont triées, sauf cas exceptionnel,
chaque page de chaque table n’est lue qu’une fois. Regardons plus en détail la fusion.
l’équijointure de et sur les attributs DC E et FC ! On commence avec les premiers nuplets GH et
I H deSoitchaque relation.
Donc on balaie une table tant que l’attribut de jointure a une valeur inférieure à la valeur courante de l’at-
tribut de jointure dans l’autre table. Quand il y a égalité, on fait la jointure. Ceci peut impliquer la jointure
entre plusieurs nuplets de en séquence et plusieurs nuplets de en séquence. Ensuite on recommence.
On donne ci-dessous l’algorithme de fusion en supposant comme d’habitude qu’on a trois tampons en
mémoire, un pour lire une page de chaque table triée, et un pour le résultat.
}
sinon
r = nuplet suivant dans p;
}
tant que s.B < r.A {
si q lu entièrement {
q = page suivante de S;
lire q;
s = 1er nuplet de q;
}
sinon s = nuplet suivant dans q;
}
v = s;
tant que r.A= s.B {
s = v;
tant que s.B = r.A {
joindre r et s, resultat: t;
si tampon de sortie plein, vider;
sinon mettre t dans tampon de sortie;
s = nuplet suivant dans q;
}
r = nuplet suivant dans p;
}
}
La jointure naturelle STAU V IW EXGOY;T I YZ I par tri-fusion est illustrée dans la figure 11.7
balayée. Si r= eof alors toute comparaison impliquant r.A sera évaluée à faux.
FUSION
TRI TRI
En général, on doit parcourir un groupe de nuplets en séquence de ayant même valeur pour B, autant
de fois qu’il y a de nuplets dans ayant la même valeur pour E (boucle tant que r.A = s.B). Si le groupe
170 CHAPITRE 11. ÉVALUATION DE REQUÊTES
de nuplets de est à cheval sur plusieurs pages, il va falloir rappeler plusieurs fois les mêmes pages de
, ce qui peut augmenter sensiblement le nombre de lectures disque 8. L’algorithme ci-dessus suppose que
ce cas n’arrive jamais. Il suppose que lorsqu’un groupe de nuplets en séquence de est joint à un groupe
de nuplets de , les deux groupes sont entièrement dans les pages p et q courantes dans le tampon. L’
hypothèse d’un parcours unique de chacune des pages des deux relations est justifiée au moins dans le cas
où il n’y a pas de dupliqués pour l’attribut de jointure dans l’une des relations. Ce cas est extrêmement
courant: par exemple lorsque l’attribut de jointure est une clé ou une clé étrangère.
Avec l’hypothèse ci-dessus, le coût de la fusion est alors de !"'[!% lectures disque. En général, les re-
lations n’étant pas triées, le tri domine le coût de l’algorithme de tri-fusion qui est alors: \ 6 !"]U ^O_ 6 !"]8`8>'
\ 6 !%aU ^O_ 6 !%8b8c'+!"'+!% .
4) Jointure par hachage
Comme tous les algorithmes à base de hachage, cet algorithme ne peut s’appliquer à une theta-jointure.
Comme l’algorithme de tri-fusion (section 11.2.7), il a deux phases: une phase de partitionnement des deux
relations en d partitions chacune, et une phase de jointure proprement dite. La première phase a pour but de
réduire le coût de la jointure proprement dite de la deuxième phase. Au lieu de comparer tous les nuplets
de à tous les nuplets de , on ne comparera les nuplets de chaque partition de qu’aux nuplets de la
partition associée de .
Le partitionnement de se fait par hachage. Soit E et ! les attributs respectifs de l’équijointure de
et . Soit , la fonction de hachage. Un nuplet G de ( I de ) va dans la partition , 6 GC E8 ( , 6 I C !8 ). Les
nuplets de la partition de ne peuvent être joints qu’avec les nuplets I de tels que , 6 I C !D8J* . Ces
nuplets forment la partition de associée à la partition de .
La deuxième phase consiste alors pour TXJfe9ghCiCjCigkd , à lire la partition T de en mémoire (la partition
doit tenir entièrement en mémoire) et ensuite à lire tous les nuplets de la partition de associée à T , et à
comparer chacun aux nuplets de la partition T . Ceci se fait par accès séquentiel de la partition (algorithme
Selbal) 9 .
L’algorithme de jointure par hachage présenté ci-dessous suppose qu’on a d+Jl&m.n) buffers pour
une partition de , un tampon pour une partition de et un tampon pour le résultat. La première phase
consiste comme pour la projection (voir algorithme Projhash) pour chaque relation à lire séquentiellement
la relation en utilisant un des & tampons, à hacher chaque nuplet dans l’un des doJp&q.+) tampons, en
vidant chacun des tampons lorsqu’il est plein dans un fichier correspondant à la partition.
La deuxième phase consiste à itérer d fois (i) la lecture d’une partition de en mémoire centrale dans
les &r.*) tampons dédiés, (ii) à lire page par page la partition associée de et à faire la jointure en
mémoire centrale (procédure BIM), de cette page avec la partition de entière, en utilisant pour le résultat
le dernier des & tampons.
pour i=1,...,k {
lire partition (R,i);
pour chaque page p de partition (S,i) {
lire p;
BIM(partition(R,i), p)
}
}
Le coût de la première phase de partitionnement de cet algorithme est ) 6 ! " '{! % 8 . Chaque relation
est lue entièrement et hachée dans les partitions qui sont recopiées sur disque page par page. A la fin
les tampons non pleins sont également recopiés sur disque dans la partition correspondante. Bien que le
nombre de pages de ( ) après partitionnement (hachage) puisse être légèrement supérieur, on supposera
qu’il est égal à !" ( !% ).
Le coût de la deuxième phase est de !"('|!% . En effet les relations partitionnées sont lues une fois,
partition par partition. Par conséquent le coût total de cet algorithme est } 6 !"'~!%8 . Noter que cet
algorithme est très gourmand en mémoire. Il suppose que toute partition de la plus petite relation tienne
entièrement en mémoire centrale, c’est-à-dire, ait moins de &m.2) pages. Cet algorithme est donc bien
adapté aux jointures pour lesquelles un relation est petite en taille. En supposant que les partitions de
sont égales en taille, celle-ci est égale à !" 46 &.)98 . On doit donc avoir &!" 4>6 &.)@8
'|) . Donc
on doit avoir approximativement &1{ !" .
Remarques:
– il existe de nombreuses variantes d’algorithmes de jointure par hachage. Celle que nous avons pré-
sentée s’appelle dans la littérature anglo-saxonne Grace hash join.
– il faut prévoir le cas où la taille d’une partition dépasse &q.) tampons (voir la méthode employée
pour la projection par hachage).
– comme pour l’algorithme par boucles imbriquées, on peut diminuer le temps CPU de la jointure en
mémoire centrale (voir le paragraphe sur les boucles imbriquées par bloc).
– si la relation est si petite qu’elle tient en mémoire centrale ( ! " &.w) ), il existe une variante de
l’algorithme qui consiste (i) à partitionner comme ci-dessus dans l’un des M-2 tampons 10 et (ii) à
accéder séquentiellement sans partitionnement préalable et à faire la jointure en mémoire centrale
entre et les nuplets de lus dans un tampon. Soit I un tel nuplet. On le comparera avec les nuplets
du tampon , 6 I C !8 . Pour évaluer le coût de cette variante, observons que chaque relation n’est lue
qu’une fois. Le coût est alors de !"'+!% .
Le coût de cet algorithme est le produit (i) du nombre de pages ! " de par (ii) le coût de la traversée
d’index suivi du coût d’accès au(x) nuplet(s) de . Celui-ci dépend du type d’index et du nombre de nuplets
de , voir discussion à ce sujet dans la section 11.2.5. En résumé le coût de l’algorithme de jointure est
!"+#o\ 6 U^O_ 6 !%a8`8 .
Une variante de cet algorithme existe dans le cas où est partitionnée par hachage sur la valeur de
l’attribut ! . Alors que la variante ci-dessus s’applique à tous les prédicats de jointure, la variante avec
hachage ne marche que pour l’équijointure.
For each a in Ar {
lire r d’adresse a
for each b in Bs {
lire s d’adresse b
si le tampon T est plein {
vider T
}
joindre r et s, résultat dans T
}
}
Algorithme FI de jointure par fusion d’index:
jointure d’un couple (index denses)
La première phase permet de déceler efficacement les jointures possibles. Le coût de cette phase de
partitionnement est en général (voir discussion sur la jointure par tri-fusion) la somme du nombre de feuilles
Su et du nombre de feuilles Su . Cet algorithme est très intéressant dans le cas où la deuxième phase d’accès
aux nuplets de l’une ou des deux relations n’est pas nécessaire. Le coût de la deuxième phase dépend de
l’index et de la taille du résultat c’est-à-dire des produits cartésiens. En particulier si les deux index sont
denses et non uniques, non seulement on accède à de nombreuses pages, mais de plus on risque de lire
11.3. COMPILATION D’UNE REQUÊTE ET OPTIMISATION 173
plusieurs fois les mêmes pages. Pour éviter cette lecture multiple des mêmes pages, plusieurs techniques
existent. Par exemple si le nombre de tampons disponibles est grand, il se peut qu’une page déjà lue soit
encore en mémoire centrale (voir discussion de la section 11.2.5). On peut également essayer de trier les
pages à lire. Ceci demande de faire le produit cartésien des couples d’adresses et ensuite de trier les couples
d’adresses de nuplets obtenus sur les pages de la première relation pour regrouper les nuplets à lire dans la
deuxième relation par page de la première relation. Cette dernière amélioration n’empêche pas des lectures
multiples d’une même page de la deuxième relation. Pour toutes ces raisons, certains SGBD, en présence
d’index sur l’attribut de jointure dans les deux relations, préfèrent l’algorithme par boucles imbriquées et
traversée d’index à cet algorithme.
SELECT directeur
FROM Departement,Employes
WHERE Departement.dept-id = Employes.departement
AND salaire = (SELECT MAX (salaire)
FROM Employes)
On peut décomposer cette requête en deux blocs: le premier calcule le salaire maximum . Le deuxième
bloc calcule le(s) directeur(s) de département(s) avec un employé ayant pour salaire une référence au
résultat du premier bloc.
SELECT directeur
FROM Departement,Employes
11. Nous n’aurons pas à considérer les deux dernières clauses car nous avons dit dans la section 11.2 que nous nous concentrons
sur les requêtes faisant intervenir seulement des sélections, des projections et des jointures.
174 CHAPITRE 11. ÉVALUATION DE REQUÊTES
Bien entendu cette méthode peut s’avérer très inéfficace et il est préférable de transformer la requête
avec imbrication en une requête équivalente sans imbrication (un seul bloc) quand cette équivalence existe.
Malheureusement de nombreux systèmes relationnels sont incapables de déceler ce type d’équivalences.
Enfin nous supposerons que tout critère de sélection est sous forme normale conjonctive (FNC). Toute
condition de sélection peut être mise en FNC. Une condition en FNC est une conjonction de critères qui
sont soit des sélections atomiques soit des disjonctions de sélections atomiques 12.
La première étape de la compilation d’une requete (un bloc) consiste en son analyse syntaxique et en
sa traduction en un plan d’exécution logique (PEL).
L’analyse syntaxique vérifie la validité (syntaxique) de la requête. On vérifie notamment l’existence des
relations (arguments de la clause FROM) et des attributs (clauses SELECT et WHERE). On vérifie égale-
ment la correction grammaticale (notamment de la clause WHERE). D’autres transformations sémantiques
simples sont faites au delà de l’analyse syntaxique. Par exemple, on peut détecter des contradictions comme
-Q,>J~e9g99gb@9
-(Q,>=J@gb@9 . Enfin un certain nombre de simplifications sont effectuées. Par
exemple 6 E^LY!D8?!8 est remplacé par E+?! .
Après analyse, la requête est traduite en un plan d’exécution logique.
Soit une base de schéma:
Soit la requête
Select Dept.nom
From Departements, Communes
Where Nbhab > 1,000,000
And Communes.numdept=Departements.num
qui cherche le nom des départements ayant une commune avec plus d’un million d’habitants.
La figure 11.8 est un plan d’exécution logique (PEL) correspondant (équivalent) à cette requête. C’est
en fait un arbre représentant l’expression algébrique
X 9¡b¢ 6£¤B¥A¦L§Q¥`¨ Hª© «b««¬© ««« 6® ^LV¯V?°Z IW ±L¢³²ª´ Pªµ<¶ ±L¢*· Z¸GLYZOV?ZO¹Y I 8 ,
équivalente à la requête SQL 13 . Dans l’arbre, les feuilles représentent les tables arguments de l’expression
algébrique. Les noeuds internes correspondent aux opérateurs algébriques. Un arc entre un noeud et
son noeud père correspond à la relation résultat de l’opération et argument d’entrée de l’opération .
L’interprétation de l’arbre est la suivante. On commence par exécuter les opérations sur les feuilles (ici la
jointure entre Communes et départements); sur le résultat, on effectue les opérations correspondant aux
noeuds de plus haut niveau (ici une sélection), etc. , jusqu‘ à ce qu’on obtienne le résultat (ici après la
projection).
.Departements.nom
Nbhab>1,000,000
#dept=num
Communes Departements
des PEL qui sont plus efficaces c’est-à-dire qui s’exécutent plus rapidement. Nous verrons cela dans la
sous-section suivante. Pour l’instant donnons la liste des règles de réécriture les plus importantes:
W ¿ W
1. Commutativité des jointures :
sélection, il est préférable de faire la sélection d’abord: on réduit ainsi la taille d’une ou des deux relations
à joindre, ce qui peut avoir un impact extrêmement considérable sur le temps de traitement de la jointure.
“Pousser” les sélections le plus bas possible dans l’arbre, c’est-à-dire essayer de les faire le plus rapide-
ment possible et éliminer par projection les attributs non nécessaires pour obtenir le résultat de la requête
sont donc les deux idées pour transformer un PEL en un PEL équivalent meilleur.
1. Séparer les sélections avec plusieurs prédicats en plusieurs sélections à un prédicat (règle 3).
Un exemple
Le PEL de la figure 11.9 est un meilleur PEL que celui de la figure 11.8 pour effectuer la requête
“Départements ayant une commune de plus d’un million d’habitants”. Il a été obtenu en appliquant la règle
de réécriture 5.
Departements.nom
#dept=num
Nbhab>1,000,000
Communes Departements
Salle (salle,nom-cinéma)
Soit la requête “Quels films passent au REX a 20 heures ?” exprimée par l’ordre SQL suivant.
SELECT film
FROM Cinéma, Salle, Séance
WHERE Cinéma.nom-cinéma = ’Le Rex’
AND Séance.heure-début = 20
AND Cinéma.nom-cinéma = Salle.nom-cinéma
AND Salle.salle = Séance.salle
Par traduction algébrique, on obtient le PEL suivant:
πfilm
σ
heure-début=20 nom=’Le REX’
π
salle
π π π
nom nom,salle salle,film
des statistiques sur les tables de la base et bien entendu des algorithmes d’évaluation implantés dans
le noyau. Le PEL est alors transformé en un plan d’exécution physique.
Cette transformation constitue la dernière étape de l’optimisation. Elle fait l’objet de la section suivante.
Parcours d’index Fusion de deux ensembles tries Projection sur des attributs
On distingue les opérations d’accès à des tables ou index stockés dans des fichiers, des opérations
proprement dites. Les opérations d’accès à des fichiers sont représentées dans les arbres par des rectangles
(feuilles du PEP). Le nom du fichier est indiqué à l’intérieur du rectangles. La première est le balayage
séquentiel. La deuxième est l’accès par adresse, c’est-à-dire l’accès à un ou plusieurs nuplets connaissant
son (leur) adresse. Le troisième enfin est la traversée d’index. On indique le ou les attribut(s) clé(s). Les
opérations proprement dites sont représentées par des ellipses. L’étiquette à l’intérieur de l’ellipse est le
nom de l’opération. Les données en entrée sont obtenues par les branches qui descendent du noeud dans
l’arbre. Ce sont soit le résultat de l’opération d’accès, soit le résultat d’une opération fille dans l’arbre. Un
paramètre éventuel est indiqué en haut à gauche de l’ellipse (par exemple le(s) attribut(s) sur le(s)quel(s)
est fait le tri). On reconnait les algorithmes décrits dans la section 11.2. Le filtre est une opération utile qui
ne sera pas détaillée ici. La jointure correspond à l’algorithme de boucles imbriquées. Cette liste est juste
indicative et loin d’être complète (il y manque notamment la jointure par hachage).
Notons que
1. l’opération algébrique de sélection est chaque fois traduite par un balayage séquentiel (algorithme
Selbal de la section 11.2. Même si les deux opérations d’accès et de sélection sont faites en même
temps, on garde par souci de généralité le découpage en deux opérations distinctes, l’une d’accès
séquentiel (feuille de l’arbre) et l’autre de sélection proprement dite (noeud interne). La même re-
marque joue pour le tri de la table Salle.
180 CHAPITRE 11. ÉVALUATION DE REQUÊTES
Projection
Fusion
ID_seance
Tri
Fusion
ID_cinema ID_seance
ID_cinema
Tri Tri Tri
Horaire=20
’Le Rex’
Selection
Selection
F IG . 11.13 – plan d’exécution physique: pas d’index sur les attributs de jointure
Projection
Jointure
’Le Rex’
Jointure Selection
Horaire=20
2. il faut rajouter : la première étape consiste à traverser l’index. Une estimation raisonnable de est
les projections intermédiaires avant et aprés tri qui n’ont pas été indiquées dans la figure 11.13 pour
simplifier,
3. chaque arc de l’arbre correspond à un flot de nuplets (résultat de l’opération de plus bas niveau dans
l’arbre). Soit celui-ci est stocké dans un fichier temporaire soit il est au fur et a mesure utilisé par
l’opération de plus haut niveau (pipelinage, voir section 11.3.8).
11.3. COMPILATION D’UNE REQUÊTE ET OPTIMISATION 181
Dans le cas où il y a un index sur l’attribut de jointure de chaque jointure (figure 11.14), les deux
jointures se font par boucles imbriquées. L’interprétation d’un arbre ayant pour racine le noeud Jointure est
particulier. Pour chaque nuplet généré par la branche de gauche, la valeur de l’attribut de jointure sert de
clé d’accès à l’index dans la branche de droite. La traversée de l’index donne une ou plusieurs adresses de
·Ö TAZOV? sert de clé d’accès à l’index
nuplets qui sont accédés (accès par adresse) et joints avec le nuplet de la branche de gauche. Par exemple
(première jointure), pour chaque cinéma de nom “Le Rex”, son
IndexSalle. La traversée de l’index donne l’adresse des salles de ce cinéma. Le nuplet correspondant à
chacune de ces salles est joint avec le nuplet du cinéma.
Communes(nom,nbhab,#dept)
Departements(num,nom,prefecture)
La figure 11.15 montre un plan d’exécution logique et le plan d’exécution physique choisi pour exécuter
la requête:
Select Dept.nom
From Departements, Communes
Where Nbhab > 1,000,000
And Communes.numdept=Departements.num
adresse
Departements.nom Departements
Tri adresses
#dept=num
Jointure.
Nbhab>1,000,000
#dept
Nbhab>1,000,000
Selection I_dept
sequentiel
Communes Departements
Communes
Cette requête détermine le nom des départements qui contiennent une commune de plus d’un mil-
lion d’habitants. ¹°aV?׸ZY et ¹°aV représentent le numéro de département à deux chiffres. La relation
· Z¸GLYZOV?ZO¹Y I est indexée sur ¹°aV (QØ ´ PQµ ). Le plan logique (à gauche dans la figure) indique qu’on
sélectionne d’abord les communes de plus d’un million d’habitants et qu’ensuite on fait la jointure. La sé-
lection est implantée par un balayage séquentiel du fichier Communes (ã droite dans la figure), l’algorithme
´
de département (numdept) sert de clé d’accès à l’index QØ PQµ . La traversée de l’index donne l’adresse de
de jointure étant la boucle imbriquée: pour chaque commune de plus de 1 million d’habitants, son numéro
l’article du département. Le résultat de la jointure est une liste d’adresses d’articles. Celles-ci sont triées par
page. Les noms de départements sont alors obtenus par accès direct du fichier Departements et projection
182 CHAPITRE 11. ÉVALUATION DE REQUÊTES
sur le nom. Noter que chaque article de Departements accédé par adresse est en même temps projeté sur le
nom.
2. stratégie avec index sur un critère avec égalité (l’index est supposé être dense et non unique, voir
section 11.2): JÝ'S*'+R où est le coût de traversée d’index, S est le nombre de feuilles en
séquence à lire et R le nombre de pages à lire pour accéder aux nuplets (et tester les .(e conditions
restantes): SÚJ 6 -7#o=8 46 - 4 !D85J2!ã#o En effet le terme numérateur -#$ indique le nombre
moyen de nuplets par valeur d’index et le dénominateur - 4 ! indique le nombre de nuplets par page.
RäJÔ-Ù# . En effet R est le nombre de nuplets qui satisfont le critère. Pour chacun d’eux il faut
accéder une page (ce qui est une hypothèse pessimiste, voir discussion sur l’exemple de la section
précédente). En résumé l’estimation du coût de cette stratégie est Jn' 6 !'+-8# .
3. stratégie avec index sur un critère avec inégalité: ' 6 !Ô'*-8 4 eh : le premier terme concerne la
traversée d’index; le terme ! 4 eh est l’estimation du nombre de feuilles parcourues et le terme - 4 eh
est l’estimation du nombre de nuplets accédés et testés sur les ?.{e autres critères (voir discussion
de la section précédente)
– Le prédicat de jointure est-il une inégalité? Le produit cartésien suivi d’une sélection est une stratégie
possible si la taille de ce produit est raisonnable. Cependant en général on choisit un algorithme
simple par boucles imbriquées (procédure BIS). Dans la suite on suppose que le prédicat de jointure
est l’égalité.
– Si l’une au moins des deux relations a un index on utilise l’algorithme par boucles imbriquées et
traversée d’index (procédure BIT). Cet algorithme est d’autant plus intéressant que la relation exté-
rieure (qu’on balaie) est plus petite (elle est par exemple le résultat d’une sélection qui produit un ou
quelques nuplets) 17 .
– La taille de la mémoire disponible est grande par rapport à celle des tables: on lit les tables en
mémoire et on fait la jointure en mémoire centrale (Procédure BIM). Une startégie d’exception si les
tables sont légèrement trop grandes consiste à les découper en deux morceaux et faire la jointure en
deux étapes.
– si l’une des deux relations est déja triée sur l’attribut de jointure, utiliser l’algorithme de tri-fusion.
S’il n’y a pas d’index sur l’attribut de jointure, certains systèmes utilisent systématiquement cette
stratégie 18 .
– l’algorithme de tri-fusion doit être mis en compétition avec l’algorithme par hachage lequel est inté-
ressant si les partitions issues de sa première phase tiennent en mémoire centrale.
Si la meilleure allocation d’espace entre les différents opérateurs est un problème difficile à résoudre
dans toute sa généralité, il est néanmoins facile de minimiser l’espace nécessaire pour l’exécution de
deux opérateurs en séquence. Une manière naive d’exécuter la séquence d’opérations ^ , ^Õ , est d’exécuter
d’abord l’opération ^ , stocker le résultat intermédiaire en mémoire s’il y a de la place ou sur disque, et
d’utiliser le buffer en mémoire ou le fichier intermédiaire comme source de données pour ^Õ . En général,
la mémoire centrale disponible est trop petite pour accueillir le résultat intermédiaire qui doit donc être
écrit sur disque. Cette solution de matérialisation des résultats intermédiaires est impraticable en réalité:
les écritures/lectures sur disque répétées entre chaque opération coûtent d’autant plus cher en temps que la
séquence d’opérations est longue.
L’alternative appelée pipelinage consiste à ne pas écrire les enregistrements produits par ^ sur disque
mais à les utiliser immédiatement comme entrée de ^Õ . Autrement dit, on n’attend pas que ^ soit terminée,
et que l’ensemble des enregistrements résultat de ^ ait été produit pour lancer ^Õ . On démarre une opération
( ^Õ ) bien avant d’avoir terminé la précédente ( ^ ). On peut ainsi exécuter en même temps une séquence de
plusieurs opérations. On peut par exemple enchainer une sélection par parcours séquentiel d’une table avec
une jointure par boucles imbriquées. Noter toutefois que cela n’est pas toujours possible.
Si ce n’est pas possible, on est en présence d’une opération dite bloquante dont le résultat doit être
entiement produit et écrit sur disque avant de démarrer l’opération suivante. Par exemple l’algorithme
de jointure par tri-fusion comporte deux opérations en séquence: on trie d’abord les relations à joindre
(opérations bloquantes), on fait ensuite la fusion du résultat. On ne peut commencer la fusion avant que le
tri soit terminé. En effet la fusion commence par fusionner les articles les plus petits. Or ceux-ci peuvent
très bien être produits à la fin de l’opération de tri.
Donc lorsque le pipelinage de deux opérations ^ et ^Õ en séquence est possible, on évite l’écriture
des résultats intermédiaires sur disque, et on minimise la place nécessaire en mémoire centrale. Aussitôt
qu’un article a été produit par ^ il est utilisé comme entrée de ^ Õ : on a juste besoin de la place en mémoire
nécessaire pour écrire un article. En fait c’est ^Õ qui demande à ^ un nuplet. Si ^Õ est un opération binaire il
demande à chacun de ses opérations filles dans l’arbre, respectivement ^ et ^Õ Õ , un nuplet.
Ce mécanisme de pipelinage "à la demande" est implanté au moyen d’un arbre d’itérateurs (corres-
pondant au PEP) dont les fonctions s’appellent à des moments appropriés. A chaque opérateur physique
(chaque noeud dans l’arbre) correspond un iterateur. Les données demandées par l’itérateur implantant
^Õ sont générées par l’itérateur fils implantant ^ . Avant d’illustrer le mécanisme d’itérateurs permettant
d’activer plusieurs opérations en même temps, définissons plus précisement la notion d’itérateur.
C’est un groupe de trois fonctions, qui permet au consommateur du résultat d’une opération physique
d’obtenir le résultat article par article. Ces opérations sont:
1. Open. Cette fonction commence le processus pour obtenir des articles résultats. Elle alloue les re-
sources nécessaires, initialise des structures de données et appelle Open pour chacun de ses argu-
ments (c’est-à-dire pour chacun des itérateurs fils).
2. Next. Cette fonction remplit une étape de l’itération, retourne l’article résultat suivant en séquence et
met à jour les structures de données nécessaires pour obtenir les résultats suivants. Pour obtenir un
article résultat, elle peut appeler une ou plusieurs fois Next sur ses arguments.
3. Close. cette fonction termine l’itération et libère les ressources, lorsque tous les articles du résultat
ont été obtenus. Typiquement elle appelle Close sur chacun de ses arguments.
Nous illustrons la notion d’itérateur en construisant deux itérateurs: celui du balayage séquentiel
d’une table et celui de la boucle imbriquée.
OpenScan (R) {
p:= premiere page de R;
n:= premier nuplet dans la page p;
FIN = false;
}
NextScan (R) {
11.3. COMPILATION D’UNE REQUÊTE ET OPTIMISATION 185
CloseScan (R) {
liberer ressources;
RETURN;
OpenScan (R) initialise la lecture au premier nuplet de la première page de R. La variable FIN est
initialisée à ’false’. NextScan (R) retourne un nuplet. Si la page courante a été entièrement lue, il lit
la page suivante et reourne le premier nuplet de cette page.
L’itérateur I qui appelle l’itérateur de balayage séquentiel de R commence par appeler OpenScan
(R). Tant que la variable globale ’FIN’ n’est pas à ’true’, un nuplet est retourné (vieuxn) par un appel
de NextScan(R). Quand la table est entièrement lue (FIN=true), I lance l’itérateur CloseScan (R).
Illustrons ceci avec l’itérateur de jointure par boucles imbriquées entre une table et une table
indexée, utilisant un balayage séquentiel de et un accès à l’index . L’itérateur implantant cet
algorithme aura pour entrées R et . La table R est balayée. Pour chaque nuplet lu , la valeur de
l’attribut de jointure ]C ¸Y;Y sert de clé d’accès à l’index : La traversée de l’index retourne une (index
unique) ou plusieurs adresses (index non unique) de nuplets de S. Un ou plusieurs couples ( , )
sont retournés comme résultat. On itère avec le nuplet suivant de . Cette jointure est la plupart du
temps suivie par un accès par adresse à S 19 .
OpenBI(R,I) {
OpenScan(R);
OpenIndex(I);
}
NextBI(R,I) {
IF (FIN =false){
n:= NextScan(R);
FOR each a in NextIndex(I,n.at),
19. On peut alors, avant d’accéder à S, comme dans le plan d’exécution ci-dessus, trier les adresses pour éviter de lire deux fois la
même page.
186 CHAPITRE 11. ÉVALUATION DE REQUÊTES
RETURN [n,a];
}
ELSE {
RETURN;
}
}
CloseBI (R,I) {
CloseScan(R);
CloseIndex(I);
RETURN;
Noter que l’appel de NextIndex prend comme argument l’index et la valeur de la clé. Il retourne un
ensemble d’adresses de nuplets. La construction de l’itérateur d’accès à un index (OpenIndex,NextIndex
et CloseIndex) est laissée comme exercice.
En conclusion ce mécanisme d’itérateurs permet de générer des plans d’exécution par simple assemblage
d’itérateurs construits au préalable.
187
Chapitre 12
Sommaire
12.1 Préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
12.1.1 Exécutions concurrentes : sérialisabilité . . . . . . . . . . . . . . . . . . . . . . 188
12.1.2 Transaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
12.1.3 Exécutions concurrentes : recouvrabilité . . . . . . . . . . . . . . . . . . . . . 190
12.2 Contrôle de concurrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
12.2.1 Verrouillage à deux phases . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
12.2.2 Contrôle par estampillage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
12.3 Gestion des transactions en SQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
12.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
Les bases de données sont le plus souvent accessibles à plusieurs utilisateurs qui peuvent rechercher,
créer, modifier ou détruire les informations contenues dans la base. Ces accès simultanés à des informa-
tions partagées soulèvent de nombreux problèmes de cohérence : le système doit pouvoir gérer le cas de
deux utilisateurs accédant simulatément à une même information en vue d’effectuer des mises-à-jour. Plus
généralement, on doit savoir contrôler les accès concurrents de plusieurs programmes complexes effectuant
de nombreuses lectures/écritures.
Un SGBD doit garantir que l’exécution d’un programme effectuant des mises-à-jour dans un contexte
multi-utisateur s’effectue “correctement”. Bien entendu la signification du “correctement” doit être définie
précisément, de même que les techniques assurant cette correction : c’est l’objet du contrôle de concur-
rence.
12.1 Préliminaires
Commençons dès maintenant par un exemple illustrant le problème. Supposons que l’application Offi-
ciel des spectacles propose une réservation des places pour une séance. Voici le programme de réservation
(simplifié) :
Lire la séance I
debut
Ö
si (nombre de places libres å{-ªRU Z I )
Lire le compte du spectateur
Ö
188 CHAPITRE 12. INTRODUCTION À LA CONCURRENCE D’ACCÈS
Il est important de noter dès maintenant que, du point de vue du contrôle de concurrence, des instruc-
tions comme les tests, les boucles ou les calculs n’ont pas vraiment d’importance. Ce qui compte, ce sont
les accès aux données. Ces accès sont de deux types
De plus, la nature des informations manipulées est indifférente : les règles pour le contrôle de la concurrence
sont les mêmes pour des films, des comptes en banques, des stocks industriels, etc. Tout ceci mène à
représenter un programme de manière simplifiée comme une suite de lectures et d’écritures opérant sur des
Le programme æ]æçÍE À
\- se représente donc simplement par la séquence
données désignées abstraitement par des variables (généralement x, y, z, ...).
1. RFH lit I et
Ö H . Nb places vides : 50.
2. R N lit I et
Ö N . Nb places vides : 50.
3. R N écrit I avec nb places = 9.ê)J2ë@ì .
A la fin de l’exécution, il y a un problème : il reste 45 places vides sur les 50 initiales alors que 7 places
opérations de R H et R N : R N lit et modifie une information que R H a déjà lue en vue de la modifier.
ont effectivement été réservées et payées. Le problème est clairement issu d’une mauvaise imbrication des
Ce genre d’anomalie est évidemment fortement indésirable. Une solution brutale est d’exécuter en
série les programmes : on bloque un programme tant que le précédent n’a pas fini de s’exécuter.
Cela étant cette solution de “concurrence zéro” n’est pas viable : on ne peut se permettre de bloquer tous
les utilisateurs sauf un, en attente d’un programme qui peut durer extrèmement longtemps. Heureusement
l’exécution en série est une contrainte trop forte, comme le montre l’exemple suivant.
1. RFH lit I et
Ö I H . Nb places vides : 50.
2. R H écrit I avec nb places = 9.êJ2ë¸ .
4. R N Ö
lit ION .
12.1.2 Transaction
Le fait de garantir une imbrication correcte des exécutions de programmes concurrents serait suffisant
dans l’hypothèse où tous les programmes terminent normalement en validant les mises-à-jour effectuées.
Malheureusement ce n’est pas le cas : il arrive que l’on doive annuler les opérations d’entrées sorties effec-
tuées par un programme. On peut envisager deux cas :
Imaginons que le programme de réservation soit interrompu après avoir exécuté les E/S suivantes :
La situation obtenue n’est pas satisfaisante : on a diminué le nombre de places libres, sans débiter le
compte du client. Il y a là une incohérence regrettable que l’on ne peut corriger que d’une seule manière :
en annulant les opérations effectuées.
Dans le cas ci-dessus, c’est simple : on annule éXH 6 I 8 . Mais la question plus générale, c’est : jusqu’où
doit-on annuler quand un programme a déjà effectué des centaines, voire des milliers d’opérations ? Rap-
pelons que l’objectif, c’est de ramener la base dans un état cohérent. Or le système lui-même ne peut
pas déterminer cette cohérence : tout SGBD digne de ce nom doit donc offrir à un utilisateur ou à un pro-
gramme d’application la possibilité de spécifier les suites d’instructions qui forment un tout, que l’on doit
valider ensemble ou annuler ensemble (on parle d’atomicité). En pratique, on dispose des deux instructions
suivantes :
Ces instructions permettent de définir la notion de transaction : une transaction est l’ensemble des
instructions séparant un commit ou un rollback du commit ou du rollback suivant. On adopte alors les
règles suivantes :
1. Quand une transaction est validée (par commit), toutes les opérations sont validées ensemble, et on
ne peut plus en annuler aucune. En d’autres termes les mises-à-jour deviennent définitives.
2. Quand une transaction est annulée par rollback ou par une panne, on annule toutes les opérations
depuis le dernier commit ou rollback, ou depuis le premier ordre SQL s’il n’y a ni commit ni rollback.
Il est de la responsabilité du programmeur de définir ses transactions de manière à garantir que la base
est dans un état cohérent au début et à la fin de la transaction, même si on passe inévitablement par des
états incohérents dans le courant de la transaction. Ces états incohérents transitoires seront annulés par le
système en cas de panne.
Exemple Ö 12.4 Les deux premières transactions ne sont pas correctes, la troisième l’est ( signifie ^LV¯V?TAY ,
{^U UQ d ).
1. G 6 I ;8 G 6 Ö 8é 6 I 8 é 6 Ö 8
2. G 6 I 8;G 6 Ö 8é 6 I 8`é 6 Ö 8
3. í
î®ïLð;í>î Ö ðéîïLðéî Ö ð
Du point de vue de l’exécution concurrente, cela soulève de nouveaux problèmes qui sont illustrés ci-
dessous.
íLñ9îïLð;íñîòhñQðóXñî®ïOðíhô¸îïLð;íOô
î òQôOð;óBô@î®ïLð;óBô@îòQôLð`õôQóXñ9î òhñhðöñ
Conséquence sur l’exemple : le nombre de places disponibles a été diminué par ÷ ñ et repris par ÷ ô , avant
que ÷ ñ n’annule ses réservations. Le nombre de sièges réservé sera plus grand que le nombre effectif de
clients ayant validé leur réservation.
12.1. PRÉLIMINAIRES 191
Le problème ici vient du fait que la transaction ÷ ñ est annulée après que la transaction ÷ ô ait lu une
information mise-à-jour par ÷cñ , manipulé cette information et effectué des MAJ pour son propre compte,
puis validé. On parle de “lectures sales” (dirty read en anglais) pour désigner l’accès par une transaction à
des MAJ non encore validées d’une autre transaction. Ici le problème est de plus agravé par le fait que ÷cñ
annule la MAJ qui a fait l’objet d’une “lecture sale”.
Pour annuler proprement ÷cñ , il faudrait annuler en plus les MAJ de ÷Ðô , ce qui n’est pas possible puisque
un commit a été fait par cette dernière : on parle alors d’exécution non recouvrable.
Une exécution non-recouvrable est à éviter absolument puisqu’elle introduit un conflit insoluble entre
les rollback effectués par une transaction et les commit d’une autre. On pourrait penser à interdire à une
transaction ÷ ô ayant effectué des dirty read d’une transaction ÷ ñ de valider avant ÷ ñ . On accepterait alors
la situation suivante :
Exemple 12.6 (Annulations en cascade).
íñî®ïLð;íLñ9î òOñQð;óXñ9îïLð;íOô
îïLð;íOô@îòQôhðó³ô¸îïLðó³ô¸î ò¬ôOðóÜñ9î òOñQðöñ
Ici, le rollback de ÷ ñ intervient sans que ÷ ô n’ait validé. Il faut alors impérativement que le système
effectue également un rollback de ÷ ô pour assurer la cohérence de la base : on parle d’annulations en
cascade (noter qu’il peut y avoir plusieurs transactions à annuler).
Quoique acceptable du point de vue de la cohérence de la base, ce comportement est difficilement
envisageable du point de vue de l’utilisateur qui voit ses transactions interrompues sans aucune explication
liée à ses propres actions. Donc il faut tout simplement interdire les dirty read.
Celà laisse encore une dernière possibilité d’anomalie qui fait intervenir la nécessité d’annuler les
écritures effectuées par une transaction. Imaginons qu’une transaction ÷ ait modifé la valeur d’une
ø , puis qu’un ø donnée
rollback intervienne. Dans ce cas il est nécessaire de restaurer la valeur qu’avait avant le
début de la transaction : on parle d’image avant pour cette valeur. Outre le problème de connaître cette
image avant, cela soulève des problèmes de concurrence illustré ci-dessous.
Exemple 12.7 (Exécution non stricte)
í ñ îïLð;í ñ îò ñ ðí ô îïLð;ó ñ îïLð;ó ñ î ò ñ ð;í ô îò ô ðó ô î®ïOðbõ ñ ó ô î ò ô ðö ô
Ici il n’y a pas de dirty read, mais une “écriture sale” (dirty write). En effet, ÷cñ a validé après que ÷¹ô ait
écrit dans ï . Donc la validation de ÷ ñ enregistre la mise-à-jour de ÷ ô alors que celle-ci s’apprête à annuler
ses mises-à-jour par la suite.
Au moment où ÷ ô va annuler, le gestionnaire de transaction doit remettre la valeur du tuple ï connue
au début de la transaction : ce qui revient à annuler la mise-à-jour de ÷ ñ . Autre exemple.
Exemple 12.8 Cette fois c’est ÷cñ qui annule et ÷¹ô qui valide :
íLñî®ïLð;íLñ@îòhñQðíhô¸îïLð;óXñ9îïLð`ðóÜñ@îòhñQðíhô¸î òQôLð;óBô¸îïLðöñkóBô¸î òQôOð`õô
Que se passe-t-il au moment de l’annulation de ÷ ñ ? On devrait restaurer l’image avant connue de ÷ ñ ,
mais cela revient à annuler la mise-à-jour de ÷ ô .
En résumé, on distingue trois niveaux de recouvrabilité selon le degré de contrainte imposé au système :
1. Recouvrabilité : on ne doit pas avoir à annuler une transaction déjà validée.
2. Annulation en cascade : un rollback sur une transaction ne doit pas entraîner l’annulation d’autres
transactions.
3. Recouvrabilité stricte : deux transactions ne peuvent pas accéder simultanément en écriture à la
même donnée, sous peine de ne pouvoir utiliser la technique de récupération de l’image avant.
On peut avoir des transactions sérialisables et non recouvrables et réciproquement. Le niveau maximal
de cohérence offert par un SGBD assure la sérialisabilité des transactions et la recouvrabilité stricte. Cela
définit un ensemble de “bonnes” propriétés pour une transaction qui est souvent désigné par l’acronyme
ACID pour :
– Atomicité. Une transaction est l’unité de validation.
192 CHAPITRE 12. INTRODUCTION À LA CONCURRENCE D’ACCÈS
– Cohérence. Une transaction est un ensemble de mises-à-jour entre deux états cohérents de la base.
– Isolation. Les lectures ou écritures effectuées par une transaction doivent être invisibles des autres
transactions.
– Durabilité : une transaction validée ne peut plus être annulée.
Il reste maintenant à étudier les techniques mises en oeuvre pour assurer ces bonnes propriétés.
Le respect du protocole est assuré par un module dit scheduler qui reçoit les opérations émises par les
transactions et les traite selon l’algorithme suivant :
1. Le scheduler reçoit û`ý þÿ et consulte le verrou déjà posé sur þ , ú ý þÿ , s’il existe.
– si aú û ý þÿ est en conflit avec ú@ý þÿ , û ý þÿ est retardée et la transaction ÷ û est mise en attente.
– sinon, ÷ û obtient le verrou aú û ý þÿ et l’opération û ý þÿ est exécutée.
2. Un verrou pour û ý þÿ n’est jamais relâché avant la confirmation de l’exécution par un autre module,
le gestionnaire de données GD.
Le terme “verrouillage à deux phases” s’explique par le processus détaillé ci-dessus : il y a d’abord
accumulation de verrou pour une transaction ÷ , puis libération des verrous.
Theorem 1 Toute exécution obtenue par un verrouillage à deux phases est sérialisable.
De plus on obtient une exécution stricte en ne relachant les verrous qu’au moment du commit ou du
rollback. Les transactions obtenues satisfont les propriétés ACID.
Il est assez facile de voir que ce protocole garantit que, en présence de deux transactions en conflit ÷ ñ et
÷ ô , la dernière arrivée sera mise en attente de la première ressource conflictuelle et sera bloquée jusqu’à ce
que la première commence à relâcher ses verrous (règle 1). A ce moment là il n’y a plus de conflit possible
puisque ÷cñ ne demandera plus de verrou (règle 3).
La règle 2 a principalement pour but de s’assurer de la synchronisation entre la demande d’exécution
d’une opération, et l’exécution effective de cette opération. Rien ne garantit en effet que les exécutions
vont se faire dans l’ordre dans lequel elles ont été demandées.
Pour illustrer l’intérêt de ces règles, on peut prendre l’exemple suivant :
Exemple 12.9 (Non-respect de la règle de relâchement des verrous). Soit les deux transactions suivantes :
1. T ñ : r ñ [x] w ñ [y] cñ
2. T ô : wô [x] wô [y] cô
et l’ordre d’exécution suivant : r ñ [x] wô [x] wô [y] c ô w ñ [y] c ñ . Supposons que l’exécution avec pose et
relâchement de verrous soit la suivante :
rl ñ [x] r ñ [x] ru ñ [x] wlô [x] wô [x] wlô [y] wô [y] wuô [x] wu ô [y] c ô wl ñ [y] w ñ [y] wu ñ [y] c ñ
On a violé la règle 3 : ÷ ñ a relaché le verrou sur þ puis en a repris un sur . Un “fenêtre” s’est ouverte qui a
permis a ÷ ô de poser des verrous sur þ et . Conséquence : l’exécution n’est plus sérialisable car ÷ ô a écrit
sur ÷ ñ pour þ , et ÷ ñ a écrit sur ÷ ô pour (r ñ [x] w ô [x] et w ô [y] w ñ [y]).
Reprenons le même exemple, avec un verrouillage à deux phases :
ùú ñ ý þÿ ù ñ ý þÿ óXú ô ý þÿ ÷ ô óXú ñ ý @ÿ ó ñ ý ¸ÿ ò ñ ù ñ ý þÿjó ñ ý ¸ÿ óXú ô ý þÿjó ô ý þÿ óXú ô ý @ÿ ó ô ý ¸ÿ ò ô ó ô ý þÿ ó ô ý ¸ÿ
Le verrouillage à deux phases (avec des variantes) est utilisé dans tous les SGBD. Il permet en effet une
certaine imbrication des opérations. Notons cependant qu’il est un peu trop strict dans certains cas : voici
l’exemple d’une exécution sérialisable
T relâche rl[x] pour w [x], mais a besoin ensuite de rl[y] pour r [y].
194 CHAPITRE 12. INTRODUCTION À LA CONCURRENCE D’ACCÈS
Le principal défaut du verrouillage à deux phases est d’autoriser des interblocages : deux transactions
concurrentes demandent chacune un verrou sur une ressource détenue par l’autre. Voici l’exemple type :
÷ ñ ù ñ ý þÿ7ó ñ ý @ÿ7ò ñ
–
– ÷ !ô ù ô ý @ÿó ô ý þÿ"7ò ô
Considérons maintenant que ÷ ñ et ÷ô s’exécutent en concurrence dans le cadre d’un verrouillage à deux
phases :
ùú ñ ý þÿjù ñ ý þÿ ùú ô ý ¸ÿjù ô ý ¸ÿjóXú ñ ý ¸ÿ ÷ ñ#$% óXú ô ý þÿj÷ ô&'
÷ ñ et ÷ ô sont en attente l’une de l’autre : il y a interblocage (deadlock en anglais).
Cette situation ne peut pas être évitée et doit donc être gérée par le SGBD : en général ce dernier
maintient un graphe d’attente des transactions et teste l’existence de cycles dans ce graphe. Si c’est le
cas, c’est qu’il y a interblocage et une des transactions doit être annulée et ré-éxécutée. Autre solution :
tester le temps d’attente et annuler les transactions qui dépassent le temps limite.
Notons que le problème vient d’un accès aux mêmes ressources, mais dans un ordre différent : il est
donc bon, au moment où l’on écrit des programmes, d’essayer de normaliser l’ordre d’accès aux données.
A titre d’exercice, on peut reprendre le programme de réservation donné initialement, mais dans une
version légèrement différente :
ProgrammeRESERVATION2
Entrée : Une séance (
Le nombre de places souhaité )+*-,ú ò (
Le client ò
debut
Lire la séance (
si (nombre de places libres ./)0*-,ú ò ( )
Lire le compte du spectateur ò
Débiter le compte du client
Soustraire )+*-,ú ò ( au nombre de places vides
Ecrire le compte du client ò
Ecrire la séance (
finsi
fin
Exemple 12.13 Toujours avec le programme ö214351Íö7678X÷9;:2) . Chaque programme veut réserver des
places dans la même séance, pour deux clients distincts ò ñ et ò ô .
ù ñ=< (>ù ñ'< ò ñ >;ù ô'< (>ù ô< ò ô ;> ó ñ?< (>;ó ô< (>;ó ô< ò ô ;> ó ñ?< ò ñ >`õ ñ õ ô
Sans verrou en lecture : on bloque mois ÷ ô , mais la transaction n’est plus sérialisable.
12.3. GESTION DES TRANSACTIONS EN SQL 195
1. READ UNCOMMITTED. C’est le mode qui offre le moins d’isolation : on autorise les lectures “sales”,
i.e. les lectures de tuples écrits par d’autres transactions mais non encore validées.
2. READ COMMITED. On ne peut lire que les tuples validés, mais il peut arriver que deux lectures
successives donnent des résultats différents.
En d’autres termes, un lecteur ne pose pas de verrou sur la donnée lue, ce qui évite de bloquer les
écrivains. C’est le mode par défaut dans ORACLE par exemple.
196 CHAPITRE 12. INTRODUCTION À LA CONCURRENCE D’ACCÈS
3. REPEATABLE READ. Le nom semble indiquer que l’on corrige le défaut de l’exemple précédent.
En fait ce mode garantit qu’un tuple lu au début de la transaction sera toujours visible ensuite, mais
des tuples peuvent apparaître s’ils ont étés insérés par d’autres transactions (on parle de “tuples
fantômes”).
4. SERIALIZABLE. Le défaut. Ce mode garantit les bonnes propriétés (sérialisabilité et recouvrabilité)
des transactions telles que présentées précédemment, mais de plus on garantit que plusieurs lectures
avec le même ordre SQL donneront le même résultat, même si des insertions ou mises-à-jour validées
ont eu lieu entretemps.
Tout se passe alors comme si on travaillait sur une “image” de la base de données prise au début de
la transaction.
Signalons enfin que certains systèmes permettent de poser explicitement des verrous. C’est le cas de
ORACLE qui propose par exemple des commandes telles que :
LOCK TABLE ... IN EXCLUSIVE MODE
12.4 Exercices
Exercice 12.1 On considère maintenant le problème (délicat) de la réservation des places pour un match.
Pour cela on ajoute les tables Match (Match, NomStade, PlacesPrises) et Client (NoClient, Solde). Les
opérateurs disposent du petit programme suivant pour réserver des places 1 :
Places (Client C, Match M, Nb-Places N)
begin
Lire le match M // Donne le nbre de places prises
Lire le stade S // Donne le nbre total de places
1. On lance simultanément deux exécutions du programme Augmenter (SF, 1000) pour augmenter la
capacité du Stade de France.
(a) Donnez un exemple d’une ’histoire’ (imbrication des lectures/écritures) non sérialisable.
(b) Donnez un exemple d’une histoire non recouvrable (en plaçant des ordres commit).
1. On suppose que chaque place vaut 300F.
12.4. EXERCICES 197
2. On a maintenant une exécution concurrente de Places (C, M, 1500) et de Augmenter (SF, 1000), H
étant un match qui se déroule au Stade de France. Voici le début de l’exécution 2 :
(a) Donner l’histoires complète en supposant qu’il y a 2000 places libres au début de l’exécution.
Donnez également le nombre de places libres dans le stade à la fin de l’exécution.
(b) L’histoire obtenue est-elle sérialisable ?
(c) Appliquer un verrouillage à deux phases (les verrous sont relâchés au moment du commit.
(d) Conclusion ? Y-avait-il un risque d’anomalie ? Que dire du comportememt du verrouillage à
deux phases ?
H = ùñý 3uÿjùOô@ý 3uÿ ùLñý Hÿ ùLñ9ý õÿ óXñý Hÿ ùhô9ý Hÿ ùhô¸ý õÿ óBô@ý HÿjóXñý õÿüòhñQó³ô@ý õÿüòQô
Chapitre 13
Travaux pratiques
Sommaire
13.1 Environnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
13.1.1 Connexion au système . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
13.1.2 Les commandes utiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
13.1.3 Utilisation de SQLPLUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
13.2 Requêtes SQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
13.2.1 Sélections simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
13.2.2 Jointures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
13.2.3 Négation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
13.2.4 Fonctions de groupe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
13.3 Concurrence d’accès . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
13.4 Normalisation d’un schéma relationnel . . . . . . . . . . . . . . . . . . . . . . . . . 206
13.5 gihj Optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
Ce petit document explique l’essentiel de ce qu’il faut savoir pour les TP Oracle. Pour tout ce qui n’est
pas essentiel, l’enseignant est là pour vous aider !
Commencez par lire en entier la section Connexion au système avant de toucher à la machine. Cela
peut vous éviter des ennuis. Ensuite, essayez de vous connecter en procédant lentement la première fois.
Une fois que vous êtes connectés et aue vous avez effectué votre premier ordre SQL, le plus dur est fait !
Dans ce qui suit, la partie Les commandes utiles vous explique les commandes UNIX de base : situer
son répertoire, éditer un fichier, obtenir la liste de ses fichiers, etc. La partie Comment effectuer des
requêtes SQL donne quelques recommandations pour utiliser de manière optimale votre environnement
de travail.
Les subsections suivantes traitent du coeur du sujet : la base SQL et les exercices proposés.
Bon courage !
13.1 Environnement
Prenez la peine de lire ceci jusqu’à la fin sans toucher à rien.
2. Un menu aparaît, proposant entre autres le choix telnet : il faut activer ce choix.
3. On demande le nom de votre serveur : il faut taper celsius.
Il peut y avoir quelques variantes en fonction de votre terminal, mais en expérimentant un peu, vous
devez vous en tirer. Si tout s’est bien passé, votre terminal communique avec celsius et vous demande
votre nom (username), puis votre mot de passe.
1. Votre username est votre nom propre, limité aux 6 premières lettres, plus le caractère _ (“souli-
gné”) , plus la première lettre de votre prénom.
Exemple : l’auditeur Michel Platini a pour username platin_m.
2. Votre mot de passe figure sur votre carte CNAM. ATTENTION : il s’agit du numéro en haut à
gauche.
Une fois connecté, vous devez initialiser votre environnement ORACLE. Cela se fait avec la commande
suivante :
source ~rigaux/env_oracle
Vous avez maintenant accès à ORACLE en tapant la commande suivante :
sqlplus /
Attention : il y a un blanc ’ ’ après les sqlplus. SQLPLUS est l’utilitaire d’ORACLE qui permet de
soumettre directement des commandes SQL. Vous devriez normalement obtenir l’affichage des messages
suivants :
SQL*Plus: Release 3.2.2.0.0 - Production on Mon Nov 24 12:16:03 1997
Connected to:
Oracle7 Server Release 8.0.1.0.0 - Production Release
With the distributed option
PL/SQL Release 2.2.3.0.0 - Production
SQL>
Il ne reste plus qu’à effectuer votre première requête (attention au point-virgule à la fin de la com-
mande) :
SQL> select titre from film;
Et voilà ! Si quelque chose cloche et que vous ne comprenez pas pourquoi (après y avoir réfléchi ...)
demandez à l’enseignant.
Un bon truc pour finir : la touche CTRL-C interrompt une commande.
Il est conseillé de lancer nedit et netscpape. Le premier permet d’éditer très facilement des fichiers
pour y saisir des requêtes (ou autres) ; le deuxième donne accès au WEB et donc à beaucoup d’informations,
y compris le corrigé du TP. Le fait de lancer un processus en tâche de fond avec l’option ’&’ siginifie qu’il
s’exécute sans bloquer votre terminal.
SQL> @req0
Annee NUMBER(4),
Nom_Realisateur VARCHAR2(20),
PRIMARY KEY (ID_film),
FOREIGN KEY (Nom_realisateur) REFERENCES Artiste);
Sinon, vous pouvez vous baser sur la convention suivante : toutes les chaînes de caractères com-
mencent par une majuscule suivie de minuscules.
13.2. REQUÊTES SQL 203
– Oracle n’implante que partiellement la norme SQL2. Voici quelques différences importantes :
5. Quels sont les acteurs dont on ignore la date de naissance ? (Attention : cela signifie que la valeur
n’existe pas).
13.2.2 Jointures
1. Qui a joué Tarzan (nom et prénom) ?
3. Films dont le réalisateur est Tim Burton, et un des acteurs avec Jonnhy Depp.
5. Titre des films dans lesquels a joué Woody Allen. Donner aussi le rôle.
6. Quel metteur en scène a tourné dans ses propres films ? Donner le nom, le rôle et le titre des films.
7. Quel metteur en scène a tourné en tant qu’acteur ? Donner le nom, le rôle et le titre des films où le
metteur en scène a joué.
9. Dans quels films le metteur-en-scène a-t-il le même prénom que l’un des interprètes ? (titre, nom du
metteur-en-scǹe, nom de l’inteprète). Le metteur-en-scène et l’interprète ne doivent pas être la même
personne.
10. Où peut-on voir un film avec Clint Eastwood ? (Nom et adresse du cinéma, horaire).
11. Quel film peut-on voir dans le 12e arrondissement, dans une salle climatisée ? (Nom du cinéma, No
de la salle, horaire, titre du film).
12. Liste des cinémas (Adresse, Arrondissement) ayant une salle de plus de 150 places et passant un film
avec Bruce Willis.
13. Liste des cinémas (Nom, Adresse) dont TOUTES les salles ont plus de 100 places.
13.2.3 Négation
1. Quels acteurs n’ont jamais mis en scène de film ?
6. k lnm Les artistes (nom, prénom) ayant joué au moins dans trois films depuis 1985, dont au moins un
passe a l’affiche a Paris (donner ausssi le nombre de films).
1. SEL.sql
2. MAJpas.sql
3. MAJfog.sql
4. MAJker.sql
Ensuite, ouvrez deux fenêtres et lancez SQLPLUS dans chacune : chaque session est considérée par ORACLE
comme un utilisateur, et on a donc 2 utilisateurs, nommés 1 et 2, en situation de concurrence. Dans tout ce
qui suit, on note 9')03]÷Xö û l’exécution de l’instruction 9)03F÷Xö par l’utilisateur . Par exemple Ho87pnq ù ñ
corespond à l’exécution du fichier MAJker dans la première fenêtre par la commande @MAJker. On note
de même ö2:2r û et õ7:7Hû l’exécution des commandes rollback; et commit; dans la fenêtre .
Questions Executez les séquences d’instruction décrites ci-dessous. Dans chacun des cas, expliquez ce
qui se passe.
1. Première expérience : l’utilisateur 1 effectue des mises-à-jour, tandis que l’utilisateur 2 ne fait que
des sélections. Que constate-t-on ?
³ñ 5ô ùLñ 5ô
351
r sZ3514r _sAHo87pnq =sZ3514r =sAHo87pt ('sZ3514r =s 2:2r sA351
r 5ô ö ³ñ 5ô .
2. idem, mais avec des òM@u&u .
³ñ 5ô
351
r sA351
r _sZHo87pnq ùñsZ3B1
r5ô?sõ7:7H+ñ=sZ351
r ô_sAHo87pnq Lù ñ=sZ351Íúüô_sõ7:7H+ñ_sZ3514r5ô .
3. Maintenant les deux utilisateurs effectuent des MAJ simultanées.
351
r ñ sZ351
r ô sZHo8
pnq ùñ sAHo87pt ( ô sA351 Íú ñ sZ351
r ô sZHo8
pnvw@x ñ sZHo8
pnvw@x ô sZ3514r ñ ks õ7:7H ñ ks õ7:7H ô .
Un bloquage est apparu. Pourquoi ?
4. Idem, avec un ordre des opérations qui diffère d’un utilisateur à l’autre.
3514r ñ sA351
r ô sZHo8
p"q ùñ sAHo87pt ( ô sZ3B1Íú ñ sA351
r ô sZHo87pt ( ñ sZHo87pnq ù ô ö7:2r ñ ö2:2r ô .
Que constate-t-on ?
5. k lnm En fait, ORACLE pratique une verrouilage à deux phases assez libéral, qui ne garantit pas la
sérialisabilité : aucun verrrou n’est placé sur une ligne lors d’une lecture. L’utilisateur peut verrouiller
explicitement en ajoutant la clause FOR UPDATE. Exemple :
Chaque ligne sélectionnée est alors verrouillée. Refaites les expériences précédentes avec un ver-
rouillage explicite des lignes que vous voulez modifier.
Chaque ligne corrrespond à un animal auquel on attribue un nom propre, une année de naissance et
une espèce (Ours, Lion, Boa, etc.). Cet animal est pris en charge par un gardien (avec prénom et sa-
laire) et occupe un emplacement dans le zoo (numéro d’emplacement, surface, type_emplacement et li-
bellé_emplacement : savane, désert, forêt, etc.). Enfin chaque espèce appartient à une classe (les mam-
mifères, poissons, reptiles, batraciens ou oiseaux) et on considère pour simplifier qu’elle provient d’une
origine unique (Afrique, Europe, etc.).
Vous pouvez consulter avec SQL le contenu de cette table Zoo qui vous est acessible en lecture. On
constate à l’oeil nu de nombreuses redondances et anomalies (les voyez-vous ?). Commencez par copier la
table chez vous avec la commande suivante :
Le schéma n’est évidemment pas correct : on n’y trouve même pas de contraintes (NOT NULL) ou de
définition de clé primaire. Le premier travail est donc de définir un bon schéma relationnel. Pour cela, on
vous donne les spécifications suivantes, sous forme de dépendances fonctionnelles :
– Type_emplacement Libellé_emplacement.
Questions
1. Le contenu actuel de la table est-il conforme à ces spécifications ? Indication : pour chaque dépen-
dance fonctionnelle 8yGz , où z est un attribut, exécutez l’ordre SQL
SELECT A, count(DISTINCT B)
FROM zoo
GROUP BY A;
Si la table respecte la DF, count(*) doit valoir N$NPN (à votre avis ?). Vous pouvez donc chercher les
anomalies en ajoutant un HAVING COUNT (DISTINCT B) >... à la requête ci-dessus.
2. Effectuez les corrections nécessaires avec des ordres UPDATE. Quand il y a une anomalie ou une
incohérence entre deux lignes, on considère que la première est la bonne. IMPORTANT : on valide
une mise-à-jour avec la commande commit;.
3. Montrer que Animal et Nom, Espèce sont des clés de la table Zoo ?
4. klnm Montrer que ce sont les seules clés.
5. Est-elle en troisième forme normale (donnez un argument formel) ? Y-a-t-il des redondances/anomalies
prévisibles ? Les retrouvez-vous dans la table Zoo ?
6. Trouvez un schéma en troisième forme normale, créez les ordres CREATE TABLE correspondant
(avec des contraintes PRIMARY KEY, FOREIGN KEY NOT NULL, UNIQUE) et exécutez-les. AT-
TENTION : une table à laquelle on fait référence dans un FOREIGN KEY doit avoir été créée avant.
Il faut donc faire attention à l’ordre de création des tables.
7. Une fois le schéma créé, insérez les données dans les tables du ’bon’ schéma en les copiant à partir
de la table Zoo. Pour copier des données d’une table A vers une table B(B1,B2, ... Bn) ,
SQL fournit une commande qui est un mélange de SELECT et de INSERT.
En fait l’ordre SELECT peut accéder à plusieurs tables (jointures, différences). Contrainte impor-
tante : il doit y avoir autant de Ai que de Bi, et pour les mêmes types. Exemple :
Vous devez maintenant avoir un bon schéma et un mauvais (la table Zoo toute seule). Sur ces deux
schémas, exprimez les requêtes SQL qui suivent.
1. Quels sont les Ours du zoo ?
2. Quels animaux s’appellent Martin ?
3. Quels animaux habitent dans la jungle ?
4. De quels animaux s’occupe le gardien Dupond ?
208 CHAPITRE 13. TRAVAUX PRATIQUES
5. k lnm Sur quel(s) emplacement(s) y-a-il des animaux de classes diffŕentes (no, surface et libellé du type
de l’emplacement).
6. Somme des salaires des gardiens.
7. ...
Considérons les anomalies qui existaient initialement : sont-elles encore possibles dans le ’bon’ schéma.
D’un autre côté, y-a-t-il des requêtes que l’on peut exprimer sur Zoo et pas sur le nouveau schéma ?
(autrement dit : a-t-on perdu de l’information ?)
Conclusion : qu’a-t-on gagné, qu’a-t-on perdu ?
<e{ >
13.5 Optimisation
ORACLE fournit sous SQLPLUS un outil, EXPLAIN, qui donne une description du plan d’exécution
choisi par le système pour une requête quelconque. EXPLAIN est très simple à utiliser. Il fonctionne de la
manière suivante :
1. Tout d’abord on crée une table, plan_table, qui est destinée à contenir toutes les informations re-
latives à un plan d’exécution. La table doit être créée avec le fichier de commandes plan_table.sql 1.
2. Ensuite on exécute une requête en demandant le stockage des explications relatives à cette requête.
Exemple :
EXPLAIN PLAN
SET statement_id = ’cin0’
FOR SELECT titre, heure_debut
FROM seance s, film f
WHERE s.id_film = f.id_film
AND f.titre=’Vertigo’;
Plan d’execution
---------------------------------------------------------------------------
0 SELECT STATEMENT
1 NESTED LOOPS
2 TABLE ACCESS FULL SEANCE
3 TABLE ACCESS BY ROWID FILM
4 INDEX UNIQUE SCAN SYS_C004709
Ici, le plan d’exécution est le suivant : on parcourt en séquence la table SEANCE (ligne 2) ; pour
chaque séance, on accède à la table FILM par l’index 2 (ligne 4), puis pour chaque ROWID provenant
de l’index, on accède à la table elle-même (ligne 3). Le tout est effectué dans une boucle imbriquée
(ligne 1).
1. Vous pouvez récupérer ce fichier en le copiant avec la commande suivante : cp
/users/ensinf/rigaux/PUBLIC/utlxplan.sql .
2. Cet index a été automatiquement créé en association avec la commande PRIMARY KEY lors de la création de la table.
13.5. klnm OPTIMISATION 209
Questions
1. Reprendre les requêtes définies au début du TP sur la base de données ’Officiel des Spectacles’, et
expliquer le plan d’exécution donné par ORACLE.
2. Supprimer quelques index, et regarder le changement dans les plans d’exécutions. NB : vous pouvez
obtenir la liste des index existant sur vos tables avec la commande :