Temario Ext
Temario Ext
Temario Ext
Curso 2001/2002
Segundo Cuatrimestre
7,5 Créditos
(4 Teoría + 3,5 Prácticas)
1.- OBJETIVOS
Teoría
En esta asignatura se introducen los sistemas de bases de datos como el modo fundamental de
organizar los datos en los sistemas de información. Se centra el estudio en los sistemas de bases de
datos relacionales, ya que son los más extendidos hoy en día y poseen una sólida base teórica que
los sustenta. Además de aprender el uso y funcionamiento de los sistemas relacionales, se estudia
una metodología de diseño que es también la más utilizada, tanto en el ámbito profesional como en
el académico.
El objetivo general es, por lo tanto, el de ofrecer una base sólida en los aspectos fundamentales
de la tecnología de bases de datos desde el enfoque relacional. Dichos aspectos comprenden las
ideas, tanto teóricas como prácticas, que son la base de los sistemas relacionales, y el problema del
diseño de bases de datos.
Prácticas
El objetivo es aprender el lenguaje SQL y utilizarlo para interaccionar con bases de datos
relacionales, tanto en el ámbito interactivo, como embebido en un lenguaje de programación de alto
nivel. También se aprende el manejo de herramientas que permiten la generación de aplicaciones.
2.- TEMARIO
Teoría
Tema 1. Introducción
En este tema se presentan los sistemas de bases de datos, haciendo antes un repaso por sus
predecesores, los sistemas de ficheros. Aunque los sistemas de ficheros se han quedado obsoletos,
hay dos buenas razones para estudiarlos. En primer lugar, el conocer los problemas de este tipo de
sistemas nos previene de volver a cometerlos. En segundo lugar, si en algún momento fuera
necesario convertir un sistema de ficheros en un sistema de bases de datos, comprender cómo
trabaja este sistema puede ser una ayuda esencial.
Resumen
Los predecesores de los sistemas de bases de datos son los sistemas de ficheros. Un sistema de
ficheros está formado por un conjunto de programas que dan servicio a los usuarios finales. Cada
programa define y gestiona sus propios datos. Aunque los sistemas de ficheros supusieron un gran
avance sobre los sistemas manuales, tienen inconvenientes bastante importantes, como la
redundancia de datos y la dependencia entre programas y datos.
2
F47. Ficheros y Bases de Datos
Los sistemas de bases de datos surgieron con el objetivo de resolver los problemas que
planteaban los sistemas de ficheros. Una base de datos es un conjunto de datos relacionados que
recogen las necesidades de información de una empresa u organización. Estos datos se comparten
por todos los usuarios. El sistema de gestión de bases de datos es un conjunto de programas que
permiten a los usuarios definir, crear y mantener la base de datos, además de proporcionar un
acceso controlado a la misma.
La base de datos contiene tanto los datos como su definición. Todos los accesos a la base de
datos se realizan a través del sistema de gestión de bases de datos. El sistema de gestión de bases de
datos proporciona un lenguaje de definición de datos que permite a los usuarios definir la base de
datos, y un lenguaje de manejo de datos que permite a los usuarios la inserción, actualización,
eliminación y consulta de datos de la base de datos. El sistema de gestión de bases de datos también
proporciona un acceso controlado a la base de datos: proporciona seguridad, integridad,
concurrencia y controla la recuperación ante fallos. Además, proporciona un mecanismo de vistas
que permite mostrar a los usuarios sólo aquellos datos que les interesan.
Las personas involucradas en el entorno de una base de datos son: el administrador de la base
de datos, los diseñadores de la base de datos, los programadores de aplicaciones y los usuarios
finales.
Los sistemas jerárquico y de red representan la primera generación de los sistemas de gestión
de bases de datos, surgida hacia los años sesenta. El modelo relacional, propuesto por E. F. Codd en
1970, representa la segunda generación de los sistemas de gestión de bases de datos. Este modelo es
el más extendido en la actualidad. La tercera generación de los sistemas de gestión de bases de
datos se encuentra representada por el modelo relacional extendido y el modelo orientado a objetos.
Los sistemas de bases de datos presentan una serie de ventajas, tanto por el hecho de compartir
los datos, como por la existencia del sistema de gestión de bases de datos. Algunas de estas ventajas
son el control de la redundancia, la consistencia de datos, la mejora en los aspectos de seguridad y
la integridad. Algunos de sus inconvenientes son su elevada complejidad, su coste y su
vulnerabilidad ante fallos.
Bibliografía
En la mayoría de los libros sobre sistemas de bases de datos se presentan estos sistemas
haciendo un repaso de sus predecesores, los sistemas de ficheros. Para la elaboración de este tema
en el libro de apuntes de la asignatura se ha utilizado el capítulo 1 de CONNOLLY, BEGG Y
STRACHAN (1996).
3
F47. Ficheros y Bases de Datos
6. Ficheros dispersos
6.1 Dispersión dinámica
6.2 Dispersión extensible
6.3 Dispersión lineal
7. Agrupamiento
8. Índices
8.1 Índices de un solo nivel
8.2 Índices multinivel
8.3 Árboles B y árboles B+
8.4 Ficheros dispersos como índices
Resumen
Los discos magnéticos son los dispositivos de almacenamiento secundario más utilizados para
almacenar los ficheros de una base de datos. Los datos se almacenan en el disco en sectores o en
bloques. El acceso a un sector o bloque es costoso debido al tiempo de búsqueda, el tiempo de
rotación y el tiempo de transferencia del mismo.
Hay tres organizaciones primarias para los ficheros: desordenados, ordenados y dispersos. Los
ficheros desordenados requieren una búsqueda lineal para localizar registros, pero la inserción de
éstos es muy sencilla. La eliminación plantea problemas en el sentido de que se desperdicia espacio,
recuperable mediante una reorganización del fichero. Los ficheros ordenados reducen el tiempo
requerido para leer registros en orden, según el campo de ordenación. El tiempo necesario para
buscar un registro cualquiera, dado el valor de su campo de ordenación, también se reduce, ya que
se puede realizar una búsqueda binaria. Sin embargo, la necesidad de mantener los registros en
orden hace muy costosa la inserción. Por esta razón, se puede utilizar un fichero de desborde no
ordenado para reducir el coste de la inserción. Los registros de desborde se fusionan con el fichero
de datos periódicamente.
La dispersión ofrece acceso muy rápido a un registro cualquiera dado el valor de su campo de
dispersión. Las colisiones que causan desborde en los bloques se pueden resolver de varios modos,
siendo el más frecuente el encadenamiento. El acceso a un registro a través de un campo que no es
el campo de dispersión, es lento, y lo mismo sucede con el acceso secuencial a los registros a través
de cualquier campo. Hay varias técnicas que permiten al fichero expandirse y contraerse
dinámicamente: la dispersión dinámica, la extensible y la lineal.
El agrupamiento es otro modo de organizar los registros, cuyo resultado es un fichero ordenado
de un modo especial. Mediante el agrupamiento se implementan físicamente las relaciones entre los
registros de varios ficheros, almacenándolos consecutivos en el mismo fichero.
Los índices son estructuras de acceso adicionales con las que se mejora la eficiencia en la
obtención de registros de un fichero de datos. Dichas estructuras de acceso pueden usarse junto con
las organizaciones de ficheros vistas anteriormente. Hay tres tipos de índices ordenados de un solo
nivel: primarios, secundarios y de agrupamiento. Cada índice se basa en un campo del fichero. Los
índices primarios y de agrupamiento se construyen según el campo de ordenamiento físico del
fichero, en tanto que los índices secundarios se basan en campos que no son de ordenamiento. El
campo de un índice primario debe ser, además, un campo con valores únicos (campo clave), cosa
que no sucede con un índice de agrupamiento. Los índices de un solo nivel son ficheros ordenados,
y se examinan mediante búsqueda binaria. Se pueden construir índices de varios niveles
(multinivel) para mejorar la eficiencia en las búsquedas.
4
F47. Ficheros y Bases de Datos
Los árboles B y los árboles B+ son índices de varios niveles cuya estructura permite al índice
expandirse y contraerse dinámicamente. Los nodos (bloques) de estas estructuras se mantienen
ocupados entre el 50% y el 100% de su capacidad gracias a sus algoritmos de inserción y
eliminación. Después de cierto tiempo, los nodos se estabilizan en un grado de ocupación medio del
69%, lo que deja espacio para hacer inserciones sin tener que reorganizar el índice con mucha
frecuencia. En general, los árboles B+ pueden contener más entradas en sus nodos internos que los
árboles B, por lo que es posible que un árbol B+ tenga menos niveles o incluya más entradas que el
árbol B equivalente.
También es posible construir índices mediante estructuras de datos que utilizan la técnica de la
dispersión.
Bibliografía
Para elaborar este tema en el libro de apuntes de la asignatura se han utilizado los capítulos 4 y
5 del texto de ELMASRI Y NAVATHE (1997), en donde se describen las principales organizaciones de
ficheros para el almacenamiento de datos en disco. En el texto se realiza un estudio de este
dispositivo de almacenamiento secundario. Estos autores también realizan un análisis de las
distintas estructuras de índices para el acceso a estos ficheros.
FOLK Y ZOELLICK (1992) presentan con mayor detalle todos los conceptos básicos sobre
estructuras de ficheros en el capítulo 4 y estudian los dispositivos de almacenamiento secundario
magnéticos más utilizados: discos y cintas, así como el CD-ROM (capítulo 3 y apéndice A).
Además, analizan de modo muy exhaustivo los distintos tipos de índices (capítulo 6), los árboles B
y los árboles B+ (capítulos 8 y 9), y la dispersión, haciendo un extenso estudio de la dispersión
extensible (capítulos 10 y 11).
En este tema se presenta un análisis de los modelos de datos y se definen los conceptos de
esquema y estado de una base de datos. Se trata la arquitectura de los sistemas de bases de datos y
la independencia respecto a los datos. También se definen los distintos lenguajes que proporcionan
los sistemas de gestión de bases de datos y se estudian varias clasificaciones de estos sistemas. Se
comentan las funciones de los sistemas de gestión de bases de datos y los módulos de software que
los componen.
Resumen
físicos. Es importante distinguir entre el esquema (descripción de una base de datos) y la base de
datos en sí misma. El esquema no cambia a menudo, en tanto que la base de datos cambia cada vez
que se insertan, eliminan o modifican datos.
Todo sistema de gestión de bases de datos que separe los tres niveles deberá tener
correspondencias entre los esquemas para transformar las peticiones de los usuarios y los
resultados, de un nivel al siguiente. La mayoría de los sistemas de gestión de bases de datos no
separan los tres niveles por completo. La independencia de datos hace que cada nivel de la
arquitectura sea inmune a los cambios en los niveles de debajo. La independencia de datos lógica se
refiere a la inmunidad de los esquemas externos frente a los cambios en el esquema conceptual. La
independencia de datos física se refiere a la inmunidad del esquema conceptual frente a los cambios
en el esquema interno.
Los sistemas de gestión de bases de datos se pueden clasificar según varios criterios: el modelo
lógico que soportan, el número de usuarios, el número de puestos, el coste y la generalidad. La
clasificación más importante es la que se basa en el modelo lógico, siendo los principales modelos
que se utilizan en el mercado el modelo relacional, el de red, el jerárquico y el orientado a objetos.
Los sistemas de gestión de bases de datos son sistemas informáticos muy complejos formados
por una serie de componentes, cada uno de ellos con una función específica. Además de estos
módulos, los sistemas de gestión de bases de datos cuentan con una serie de herramientas que
ayudan al administrador de la base de datos a manejar el sistema.
Bibliografía
La mayoría de los libros de texto sobre bases de datos analizan los diversos conceptos que se
han presentado en este tema. En el libro de apuntes de la asignatura se ha elaborado este tema a
partir de los capítulos 1 y 2 del texto de ELMASRI Y NAVATHE (1997). Los mismos contenidos se
encuentran en el capítulo 2 del texto de CONNOLLY, BEGG Y STRACHAN (1996) y también en los
capítulos 1 y 2 del texto de DATE (1993).
En este tema se presenta el modelo relacional, que es el modelo lógico en el que se basan la
mayoría de los sistemas de gestión de bases de datos comerciales en uso hoy en día. En primer
lugar, se trata la descripción de los principios básicos del modelo relacional: la estructura de datos
relacional y las reglas de integridad. A continuación, se presenta un tratamiento detallado del
álgebra relacional, que es un conjunto de operaciones para manipular la estructura de datos
6
F47. Ficheros y Bases de Datos
Resumen
Una superclave es un conjunto de atributos que identifica las tuplas de una relación de modo
único. Una clave candidata es una superclave irreducible. La clave primaria es la clave candidata
que se escoge para identificar las tuplas de una relación. Toda relación tiene siempre clave primaria.
Una clave ajena es un atributo o un conjunto de atributos que hacen referencia a la clave primaria
de otra relación.
Cuando un atributo no tiene valor para una determinada tupla, bien porque se desconoce, o bien
porque no tiene sentido para dicha tupla, se dice que es nulo.
La regla de integridad de entidades es una restricción que dice que ninguno de los atributos que
forman la clave primaria puede ser nulo. La regla de integridad referencial dice que los valores de
las claves ajenas deben coincidir con alguno de los valores de la clave primaria a la que hacen
referencia, o bien ser completamente nulos.
7
F47. Ficheros y Bases de Datos
Una vista es una relación virtual. Las vistas proporcionan seguridad y permiten que el
diseñador haga esquemas a medida de cada usuario. Las vistas se generan dinámicamente y no
todas son actualizables.
Bibliografía
En este tema se comentan las fases principales del ciclo de vida de un sistema de información y
se ve cómo se relaciona esto con el desarrollo de aplicaciones de bases de datos. Después, se
describen las tareas que se deben realizar en cada etapa del ciclo de vida de una aplicación de bases
de datos para que se produzca un sistema que funcione correctamente. Por último, se presenta todo
el personal responsable de la planificación, diseño y administración de una base de datos.
Resumen
8
F47. Ficheros y Bases de Datos
base de datos sobre la que se apoya. Las etapas de este ciclo de vida son: planificación de la base de
datos, definición del sistema, recolección y análisis de los requisitos, diseño de la base de datos,
selección del sistema de gestión de bases de datos, diseño de aplicaciones, elaboración de
prototipos, implementación, conversión y carga de datos, prueba y mantenimiento.
En el diseño de una base de datos se debe realizar un modelo de datos que ayude a entender el
significado de los datos y que facilite la comunicación en cuanto a los requisitos de información. La
primera etapa es el diseño conceptual, en donde se construye un esquema de la información que
maneja la empresa, independientemente de todas las consideraciones físicas. Después viene el
diseño lógico, en el que el esquema anterior se transforma según el modelo de base de datos que se
vaya a utilizar para implementar el sistema. Por último, en la etapa del diseño físico, se produce una
descripción de la implementación de la base de datos en memoria secundaria.
El diseño de las aplicaciones, una fase que se debe llevar a cabo en paralelo con el diseño de la
base de datos, está compuesta por dos actividades: el diseño de las transacciones y el diseño de las
interfaces de usuario de informes y formularios.
Las herramientas CASE permiten que el desarrollo de los sistemas de información se realice de
modo eficiente y efectivo.
La administración de datos consiste en la gestión de los datos como recurso, mientras que la
administración de la base de datos es la gestión de la base de datos física.
Bibliografía
Siendo éste un tema introductorio, se encuentra reflejado en la mayoría de los textos sobre
bases de datos. En el libro de apuntes de la asignatura, este tema se ha elaborado a partir del
capítulo 4 del texto de CONNOLLY, BEGG Y STRACHAN (1996).
En este tema se presenta una metodología para el diseño conceptual de bases de datos que se
basa en el modelo de datos más popular en la actualidad, el modelo entidad-relación.
Resumen
El diseño de bases de datos se descompone en tres etapas: diseño conceptual, diseño lógico y
diseño físico. El diseño conceptual es el proceso por el cual se construye un modelo de la
información que se utiliza en una empresa u organización, independientemente del sistema de
gestión de bases de datos que se vaya a utilizar para implementar el sistema y de los equipos
informáticos o cualquier otra consideración física.
9
F47. Ficheros y Bases de Datos
utilizado es el modelo entidad-relación, que posee los siguientes conceptos: entidades, relaciones,
atributos, dominios de atributos, identificadores y jerarquías de generalización.
En la metodología del diseño conceptual se construye un esquema conceptual local para cada
vista de cada usuario o grupo de usuarios. En el diseño lógico se obtiene un esquema lógico local
para cada esquema conceptual local. Estos esquemas lógicos se integran después para formar un
esquema lógico global que represente todas las vistas de los distintos usuarios de la empresa. Por
último, en el diseño físico, se construye la implementación de la base de datos sobre un sistema de
gestión de bases de datos determinado. Ya que este diseño debe adaptarse al sistema de gestión de
bases de datos, es posible que haya que introducir cambios en el esquema lógico para mejorar las
prestaciones a nivel físico.
Cada vista de usuario comprende los datos que un usuario maneja para llevar a cabo una
determinada tarea. Normalmente, estas vistas corresponden a las distintas áreas funcionales de la
empresa, y se pueden identificar examinando los diagramas de flujo de datos o entrevistando a los
usuarios, examinando los procedimientos, informes y formularios, y observando el funcionamiento
de la empresa.
Cada esquema conceptual local está formado por entidades, relaciones, atributos, dominios de
atributos, identificadores y puede haber también jerarquías de generalización. Además, estos
esquemas se completan documentándolos en el diccionario de datos.
Bibliografía
En este tema se describen los pasos para llevar a cabo el diseño lógico. Ya que aquí se trata el
diseño de bases de datos relacionales, en esta etapa se obtiene un conjunto de relaciones (tablas) que
representen los datos de interés. Este conjunto de relaciones se valida mediante la normalización,
técnica que se estudia al final del tema.
Resumen
El diseño de bases de datos consta de tres etapas: diseño conceptual, lógico y físico. El diseño
lógico es el proceso mediante el que se construye un esquema que representa la información que
maneja una empresa, basándose en un modelo lógico determinado, pero independientemente del
sistema de gestión de bases de datos concreto que se vaya a utilizar para implementar la base de
datos e independientemente de cualquier otra consideración física.
Las dos fases de que consta el diseño lógico son la construcción y validación de los esquemas
lógicos locales para cada vista de usuario, y la construcción y validación de un esquema lógico
global. Cada una de estas fases consta de una serie de pasos. Uno de los pasos más importantes es la
10
F47. Ficheros y Bases de Datos
conversión del esquema conceptual a un esquema lógico adecuado al modelo relacional. Para ello,
se deben hacer algunas transformaciones: eliminar las relaciones de muchos a muchos, eliminar las
relaciones complejas, eliminar las relaciones recursivas, eliminar las relaciones con atributos,
eliminar los atributos multievaluados, reconsiderar las relaciones de uno a uno y eliminar las
relaciones redundantes.
Los esquemas lógicos se pueden validar mediante la normalización y frente a las transacciones
de los usuarios. La normalización se utiliza para mejorar el esquema, de modo que éste satisfaga
ciertas restricciones que eviten la duplicidad de datos. La normalización garantiza que el esquema
resultante está más próximo al modelo de la empresa, es consistente, tiene la mínima redundancia y
la máxima estabilidad.
Las restricciones de integridad son las restricciones que se imponen para que la base de datos
nunca llegue a un estado inconsistente. Hay cinco tipos de restricciones de integridad: datos
requeridos, restricciones de dominio, integridad de entidades, integridad referencial y reglas de
negocio. Para garantizar la integridad referencial se debe especificar el comportamiento de las
claves ajenas: si aceptan nulos y qué hacer cuando se borra la tupla a la que se hace referencia, o
cuando se modifica el valor de su clave primaria.
Bibliografía
Prácticas
En las sesiones de prácticas de esta primera parte se presenta el lenguaje SQL (Structured
Query Language), que permite tanto la realización de consultas sobre una base de datos relacional,
como la inserción, borrado y modificación de datos de la misma. Además permite crear, definir y
mantener los objetos de la base de datos.
Mediante el sistema de gestión de bases de datos Oracle 8, el uso de SQL se realiza tanto de
modo interactivo, como embebido en un lenguaje de programación. Para el uso interactivo se utiliza
la herramienta de Oracle SQL*Plus.
Las sentencias SQL para crear y cargar la base de datos de prácticas están disponibles en la
página web <http://www4.uji.es/~dba>. También se pueden encontrar aquí los resultados que se
obtienen al ejecutar las sentencias de los ejercicios de SQL propuestos en el libro de prácticas (M.
MARQUÉS , J. I. ALIAGA , S. GARCÍA , G. QUINTANA (2001)).
En esta parte se presenta la herramienta Forms incluida en Developer 2000 de Oracle. Esta
herramienta permite al usuario desarrollar aplicaciones con interfaces de diseño gráfico, que
realizan consultas y transacciones sobre la base de datos.
11
F47. Ficheros y Bases de Datos
Se presenta también PL/SQL, un lenguaje procedural proporcionado por Oracle que extiende
SQL permitiendo construcciones procedurales y las estructuras básicas de los lenguajes de
programación. Los programas de aplicación que utilizan SQL embebido pueden incluir bloques de
PL/SQL, lo que permite conseguir mejores prestaciones.
3.- BIBLIOGRAFÍA
Apuntes de Teoría
M. MARQUÉS (2000)
Apuntes de Ficheros y Bases de Datos
Materials. Num. 20
Publicacions de la Universitat Jaume I
Bibliografía de Teoría
C. BATINI, S. CERI, S. B. NAVATHE (1994)
Diseño Conceptual de Bases de Datos. Un Enfoque de Entidades - Interrelaciones
Addison-Wesley / Díaz de Santos
T. CONNOLLY, C. BEGG, A. STRACHAN (1996)
Database Systems. A Practical Approach to Design, Implementation and Management
Addison-Wesley
Segunda edición en 1998
C. J. DATE (1993)
Introducción a los Sistemas de Bases de Datos. Volumen I, Quinta edición
Addison-Wesley Iberoamericana
Sexta edición por Addison-Wesley en 1995 (en inglés)
12
F47. Ficheros y Bases de Datos
Prácticas
M. MARQUÉS , J. I. ALIAGA , S. GARCÍA , G. QUINTANA (2001)
SQL y Desarrollo de aplicaciones en Oracle 8
Col⋅lecció <<Treballs d’Informàtica i Tecnología>> Num. 9
Universitat Jaume I.
ORACLE
Manuales: <http://www4.uji.es/~oracle/manuales>
4.- EVALUACIÓN
Se realiza un examen final que engloba teoría y prácticas, y que combina preguntas de test con
preguntas de respuesta corta (cuestiones). Los exámenes de cursos anteriores están disponibles a
través de la web de la asignatura.
13