Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Archivo Secuencial Indexado PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 27

2.

ARCHIVOS
Entendemos por estructura a la forma cmo estn constituidos fsicamente los archivos, y organizacin de archivos a la forma de administracin de los archivos, en funcin de las relaciones de los registros. Criterios para Elegir un tipo de Organizacin Se pueden considerar tres criterios bsicos: Rpido Acceso Economa de Almacenamiento Facilidad de Uso La eleccin de la organizacin determina el rendimiento relativo del sistema para cada una de las tres caractersticas enunciadas. Algunas mediadas de rendimiento son: a) b) c) d) e) Almacenamiento requerido por un registro. Tiempo de bsqueda de un registro. Tiempo requerido para leer todo el archivo. Tiempo requerido para insertar un registro. Tiempo para modificar un registro. Para archivos, existen las siguientes organizaciones: Secuencial Secuencial Indexado Directa (relativa) 2.1 Organizacin de Archivos Secuenciales Los registros estn grabados consecutivamente cuando el archivo se crea, y de igual forma deben ser accesados consecutivamente cuando el archivo es procesado o tomado como entrada de datos. La estructura bsica puede verse en la figura siguiente:

Pg. 12 de 27

Inicio del Archivo Registro 1 Registro 2 Registro I Registro N-1 Registro N Fin del Archivo Los registros de un archivo secuencial quedan ordenados de acuerdo con el valor de algn campo o grupo de campos, denominados clave o llave. Esta organizacin resulta adecuada cuando se tiene posicionamiento secuencial: Accesar el prximo registro es trivial. Con respecto a la actualizacin, el reemplazo de campos de igual largo puede hacerse reescribiendo dicho campo. Para agregar registros a un archivo secuencial hay dos opciones: Crear un nuevo archivo. Agregar al final del archivo. Para eliminar los registros estos se pueden marcar (necesidad de un campo extra) o se debe crear un nuevo archivo. Los archivos secuenciales ocupan un tamao mnimo, o sea, slo el espacio requerido para el almacenamiento de los registros. Mientras que el patrn de acceso al archivo sea el mismo que el dado por el ordenamiento de los registros, el tiempo de acceso ser mnimo.

Pg. 13 de 27

2.2 Sorting, Merging, Reporting

2.2.1 Sorting La idea del ordenamiento es reubicar los registros de un archivo, de acuerdo a alguna estrategia predefinida, de manera que queden en una secuencia tal que pueda ser utilizado por otro proceso. Como resultado de este ordenamiento, se genera un segundo archivo, que contiene exactamente los mismos registros, pero en la secuencia deseada. Segn algunos autores, el ordenamiento se produce cuando el campo clave tiene valores en todos los registros, de lo contrario se habla de clasificacin. Por otra parte, si hablamos de archivos secuenciales, cuyos registros han sido almacenados por dos campos claves, no podr estar ordenado tambin por otro campo, sino que se deber generar otro archivo que cumpla con esta nueva condicin de ordenamiento. Una representacin es la siguiente:
ORDENACION

A1

A2

Figura 3 2.2.2 Merging La intercalacin consiste en agregar registros a un archivo, a partir de dos o ms archivos, los cuales deben estar ordenados por un campo clave. El archivo resultante tambin estar ordenado por el mismo campo clave. Se hace hincapi en que ambos (todos) archivos deben poseer los mismos campos, y ordenados en la misma secuencia. Por ejemplo: clave

Archivo 1:

RUT

NOMBRE

APELLIDO

EDAD

Archivo 2:

RUT

clave

NOMBRE

APELLIDO

EDAD

Pg. 14 de 27

Archivo 3:

APELLIDO

NOMBRE

RUT

clave

EDAD

Se puede hacer un merge entre 1 y 2 pero no entre 1 y 3 o entre 2 y 3. Una representacin es la siguiente:

A1

A2

INTERCALACION

A2

. . .
Figura 4 2.2.3 Reporting Una vez que se han generado los archivos, stos se deben ocupar para algn trabajo especfico. Esta es la idea de los reportes. Los reportes son datos de salida ubicados segn alguna estrategia, que permite un cabal entendimiento de los datos. Un reporte puede verse como un conjunto de campos, no necesariamente de un mismo archivo (por lo menos esta es la idea ms actual de un reporte). Los registros de los archivos de reporte contienen las siguientes partes: a) Registros de Encabezados: Incluye ttulo del reporte, encabezado de pgina y encabezado de grupo para identificar la informacin. b) Registros de Detalle: Incluye toda la informacin que se desea mostrar o reportar, y es la parte variable. Generalmente se encuentran arregladas en columnas. c) Registros de Pi de Pgina: Incluye pies de pgina de grupos, pginas y reportes (informacin sumaria). Los datos sumarios se utilizan para calcular cortes de control, los cuales corresponden a cambios de algn campo clave. Una representacin es la siguiente:
Pg. 15 de 27

Encab. y Pie

A3

REPORTE

. . .
Figura 5 2.3 Acceso Directo El acceso directo es el que permite acceder de manera rpida y simple a los registros de un archivo. Se debe aclarar que la secuencia u ordenamiento lgico de los registros no tiene, necesariamente, una relacin con la secuencia fsica. La forma de acceder a los registros es a travs de la clave de dicho archivo.

Inicio del Archivo

Clave Zalo Ana Patricio Norma Bruno

Posicin Fsica 1 2 3

I I+1

Pg. 16 de 27

Carla Esteban Fin del Archivo

N-1 N

Para sacar provecho de este tipo de organizacin, es conveniente que el medio de almacenamiento permita un acceso directo. Esto nos lleva a concluir que la memoria principal y los discos magnticos son la mejor opcin, en cambio las cintas son la peor. El inconveniente que tiene este tipo de acceso es que se debe programar la relacin existente entre el contenido de un registro y su posicin fsica. Luego puede suceder que existan huecos libres dentro del medio magntico, y por lo tanto pueden existir huecos libres entre registros. Para poder utilizar direccionamiento directo se debe tener un conjunto de datos con las siguientes caractersticas: 1. El conjunto de claves debe tener un orden ascendente, con pocos valores no utilizados, que podran significar espacio de almacenamiento desperdiciado. 2. La clave de los registros corresponden con los nmeros de las direcciones. Existe una direccin de almacenamiento en el archivo por cada valor posible de la clave, y stas no tiene valores duplicados. Los valores de las claves estn en un rango acotado, ya que cuando se asigna el espacio de almacenamiento, se comienza con el valor ms bajo de la clave y se termina con el valor ms alto. A continuacin se dar un ejemplo, en el que se podrn ver las caractersticas en 2 archivos, y como ellas estn mejor dadas en un archivo que en otro.

Ejemplo: 001 002 004 005


Pg. 17 de 27

001 004 007 010

006 008 010 011 012 014

036 047 048 050 056

La secuencia de claves de la izquierda permite un buen direccionamiento directo ya que hay pocas claves que faltan, caso contrario ocurre con la de la derecha. Ahora bien, con ambos conjuntos se puede tener direccionamiento directo. Otro problema que prohibe el uso de direccionamiento directo es cuando las claves para un registro no representan una direccin. Ahora,, si se necesita acceso directo y no es posible el direccionamiento directo, se debe utilizar hashing. Ejemplo: Sea un conjunto de claves, en el que el mnimo es 1 y el mximo es el 18. Sean los registros con las siguientes claves: 2, 4, 7 ,8, 10, 14, 15 Al ser puestos en registros tendran la siguiente disposicin:

2 4

7 8 10

Pg. 18 de 27

14 15 tambin se puede presentar la ocasin de utilizar una frmula para el clculo de la direccin fsica. Direccin Base Tamao del Registro Direccin Fsica = Direccin Base + Tamao del Registro*(Valor Clave - 1) 2.4 Archivos Indexados En los archivos indexados pueden verse como un conjunto de registros, los que pueden accesarse mediante una clave. Este tipo de archivos constan de 2 partes: Area Principal Area de Indices 2.4.1 Area Principal En esta rea se almacenan los registros, con los datos, al momento de crear el archivo. El archivo es creado secuencialmente, es decir, se escriben los registros en el archivo primario en una secuencia indicado por el ordenamiento previo de las claves. Esta rea incluye a todos los campos de cada registro. 2.4.2 Area de Indices Esta rea es creada automticamente por el sistema. Esta rea contiene tantos registros como registros existan en el rea principal. Cada registro del rea de ndices consta de 2 campos: Clave de los Registros Puntero al Registro en el rea principal

Pg. 19 de 27

Ejemplo: Sea el siguiente archivo (slo se muestran las claves): 2, 10, 13, 4, 9, 25, 6, 28, 3

Area de Indices Clave 2 10 13 4 9 25 6 28 3 30 Puntero 1 2 3 4 5 6 7 8 9 10

Area Principal

1 2 3 4 5 6 7 8 9 10 11 12

2 10 13 4 9 25 6 28 3 30

Insertar 30: Siempre se inserta al final, es decir, el archivo crece siempre hacia abajo. Eliminar 4: Se marca el registro con cero, y as se elimina lgicamente Insertar 8: Se pone al final del archivo o se busca un hueco. 2.5 Acceso Secuencial Indexado Para aclarar la idea del acceso secuencial indexado veremos el caso del diccionario. Un diccionario es un ejemplo de archivo secuencial, cuyos registros son las definiciones dadas all. Para buscar una palabra no se recorre todo el diccionario,

Pg. 20 de 27

sino que primero se abre ste en la letra correspondiente, para luego buscar en el extremo superior, hasta encontrar la palabra ms prxima a la que se busca, para as recorrer dicha hoja palabra por palabra, hasta encontrar la que buscamos. De esta forma el diccionario es un ejemplo tpico de archivo secuencial indexado, con dos niveles de ndices: El nivel superior para las letras iniciales. El nivel menor para las palabras ubicadas en el extremo superior de cada pgina. Un archivo en organizacin secuencial indexada consta de tres partes: Area Primaria o de Datos. Area de Indices. Area de Desbordamiento u Overflow.

2.5.1 Area Primaria de Datos Esta contiene los registros que componen el archivo, el cual es creado secuencialmente. El proceso de escritura comienza en la segunda pista de un cierto cilindro, hasta completar las pistas de este cilindro. Una vez completo se continua en el siguiente cilindro, en la segunda pista, hasta completar el archivo. Si el archivo es accesado secuencialmente, segn el orden de la clave, los registros sern accesados en el orden que se han escrito. 2.5.2 Area de Indices Corresponde al lugar donde se almacenan algunos ndices, no todos. La primera pista de cada cilindro contiene u n ndice a las claves de los registros de ese cilindro. Un esquema sencillo es suponer un nico nivel de ndices. El ndice de pista contendr dos elementos: Normal Overflow

Pg. 21 de 27

La entrada normal est compuesta por la direccin de la pista primaria y por el mayor (o menor) valor de la clave de los registros almacenados en dicha pista. Otra alternativa es que la clave vaya primero y luego la direccin de la pista. Si no hay datos en el rea de overflow, el contenido de la entrada es el mismo que la de la entrada normal. Ejemplo: Sea el siguiente archivo, del cual slo se muestran las claves ordenadas:

Supongamos que en cada pista se puede almacenar cuatro registros P0 P1 P2 P3 P4 P1:20|:2 0 1 23 48 65 P2:33|:3 3 9 30 50 66 P3:62|:6 2 17 32 61 67 P4:67|:6 7 20 33 62

2.5.3 Area de Overflow El rea de Overflow est destinada a contener las inserciones de los registros que no pueden ser realizadas en el rea primaria. En el rea de overflow los registros se presentan como una lista encadenada, en que el puntero al prximo registro est compuesto por la pista y el lugar que ocupa el registro dentro de la pista (Se acostumbra a usar el mismo cilindro para el rea primaria y la de overflow). Esta lista se mantiene ordenada por clave. Cuando una pista pasa hacia rea de overflow, la entrada en el rea de overflow contiene el puntero al comienzo de la lista (nmero de pista, registro) y el mximo valor en la lista. Ejemplo: Cilindro 1

Pg. 22 de 27

P0 P1 P2 P3 P4 P5

P1:9 | :9 1 12 61 3 19 70

P2:36 | :36 8 24

P3:70 :70 9 36

Area de Indices

Area Principal

Area de Overflow

Insertar 62, 6 P0 P1 P2 P3 P4 P5 Insertar 7 P0 P1 P2 P3 P4 P5 P1:7 | P4,2:9 P2:36 | :36 1 12 61 9| 3 19 62 8 | P4,1 6 24 70 P3:70 :70 7 36 | P1:8 | P4,1:9 P2:36 | :36 1 12 61 9| 3 19 62 6 24 70 P3:70 :70 8 36 |

Insertar 2 P0 P1 P2
Pg. 23 de 27

P1:6 | P4,3:9 P2:36 | :36 1 12 2 19 3 24

P3:70 :70 6 36

P3 P4 P5

61 9|

62 8 | P4,1

70 7 | P4,2

Borrado de Registros El borrado puede manejarse de 2 maneras: Borrado Fsico: Si el registro estaba en el rea de overflow, se debe ajustar la lista ligada para compensar el borrado. Se deben contemplar posibles modificaciones al rea de ndices. Si el registro estaba en el rea principal, las entradas son corridas hacia la izquierda; un registro de la cadena de overflow es llevado al rea primaria y se modifica el rea de ndices. Borrado Lgico: Se marca el registro, pero no se elimina fsicamente. Las recuperaciones de informacin saltarn estos registros. Despus mediante una recoleccin de basura se puede recuperar dicho espacio. Ejemplo: Borrar 7, Insertar 25 P0 P1 P2 P3 P4 P5 P1:6 | P4,2:9 P2:25 | P4,3:36 P3:70 :70 1 2 3 6 12 19 24 25 61 62 70 9| 8 | P4,1 36 | |

Insertar 7, Borrar 8 P0 P1 P2 P3 P4 P1:6 | P5,1:9 P2:25 | P4,3:36 P3:70 :70 1 2 3 6 12 19 24 25 61 62 70 9| 36 | |

Pg. 24 de 27

P5

7 | P4,1

Borrar 6 P0 P1 P2 P3 P4 P5 P1:3 | P5,1:9 P2:25 | P4,3:36 P3:70 :70 1 2 3 6 12 19 24 25 61 62 70 9| 36 | 7 | P4,1 |

El 6 se marca, por lo que queda lgicamente eliminado.

El manejo del rea de overflow se puede realizar mediante tres estrategias distintas: Area de Overflow en el Cilindro Area de Overflow Independiente Area de Overflow Mixta a) En el Cilindro: Es una cantidad de pistas por cilindro que se reserva como rea de overflow para el rea primaria de ese cilindro, es decir, cada cilindro tiene su propia rea de overflow, y cuando sta se llena, ya no se pueden hacer ms inserciones, aunque las reas de overflow de otros cilindros tengan espacios disponibles. Una ventaja de esta forma de manejar el overflow es que no se requiere de movimientos del brazo del disco (no hay tiempo de seek incorporado) para accesar los registros de overflow. Una desventaja es que queda mucho espacio sin usar si las inserciones no se distribuyen de manera uniforme. b) Independiente: Reside en un cilindro aparte de cualquier cilindro del rea primaria. Los registros de overflow son encadenados dentro de esta nica rea de overflow, no importando de cual cilindro o rea primaria vengan.
Pg. 25 de 27

La ventaja de esta forma es que se hace una mejor utilizacin del espacio, ya que el rea de overflow es compartida. La desventaja es que hay un mayor tiempo de bsqueda , ya que se necesita mover las cabezas lecto-grabadoras para accesar los registros de overflow correspondiente a un rea primaria determinada. c) Mixta: Este tipo de manejo de rea de overflow es una combinacin de los dos anteriores, en el sentido que cada cilindro tiene su propia rea de overflow, y adems se establece un rea de overflow independiente, comn a todos los cilindros, la cual es utilizada una vez que el rea de overflow del cilindro se encuentra llena. 2.6 Arboles B+ La principal caracterstica de los rboles B+ es que todas las claves se encuentran en las hojas, por lo que la distancia desde la raz a cualquier clave es siempre la misma. Por otro lado, los rboles B+ ocupan un poco ms de espacio que los rboles B, debido a la duplicidad de alguna de sus claves. Un rbol B+ se define de la siguiente manera: 1. Cada pgina, excepto la raz, contiene entre d y 2d elementos. 2. Cada pgina, excepto la raz, tiene entre d+1 y 2d+1 descendientes. Se utiliza m para expresar el nmero de elementos por pgina. 3. La raz tiene al menos dos descendientes. 4. Las hojas estn todas al mismo nivel. 5. Todas las claves se encuentran en las hojas. 6. Las claves de las pginas raz e interiores se usan como ndices. 2.6.1 Bsqueda en Arboles B+ El proceso de bsqueda se realiza de manera similar a los rboles B, diferencindose con stos en que la bsqueda no termina al encontrar la clave, sino que se debe llegar a las hojas.

Pg. 26 de 27

2.6.2 Insercin en Arboles B+ La insercin es similar a los rboles B. La diferencia se presenta cuando se inserta una clave en una pgina llena (m=2d). En este caso, la pgina se divide en dos: las d primeras claves se ubican en la pgina de izquierda. Las d+1 restantes en la pgina de la derecha. Una copia de la clave del medio sube a la pgina antecesora. Se debe notar que el desbordamiento en una pgina que no es hoja, no produce duplicidad de claves. Ejemplo: Insertar las siguientes claves en un rbol B+ de grado 2. 3, 33, 50, 11, 80, 1, 44, 34, 9, 40, 70, 75, 20, 30, 27, 60, 15 2.6.3 Eliminacin en Arboles B+ Se deben distinguir bsicamente dos casos: 1. Si al eliminar una clave, m queda mayor o igual a d, entonces se termina la eliminacin. Las claves en la raz o pginas internas no se alteran, aunque sean copia de una clave eliminada. 2. Si al eliminar una clave, m queda menor que d, entonces se deben redistribuir las claves, ya sea en el ndice como en las pginas hojas. Ejemplo: Del siguiente rbol B+, elimine las siguientes claves:

24 5
1 3 5 10 15

17
17 21 24 25 28

30
30 33

40

50
50 60 61

40 45

Pg. 27 de 27

2.10 Acceso Aleatorio con Tcnicas de Hashing El acceso mediante hashing consiste en realizar un clculo sobre el valor de la clave del archivo, lo que da como resultado un direccin relativa. La idea del hashing es aplicar la funcin sobre un nmero de claves, que se traduzcan en un nmero pequeo de direcciones. Por ejemplo, si se sabe que un archivo estar compuesto por a lo menos 5000 registro, y la clave es el RUT, entonces se debe elegir una funcin que a lo menos proporcione 5000 valores posibles de direcciones. Un problema tpico es que la eleccin de la funcin no es siempre tan buena como se quisiera, ya que no existe una relacin uno a uno entre el valor de la clave y la direccin fsica (direccin relativa). Cuando esto sucede, entonces nos encontramos con una colisin, es decir: F(k1) = F(k2) con k1 k2 De todas formas esta tcnica tiene ciertas ventajas: 1. Se pueden usar valores cualesquiera para la clave, ya que se traducen internamente a direcciones. 2. Se logra independencia fsica y lgica, ya que los valores de las claves son independientes del espacio de direcciones. Por ejemplo, si el archivo es reorganizado (u ordenado por otra clave), la funcin de hash deber cambiar, pero los valores de la nueva clave no. Tambin posee desventajas: 1. El tiempo de procesamiento requerido para la funcin hash. 2. El tiempo de procesamiento y los accesos de entrada/salida requeridos para las colisiones. Se debe recordar que para hacer un mejor uso del hashing, se puede utilizar una tabla en memoria, la que tenga calculada de antemano las direcciones, es decir que se genere en el momento de ingresar un registro. Ahora, puede suceder que el tiempo de bsqueda aumente, si elegimos este esquema. La eficiencia de una funcin hashing depende de:
Pg. 28 de 27

1. La distribucin de los valores de claves que realmente se usan. 2. El nmero de valores de clave que realmente estn en uso, con respecto al tamao del espacio de direcciones. 3. El nmero de registros que pueden almacenarse en una direccin sin causar colisin. 4. La tcnica usada para resolver las colisiones. 2.10.1Funciones Hashing La funcin hash es la que determina en qu direccin se debe ubicar una clave dada. La eleccin e esta funcin para que le tiempo de ejecucin sea el menor posible. Por ejemplo, si la clave de entrada es un entero, entonces elegir como funcin hashing, f (K) = K MOD max_long Es una estrategia adecuada. Ahora si el tamao de la tabla es 10, y todas las claves terminan en cero, entonces la eleccin de esta funcin es muy mala. Segn varios autores, es una buena idea que le tamao del arreglo o tabla sea un nmero primo. Ahora, las caractersticas deseables de una funcin hashing son al menos las dos siguientes. f (K) debe tender a minimizar el nmero de colisiones. f (K) debe considerar el conocimiento respecto de las propiedades de las claves (en relacin con su frecuencia de uso). Funcin Mdulo (Por Divisin)

2.10.1.1

Consiste en tomar el residuo de la clave por el nmero de componentes del arreglo. K: Clave del dato
Pg. 29 de 27

N: Cantidad de elementos del arreglo. f (K) = K MOD N + 1 1 < f(K) < N 2, 1, 34, 24, 15, 23, 0, 47 La eleccin de N es critica, y en la practica se ha observado que es suficiente elegir N de tal forma que no tenga divisores primos menores que 20. Ejemplo: Si tenemos un arreglo declarado de la siguiente forma: CONST N= 23; VAR arreglo: ARRAY

OF INTEGER;

Y aplicamos la funcin hashing anterior a las siguientes claves

y obtenemos: f ( 2) f ( 1) f (34) f (24) f (15) f (23) f ( 0) f (47) 2.10.1.2 = 3 = 2

= 12 = 2 = 16 = 1 = 1 = 2

Mid-Square hashing

La clave K se eleva al cuadrado y se obtiene un ndice truncado dgitos en ambos extremos del valor de K, hasta obtener un valor que est dentro del rango 1..N. Para mejorar el rendimiento, el tamao de la tabla se recomienda una potencia de Dos. Para qu valores de clave sirve esta funcin? Para valores tales que K>1.
Pg. 30 de 27

Ejemplo: N = 10 K = 122 Existen algunos problemas con ciertas claves, como por ejemplo K = 10; para solucionar este problema se puede cambiar el rango de direccionamiento a 0..(N-1).

2.10.1.3

Folding

La clave K se particiona en varias partes, todas ellas del mismo tamao, salvo quizs la ltima. Dichas partes se suman para obtener la direccin de entrada a la tabla. Ejemplo: K = 123 456 196 43 E = 123+456+196+43= 818

2.10.1.4

Folding Modificado r r K = 123 456 196 43

E = 321+456+691+43= 1511

Para todas las funciones hashing es indispensable realizar un anlisis del problema, para poder identificar cuales son los valores posibles de clave, espacio de direccionamiento y funcin hashing que ms se acomoda al problema a solucionar.

2.10.2Manejo de Colisiones

Pg. 31 de 27

Si al insertar un elemento, la funcin hash devuelve el mismo valor que ya ha sido Asignado a otro elemento, entonces se ha producido una colisin. Se consideran dos formas o mtodos para solucionar el problema de colisin: Open Hashing (Separate Chaining) Close Hashing (Open Addressing)

La primera permite que los elementos se almacenen en un espacio potencialmente ilimitado. La segunda usa un espacio fijo para el almacenamiento. Para efectos de este curso slo veremos Close Hashing. 2.10.2.1 Close hashing

En close hashing, si ocurre una colisin, se recorren las celdas, segn alguna estrategia, hasta que se encuentre alguna vaca.

La representacin es la siguiente:

Formalmente las celdas h0 (K), h1 (K), h2 (K), ... son probadas sucesivamente donde:

Pg. 32 de 27

Hi(K) = (hash(K) + f (i) MOD N Con f (0) = 0. La funcin f es la estrategia de resolucin de colisiones. De acuerdo a esta ltima funcin, se definen tres estrategias para enfrentar colisiones: Prueba Lineal Prueba Cuadrtica Doble Direccin Hash.

2.10.2.1.1 Prueba Lineal

La funcin f es tpicamente f (i) = i. Esto provoca que la lista sea recorrida secuencialmente hacia delante ( y con vuelta atrs), en busca de una celda vaca. Ejemplo: Hash (K) = MOD 10 Insercin de las claves {0, 1, 23, 13, 43}

0 1 2 3 4 5 6 7 8
Pg. 33 de 27

Si la tabla est relativamente vaca, entonces se empezarn a formar bloques de claves. Este efecto es conocido como Primary Clustering , o en espaol Agrupamiento Primario.

2.10.2.1.2 Prueba Cuadrtica

La funcin f es tpicamente f (i) = i. Esta prueba elimina el problema del agrupamiento primario. Ejemplo: Hash(K) = K MOD 10 Insercin de las claves {0, 1, 23, 13, 43} 0 1 2 3 4 5 6 7 8 9 2.10.2.1.3 Doble Direccin Hash

Cuando se detecta la colisin se debe generar otra direccin, aplicando la funcin hashing a la direccin previamente obtenida. Conceptualmente la secuencia de pasos puede ser la siguiente:

Pg. 34 de 27

Direc = hash 0 (K) Direc = hash 1 (Direc) Direc = hash 2 (Direc) La funcin hashing puede o no ser la misma en cada colisin detectada. Lo importante es que para las primeras colisiones se use siempre la misma funcin, para las segundas las mismas, y as sucesivamente. En otras palabras: hash 0 (K1) = hash 0 (K2) = hash 1 (Direc) = hash 1 (Direc) = hash 0 (Kn) = hash 1 (Direc)

(lo anterior representa que se usa la misma funcin hash, no que se obtiene la misma direccin). Empleados de Ventas

Con esta organizacin, la formacin de esquemas compuesto de acceso puede ser hecha directamente sobre los directorios. As, si se necesita conocer a los empleados de ventas que se encuentran casados, slo basta con realizar la interseccin de las dos listas correspondientes. Desde un punto de vista ms purista, el uso del termino inversin implica que los valores de los datos indexados han sido sacados del registro de datos, y residen solamente en el correspondiente ndice de inversin. As, el archivo completamente invertido tiene un ndice de inversin para cada campo de datos. O sea, el registro podra excluir el campo. En el ejemplo anterior, el campo ESTADO CIVIL, HIJOS y DEPARTAMENTO pueden no estar presentes. Para realizar las actualizaciones, se debe contemplar la existencia de estos otros archivos o directorios. Por otro lado, un archivo completamente invertido podra no tener campos de datos.

Pg. 35 de 27

Si un archivo no es completamente invertido, pero tiene al menos un ndice de inversin, entonces se dice que es parcialmente invertido . Un ndice de inversin puede construirse sobre un archivo secuencial indexado, con lo que se podr tener un archivo que puede ser accesado por mas de una clave. Las otras podran llamarse claves secundarias. Para ms ejemplo, ve el capitulo de bsqueda externa (capitulo 8), listas invertidas, en el libro Estructura de Datos de Cair/Guardati.

2.11 Organizacin de Lista Invertida Este mtodo permite proporcionar el encadenamiento entre un ndice y los registros del archivo. Un ndice de inversin contiene todos los valores que la clave tiene presente en los registros del archivo. Cada uno de los valores de la clave en el ndice de inversin apunta a todos los registros que tienen el valor correspondiente. El archivo de datos se dice que est invertido sobre esa clave. Segn lo anterior, podemos pensar en lo siguiente: la organizacin, al poseer dos reas de almacenamiento (una de datos y otra de ndice o directorio), podemos tener en el directorio ms de un archivo, como se ver en el siguiente ejemplo. Otros Campos 0 Alarcn 1 Barra 2 Campos 3 Iglesias 4 Len 5 Mora 6 Opazo 7 Prez 8 Ros Si uno de los campos es ESTADO CIVIL , entonces se puede tener un archivo en el cual est la siguiente informacin: Direccin Nombre

Pg. 36 de 27

Empleados casados: 0 2 3 5 8

Cada casillero es un apuntador a cada registro de datos correspondiente

Si uno de los campos es HIJOS, entonces se puede tener un archivo como el siguiente: Empleados con hijos 0 5 8

O si otro de los campos es el DEPARTAMENTO en el que trabaja cada empleado: Empleados de Ventas 1 4 5 6 8

Con esta organizacin, la formacin de esquemas compuestos de acceso puede ser hecha directamente sobre los directorios. As, si se necesita conocer a los empleados de ventas que se encuentran casados, slo basta con realizar la interseccin de las dos listas correspondientes. Desde un punto de vista ms purista, el uso del trmino inversin implica que los valores de los datos indexados han sido sacados del registro de datos, y residen solamente en el correspondiente ndice de inversin. As, el archivo completamente invertido tiene un ndice de inversin para cada campo de datos. O sea, el registro podra excluir el campo. En el ejemplo anterior, el campo ESTADO CIVIL, HIJOS y DEPARTAMENTO pueden no estar presentes. Para realizar las actualizaciones, se debe contemplar la existencia de estos otros archivos o directorios. Por otro lado, un archivo completamente invertido podra no tener campos de datos. Si un archivo no es completamente invertido, pero tiene al menos un ndice de inversin, entonces se dice que es parcialmente invertido . Un ndice de inversin puede construirse sobre un archivo secuencial indexado, con lo que se podr tener un archivo que puede ser accesado por ms de una clave. Las otras podran llamarse claves secundarias.
Pg. 12 de 27

Para ms ejemplos, ve el captulo de bsqueda externa (captulo 8), listas invertidas, en el libro Estructura de Datos de Cair/Guardati.

Pg. 13 de 27

También podría gustarte