Estructura de Archivo
Estructura de Archivo
Estructura de Archivo
Objetivos
Conocer y comprender conceptos con los archivos computacionales.
Unidades
I Conceptos Generales
- Dato
- Información
- Archivo Físico
- Archivo Lógico
- Operaciones sobre archivos
II Driver de un Disco
- Tablas
- Operaciones de E/S de alto nivel
IV Métodos de Acceso
- Modo de Acceso Secuencial Indexado
- Betree
- Algoritmos de Inserción y Eliminación
- Construcciones de índices Betree a partir de un archivo
- Tablas de Hashing
- Algoritmo de Hashing
Bibliografía
- Creación
- Consulta
- Actualización
- Listado
- reorganización
Cada registro de un archivo esta separado se los demás por una marga
denominada Flag.
Terminología usada
• nodo de datos es un Registro, que esta compuesto de campos.
• Nodo de memoria es el bloque que también se llama Registro físico.
En un bloque se pueden almacenar más de un Registro.
• Un archivo puede estar estructurado por Registro y almacenado en
algún medio físico de almacenamiento.
Representación Posicional
0 3 5 / L . G O N Z A L E Z / M / 2 6 / 1 4 0 0 0 /
Representación Indexada
* * * * * 0 3 5 L . G O N Z A L E Z M 2 6 1 4 0 0 0
b) Frecuencia de Acceso
Organización Secuencial
Este
Esquema se
asemeja a
La estructura
De un árbol.
Cada par <Id, Punt al área primaria>, de este índice tiene además
asociado un par < Id, Punt al área de rebalse>, que apunta al
comienzo de la lista de registros de Overflow que están
lógicamente antes al próximo par < Id, Punt al área primaria >. La
figura siguiente ilustra la situación.
Obsérvese que en el índice quedan ordenados en secuencia tanto los
registros del área principal como los de Overflow; también, nótese que
en el valor de identificador para el par de Overflow cuando no hay R, es
el mismo que el par primario correspondiente.
DISPOSITIVOS DE ALMACENAMIENTO
Cada unidad de asignación solo puede ser usada por un archivo (nunca
por dos o más), pero un archivo si puede ocupar más de una unidad de
asignación.
Cuando Usted o el software indican al OS a que deba leer o escribir un
archivo, el OS solicita que el controlador del disco duro traslade los
cabezales de lectura-escritura a la tabla de asignación de archivos
(FAT). El OS lee la FAT para determinar en que parte comienza un
archivo o que partes están disponibles para guardar un nuevo archivo.
Los cluster son como cajones en que la capacidad del disco duro esta
divida, en los cuales se guardan los archivos. Se da la peculiaridad de
que un cluster no puede ser compartido por 2 archivos, por lo que si
tenemos un cluster de 16 kbytes y queremos guardar un archivo de 17
kbytes, este se repartirá en dos cluster, ocupando el primero los 16
kbytes y el resto del archivo en otro cluster que ocupará 1 kbyte de los
16 que le corresponden y estos cluster se marcarán como ocupados en
la tabla de asignación de archivos (se actualizará la FAT).
¿Quiere decir esto que no podemos usar discos de más de 2 GB? No, ya
que si el disco es de mayor capacidad, podemos dividirlos en dos o más
particiones, que son cada una de las divisiones de un disco, las cuales se
manejan como si fueran discos individuales.
Tasa de Transferencia
Discos Flexibles
Sectores = Porciones
radiales. Son como un trozo
de torta.
Para poder grabar y leer los archivos, se tienen los cabezales. Estos se
componen de un núcleo metálico alrededor del cual se enrolla una
bobina (cables de cobre enrollados en un metal). El núcleo no está
totalmente cerrado ya que tiene un espacio de aire llamado GAP. Este
GAP al estar en contacto en el material ferromagnético del que se
compone el disquete, orienta a los dipolos de una manera tal que los
datos quedan grabados. Para leer, los dipolos magnéticos orientados
que están en el disquete, al pasar cerca del núcleo, producen en la
bovina un voltaje que es entendido como 0 o 1 siendo por tanto leídos
los datos antes grabados.
Tunelamiento: Para grabar las pistas, el cabezal graba los datos entre
2 pistas de borrado. De esta forma no se producen solapamiento de
datos entre pistas adyacentes.
Conectores
Unidades de CD-R/RW
Los CDs tienen una ranura espiral microscópica dibujada dentro del
policarbonato plástico, que son tan pequeñas y cercanas unas con otras
que actúan como una rejilla de disfracción. Están creados con líneas
relucientes de colores de arco Iris que emanan de la cabeza central
hacia el exterior en cada superficie del CD. El surco de la espiral es
continua en cada CD grabable, porque es necesario para guiar el láser
durante la escritura.
Hay dos tipos de CDs, los que son de solo lectura y los que permiten ser
grabados y son muy diferentes en estructura, materiales y tecnología de
fabricación. Cuando se necesitan una gran cantidad de copias, el CD es
la elección natural y todos los discos serán creados de un mismo
modelo.
DVD
Todos los DVD tienen la misma forma física y tamaño, pero difieren en
el formato de almacenamiento de los datos y en consecuencia en su
capacidad. Así, los DVD-Video de 1 cara y 1 capa almacenan 4.7 GB y
los DVD-ROM de 2 cara y 2 capa almacenan hasta 17 GB. Del mismo
modo no todos los DVD se pueden reproducir en cualquier lector, por
ejemplo; un DVD-Video no puede leer un DVD-ROM, aunque si al revés.
Memorias Flash
Búsqueda Lineal
Máximo de comparaciones: n + 1
1 2 3 4 5 6 7
Para ¿8?
Máximo de comparaciones = 7
Mínimo de comparaciones =1
Promedio de comparaciones = [7+1]/2=4
N = 15 P = [Log2 N]
P = [Log2 15]
P=3
Organización Directa
Observación
Donde N = número de nodos
L = Largo de cada Nodo (Bytes o Words)
M = Memoria disponible (M posiciones)
La cantidad (M*L)/M se llama factor de carga del conjunto de datos y
representa la función de nodos activos del total de nodos posibles de
almacenar en la memoria.
No siempre todos los primos son la mejor elección como divisores. Por
ejemplo, los primos de la forma K*Rn±1 (K constante y R base). Deben
evitarse para valores de identificador cuya base numérica es R
(normalmente 2 o 10), siendo K un entero pequeño porque observando
la expansión binomial de (Rn±1)-1, el resto después de la división es
esencialmente una superposición de grupos sucesivos de n dígitos del
dividendo, y esta superposición sistemática se mantiene para un K>1
pequeño. Así para valores de identificadores en el rango de 102 y 105,
primos 101, 199, 301, 401, 499, 599, 4999, 90001 no son buenos
divisores.
I N T ( Xs ix</ 11 00 )=
f (x) =
1 1 d oe t mr o o d o
El mecanismo de almacenamiento es como sigue:
Función Dirección_Abierta(t)
Begin
J=F(t);
K=0;
Mientras Nodo[J]<>NULL hacer
Begin
Si T== Nodo[J] Entonces
Retorno(Exito);
- Procesamiento al Azar:
En la práctica las más usadas son las divisiones con resto y la extracción
de dígitos determinados del identificador. Debido a las características
particulares de cada aplicación, no existe software de uso visto que
realice la función de Hashing de esta manera, usualmente es el
programador quien debe seleccionar una técnica y además programarla.
Las mismas técnicas de repetir programación se encuentran en el
mecanismo de manejo de sinónimos.
Si el árbol tiene n nodos con 2D nodos de datos cada uno, el árbol tiene
Log D N niveles (donde n es el número de nodos de datos). Por tanto
para acceder cualquier nodo de datos se necesita consultar a lo más
Log D N nodos del árbol.
El hecho de que los nodos de datos estén ligados en secuencial hace que
el acceso secuencial a los nodos sea muy eficiente. El Índice por su
parte, es usado para acceder al Azar. Veamos la siguiente figura de un
B+-TREE:
ESTRUCTURA DE ARCHIVOS – OTRA TEORIA ANEXA
ARCHIVO SECUENCIAL
30 Nombre
12 Rut
Nombre # Fono
ARCHIVO INDEXADO
Mascara (FDL)
Nombre (30)
Apellido (20)
Rut (12)
Teléfono (02)
Seguridad
Owner Eddie (Dueño original)
[Cuenta/Máquina]
Desventajas:
- El uso de este tipo de archivos no es de bajo costo porque depende
de la plataforma en que esté soportada (UNIS, OPEN VMS, VMS,
etc.).
- Su largo de registro está determinado por la plataforma en que se
utilice (capacidad finita de largo de registro).
- Menos versátil.
Violación de seguridad
CRUCE DE ARCHIVOS
REQUERIMIENTOS DE SOFTWARE
1° Validación
La Caja Negra. Significa que el código realice la tarea para la cual tiene
fin. También debe cumplir con las operaciones de orden y las
condiciones de excepción o interrupciones que obedecen al OS (manejo
de eventos como si la impresora esta apagada al imprimir comunicar un
“error externo de hardware y/o OS”).
3° Integración
CASOS REPRESENTATIVOS
Preguntas:
- Numero stock crítico.
- Detalles varios.
- 3 Operadores más 1 administrador.
Otras opciones:
Seguridad:
- Si Access se corrompe, si el OS es inestable (tiene errores) o falla el
hardware de disco duro, se debe tener un ADM gemelo que respalde
los datos. Siempre hay que tener una política de respaldo y un plan
de contingencia. Por ejemplo, un PC Servidor como Isla que contiene
una base de datos común con PC ADM para los mismos puntos de
ventas.
Chess List: Se pide a las empresas y tiene que ver con la configuración
regional con la que se esta trabajando. Por ejemplo, formato de fecha y
hora, moneda, si se usa punto o coma para separador se miles o no se
usa, punto o coma para los decimales, etc. Eje.:
Si se ingresa UF = $17000 y topean 17.000 es un error si no se
esta usando separador de miles. Lo mismo para números con
decimales.
Se les aplican índices para optimizar las búsquedas cuando existe una
cantidad masiva de datos. Se aplican cuando el crecimiento es
exponencial, separando en segmentos de índices. Se estructura con
parámetros fijos y la gracia de usar índices es de emular la caché,
tratando de hacer el menor número de accesos.
Determinismo o No Determinismo
Determinista => Tiempo de Acceso Determinado
DB Dunga: Son archivos indexados que poseen una máscara para acceder a
diferentes datos de un registro.