Kurmo Konsa
Digitaalne
mälu
SISUKORD
1.
5
1.1.
5
Kommunikatsiooniprotsesside kirjeldamine
1.2. Kommunikatsiooni ajalised aspektid
10
INFORMATSIOONI ELUTSÜKKEL
15
2.1. Dokumentide elukäigu mudelid
15
2.2. Elutsüklimudeli laiendamine dokumentidelt teabele
22
DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU
25
3.1. Digitaalse infotöötlemise esiajalugu
26
3.2. Elektronarvutite kasutuselevõtt
28
3.3. Andmearhiivid ja digitaalne säilitamine
30
3.4. Digiinfo säilitamise paradigma muutus
32
4.
DIGIINFO SÄILITAMISE PROBLEEMID
38
5.
DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME?
48
5.1. Digitaalne objekt
48
5.2. Digiobjekti esitused
53
5.3. Digiobjektide klassifitseerimine
54
6.
MIDA TÄHENDAB MÕISTE “DIGITAALNE SÄILITAMINE”?
57
7.
MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS?
59
7.1. Digihoidla kontseptsioon
59
7.2. OAIS keskkond
60
7.3. Info esitus OAIS mudelis
60
7.4. Esitusinfo OAIS mudelis
61
7.5. Esitusinfo tüübid OAIS mudelis
64
7.6. Infoülekanded OAIS mudelis
65
7.7. Info pakendamine ja infopaketid OAIS mudelis
68
7.8. OAIS funktsionaalne mudel
69
7.9. OAIS mudeliga kooskõlas olev digihoidla
70
DIGITEERIMINE
72
8.1. Digiteeritavate objektide valik
73
8.2. Digiteerimise mõju kogude haldamisele
76
8.3. Digiteerimiseks kasutatavad seadmed
77
2.
3.
Õppevahend on loodud HITSA projektis „IKT-alase võimekuse
suurendamine ning digihumanitaaria arendamine Tartu Ülikooli
humanitaarteaduste ja kunstide valdkonnas“.
8.
Kujundanud ja küljendanud: Aide Eendra
Fotod: Kurmo Konsa
Joonised: Aide Eendra
KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS
2
3
9.
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE 80
9.1. Metaandmete määratlusi
80
9.2. Metaandmete skeemid ja standardid
83
9.2.1. Raamatukogude kirje- ja kataloogimissüsteemid
84
9.2.2. Arhiivikirjelduse rahvusvaheline standard ISAD(G)
85
9.2.3. Kodeeritud arhiivikirjeldus (EAD)
87
9.2.4. Dublin Core metaandmesüsteem
87
9.2.5. Märgistus- ehk märgendkeeled
90
9.3. Säilitusmetaandmed
94
9.4. Metaandmesüsteemi valik
95
9.5. Metaandmete loomine
96
9.6. Metaandmete sidumine infoobjektiga
98
9.7. Metaandmete koostalitlusvõime
99
10. SÄILITUSMEETODID DIGIHOIDLAS
100
10.1. Bitijada kopeerimine
100
10.2. Varundamine
101
10.2.1. Varundusplaan
101
10.2.2. Varundamise liigid
103
10.2.3. Varundamisel kasutatavad andmekandjad
106
10.3. Andmekandjate värskendamine
107
10.4. Pikaealiste andmekandjate kasutamine
107
10.5. Failide migreerimine
107
10.6. Failivormingute valik, spetsifikatsioonid, levik ja standarditele tuginemine
109
10.7. Väljund analoogmeediale
109
10.8. Emuleerimine
110
10.9. Tehnoloogia säilitamine
111
10.10. Digitaalne arheoloogia, andmearheoloogia
112
11. MIKS ON VAJALIK DIGIINFO SÄILITAMINE?
113
11.1. Väärtused ja info säilitamine
113
11.2. Digiteabe säilitamise funktsioonid ühiskonnas
119
SISSEJUHATUS
Lubatagu mul alustada ühe isiklikumat laadi meenutusega. 1990. aastal avaldasin tollases ajalehes Edasi artikli arvutikunstist, mille pealkirjaks olin pannud „Virtuaalne reaalsus kunstimuuseumi teisel korrusel“. Toimetaja parandas sõna „virtuaalne“ järjekindlalt
sõnaks „vitaalne“ ja keeldus seda muutmast, sest sõna „virtuaalne“ polevatki olemas.
Tänapäeval me õnneks enam nii ei arva. See looke iseloomustab hästi meie mõttemaailmas toimunud muutusi, mida võib lõppkokkuvõttes seostada tehnika ja kitsamalt infotehnoloogia tormilise arenguga 20. sajandi teisel poolel. Inimese üks kõige suuremaid
eripärasid seisneb selles, et ta muundab aine infoks ja informatsiooni aineks. Seda teevad muidugi kõik elusorganismid, kuid inimene on selles osutunud kõige edukamaks.
Nii ongi informatsioon see, mida me bioloogiliste ja kultuuriliste olenditena kõige enam
toodame ja endast maha jätame. Seega on kõik tänapäeval toimuvad muutused ühel või
teisel viisil seotud info ja kommunikatsiooniga.
Digitaalne kommunikatsioon on meie kaasaegse ühiskondliku infosüsteemi aluseks.
E-post ja muud internetiteenused, mobiilsed infosüsteemid, raadio ja televisioon,
filmid, fotod – kõik see põhineb digitehnoloogial. Suur osa digitehnoloogiast jääb
tavakasutajale tabamatuks, on muutunud nähtamatuks, taandudes tehnilistesse süsteemidesse. Suur osa tehnilistest seadmetest on tänapäeval varustatud digitaalsete mikroprotsessoritega. Lisaks inimestevahelisele suhtlusele on tekkinud inimeste ja masinate
vaheline ning masinate endi vaheline kommunikatsioon.
Digitaalsel infosüsteemil on aga ka märksa olulisem kontseptuaalne mõju. Paberile kirjutamine ja trükkimine fikseeris kirjutatu, luues mulje stabiilsest, püsivast informatsioonist. Digitaalne info on äärmiselt tihedalt kommunikatsiooniprotsessidesse integreeritud ja info omandab tähenduse just pidevas suhtlusprotsessis. See vähendab tekstide
stabiilsust. Kui raamatu tekst on stabiilne, siis võrrelge seda näiteks Vikipeedia tekstiga
või mõne veebilehega. Osa digitaalsest tekstist püütakse muidugi esitada sama stabiilsena kui paberile trükitud tekst. Sellisel juhul on meil lihtsalt tegemist trükitud raamatu
või artikli erikujuga. Enamik digiinfot ja järjest suuremal määral aga ei ole selline. Infot
kopeeritakse üha uuesti ja uuesti, kuid samal ajal seostatakse seda pidevalt mingite
teiste infokontekstidega ja nii võib sündida kas hoopis uus teadmine või siis kasutajale
kõige sobivamal viisil integreeritud informatsioon. Digitaalsed meetodid on andmete
kogumise, töötlemise, kasutamise ja kommunikatsiooni muutunudmuutnud seniolematult kiireks ja kõikehõlmavaks.
20. ja 21. sajandi ühiskonda iseloomustab teaduse, tehnoloogia ja sotsiaalsete süsteemide ülikiire arengu kõrval kindlasti ka püüdlus teadlikult säilitada võimalikult palju
oma minevikust ja kaasajast tulevastele põlvedele. Erandiks ei ole siin ka digitaalsel
kujul esinev teave. Selle säilitamine on tänapäeval muutunud teemaks, mis puudutab nii
üksikisikuid, ettevõtteid ja organisatsioone, mäluasutusi kui ka kogu riiki ning lõpuks
inimkonda kui tervikut. Info loomise, levitamise, kasutatavaks tegemise ja säilitamisega
tegelevad kõikides ühiskondades spetsiaalsed inimesed, organisatsioonid ja institutsioonid. Digitaalne tehnoloogia on aga toonud teabe loomise, levitamise, säilitamise
ja kasutamise iga inimese igapäevaellu. Tänapäeval oleme me kõik teabetöötajad ning
sellealased teadmised ja oskused on hädavajalikud. Üks osa teabeprotsessidest on ka
säilitamine.
Kursus „Digitaalne mälu“ käsitlebki digitaalse info säilitamise protsesse ühiskonnas.
Ennekõike on see suunatud humanitaarerialade üliõpilastele ning mäluasutuste töötajatele. Eesmärgiks anda ülevaade digitaalse teabe olemusest, funktsioonidest, mida see
täidab ühiskonnas ning digikogude moodustamise ja kirjeldamise alustest.
4
KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS
Kursus algab ülevaatega informatsiooni olemusest ja ühiskonnas toimuvatest kommunikatsiooniprotsessidest, millesse informatsioon on haaratud. Vaatamata suhteliselt
lühikesele eale on digisäilitamises toimunud palju huvitavaid arenguid, millest ülevaate
saamine aitab paremini mõista ka meie tänaseid tegemisi. Sellele ongi pühendatud kolmas peatükk. Neljandas peatükis toon lühidalt välja probleemid ja raskused, mis digisäilitamise ees seisavad. Viies peatükk käsitleb väga olulist teemat, säilitatava digiinfo
täpsemat määratlemist. Sellest peatükist selguvad digiinfo mitmed äärmiselt olulised
eripärad, mille mõistmine on kogu digitaalse säilitussüsteemi alus. Kuuendas peatükis
määratlen digitaalse teabe säilitamise mõiste. Digiobjekte säilitatakse digihoidlas, aga
mis on digihoidla täpsemalt, see selgub seitsmendas peatükis. Üks viis, kuidas säilitatavad digiobjektid tekivad, on digiteerimine ehk olemasolevate analoogobjektide muutmine digitaalseteks. Mida see tähendab ja kuidas seda tehakse, vaatlen kaheksandas
peatükis. Üheksas peatükk on pühendatud digiobjektide ja kogude kirjeldussüsteemidele. Kümnes peatükk käsitleb digiobjektide võimalikke säilitusstrateegiad digihoidlas. Kursuse kokkuvõtvaks peatükiks on 11. peatükk, milles vaatlen seda, mis kasu me
saame digiinfo säilitamisest ja milleks see üldse vajalik on. Iga peatüki alguses olen
lühidalt ära nimetanud peamised teemad ja pädevused, mida selle peatüki läbimisega
omandatakse.
Tänan südamest kõiki, kes on selle õppematerjali valmimisele kaasa aidanud. Vestlused
ja arutelud Tarvo Kärbergiga avardasid väga palju mu arusaamist digimaailmast. Autori
kõige hullemaid lollusi aitasid välja rookida head inimesed Rahvusarhiivist. Tänud Aadi,
Kaido, Kati, Lauri ja Ülle!
1. KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS
Lugenud läbi selle peatüki,
• tead, mis on kommunikatsiooniprotsess;
• oskad välja tuua eri kommunikatsioonimudelite sarnasusi ja erinevusi;
• tead, mis on asümmeetriline kommunikatsiooniprotsess;
• oskad kirjeldada info säilitamise rolli kommunikatsiooniprotsessides.
Kuidas toimub info loomine, levitamine, kogumine, alleshoidmine ja kasutamine ühiskonnas? Inimeste hulk, kes infot loovad, täiendavad, kasutavad, kasvab pidevalt. Suur
hüpe selles vallas on toimunud sotsiaalmeedia (nn Web 2.0) kasutusse tuleku ja järjest
suureneva populaarsusega. See, mida me inimestena kõige enam toodame ning endast
maha jätame, on andmed ja informatsioon. Selle põhjuseks on ennekõike digitaalse
info- ja kommunikatsioonitehnoloogia kättesaadavaks muutumine järjest suuremale
osale inimkonnast. Tehnoloogia muutub odavamaks, kiiremaks (nii protsessorid kui ka
võrgud) ja lihtsamini kasutatavamaks. Tehnika arengu iseloomustamiseks kasutatakse
tihti nn Moore’i seadust. Nimelt väitis kuulsa kiibifirma Intel üks asutajaid Gordon
Moore 1965. aastal, et transistoride arv kiibil kahekordistub iga kahe aasta järel (Moore
1965). Senini on kompuutertehnika areng sellele seaduspärasusele vastanud. Infosüsteemides osalejate arvukuse kasv on seotud ka haridustaseme tõusu ja töö iseloomu
muutumisega. Järjest raskem on leida töökohta, mis ei nõua IT-vahendite kasutamist.
Loodava ja kasutatava info korraldamine on muutunud väga oluliseks nii üksikisiku,
ettevõtte kui ka ühiskonna kui terviku jaoks.
1.1. Kommunikatsiooniprotsesside kirjeldamine
Informatsioon ei esine inimühiskonnas mingi eraldiseisva olemina, ta on haaratud
paljudesse protsessidesse, mis moodustavad ühiskonna infosüsteemi. Selles peatükis
vaatleme lähemalt, kuidas toimib ühiskonnas info loomine, töötlemine, säilitamine ja
kasutamine. Informatsiooni vahetamine ja tähenduste kommunikeerimine kuulub lahutamatult igasse sotsiaalsesse süsteemi. Inimühiskond kujuneb omavahel suhtlevatest
indiviididest. Suhtlus, mis põhineb infovahetusel ehk kommunikatsioonil, on ühtaegu
nii inimliku olemise eeldus kui ka tagajärg.
Ühiskondlikus infosüsteemis toimuvaks elementaarprotsessiks võib lugeda kommunikatsiooniakti. Kommunikatsiooni on defineeritud kui sündmuste järjestust, mis viib
informatsiooni ülekandele infoallikalt vastuvõtjale. Informatsiooni ülekandmise tähistamiseks kasutatakse ka terminit „transmissioon“. Tehnilises käsitluses on terminid „kommunikatsioon“ ja „transmissioon“ sünonüümid. Sotsiaalses käsitluses eeldab kommunikatsioon lisaks signaalide kättesaamisele ka teatest arusaamist – kommunikatsiooni
korral on kõige tähtsam see, et infoallikast saadetud sõnum oleks adressaadile mõistetav. Signaalid võidakse küll edastada, aga kui vastuvõtja ei ole võimeline neid interpreteerima ja neile reageerima, siis kommunikatsiooni ei toimu. Siinkohal tasub tähele
panna asjaolu, et vastuvõtja ei pea sõnumit interpreteerima samamoodi kui saatja, oluline on vaid interpreteerimise toimumine.
5
6
KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS
KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS
Kommunikatsioon tugineb sümbolite transmissioonile ja nende sümbolite interpreteerimisele teate vastuvõtja poolt. Kuigi harilikult käsitletakse kommunikatsiooni inimeste
vahel, ei tohiks unustada, et kommunikatsioonivõimelised on kõik elusolendid ja ka
inimese loodud masinad. Kommunikatsioonisüsteemi kõige lihtsamas mudelis, mida
nimetatakse stiimuli- reaktsiooni mudeliks (SR model, stimulus-response model), võib
eristada teate saatjat, teate vastuvõtjat ja sõnumit (joonis 1.1).
INFOALLIKAS
SÕNUM
VASTUVÕTJA
Joonis 1.1. Kommunikatsioonisüsteemi lihtsaim, nn stiimuli-reaktsiooni mudel
Infoallikaks ehk teate saatjaks võib olla nii inimene, mõni muu elusorganism kui ka
masin, samuti võib infoallikatena käsitleda inimeste gruppe ja institutsioone. Sõnum
võib olla suuline, kirjalik, pildiline vms. Sõnum on infoallika poolt moodustatud märkide kogum, mis kannab tähendust. Märkideks võivad olla häälikud, kirjatähed, visuaalsed kujundid vms. Sõnumi loomine võib iseenesest olla keeruline protsess ja selles võib
olla erinevaid osalisi – mõeldagu siinkohal kasvõi raamatu või kinofilmi valmistamise
peale. Vastuvõtja ehk adressaat võib olla inimene või mõni muu olem.
Täpsema analüüsi huvides tuleks eristada protsesse, mis kommunikatsiooniahelas toimuvad. Infoallikas koostab oma sisemistele seisunditele tuginedes sõnumi, millel on
sisu – tähendus, mida sõnum omab infoallikale ja adressaadile. Sõnum on alati esitatud
mingil füüsilisel kujul, mille valib info looja. Seega valitakse info tekitamisel nii selle sisu
kui ka vorm ehk esitusviis. Sisu saab edasi anda erinevas vormis. Tasub tähele panna, et
sõnumi sisu ja vorm ei ole täiesti sõltumatud, vaid mõjutavad teineteist olulisel määral
(vt nt Konsa Hermann 2014).
Informatsiooni edastatakse, töödeldakse ja salvestatakse signaalide kujul. Signaalid on
mingid ajas muutvad füüsikalised suurused, nagu näiteks õhurõhk, elektripinge, võnkesagedus, valguse heledus vms. Signaalide abil on võimalik luua sidet ruumiliselt üksteisest kaugel asuvate kommunikatsiooniosaliste vahel. Signaale saab salvestada ja see võimaldab seostada ka ajaliselt eraldatud kommunikatsiooniosalisi. Infoallika loodud algse
sõnumi transmissiooniks muudetakse see saatjas signaalideks, vastuvõtjas toimub jällegi
vastupidine protsess – signaalidest saadakse sõnum. Signaalid võivad olla pidevad
(nt analoogtelevisioon), diskreetsed (digi-TV) või kombineeritud (nt impulss-koodmodulatsiooni teisendused telefonivõrgus).
Vastavalt sellele, millisel füüsilisel kujul info esitatakse, on vajalik sobiv saatja. Kitsamas
mõttes on info saatjaks looduslik või tehniline abivahend, mis teeb võimalikuks info
esitamise kindlal viisil (joonis 1.2). Kui infot esitatakse suulise kõne kujul, võib saatjaks
olla nii inimese hääleaparaat kui ka vastav kõnesüntesaator. Adressaadil on vajalik jällegi
vastava vastuvõtja olemasolu, olgu selleks siis näiteks kõrv või mikrofon.
INFOALLIKAS
SAATJA
SÕNUM
Joonis 1.2. Kommunikatsioonisüsteem, kus on eristatud info saatja
VASTUVÕTJA
Sõnumi edastamine on ülekandeprotsess, milleks kasutatakse erinevaid meetodeid
– helilaineid, postisüsteemi, telegraafijuhtmeid, raadiolaineid, valgussignaale vms.
Seejuures võib info ülekanne toimuda nii ruumis kui ka ajas. Kasutades raadiolaineid,
on võimalik pidada sidet kogu Maa piires ja isegi kosmilistel kaugustel. Info ülekandel
ajas jätab infoallikas sõnumi kasutamiseks kunagi lähemas või kaugemas tulevikus. Info
säilitamine ongi tegelikult tulevikku suunatud kommunikatsiooniprotsess. Sellist kommunikatsiooniahelat iseloomustab see, et me teame küll selle infoallika-poolset osa,
aga vastuvõtja-poolne ahelaosa on esialgu tundmatu. Meil on küll ettekujutus sõnumist
praegusel hetkel, kuid kuidas see täpselt tulevikku kandub ning kuidas seda seal vastu
võetakse ja mõistetakse, selle kohta saab täna teha üksnes oletusi.
Informatsioon on alati kodeeritud. Kodeerimine on informatsiooni esitusvormi muutmine kindla reeglistiku alusel. Reeglistikku, mis määrab kindlaks koodtähiste moodustamise korra, nimetatakse koodiks. Koodid on kokkuleppelised, nad on ajalooliselt
või harjumusena kujunenud või kehtestatud. Näiteks morsetähestik on telegraafikood,
milles tähtede, numbrite ja kirjavahemärkidega on vastavusse seatud pikkade ja lühikeste signaalide kombinatsioonid, näiteks a-tähele vastab lühike ja pikk signaal (.–).
Kood koosneb märkidest ja reeglitest, mis määravad selle, kuidas ja mis seostes märke
kasutatakse ning kuidas nendest kombineeritakse keerukamaid teateid. Kommunikatsioonivorme võib eristada kasutatava koodi alusel: suuline, kirjalik, visuaalne kommunikatsioon. Erinevaid kodeerimis- ja dekodeerimisprotsesse võib kommunikatsiooniprotsessis olla mitu (joonis 1.3). Mida kauem infot säilitatakse, seda tõenäolisem on
erinevate kodeerimis- ja dekodeerimisprotsesside esinemine selle elutsüklis.
INFOALLIKAS
SAATJA
SIGNAAL
SÕNUM
VASTUVÕTJA
INFOKANAL
KODEERIMINE
DEKODEERIMINE
Joonis 1.3. Kodeerimis- ja dekodeerimisprotsesside eristamine kommunikatsioonisüsteemis
Kodeerimine- ja dekodeerimine iseenesest on jällegi kommunikatsiooniaktid. Nagu
edaspidi näeme, ei kulge kommuniaktsioon ilma vigadeta. Mida enam on kommunikatsiooniakte, seda suurem on vigade tõenäosus info ülekandel. Signaalid kanduvad edasi
mööda side(info)kanalit. Kanaliks on igasugune füüsikaline keskkond, milles signaalid
levivad, näiteks valguslained, häälevõnked, raadiolained, närvirakud, valguskaablid jne.
Sidekanali füüsikalised omadused määravad teatud ulatuses ära ka koodi, mida saab
kasutada.
Signaalide ülekanne kanalis ei toimu tegelikes tingimustes kunagi veatult, kuna alati
kaasneb signaaliga ka müra. Müra hulka võib lugeda kõikvõimalikke sidekanalis toimuvaid protsesse, mis moonutavad või häirivad edastatavaid signaale. Kaks peamist
mürade gruppi on väline müra, mille korral on müra allikas vastuvõtjaväline, ja sisemine müra, mille korral on müraallikaks vastuvõtja ise. Väliseks müraks võivad olla
näiteks elektromagnetilised häiritused, liiga vähene valgustatus jms. Sisemine müra
on näiteks elektronseadmetes tekkiv soojuslik müra, aga ka psühholoogilistest ja
7
8
KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS
KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS
kultuurilistest teguritest tingitud sõnumite vastuvõtuhäired. Sõnumi sumbumise põhjuseks võib olla ka selle mittevastavus kasutatava sidekanali omadustele. Selline olukord
võib tekkida näiteks siis, kui sõnumis sisalduv informatsioonihulk ületab kanali läbilaskevõime. Kirjeldatud kommunikatsioonimudeli, mida tuntakse ka edasikandelise
(transmissional) mudeli nime all (joonis 1.4), esitas Claude E. Shannon oma 1948. aastal
ilmunud artiklis „Kommunikatsiooni matemaatiline teooria“ .
INFORMATSIOONI
ALLIKAS
EDASIANDJA
SÕNUM
VASTUVÕTJA
SIGNAAL
SAABUNUD
SIGNAAL
LÕPPPUNKT
SÕNUM
mõistma objekte ja nähtusi, mida sõnumis käsitletakse. Infoallikal ja adressaadil on
kindlad teadmised, millele tuginedes sõnumid luuakse ja neist aru saadakse. Sellist
teadmiste kogumit nimetatakse teadmusbaasiks (knowledge base) (vt joonis 1.5).
INFOALLIKAS
SAATJA
TEADMUSBAAS 1
KODEERIMINE
SIGNAAL
INFOKANAL
SÕNUM
VASTUVÕTJA
TEADMUSBAAS 2
DEKODEERIMINE
Joonis 1.5. Infoallika ja adressaadi teadmusbaasid info kommunikatsioonisüsteemis
SEGAJAD
Joonis 1.4. Shannoni kommunikatsioonimudel ehk info transmissioonimudel
Kommunikatsioonikanali tähenduses kasutatakse sageli ka terminit „meedium“.
Meediumi all mõistetakse nii kommunikatsioonikanalit, ülekandjat ennast, kui ka vastavaid organisatsioone. Nii on meediumiteks näiteks kõne, raamat, film, internet, aga ka
kirjastused, raadio- ja televisiooniorganisatsioonid. Shannoni mudel ei tegele sõnumitete tähendusega. Ometigi vahetame me sõnumeid ainult sellepärast, et need tähendavad midagi. Sõnumi tähendus tekib sõnumi ja selle tajuja vastasmõjus. Informatsioonile
tähenduse andmiseks peab seda kasutama kas inimene, mõni muu elusolend või inimese poolt loodud tehislik süsteem.
Tähendust esitab atomaarne kommunikatsiooniakt tervikuna toimides: teave ei ole
selle süsteemi üheski osas eraldi, vaid süsteemis tervikuna, sealhulgas selle süsteemi
toimimises, st protsessis. Tähendus on lahutamatult seotud kontekstiga, milles kommunikatsioon toimub. Info loomine ja sellest arusaamine nõuab kontekstuaalset teavet.
Kontekst tähendab seejuures nii konkreetse kommunikatsiooniolukorra keskkonda kui
ka kindlale sõnumile eelnenud ja järgnenud teateid ning nende tähendusi. Juba märgid
ise ei kanna tähendust isoleerituna, vaid kindla koodisüsteemi liikmena. Laiemas käsitluses hõlmab kontekst tervet maailma, kus kommunikatsiooniakt aset leiab. Kontekst
mõjutab kommunikatsiooniakti tervikuna.
Konteksti olulisust sõnumi tähenduse mõistmiseks rõhutas oma kommunikatsioonimudelis semiootik Roman Jakobson (1981: 22, 27), kes lisas kommunikatsioonimudelisse kontakti mõiste. Selleks, et kommunikatsioon saaks üldse toimuda, peab olema
kontakt saatja ja vastuvõtja vahel. Kontakt tähendab siinkohal nii füüsilist kommunikatsioonikanalit kui ka psühholoogilist kontakti sõnumi saatja ja vastuvõtja vahel. Saatja ja
vastuvõtja peavad kommunikatsiooniolukorda sarnaselt tõlgendama.
Kommunikatsiooni toimumiseks on seega vajalik, et sõnumi saatjal ja vastuvõtjal
oleksid ühesugused teadmised selle kohta, kuidas sõnumid on kodeeritud ja kuidas
nad tähendustega seostuvad. Suhtlemiseks loomuliku keele abil, näiteks vestlemisel,
on vajalik osata ühist keelt. Ühine keel tähendab aga lisaks ühisele koodile ka suure
hulga ühise teadmise olemasolu. Saatja ja vastuvõtja peavad mingilgi määral sarnaselt
Raamatust arusaamine eeldab keele- ja kirjaoskust, selle sisu täpsem mõistmine võib
nõuda teadmisi ka vastavast teemavaldkonnast (ajaloost, teoloogiast, füüsikast jne).
Minevikust või teistest kultuuridest pärit tekstide korral on vajalik lisaks veel ajaloo
ja kultuurikonteksti tundmine. Teadmised muutuvad loomulikult koos ühiskonna ja
kultuuri arenguga. Juhul, kui infoallikal ja adressaadil on täiesti erinev teadmusbaas, ei
saa kommunikatsioon toimuda. Kui aga teadmusbaasid täielikult kokku langevad, pole
kommunikatsioonil erilist mõtet, kuna informatsiooni hulk, mida kommunikatsioon
suudaks pakkuda, oleks minimaalne. Tõsi küll, mõnikord võib väikene informatsiooni
hulk suure kaaluga olla, näiteks kui saadetud sõnum on mingiks oluliseks tegevuseks
vajalik „võti“. Saadetud sõnum võib vastuvõtja teadmusbaasis mingi muudatuse esile
kutsuda ja kui see muudetud info on tihedalt seotud ülejäänud teadmusbaasiga, siis võib
vastuvõtja teadmusbaas ahelreaktsioonina oluliselt teiseneda. Tänapäevasest piisavalt
erinevat teadmusbaasi nõudva info mõistmiseks kasutatakse seda valdavate spetsialistide ja institutsioonide abi. Näiteks Vana-Kreeka keeles kirjutatud tekste vahendavad,
tõlgivad ja kommenteerivad vastava hariduse saanud spetsialistid – kõikidele teistele
jäävad need mõistetamatuks.
Konteksti (tähenduste ja väärtuste) muutumine muudab info mõistmise võimatuks
või vähemalt raskendab seda tunduvalt. Info loomise ja kasutamise kontekstid ei ole
kunagi täiesti identsed. Mida kultuuriliselt erinevamad on info looja ja retsipient, seda
erinevam on ka kontekst. Konteksti erinevused muutuvad eriti oluliseks asünkroonse
kommunikatsiooni korral, kus sõnumi saatmise ja vastuvõtu vahele jääb ajaline distants.
Mida suuremad on konteksti erinevused, seda enam täiendavaid kommunikatsiooniprotsesse on kommunikatsiooni haaratud.
Shannoni kommunikatsioonimudel on ühesuunaline ja lineaarne. Tegelik kommunikatsioon sarnaneb aga sageli hoopis dialoogile, kus sõnumeid vahetatakse vaheldumisi ning
sõnumite sisu ja vormi varieeritakse vastavalt kaasvestlejalt saadud sõnumitele. Sellise
olukorra kajastamiseks lisatakse kommunikatsiooniprotsessi mudelisse tagasiside.
Tagasiside on protsess, mille käigus sõnumi saatja saab infot selle kohta, kas vastuvõtja
on sõnumi kätte saanud ja kuidas sõnumi vastuvõtja on seda mõistnud, kas sõnumil on
olnud selline mõju nagu saatja eeldab. Otsese suhtluse käigus saame partnerilt pidevalt
tagasisidet sõnade, žestide, miimika jms kaudu. Tagasiside võib olla ka keerukam, selleks võivad olla loodud spetsiaalsed institutsioonid – eelretsenseerimine (peer review)
teaduskirjanduse korral, kriitika, eellinastused filmidele jms. Tagasiside võimaldab
9
10
KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS
KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS
saatja edastatavaid sõnumeid vastavalt adressaadi reageeringule kohandada. Kommunikatsiooniprotsessi tagasisideahelaid on oma mudelis lähemalt käsitlenud Brian ja Alina
Vickery (Vickery Vickery 1992: 41– 42).
INFOALLIKAS
SAATJA
TEADMUSBAAS 1
SIGNAAL
SÕNUM
INFOKANAL
KODEERIMINE
VASTUVÕTJA
TEADMUSBAAS 2
DEKODEERIMINE
Joonis 1.6. Üks võimalik tagasisideahel kommunikatsiooniprotsessis
Saadetud ja vastuvõetud sõnumite erinevuse vähendamiseks võidakse muuta mingeid
sidekanali omadusi, näiteks rääkida kõvemini või suurendada kanali läbilaskevõimet
(vt joonis 1.6). Teise tagasisidestuse kaudu püütakse mõjutada saadetavat sõnumit
ennast, näiteks palutakse sõnumi saatjat rääkida selgemini või öelda nimi tähthaaval.
Tagasiside võib olla ka kaudsem ja toimuda pikema aja pärast, seda eriti asümmeetrilise kommunikatsiooni korral. Õpetaja võib muuta oma sõnumit alles pärast vastuvõtu
kontrollimist (tunnikontrolli), reklaamifirma muudab reklaami pärast ostutulemuste
selgumist jne.
1.2. Kommunikatsiooni ajalised aspektid
Kommunikatsiooni võib jagada sünkroonseks ja asünkroonseks. Sünkroonse kommunikatsiooni korral on kõik osapooled korraga haaratud reaalajas toimuvasse suhtlusprotsessi. Osalejad võivad ruumiliselt asuda samas kohas (näiteks otsene suuline vestlus
kahe inimese vahel) või olla üksteisest füüsiliselt eraldi (näiteks telefonivestlus, videokonverents, tekstisuhtlus, jututuba vms). Asünkroonne kommunikatsioon on ajalise
viivitusega toimuv suhtlus, informatsiooni edastamiseks kasutatakse mingit vahendajat
(kiri, kujutised jms). Asünkroonse kommunikatsiooni korral on osalised tavaliselt ka
ruumiliselt eraldatud.
Kommunikatsiooni maksimaalset ajalist kestust ei ole võimalik üheselt defineerida,
kuid kehtivate loodusseaduste alusel võime väita, et ükskõik milline kommunikatsioon
ei saa olla ajas kiirem kui valguse liikumise kiirus vaakumis (ligikaudu 3 × 108 m/s).
Kommunikatsiooni suurim võimalik kiirus määrab ära ka suurima ruumiosa, millega
põhimõtteliselt on võimalik suhelda. Kuna informatsioon ei saa liikuda kiiremini
valguse kiirusest vaakumis, on kõige kaugem ruumiosa, kust informatsioon meieni võib
jõuda, umbes 5 × 1026 meetri kaugusel. Tegemist on inimesele põhimõtteliselt tajutava
universumiga. Tegelik multiversum võib aga olla lõputu (Tegmark 2014: 119–132). Küllaltki ekstreemseks asünkroonse kommunikatsiooni näiteks võib tuua kosmosesondide
Voyager 1 ja Voyager 2 pardale pandud kullatud vaskplaadid teabega inimkonna kohta.
Kui seda kunagi üldse keegi loeb, toimub see tulevikus ja ruumiliselt väga kaugel Maast
(vt näitekast 1.1).
Näitekast 1.1 Kosmosesondi Voyager kuldne plaat
NASA programmi Voyager raames saadeti kosmosesse kaks automaatjaama:
1977. aasta 20. augustil Voyager 2 ja kaks nädalat hiljem, 5. septembril Voyager 1. Mõlemad Voyagerid on täpselt ühesuguse ehitusega. Kummagi automaatjaama mass on 722 kg ja pardal on 10 mitmesugust uurimisseadet. Maaga
sidepidamine käib 3,7-meetrise läbimõõduga paraboolantenni vahendusel,
suurim allalaadimiskiirus on ainult 1,4 kb/s. Elektrienergiaga varustavad neid
kolm termoelektrilist raadioisotoopgeneraatorit, mida on kasutatud kõigil
Marsist kaugemale suunduvatel automaatjaamadel, sest päikesepatareid oleksid suure kauguse tõttu Päikesest ebaefektiivsed. Maalt lahkudes oli nende
energiaallikate võimsus 420 W, mis aga radioaktiivsete ainete lagunemise tõttu
pidevalt väheneb. Tuumakütust peaks jätkuma vähemalt 2020. aastani. Selle
abil hoitakse töös magnetvälja ja päikesetuult uurivad instrumendid. Voyagerid
saadeti teele ülesandega uurida lähemalt Jupiteri ja Saturni. Nad pildistasidki
Jupiteri Suurt Punast Laiku ja Saturni rõngaid ning mõlema planeedi kaaslasi.
Voyager 2 siirdus seejärel Uraani ja Neptuuni juurde. Voyager 1 sai Saturni gravitatsiooniväljalt lisakiirenduse ja liikus edasi Päikesesüsteemi piiride poole.
Voyager 1 on praeguseks jõudnud 22 miljardi km kaugusele ja liigub kiirusega
17 km/s. Umbes 40 000 aasta pärast jõuavad Voyagerid oma teel esimeste tähtede lähikonda. Voyager 1 möödub 1,6 valgusaasta kauguselt tähest kataloogitähisega AC+79 3888. Praegu Kaelkirjaku tähtkujus asuv täht on selleks ajaks
jõudnud juba Maokandja tähtkujusse ja Päikesest lahutab teda siis 3 valgusaastat. Voyager 2 lendab umbes samal ajal 1,7 valgusaasta kauguselt mööda tähest
nimetusega Ross 248, mis asub siis meist 3,25 valgusaastat eemal. Ligikaudu
296 000 aasta pärast jõuab Voyager 2 tähistaeva kõige heledamast tähest Siiriusest „vaid” 4,3 valgusaasta kaugusele.
Voyager 1 ja Voyager 2 pardal on inimkonna läkitus võimalikele intelligentsetele Maa-välistele eluvormidele. 12tollisele (30,5 cm) kullaga kaetud vaskplaadile (joonis 1.7) on analoogkujul salvestatud helid ja pildid Maa kultuurist ja
elurikkusest.
Joonis 1.7. Kosmoseaparaadi Voyager pardal asuv nn kuldne plaat (vasakul)
ja selle ümbris koos plaadi kasutusjuhistega. NASA GPN-2000-001976.jpg
ja GPN-2000-001978.jpg
11
12
KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS
Plaat on alumiiniumümbrises ja sellele on lisatud plaadi mängimiseks vajalik
helipea. Helide õigeks taasesitamiseks tuleb plaati mängida kiirusega 16 2/3
pööret minutis. Plaadi ümbrisel on visuaalne juhis selle kasutamiseks. Helisalvestised ja kujutised valis välja komitee, mida juhtis Cornelli ülikooli professor
dr Carl Sagan. Selle, kuldseks plaadiks kutsutava salvestise pealkiri on „The
Sounds of Earth“ („Maa helid“). Plaadil on 55 keeles tervitused, sealhulgas avasõnad tollaselt ÜRO peasekretärilt Kurt Waldheimilt ja USA presidendi Jimmy
Carteri läkitus. Lisaks võib kuulda erinevaid loodushelisid (nt äike, veevulin,
vaalade laul jne). Suurima osa fonogrammidest moodustavad muusikanäidised:
klassikalist muusikat esindavad teiste seas Bach, Stravinski ja Mozart, pärimusmuusikat Peruu pulmalaul, Senegali löökriistad jpm, popmuusikat esitab
Chuck Perry. Külmale sõjale vaatamata kaasati ka Nõukogude artiste Gruusia
ja Aserbaidžaani Nõukogude Sotsialistlikust Vabariigist. Kuldsel plaadil on ka
116 fotot ja joonist, mis tutvustavad Maa asukohta Päikesesüsteemis, matemaatika, keemia, füüsika, bioloogia ja anatoomia põhitõdesid ning looduse ja
inimkultuuride mitmekesisust. Selleks, et heliplaadi leidjatel oleks võimalik
määrata selle vanust, on selle ümbrisele kinnitatud tükike radioaktiivset isotoopi uraan-238, mille poolestusaeg on 4,5 miljardit aastat. Vanuse leidmiseks
peavad välistsivilisatsiooni füüsikud mõõtma järelejäänud uraani ja tema lagunemisproduktide hulga suhte.
Peale kahe Voyageridega kosmosse saadetud plaadi on sellest maailmas olemas
ainult kümme eksemplari, millest suuremat osa eksponeeritakse NASA-le
kuuluvates rajatistes. Plaati on võimalik kuulata SoundCloudis: https://soundcloud.com/search?q=voyager%20golden%20record
Allikad
Pikaealised Voyagerid. 2008. – Tehnikamaailm. http://www.tehnikamaailm.ee/pikaealised-voyagerid/
Voyager Golden Record. https://en.wikipedia.org/wiki/Voyager_Golden_Record
Voyager 1. https://et.wikipedia.org/wiki/Voyager_1
Voyager. The Interstellar Mission. http://voyager.jpl.nasa.gov/spacecraft/goldenrec.html
Voyageride tegevust saab jälgida NASA kodulehelt: http://voyager.jpl.nasa.gov/
Oluline on selle näite juures asjaolu, et vaatamata kommunikatsiooni asünkroonsusele
eeldatakse, et see toimub. Isegi kui välistel põhjustel jääb see toimumata, on kommunikatsiooni toimumine potentsiaalselt võimalik. Me oleme teadlikult loonud sõnumi,
teinud seda sel viisil, mida me arvame olevat teistel mõistuslikel olenditel kõige parem
mõista, salvestanud selle võimalikult püsivalt ja saatnud nende poole teele. See näide
iseloomustab hästi kommunikatsiooni ühte olulisemat aspekti: kommunikatsiooniprotsessi korral eeldatakse alati, et see toimub.
KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS
INFOALLIKAS
SAATJA
TEADMUSBAAS
SIGNAAL
SÕNUM
?
INFOKANAL
KODEERIMINE
Joonis 1.8. Asümmeetriline kommunikatsiooniakt
Asünkroonse kommunikatsiooni korral jääb kommunikatsiooniprotsessi parempoolne
osa võimalikkuseks (joonis 1.8). Kommunikatsiooniakti vasakpoolne osa on toimunud
ja me eeldame, et parempoolne toimub kunagi hiljem või kusagil mujal. See võib jääda
toimumata, aga me eeldame, et see toimub.
Enamiku kommunikatsiooniprotsesside korral ei ole nende ajaline kestvus oluline. Suurem osa teabest on määratud lühiajaliseks kasutamiseks. Tegemist võib olla info looja
(indiviid, organisatsioon, masin) jaoks mingiks ajaks vajaliku teabega. Näiteks võib inimene õppida pähe luuletuse, et seda jõuluvanale esitada. Olenevalt inimese mälusüsteemist võib see salmike olla kasutatav ühekordselt või jääda meelde kogu eluks. Teiseks
näiteks võib tuua kalendrisse tehtava märkuse, mis on oluline mingi aja kestel. Ettevõtte
dokumendid on mingi aja jooksul aktiivselt kasutuses, sellel järgneb mitteaktiivne
periood ja seejärel kas üleandmine arhiivi või hävitamine. Info fikseerimine kirja ja kujutiste kujul võimaldab seda kauem säilitada. See on oluline ka tagasiside aspektist, kuna
fikseeritud info võimaldab selle juurde uuesti tagasi pöörduda. Kirjapandud teksti või
salvestatud kõnet saab uuesti üle lugeda või kuulata, parandusi ja täiendusi teha.
Osa teabest on selline, mida soovitakse säilitada võimalikult pikka aega. Ühiskondades
on selleks välja kujunenud vastavad institutsioonid ja nendega seotud protsessid. Enamik ühiskonnas käigus olevast teabest toimib sedaviisi, et seda kasutatakse üha uuesti,
töödeldakse ümber. Vahel harva on vajalik pöörduda tagasi info algallika juurde. Igapäevases elus me üldjuhul ei vaja paari aasta tagust e-kirjavahetust. Loomulikult sõltub
kõik tegevusvaldkonnast, ajaloolased näiteks eelistavad alati tugineda algallikatele. Kui
õpime koolis Archimedese seadust, siis me ei loe Archimedese teoseid, seda enam, et
neid ei olegi säilinud. Enamikul juhtudest ei takista info algallika kadumine selle edasist
kasutamist, kuigi kaotus ajaloole ja kultuuriloole on loomulikult suur ning sageli korvamatu. Originaalallikate olemasolu on vägagi oluline aga näiteks selleks, et vajadusel
oleks võimalik info autentsust kontrollida.
Elementaarsed kommunikatsiooniaktid grupeeruvad enamikul juhtudest seostunud
kommunikatsiooniahelateks. Toome näiteks võõrkeelse teadusliku teksti lugemise
(joonis 1.9, 1. ahel). Teksti lugedes kasutatakse sõnaraamatut (joonis 1.9, 2. ahel),
lisaks kontrollitakse internetiotsingu abil terminite määratlusi (joonis 1.9, 3. ahel).
13
14
KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS
INFOALLIKAS
SAATJA
TEADMUSBAAS 1
SIGNAAL
INFORMATSIOONI ELUTSÜKKEL
SÕNUM
TEKST 1
VASTUVÕTJA
TEADMUSBAAS 2
INFOKANAL
KODEERIMINE
DEKODEERIMINE
2. INFORMATSIOONI
ELUTSÜKKEL
Lugenud läbi selle peatüki,
• tead, mis on dokumendi elukäigu mudel;
• oskad välja tuua elukäigumudelite sarnasusi ja erinevusi;
• tead, millised on teabe elukäigu mudelid.
INFOALLIKAS
SAATJA
TEADMUSBAAS 1
SIGNAAL
SÕNUM
TEKST 2
TEADMUSBAAS 2
INFOKANAL
KODEERIMINE
INFOALLIKAS
SAATJA
TEADMUSBAAS 1
VASTUVÕTJA
DEKODEERIMINE
SIGNAAL
SÕNUM
TEKST 3
INFOKANAL
KODEERIMINE
VASTUVÕTJA
TEADMUSBAAS 2
Inimühiskondade kujunemine ja areng on lahutamatult seotud informatsiooni ja kommunikatsiooniga. Info loomise, levitamise, kasutatavaks tegemise ja säilitamisega tegelevad kõikides teadaolevates ühiskondades spetsiaalsed inimesed, organisatsioonid ja
institutsioonid. Suulisel infol baseerunud ühiskondades olid nendeks inimesed ja inimeste grupid, kes tegelesid narratiivide meelespidamise, esitamise ja edasiandmisega.
Suulisele tekstile lisandusid visuaalsed kujundid, maastikumärgid jms, mis moodustasid
ühtse kommunikeeritava teadmise. Läbi ajaloo võime jälgida ühelt poolt järjest spetsiifilisemate ülesannetega organisatsioonide ja institutsioonide teket, teiselt poolt aga ka
eri funktsioonide ühtesulamist. Pärast trükikunsti leiutamist oli sageli üks inimene või
ettevõte nii kirjastaja, trükkali kui ka raamatulevitaja ülesannetes, veelgi sagedamini oli
ta ise ka autor. Hiljem need funktsioonid eraldusid. Tänapäeval on need institutsioonid
jagunenud mitte ainult funktsioonide, vaid ka trükiste tüübi alusel (ajalehekirjastus,
teadusraamatute kirjastus, lasteraamatute kirjastus jne). Pärast digitaalse kirjastamise,
trükkimise ja levitamise kasutuselevõttu võib aga taas olla üks inimene nii info looja,
levitaja, kasutatavaks tegija kui ka säilitaja.
DEKODEERIMINE
2.1. Dokumentide elukäigu mudelid
Joonis 1.9. Kommunikatsiooniahelate seostunud võrgustik
Teine ja kolmas kommunikatsiooniprotsess aitavad kasutaja teadmusbaasi täiendamise
teel esimesest tekstist aru saada.
Kommunikatsioonivõrgustike toimimise tagavad vastavad institutsioonid. Need institutsioonid on kultuurilised mehhanismid, mille abil luuakse ja hoitakse toimimas tähenduslik ning korrastatud sotsiaalne maailm (Levi 2003: 38). Kommunikatsiooniaktis
muutub teate vastuvõtja seisund. Sageli genereerib vastuvõtja esimese kommunikatsiooniakti järel uue sõnumi või täiendab algset sõnumit mingil viisil.
Protsesside uurimiseks jagatakse nad tavaliselt erineva kestusega etappidesse. Sellist
lähenemist kasutatakse nii ajaloos (kiviaeg, pronksiaeg, rauaaeg, vanaaeg, keskaeg, uusaeg, uusim aeg), organismide arengus (embrüonaalne areng, juveniilne ehk noorjärk,
sigimisvõimeline periood, vananemine) kui ka ajaarvamises (sekund, minut, tund, päev,
kuu, aasta, sajand). Maa ajalugu jaotatakse samuti etappidesse (eoonid, aegkonnad,
ajastud, ajastikud).
Tsüklilisus on omane kõikidele nendele käsitlustele, kus kirjeldatava protsessi metafooriks on elusorganism. Kui räägitakse dokumentide või informatsiooni elutsüklist,
siis selle metafoorseks aluseks ongi tsükliliselt läbitavad eluetapid – sünd, kasvamine,
õitseng, vanadus ja surm. Dokumentide ja laiemalt informatsiooni käsitlemisel on elukäigu kontseptsioon väga levinud. See viitab selle, et infot käsitletakse dünaamilisena,
sarnaselt elusorganismidega: info luuakse, see läbib kindlad eluetapid ja seejärel sureb
või võetakse uuel kujul taaskasutusse. Igal etapil või faasil on kindlad elemendid ja iga
etapi raames tehakse kindlaid funktsionaalseid tegevusi. Tegemist on dokumendihalduse ja arhiivinduse keskse metafoorse mudeliga, mis on laialt levinud alates 20. sajandi
keskpaigast (Upward 2000: 117–118). Sarnane metafoor on kasutusel ka mitmes teises
valdkonnas – infokorralduses, infotehnoloogias, organisatsiooniteoorias, säilitamises,
tarkvaraarenduses, tööstuses ja kaubanduses (toote elutsükkel, product life cycle), keskkonnakaitses (jäätmekäitluse olelusring, waste management life cycle).
15
16
INFORMATSIOONI ELUTSÜKKEL
INFORMATSIOONI ELUTSÜKKEL
Elukäigu mudeli arendamine arhiivinduses ja dokumendihalduses algas 1930. aastatel
Ameerika Ühendriikides. Mudeli võttis oma tegevuse aluseks 1934. aastal asutatud
Ameerika Rahvusarhiiv. Elukäigu mudel lõi sobiva raamistiku dokumendihalduse ja
arhiivinduse funktsioonide eristamiseks (Yusof Chell 2000: 135). 1940. aastal avaldas
Philip C. Brooks artikli „Milliseid dokumente me peame säilitama?“, milles ta esitas
dokumentide elukäigu (life history of records) kontseptsiooni. Hiljem hakatigi seda kutsuma dokumentide olelus- ehk elutsükliks (life cycle of records). Brooksi väitel peavad
arhivaarid dokumentide elutsüklisse sekkuma juba nende loomisel, kuna siis määratakse ära säilitatavate dokumentide hulk. Ka Theodore R. Schellenbergi 1956. aastal
esitatud ja laialdase tunnustuse võitnud arhiiviteoorias on elukäigu kontseptsioon kesksel kohal. Tema kasutas küll eluea (life span) mõistet (Schellenberg 1956: 37–38).
Dokumentide elukäiku võib kujutada lähtudes nende haldamise protsessist (loomine,
kasutamine, säilitamine, hävitamine) või siis nende endi elutsükli etappidest (aktiivne
ja passiivne etapp) (Brothman 2006: 262–263). Esimestes elukäigu mudelites toodi ära
kolm üksteisele järgnevat etappi:
· loomine;
· kasutamine;
· hävitamine.
Vägagi levinud on viieetapiline elukäigu mudel:
· loomine;
· levitamine ja kasutamine;
· säilitamine ja kasutamine;
· hoid ja hävitamine;
· arhiivisäilitus.
1940. aastatel haaras Ameerika ühendriikide Rahvusarhiivi ametlik elutsükli kontseptsioon järgmisi etappe:
· loomine;
· kasutamine;
· infootsing;
· hävitamine/hindamine;
· vastuvõtt;
· kirjeldamine;
· säilitamine;
· juurdepääsu tagamine.
Etappide arvu võidakse suurendada vastavalt sellele, kui täpselt arhiivis tehtavaid töid
peetakse tarvilikuks välja tuua. Eeltoodutele võidakse lisada näiteks registreerimine,
liigitamine, indekseerimine, säilitustähtaja määramine jms.
Elutsükli kontseptsiooni esitamiseks on kasutatud erinevaid mudeleid: elutsükli esitamine lineaarse protsessina (joonis 2.1), tsükliliselt sulguvana (joonis 2.2) või spiraalselt
ajas kulgevana (joonis 2.3) (Brothman 2006: 262–263).
LOOMINE
TÖÖTLEMINE JA KASUTAMINE
ARHIVEERIMINE
HÄVITAMINE
Joonis 2.1. Dokumentide elukäigu lineaarne mudel
Dokumentide
loomine
Arhiivid –
säilitamine ja
juurdepääsu
tagamine
Kasutamine
ja levitamine
Eemaldamine,
hävitamine
või
Hooldus
ja kaitse
Joonis 2.2. Dokumentide elukäigu tsükliline mudel
HÄVITAMINE
KASUTUS
HOID
KLASSIFITSEERIMINE
HÕLMAMINE
LOOMINE
Lineaarne aeg
HÕLMAMINE
KLASSIFITSEERIMINE
HOID
KASUTUS
HÄVITAMINE
Joonis 2.3. Dokumentide elutsükli spiraalne mudel (Brothmann 2006: 263)
17
18
INFORMATSIOONI ELUTSÜKKEL
INFORMATSIOONI ELUTSÜKKEL
Elektrooniliste dokumentide haldamise näidisnõuete (MoReq2, Model Requirements
for the Management of Electronic Records) raames loodud elektroonilise dokumendihalduse põhiprotsesse kajastav mudel haarab järgmisi protsesse (Elektrooniliste dokumentide 2008: 233–234):
· loomine;
· hõlmamine;
· kasutamine;
· säilitamine;
· üleandmine;
· haldamine;
· hoid;
· hävitamine.
Loomine ei tähenda mitte üksnes dokumendi loomist organisatsiooni sees, vaid ka
dokumendi saamist väljastpoolt organisatsiooni. Hõlmamine tähendab muu hulgas
registreerimist, liigitamist ja dokumendihalduse metaandmete sisestamist. Kasutamine
tähendab otsimist, leidmist, sirvimist, teisendkoopiate tegemist, hooldust, ülevaatamist
jne. Säilitamine tähendab neid tegevusi, mis on vajalikud juurdepääsu tagamiseks aja
jooksul. Haldamine tähendab muu hulgas juurdepääsu reguleerimist ja eraldamisvolituste kontrollimist. Kujutatud protsesside järjekord ei ole oluline, sest need võivad eri
tingimustes toimuda erinevas järjekorras.
Dokumentide elutsükli esimene pool kuulub dokumendihalduse (records management)
alla ja teine pool arhiivinduse (archives administration) valdkonda. Eri vastutusalade
piiritlemine on elutsüklimudeli üks olulisemaid ideid. Mudel ei kirjelda mitte ainult
seda, mis dokumendiga erinevates etappides toimub, vaid ka seda, kes nende etappide
eest vastutab. Kõik dokumendid, juhul kui nendega midagi erakorralist ei juhtu, läbivad
samad elutsükli etapid.
Kirjeldatust veidi erinev mudel eristab dokumentide elukäigus kolm ajajärku (ages) ehk
etappi (joonis 2.4).
ARHIIVID
AKTIIVNE ETAPP
Arhiivihoidla
Arhivaar
Kontor või
dokumendihoidla
Registreerija
Hindamine ja
hävitamine
Hindamine ja
hävitamine
Teisene väärtus
Esmane väärtus
POOLAKTIIVNE
ETAPP
Asutuse arhiiv
Dokumendihaldur
Joonis 2.4. Dokumentide elukäigu mudel, milles eristatakse kolme etappi
(The management 1999: 19)
Seda tuntakse ka arhiivi kolme etapi mudelina (three ages of archives) (Derek 1984: 2).
Etappide eristuse aluseks on dokumentide kasutus ja sellega seotult ka nende füüsiline
asukoht. Aktiivses etapis (current stage, active stage) olevad dokumendid on jooksvas
asjaajamises, neid menetletakse või neile toetutakse organisatsiooni igapäevategevuse
käigus. Aktiivne etapp hõlmab dokumentide loomist või saamist, registreerimist ja toimikusse paigutamist ning asutuse jooksvate ülesannete lahendamises kasutamist. Poolaktiivne ehk väheaktiivne etapp (semi-current stage, semi-active stage) tähendab seda, et
dokumentide kasutusaktiivsus on oluliselt vähenenud, kuna nendega seotud vahetute
ülesannete täitmine on lõppenud. Neid võib vaja minna uute, varasematega seotud
ülesannete täitmisel või teabe saamisel. Kuna igapäevane kasutus puudub, antakse
dokumendid üldjuhul üle asutuse arhiivi. Üleminek aktiivsest etapist poolaktiivseks
võib olla seotud ajaga, asja lahendamisega, kasutusaktiivsuse või ka mõne muu tunnusega. Paberdokumente säilitatakse eraldi dokumendihoidlates või nn vahearhiivides.
Passiivne ehk mitteaktiivne etapp (non-current stage, inactive stage) on seotud sellega,
et igapäevategevustes enam nendele dokumentidele ei toetuta, küll võib neid aga vaja
minna mingite tegevuste tõendamiseks. Sellesse etappi jõudnud dokumendid kas hävitatakse või paigutatakse arhiivi. Selline mudel on dokumendihalduses ja arhiivinduses
laialdaselt levinud (Couture Rousseau 1987: 37). Näide sellest, kuidas toimub dokumentide muutumine arhivaalideks, on toodud näitekastis 2.1.
Näitekast 2.1. Kuidas saab dokumendist arhivaal?
Organisatsioonide ja isikute tegevuse käigus tekib hulgaliselt mitmesuguseid
dokumente. Osa neist dokumentidest on olulised riigi toimimiseks või ka
ajaloo- ja kultuuriväärtusega. Dokumendid arhiiviseaduse tähenduses on mis
tahes teabekandjale jäädvustatud teave, mis on loodud või saadud asutuse või
isiku tegevuse käigus ning mille sisu, vorm ja struktuur on küllaldane faktide
või tegevuse tõendamiseks (Arhiiviseadus: § 2 lg 1). See määratlus rõhutab
dokumendi sidet asutuse ülesannete ja tegevusega, mille täitmise käigus dokument on tekkinud ja mille tõestamiseks seda alles hoitakse. Mõiste „dokument“
hõlmab seejuures ka andmekogusid ja infosüsteeme
Arhivaal on dokument, millele avalik arhiiv on hindamise tulemusena andnud
arhiiviväärtuse (Arhiiviseadus: § 2 lg 2). Arhivaal on osa rahvuslikust kultuuripärandist ja seda säilitatakse püsivalt (Arhiiviseadus: § 2 lg 3). Eesti kontekstis
on Rahvusarhiivi üks ülesannetest selgitada välja avalikku ülesannet täitvad asutused või isikud, kelle tegevuse käigus võib tekkida arhivaale, lähtudes seejuures
asutuse või isiku olulisusest ühiskonnas ning avaliku ülesande sisust. Avaliku ülesande täitmise käigus loodud või saadud arhivaal antakse üle Rahvusarhiivi või
teistesse avalikesse arhiividesse. Võimaluste olemasolu korral ning kokkuleppel
omanikuga kogub Rahvusarhiiv ka kultuuri- ja ajalooväärtusega eraõiguslikke
dokumente, kui selleks on avalik huvi (Arhiiviseadus: § 3 lg 2).
Seega ei kuulu riikliku taseme pärandi hulka kaugeltki mitte iga dokument.
Ennekõike kogub Rahvusarhiiv riigi ja kohalike omavalitsusuksuste ülesannete
täitmise käigus tekkinud dokumente ja nendestki ainult osa. Säilitatavad dokumendid valitakse välja hindamise käigus Hindamine on avaliku arhiivi tegevus,
mille eesmärk on välja selgitada dokumentide arhiiviväärtus. Hindamisega
19
INFORMATSIOONI ELUTSÜKKEL
INFORMATSIOONI ELUTSÜKKEL
TÕESTUSVÄÄRTUS
Mõõde 1
LOO
Arhiiviväärtusega teabe hulka kuuluvad:
õtte/isiklik m
älu
tev
Et
· avalike ja erainstitutsioonide, üksikisikute ja gruppide õiguslikku staatust,
õigusi ja kohustusi väljendav dokumenteeritud teave, mis on oluline Eesti
rahvusriigi ja Eesti ühiskonna jätkuva toimimise seisukohalt;
k s u s ed
Allü
Org
Eesmärk
· teave riikliku poliitika mõjust üksikisikutele, inimkooslustele ning ühiskondlikule ja looduskeskkonnale;
Dokumendikogud võivad peale arhiivide olla ka raamatukogudel, muuseumidel, teadusasutustel ja teistel teabeasutustel.
TRANSAKTSIONAALSUS
Do
kumendid
· kohalikku eripära, eriti kultuurinähtusi väljendav teave;
· dokumenteeritud teave, mis oluliselt täiendab teadmisi ja arusaamist Eesti
ühiskonna – inimeste ja inimkoosluste – kohta, sh ka eraisikute valduses
olevad arhivaalid.
(Arhiivi)
Dokument
Funktsioon
· teave, mis kajastab riikliku poliitika väljakujunemist, otsuseid ja tegevust
peamistes sotsiaalsetes, majanduslikes ja keskkonna-alastes valdkondades;
Märk
Tegevus
IDENTSUS
· teave, mis kajastab välissuhteid ja riigikaitse juhtimist;
anisatsioon
Tõend
Äritehing
· üleriikliku ja omavalitsuspoliitika kujunemist ning haldusprotsessi
kajastav teave;
Mõõde 2
HÕIVE
ktiivne mälu
Kolle
Osalised
otsustatakse, millised dokumendid on osa rahvuslikust kultuuripärandist ja
mida seepärast säilitatakse püsivalt arhivaalidena. Kehtestatud on vastavad
hindamiskriteeriumid (Arhiivieeskiri: § 10). Hindamine ehk dokumentide
arhiiviväärtuse väljaselgitamine on avaliku arhiivi keskne ülesanne.
Institutsioon
20
A rhi i v
Arhiivid
Mõõde 4
ROHKENDA
Mõõde 3
ORGANISEERI
DOKUMENDIHALDUSE
TEHISED
Allikad
Arhiiviseadus https://www.riigiteataja.ee/akt/106012016006?leiaKehti (09.07.2018)
Arhiivieeskiri https://www.riigiteataja.ee/akt/129122011229?leiaKehtiv (09.07.2018)
Joonis 2.5. Frank Upwardi loodud dokumentide kontiinumi mudel (Upward 1996)
Kirjeldatud elutsüklimudeleid on kritiseeritud, kuna need ei kajasta etappide korduvust ega ka nende võimalikku vahele jätmist, mis mõlemad on praktikas arusaadavalt
üsnagi levinud. Samuti viidatakse mudelite tugevale seotusele info füüsilise kandjaga,
mis digiinfo korral on jällegi küllaltki ebaoluline. Vastusena elutsüklimudelite kriitikale
esitati 1990. aastatel dokumentide kontiinumi kontseptsioon, mille peamiseks väljatöötajad olid Frank Upward ja tema kaastöötajad (Upward 1996; 1997; 2000). Mudeli
laialdasem levik on otseselt seotud digitaalse teabe haldamise muutumisega järjest olulisemaks. See mudel ei jaga dokumentide elutsüklit kindlateks etappideks, vaid dokumentide haldamist käsitletakse katkematu protsessina, kus üks kontiinumi osa läheb
sujuvalt üle teiseks (joonis 2.5). Mudelis on neli telge, mis on seotud dokumentide
konteksti oluliste aspektidega, ning neli mõõdet, mis seovad need kontekstid kokku ja
näitavad, millised haldustegevused on kõige sobivamad just antud konteksti sobivatele
dokumentidele. Mudelis olevad neli mõõdet ei ole mitte ajalised, vaid esitavad erinevaid vaateid dokumentide haldamisele. Dokumendihalduse telg kajastab dokumendi või
arhivaali olekut selle loomisest kirjeldamise ja organiseerimiseni ning lõpuks muutumist üldise ühiskondliku infosüsteemi osaks.
Identsuse telg viitab sellele, milliste organisatsioonitasemetega on dokument seotud, ja
toimingute telg dokumendi kasutusele. Tõestusväärtuse telg on, nagu nimigi ütleb, seotud dokumendi kui tõestusallikaga. Esimene mõõde (loomine) on seotud dokumendi
loomisega, teine (hõive) infosüsteemidega, kolmas (haldus) info organiseerimis-,
otsingu- ja levitamissüsteemidega organisatsiooni sees ning neljas (rohkendamine)
nendesamade süsteemidega väljaspool organisatsiooni. Tegemist on paindliku ja kõikehaarava mudeliga, mis kajastab hästi dokumentide rolli tänapäevastes organisatsioonides ja ühiskonnas laiemalt.
21
22
INFORMATSIOONI ELUTSÜKKEL
INFORMATSIOONI ELUTSÜKKEL
2.2. Elutsüklimudeli laiendamine dokumentidelt teabele
Elutsüklimudelit on laiendatud ka infole tervikuna, sõltumata selle sisust, esinemisviisist ja kasutusest. Infohalduse kontekstis on esitatud näiteks järgmine dokumentide
ja info elutsükli mudel (joonis 2.6), mis keskendub infohalduse tegevustele ning jagab
need seitsmeks etapiks.
TEKKINUD ON IDEE
VÕI TEADMINE
INFO
KASUTAMINE
VIIB UUE
TEADMISE
TEKKELE
Infohalduse
kavandamine
1
Kogumine,
loomine, vastuvõtmine, hõive
2
Hindamine
7
Dokumentide ja
informatsiooni
elutsükkel
Hävitamine
6
Organiseerimine
3
INFO ON
HOIUSTATUD,
ET SÄILITADA SEDA
ANDMETENA
IDEE ON
FORMULEERITUD.
SELLELE ON LISATUD
TÄIENDAVAT INFOT
Joonis 2.7. Info elutsükli mudel pikaajalise digisäilitamise kontekstis (Runardotter
Quisbert et al. 2006: fig.1)
Haldus, kaitse
ja säilitamine
5
Kasutamine ja
levitamine
4
Joonis 2.6. Dokumentide ja informatsiooni elutsükkel (Records and Information Life
Cycle Management)
Kavandamisetapp aitab infohalduse vaate seostada organisatsiooni igapäevategevusega.
Teine etapp (kogumine, loomine, vastuvõtmine, hõive) on seotud uute inforessursside
loomisega. Kolmas etapp (organiseerimine) haarab info organiseerimise, mis on aluseks
neljandale etapile (kasutamine ja levitamine). Viies etapp on seotud info haldamise,
kaitse ja säilitamisega. Kuues etapp (kõrvaldamine) on seotud ebavajaliku teabe hävitamise ja vajaliku teabe pikaajalisele hoiule suunamisega. Seitsmes etapp (hindamine)
hõlmab kogu infohaldusprotsessi pidevat jälgimist ja hindamist selle paremaks korraldamiseks.
Pikaajalise digisäilitamise kontekstis on esitatud järgmine info elutsükli mudel
(joonis 2.7) (Runardotter Quisbert et al. 2006).
Ideed sünnivad inimeste teadvuses, neist moodustatakse info, millele lisatakse täiendavad tunnused, nagu kujundus, värvus jne. Seejärel hoitakse infot andmetena digiobjekti
kujul, millele lisatakse konteksti säilitamiseks täiendav teave – säilituskirjelduse info.
Digiobjekti kasutamisel muudetakse andmed jällegi informatsiooniks, mis omakorda
viib inimese teadvuses uue informatsiooni tekkeni. Tegemist on pideva protsessiga,
mida ühiskond peab käigus hoidma (Runardotter Quisbert et al. 2006: 4–5).
Luciano Floridi (2009: 4–5) eristab info elutsüklis järgmiseid faase (joonis 2.8):
· loomine (avastamine, kujundamine, autoriseerimine);
· transmissioon (võrgustumine, jaotamine, juurdepääs, levitamine);
· töötlemine ja korraldus (kogumine, õigsuse kontroll, modifitseerimine, organiseerimine, indekseerimine, klassifitseerimine, valimine, kaasajastamine, sorteerimine,
säilitamine);
· kasutamine (seire, modelleerimine, analüüsimine, seletamine, kavandamine, otsuste
tegemine, instrueerimine);
· uuesti kasutamine, kustutamine, hävitamine.
23
24
INFORMATSIOONI ELUTSÜKKEL
DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU
3. DIGITAALSE TEABE
SÄILITAMISE
KUJUNEMISLUGU
Loomine
Taaskasutamine,
hävitamine
Kogumine
Lugenud läbi selle peatüki,
• oled kursis digisäilitamise eelajalooga;
• tead, mida tähendab termin „masinloetavad andmekandjad“;
• oskad kirjeldada digiandmete andmearhiivides säilitamise eripära;
Info
Kirjeldamine
ja hoid
Kasutamine
Levitamine
Töötlemine
Joonis 2.8. Info elutsükli mudel (Floridi 2009: 5)
Selliste mudelite korral vaadeldakse infoga seotud protsesse laiemalt kui dokumendihalduse ja arhiivinduse käsitluses.
• tead, milles seisnes digiinfo säilitamise paradigma muutus 1980.–90. aastatel.
Ühiskondlikus kommunikatsioonisüsteemis osalevad institutsioonid võib jagada:
· loojateks;
· levitajateks;
· kogujateks ja ligipääsu võimaldajateks;
· kasutajateks.
Info loomisega tegelevad üksikisikud ja erinevad organisatsioonid, näiteks kirjastused,
kloostrid, gildid, ülikoolid, teadusasutused, salvestusstuudiod, filmistuudiod, ringhääling, teater, internetiportaalid, statistikaorganisatsioonid jne. Tihti on info loojad
samaaegselt ka selle levitajateks, kuid selleks võivad olla ka eraldi institutsioonid – kirjastused, kinosüsteem, mitmesugused meediaasutused jms. Info loomisele järgneb selle
kasutamine lühema või pikema aja kestel. Osa teabest kaob seejärel kasutusest ja hävib
ühel või teisel viisil, osa hävitatakse teadlikult. Teadlikult hävitatud info kohta võib
jääda järele teavet, et see info on olemas olnud. Mingi osa teabest kogutakse ja säilitatakse võimalikult pika aja kestel. Selliseid asutusi (raamatukogud, arhiivid, muuseumid,
kunstigaleriid, andmepangad, patendiorganisatsioonid) nimetatakse ka mäluasutusteks,
viidates nende funktsioonile. Peale säilitamise tegelevad nad ka info kogumise, süstematiseerimise, kirjeldamise ja kasutamise korraldamisega. Info kogumisega tegelevad
institutsioonid lähtuvad oma kogude kujundamisel valikupõhimõtetest, mis on loomulikult aja kestel muutunud. Ühiskondlikus kommunikatsioonisüsteemis on vägagi olulisel
kohal ka haridussüsteem. Haridusinstitutsioonid on nii teabe kasutajad kui ka levitajad,
kõrgkoolid ka väga olulised uue info loojad.
Ühiskonnas toimuvates kommunikatsiooniprotsessides ei jää info muutmatuks. Muutuda võivad informatsiooni sisu ja vorm, väärtus ja tähendused, aga ka infole ligipääsevate ja seda kasutavate isikute ring. Väärtuse lisandumine infole toimub näiteks teabeasutustes kirjeldamise ja kogudeks organiseerimise ning ligipääsu võimaldamise teel.
Osa informatsioonist säilib inimeste otsesest tegevusest sõltumata – nn info juhuslik
säilimine. Osa informatsiooni korral pööratakse selle säilitamisele aga spetsiaalset tähelepanu.
Enamikku ühiskonnas kasutatavast teabest ei säilitata. See kaob, sest selle säilitamist
ei peeta vajalikuks. Kellelegi ei tule isegi pähe, et seda infot võiks kunagi vaja minna
(Adams Brown 2000). Mingil hetkel konkreetse inimühiskonna käsutuses olevast teabest säilitakse ainult väga väike osa. Selle kohta on raske kindlat hinnangut anda, kuid
25
26
DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU
näiteks Ameerika rahvusarhiivis säilitakse 2% valitsusasutuste dokumentatsioonist
(Rosenzweig 2003: 746). Kuigi tänapäevases infoühiskonnas süveneb järjest enam soov
säilitada võimalikult palju infot. Osaliselt on selle põhjuseks ilmselt ka digitaalne teave
ise.
Info säilitamisega tegelevad selle loojad, kasutajad või spetsiaalsed organisatsioonid.
Säilitamiseks ettenähtud info kogutakse, dokumenteeritakse ja organiseeritakse nii, et
seda oleks võimalik kasutada ka edaspidi. Enamik ühiskonnas käigus olevast teabest toimib sedaviisi, et seda kasutatakse üha uuesti, töödeldakse ümber. Vahel harva on vajalik
pöörduda tagasi info algallika juurde. Loomulikult sõltub kõik tegevusvaldkonnast, näiteks ajaloolased eelistavad võimaluse korral alati tugineda algallikatele.
Info esineb alati mingite füüsiliste objektide või nähtuste kujul, olgu nendeks siis esemed, dokumendid, raamatud, kunstiteosed, elusorganismid, ehitised, arheoloogilised
mälestised, maastikud, vaimne pärand vms.
Erisuguste objektidega tegelevad tänapäeval erinevad institutsioonid:
· esemetega – muuseumid;
· dokumentidega – arhiivid;
· raamatutega – raamatukogud;
· mälestistega – muinsuskaitse;
· looduspärandiga – looduskaitse.
Piiri tõmbamine institutsioonide vahele on muidugi suhteline, sest muuseumides
võidakse säilitada dokumente ja raamatuid, raamatukogus omakorda dokumente ja
esemeid jne. Samuti kattuvad osaliselt eri teabeasutuste poolt ühiskonnas täidetavad
ülesanded. Info säilitamine saab olla vaid osa laiemast dünaamiliselt seotud kommunikatsiooniprotsessidest, mis määravad ära säilitamise funktsiooni. Seega on teabe säilitamine alati aktiivne protsess. Säilitamist võiks määratleda kui funktsiooni, mis annab
süsteemile ajalise pidevuse. See tähendab seda, et teabe säilitamise korral on esmatähtis
kogu säilitussüsteemi pidevuse tagamine ühiskonna kõikidel tasanditel.
3.1. Digitaalse infotöötlemise esiajalugu
19. sajandi lõpuks olid nii riiklikud kui ka eraettevõtete bürokraatlikud institutsioonid
sel määral arenenud ja geograafiliselt laienenud, et nõudsid uusi infohaldusvahendeid ja
-meetodeid. Just sel ajal võeti kasutusele hulk uusi kontoritehnoloogiaid, mis tunduvad
meile igapäevaste ja isegi aegunutena, nagu kirjaklamber, kiirköitjad, arhiivikapid jms
(Beniger 1986). Lisaks lihtsamatele töövahenditele töötati suurte infohulkade säilitamiseks, korraldamiseks ja analüüsimiseks välja ka märksa keerukamaid süsteeme. Tänapäevase automaatse digitaalse andmetöötluse eelkäijaks võibki pidada perfokaartidel
põhinevat mehaanilist andmetöötlussüsteemi, mille lõi 1880. aastatel Hermann Hollerith (1860–1929). Paberile kantud märkidega automaatjuhtimissüsteeme tunti aga juba
varsemal ajal. Perfokaartidel põhineva infotöötlusüsteemi eelkäijaks peetakse Joseph
Marie Jacquardi poolt 1804. aastal kasutusele võetud automaattelgi mustrite kangale
kudumiseks ning erinevaid muusikaautomaate. Ettepaneku arvutusüsteemi juhtimiseks Jacquardi perfokaartide abil tegi 1873. aastal Charles Babbage (1791–1871), kuid
tema „analüütiline masin“ jäigi vaid projektiks. Sellele vaatamata loetakse Babbage’it
tänapäevaste digitaalsete arvutusmasinate idee esmaseks väljapakkujaks (Ceruzzi 2012:
7–8).
DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU
Perfokaartidel töötavates infosüsteemides kasutati andmete säilitamiseks ja töötlemiseks perfokaarte, mis kujutasid endast standardiseeritud kujuga kartongist kaarte. Teave
kanti perfokaartidele kindlate positsioonide mulgustamise teel. Hollerith leiutas mitmeid elektromehaanilisi seadmeid info kandmiseks kaartidele ja kaartide infoga töötlemiseks. Sorteerimismasina abil oli võimalik kaarte sortida perforeeritud tunnuse järgi
kindlasse veergu; tabulaator võimaldas kaarte kokku lugeda ja tulemusi summeerida.
Perfokaardid osutusid väga mugavaks massandmete töötlemise vahendiks erinevates
valdkondades, nagu statistika, raamatupidamine, teaduslikud arvutused jms. Perfokaarte kasutati info töötlemiseks väga laialdaselt kuni 1960. aastateni. Vähemal määral
ja üksikutes valdkondades olid need kasutusel kuni 1980. aastateni, Nõukogude Liidus
isegi kuni 1990. aastateni. Perfokaartidel põhinevate infosüsteemide arengu võib jagada
viide põlvkonda (Heide: 2009). Esiteks, 1880. aastatel Ühendriikides loodud infosüsteem rahvaloendustel tekkivate andmete statistiliseks töötlemiseks. Süsteem oli kasutusel erinevates riikides kuni 20. sajandi alguseni. Teise põlvkonna moodustavad 1894.
aastaks välja arendatud erinevad süsteemid statistiliste andmete töötlemiseks, mida
kasutati veel isegi peale teise maailmasõja lõppu. Kolmas põlvkond perfokaartidel põhinevate infosüsteemide arengus on seotud raamatupidamisarvestusega. Raamatupidamiseks sobivad lahendused leiti 1906. aastaks ning sellised süsteemid olid kasutusel kuni
1960. aastateni, mõnel pool hiljemgi. Neljandaks põlvkonnaks loetakse perfokaartidel
põhinevaid elanikkonna registreid, mis töötati välja aastatel 1935–1937 ning mis olid
erinevates riikides kasutusel kuni 1960. aastateni. Viies põlvkond perfokaardiinfosüsteeme on seotud peale teist maailmasõda kasutusele tulnud elektronarvutitega. Nimelt
hakati perfokaarte kasutama andmete ja programmide sisestamiseks arvutitesse.
Arhiivinduslikust seisukohast loeti perfokaardid koos kinofilmide, helisalvestiste,
kaartide, plaanide jms dokumentideks juba 1939. aasta USA arhiiviseadusega (Federal
Records Act, Records Disposition Act ehk An Act for the Disposition, 1939). Nende tunnistamine arhivaalideks, st dokumentideks, millel on arhiiviväärtus ja mida tuleb säilitada,
ei olnud aga sugugi nii selge. USA Rahvusarhiivi nõuandva komisjoni otsusega samast
aastast jäi otsustusõigus selle üle, kas perfokaartidel on ajalooline väärtus, mille tõttu
tuleks neid säilitada, riigiasutustele endile. Üldiselt otsustasid asutused perfokaardid
pärast andmete töötlemist hävitada. Seejuures tugineti argumendile, et perfokaarte
kasutati peamiselt andmetöötluseks, säilitamisele kuuluvad aga algandmed ning nende
töötlemise tulemused aruannete jms näol. Ainult mõni üksik asutus säilitas andmetega
perfokaarte. Arhivaaride seas oli levinud arvamus, et perfokaardid on vaid andmete
töötlemise vahend ja iseseisvalt puudub neil arhiiviväärtus, seega pole ka põhjust neid
säilitada (Adams 1995). Tegemist oli üldlevinud poliitikaga perfokaartidel olevate andmete suhtes (Fishbein 1972: 36): enamasti perfokaardid hävitati pärast andmete töötlemist.
Perfokaartide säilitamisega seostusid peamiselt kahte tüüpi probleemid. Esiteks kippusid kaardid pärast nelja- või viieaastast seismist pehmeks muutuma ja seetõttu paindusid tabulaatoris. Teiseks saadi üsna kiiresti aru, et mingi aja möödudes kaotavad need
olulisuse, kuna info töötlemiseks kasutatavad tehnilised seadmed arenevad kiiresti ja
vastavalt muutuvad ka andmete kaartidele kodeerimise standardid (Adams 1995: 193,
197, 201). Kuigi ametiasutused andsid osa perfokaarte üle keskarhiividesse (Adams
1995), moodustusid esimesed tõelised masinloetavate dokumentide kogud spetsialiseeritud andmearhiivides.
27
28
DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU
3.2. Elektronarvutite kasutuselevõtt
Esimesed digitaalsed universaalarvutid, mis ehitati 1930. aastatel, põhinesid elektromehaanilistel seadmetel. USAs ehitati aastatel 1939–1944 Howard Aikeni juhtimisel
programmjuhitav arvutusautomaat Harvard Mark I. See arvutusmasin põhines elektromagnetilistel releedel ja loenduritel, andmed sisestati käsitsi vastavalt paneelilt ning
arvutusprogramm sisestati perfolindilt (O’Reagan 2012). Saksamaal konstrueeris insener Konrad von Zuse aastatel 1936–1944 mitu erinevat programmjuhtimisega releearvutit. Esimese elektroonilise ehk siis elektronlampidel põhineva digitaalarvuti lõid
ameeriklased John Vincent Atanasoff ja Clifford Berry aastatel 1939–1942. Arvuti koosnes 270 elektronlambist ja pöörlevasse trumlisse ehitatud kondensaatoritest, mis talitlesid põhimäluna. Andmed sisestati perfokaartidel, perfokaarte kasutati ka vahepealsete
arvutustulemuste hoidmiseks. Teise maailmasõja tõttu jäi arvuti siiski lõpuni valmis
ehitamata (O’Reagan 2012: 37–39). Esimene tegelikult töötav digitaalne elektrooniline arvuti oli Presper Eckerti ja John Mauchly juhtimisel USAs Pennsylvania ülikoolis
ehitatud ENIAC (Electronic Numerical Integrator and Computer), mis valmis 1946. aastal. Arvuti sisaldas 18 000 elektronlampi, andmed sisestati perfokaartidel. Tegemist ei
olnud siiski universaalarvutiga, vaid ballistiliste trajektooride arvutamise spetsiaalarvutiga, mille jäik programm sisestati kommutatsioonitahvlilt (O’Reagan 2012: 43–45).
Kõiki esimesi elektronarvuteid iseloomustas see, et tegemist oli välise programmjuhtimisega seadmetega – arvutusprogramm anti ette väljastpoolt ja ülesande lahendamise ajal ei olnud seda enam võimalik muuta. Matemaatik John von Neumann avaldas
1946. aastal artikli, kus ta sõnastas arvutite siseprogrammjuhtimise idee, millele tuginevad tänapäevani kõik elektronarvutid. Arvuti juhtimiseks kasutatakse käskudest koosnevat programmi, mis esitatakse kahendarvudena ja salvestatakse koos lähteandmetega
arvuti operatiivmällu. Arvuti suudab käske, millega teostatakse operatsioone, töödelda
samamoodi kui arve. See võimaldab arvutil programmi ise muuta ja kaob vajadus programmi iga samm täpselt kirja panna. Programme valides saab arvuti lahendada erinevaid ülesandeid, siit ka seda tüüpi seadmete nimetus universaalarvuti.
Esimene universaalne elektronarvuti, kus seda põhimõtet rakendati, oli 1949. aastal
valminud EDVAC (Electronic Discrete Variable Automatic Computer). Nagu ENIAC, ehitati ka see arvuti Presper Eckerti ja John Mauchly juhtimisel. Nende kahe mehe loodud
arvutifirma Eckert-Mauchly Computer Company valmistas 1950. aastal esimese turule
jõudnud elektronarvuti UNIVAC I (Universal Automatic Computer). Nõukogude Liidus
valmis esimene digitaalarvuti MЭСM1 1951. aastal. Selles arvutis oli umbes 2000 elektronlampi. Sellele masinale tuginedes ehitati 1952. aastal suurarvuti БЭСM2, mis valmimise
ajal oli Euroopa kiireim. Mõlema arvuti looja oli akadeemik Sergei Lebedev. NSV Liidu
Teaduste Akadeemia Energeetika Instituudis juhendas samasuunalist tööd professor
Isaak Bruk; algul valmis seal arvuti M-1 ning 1952. aastal M-2, mis hiljem anti seeriatootmisse ja sai populaarse Minsk-seeria esiisaks. 1953. aastal valmis Juri Bazilevski
juhtimisel arvuti Strela, mis esimesena läks seeriatootmisse; 1954. aastal järgnes sellele
Bašir Ramejevi 1948. aastal valminud projekti järgi konstrueeritud Ural. Kui Tartu Ülikooli juurde loodi 1958. aastal arvutuskeskus, saigi selle esimeseks arvutiks Penza arvutitehases toodetud Ural. See arvuti oli ühtlasi esimene Eestis. Esimene transistoridel
põhinev arvuti jõudis NSV Liidus seeriatootmisesse 1961. aastal (Agur 1976: 190).
1
2
Mалая элeктронная счётная машина – väike elektronarvuti
Быстродeйствующая элeктронная счётная машина – kiire elektronarvuti
DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU
Elektronarvutitesse info sisestamiseks ja programmide salvestamiseks kasutati perfokaarte ja perfolinte, viimased võisid olla nii paberist kui ka metallist. Arvutuste tulemused trükiti välja paberile või väljastati perfolintidel. Perfolinte ja perfokaarte vaadeldi
seega vahepealsete andmekandjatena ning töödeldud informatsiooni säilitati enamasti
kirjalike dokumentidena.
1950–60. aastatel arenes arvutustehnika kiiresti, peamiselt valmistati suurarvuteid
(mainframes) ja miniarvuteid (minicomputers), mida kasutati riigiasutustes, äriettevõtetes ning teadusasutustes. Digitaalseid andmeid koguti erinevates tööstusvaldkondades (ravimitööstus, ehitus) ja lisaks sotsiaalteadustele ka teistes teadusvaldkondades
(meteoroloogia, geofüüsika, tuumafüüsika). Selliseid andmeid säilitati üldjuhul samades asutustes, kus neid koguti ja töödeldi. Mõned üksikud institutsioonid kogusid eri
loojate andmeid, et luua arhiiv, mida uurijad võiksid kasutada. Üks selliseid andmeid
koondavaid asutusi oli näiteks Sotsiaalteaduste teadusuuringute nõukogu andmekogu
(Social Science Research Council Data Bank) Inglismaal Essexi ülikooli juures (Sleemann
2004: 178).
Üldjuhul kogutud andmete pikaajalist säilitamist ei kavandatud, neid hoiti ainult
jooksvaks kasutamiseks. Tõsiseks probleemiks kujunes kosmoseuuringutega seotud
info säilitamine. 1952. aastal esitas Rahvusvaheline teadusühingute nõukogu (International Council of Scientific Unions) idee korraldada aastatel 1957–58 rahvusvaheline
geofüüsika-aasta. Selle käigus kogutavate andmete säilitamiseks ja jagamiseks loodi
Ülemaailmne andmekeskus (World Data Center, WDC). Teiseks väga oluliseks kosmose
ja Maa uurimisega seotud andmete kogujaks ja säilitajaks kujunes NASA. 1964. aastal
alustas satelliitidelt kogutava teabe säilitamise eest vastutav Goddardi kosmosekeskus
(Goddard Space Flight Center, GSFC) vastava arhiivisüsteemi väljatöötamist, kuna
kogutavate telemeetriaandmete säilitamine oli muutunud tõsiseks probleemiks (Demmerle Holmes et al. 1967). Töötati välja andmearhiivi funktsionaalne skeem, kuid tööle
see arhiiv tegelikult ei hakanud. NASA arendas mitmesuguste kosmoseandmete kogumiseks ja säilitamiseks välja terve infrastruktuuri.
Magnetlinti kasutati digitaalsete andmete salvestamiseks esmakordselt 1951. aastal
Eckert-Mauchly loodud arvutis UNIVAC I. Magnetlindina kasutati 12,7 mm laiust
niklikihiga kaetud metall-linti. Ka IBM arvutitel võeti 1950. aastatel kasutusele magnetlindid, aga need olid juba raudoksiidiga kaetud atsetaattselluloosalusel. Sellest ajast
alates hakkas magnetlint masinloetava info säilitamisel üha enam asendama perfokaarte
ja perfolinte. Magnetlintide sobivus andmete pikaajaliseks säilitamiseks ei olnud aga
samuti selge. Rõhutati vajadust esitada kogu lindi sisu ka väljatrükina paberil, et tagada
info säilimise juhul, kui lindiga midagi juhtub. Magnetlintide endi säilitamist arhiivis ei
peetud otstarbekaks. Magnetlinte soovitati lugeda „vahepealseks meediaks“ (interim
media) ja infot säilitada endiselt paberdokumentidena (Fishbein 1972: 35–37). Võrreldes perfokaartide ja perfolintidega võimaldasid magnetlindid märksa suuremat andmetihedust ja kiiremat andmevahetust, nii asendaski magnetlint 1960. aastatel elektronarvutite sisend- ja väljundseadmetes ning andmete välissalvestistes perfokaardid ja
perfolindid. Osa perfokaartidel olnud andmetest kanti üle magnetlintidele. Seda tehti
nii andmearhiivides, organisatsioonides, kus neid andmeid koguti ja kasutati, kui ka
arhiivides. Magnetlintidele ülekantud andmete hulk oli siiski suhteliselt väike (Adams
2007: 25).
29
30
DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU
1950. aastatel võeti kasutusele termin „masinloetavad dokumendid“ (machine-readable
records) (Adams 1995: 187). Sellega rõhutati tõsiasja, et erinevalt klassikalistest infokandjatest vajavad need kasutamiseks tehnilisi seadmeid. Charles M. Dollar defineeris
masinloetavaid dokumente kui dokumente, mis on loodud arvutitega töötlemiseks
(Dollar 1978: 423). 1970. aastatel oli kasutusel ka terminid „arvutiloetavad andmed“
(computer-readable data), „arvutiloetav informatsioon“ (computer-readable information), „arvutiloetavad dokumendid“ (computer-readable records) ja kõiki neid termineid
kasutati sünonüümidena. Esimene masinloetavaid infokandjaid käsitlev artikkel ilmus
arhiivindusajakirjas 1948. aastal ja see rääkis perfokaartide kasutamisest ajalooliste
uuringute läbiviimisel, nii et tegemist ei olnud otseselt arhiivindusliku artikliga
(Lawson 1948). Nimetatud termineid kasutati veel 1980. aastal.
USA arhiiviseadus laiendas dokumendi mõistet masinloetavatele materjalidele (machine-readable materials) küll juba 1950. aastal, kuid endiselt jätkus arutelu selle üle, kas
arvutiinfo on dokument, ja kui vastus on jaatav, siis kas sellel võib olla arhiiviväärtust.
Suures osas oli paljude arhivaaride kahtlev seisukoht seotud arvutiinfo enda olemusega – tegemist oli andmetega. Peamine arvutitel töödeldav info oli 1950–60. aastatel
seotud kas sotsiaalteaduste ja statistikaga või raamatupidamisega. Statistiliste ja muude
uuringute tulemuseks olid täidetud küsitlusvormid, millelt andmed nende hõlpsama
töötlemise eesmärgil masinloetavasse vormi kanti. Raamatupidamises ja muudes ärivaldkondades kasutatava elektroonilise info näol oli tegemist peamiselt andmetega
äriprotsesside kohta. Kogu varasem arvutiinfo kujutas endast valdavas enamuses andmefaile. Andmete pidamine dokumentideks ja, veegi enam, arhivaalideks oli paljude jaoks
küsitav. Theodore R. Schellenberg kirjutas oma raamatus „Kaasaegsete avalike dokumentide hindamine“ (The Appraisal of Modern Public Records, 1956) perfokaartide
kohta, et need ei oma arhiiviväärtust, kuna nende kasutamine sõltub mehaanilisest või
elektroonilisest seadmestikust ning neid loonud asutused on kogu kogutud andmestiku
juba „ära kasutanud“ ja sellel puudub teisene kasutusväärtus. Andmed on seega ajutise
väärtusega ning nende põhjal loodud kokkuvõtvad dokumendid püsiva väärtusega.
Andmete säilitamine suurendaks ainult andmemahtu ja raskendaks olulise info eristamist ebaolulisest (vt nt Thexton 1974: 38, 41).
3.3. Andmearhiivid ja digitaalne säilitamine
Alates 1930.–40. aastatest lõid mitmesugused uurimisasutused ja -projektid üha enam
masinloetavat teavet. Algselt oli see seotud valdavalt sotsiaalteadustega (Geda 1979:
158–159). Kogutud andmeid oli vaja edasisteks uurimusteks säilitada ja selleks loodi
vastavad andmearhiivid, mida üldnimetusena kutsutakse sotsiaalteaduste andmearhiivideks (social science data archives). Esimesed sellised andmearhiivid loodi sõltumatult
traditsioonilistest arhiiviinstitutsioonidest. Näiteks loodi 1946. aastal eraalgatuse korras
Roperi keskus (The Roper Public Opinion Research Center), kus säilitati kommertslike
avalike küsitluste tulemusi alates 1936. aastast (Adams 1995: 196). 1950.–60. aastatel
tekkinud andmearhiivid olid seotud akadeemiliste uurimisasutustega, kus kogunes palju
andmeid. Esimeste andmearhiivide hulgas võib mainida järgmiseid: Sotsiaalsüsteemide
uurimisinstituut (Social Systems Research Institute) Wiskonsini ülikooli juures (1950),
Praktiliste sotsiaaluuringute keskarhiiv (Zentralarchiv für Empirische Sozialforschung)
Kölnis (1960), Ülikoolidevaheline poliituuringute konsortsium (Inter-University Consortium for Political Research, ICPSR), Ann Arboris Michiganis (1962) jt.
Ida-Euroopas loodi esimene sotsiaalteaduste andmearhiiv 1985. aastal Ungaris. Samal
aastal alustati andmearhiivi (sotsiaalteaduste andmepanga) loomisega ka NSV Liidu
DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU
teaduste Akadeemia Sotsioloogia Instituudi juurde (Hausstein Brislinger 1998: 80).
Eesti Sotsiaalteaduslikku Andmearhiivi asuti looma 1993. aastal Tartu Ülikooli juurde.
Tartu Ülikooli rahalisel toetusel alustati Eesti Raadio Arvutuskeskuses säilinud sotsiaalteaduslike uuringuandmestike konverteerimisega magnetlintidelt diskettidele.
1994. aasta suvel pöörduti andmepanga loomise projektiga Avatud Eesti Fondi poole,
kus vastati taotlusele positiivselt ja aastateks 1994–1996 eraldati tegevustoetuse grant.
Toetusgrandi abil õnnestus kaitsta hävimise eest üle 200 aastatel 1975–1994 tehtud
uuringu andmestik, mis oli säilinud Eesti raadio arvutuskeskuses ja Tartu ülikooli
arvutuskeskuses, viia see üle PC-formaati ja korrastada.3
Sotsiaalteaduste andmearhiivid olid niisiis esimesed, mis hakkasid koguma ja säilitama
digitaalset teavet. Andmearhiivides säilitati andmeid esialgu perfokaartidel. Enne 1950.
aastate lõppu andmete säilitamise probleemidega kuigi tõsiselt ei tegeletud. 1960. aastatel asendus perfokaart salvestusmeediumina järk-järgult magnetlindiga – andmete
kasutatavuse tagamiseks kanti need üle magnetlintidele. Selline info ülekandmise vajadus seoses infokandjate ning nende kasutamiseks vajaliku riist- ja tarkvara arenguga
määras ära andmearhiivide säilitusstrateegia. Nimelt leiti, et andmete säilitamise ja
kasutamise tagab kõige paremini nende hoidmine riist- ja tarkvarast võimalikult sõltumatul kujul (Lievesley 1998: 256–257). Sellist lähenemist kergendas oluliselt asjaolu,
et uuringute andmefailid olid üldjuhul lihtsa struktuuriga ja neid oli võimalik kergesti
muuta nn flat-failideks, mis on küllaltki tarkvarasõltumatud. Andmed pandi kirja ASCII
märgistikus, arhiivifailivorminguna kasutati paljudes andmearhiivides statistikapaketi
OSIRIS4 failitüüpe. Samuti kasutati teiste levinumate statistikapakettide nagu SAS,
SPSS5, NSD-Stat failivorminguid (Doorn 2004: 98; Marker 1998: 296–298). Andmete
füüsilise kandja säilitamine oli andmearhiivide vaatenurgast seega ebaoluline probleem.
Uuringute andmed kirjeldati vastavalt standardiseeritud bibliograafilisele kirjeldusele,
mis suuresti tugines raamatukogunduses kasutatavale kirjeldusmeetodile (Marker 1998:
301; Doorn 1998: 313). Dokumentatsiooni (tabeli struktuur, koodiraamatud, andmete
väärtused) olemasolul saab lameandmebaase lihtsalt kohandada kasutatava statistilise
tarkvaraga. Seega hakati rõhutama andmete dokumenteerimise olulisust digiinfo säilitamisel (Lievesley 1998: 260). Andmete säilitamisel sotsiaalteaduste arhiivides neid muudeti sageli, näiteks parandati andmeid pärast valideerimist. Samuti uuendati andmete
lihtsamaks kasutamiseks pidevalt vorminguid. Eri arhiivides kasutati erinevaid kataloogimis- ja dokumenteerimissüsteeme.
1960.–70. aastatel moodustasid enamiku digiinfost küsitluste ja uuringute arvulised
andmed. Seetõttu käsitleti neid muust teabest eraldi seisva üksusena. Lisaks olid nad
veel ju ka teistsugustel andmekandjatel, alguses perfokaartidel ja -lintidel, hiljem magnetlintidel. Väikese osa arvutifailidest moodustasid ka tekstidokumendid. Kuna andmearhiivid tegelesid just masinloetava teabe kogumise, töötlemise ja säilitamisega, siis
kujunesidki seal välja vastavad infosüsteemid ja nende kasutusviisid. Tegemist on hea
näitega sellest, kuidas uue tehnoloogia kasutuselevõtt toimub kiiremini ja ilma põhimõtteliste vastuoludeta süsteemides, kus need luuakse n-ö tühjalt kohalt.
Omandatud teadmised ja kogemused ei levinud laiemalt enne 1990. aastaid. Enne seda
tegutsesid erinevad digiteavet säilitavad institutsioonid suuresti üksteisest sõltumatult.
3
4
5
Vt Eesti Sotsiaalteaduslik Andmearhiiv ESTA, http://www.psych.ut.ee/esta/
IBM suurarvutitel kasutatud statistikatarkvara.
Statistical Package for the Social Sciences (SPSS) on 1968. aastal loodud tarkvara statistiliste
algandmete analüüsimiseks.
31
32
DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU
3.4. Digiinfo säilitamise paradigma muutus
Arvuteid hakati tööstuses, panganduses ja riigiasutustes laiemalt kasutama 1960. aastate
algusest. Neid kasutati palgamaksmisel, inventarinimestike, kauba transpordi nimekirjade, vara vastuvõtmise nimekirjade, arvete jms koostamisel. Ilmselt arvutite järjest
ulatuslikuma kasutamise tõttu oli 1960. aastate keskpaigaks suhtumine masinloetavatesse dokumentidesse juba selgelt muutunud. Samas tuleb tõdeda, et info säilitamisega
tegelevatel organisatsioonidel ja spetsialistidel ei olnud infotehnoloogia kujundamisele
mingit reaalset mõju. Nii tehnoloogilised lahendused kui ka info kasutamine reaalsetes
organisatsioonides kujunesid nendest sõltumatult (Hedstrom 1991: 336). 1965. aastal
töötati välja juhis, millele tuginedes sai valida Ameerika Ühendriikide Rahvaloendusbüroo (USA Census Bureau) dokumentide hulgast välja püsiva (alatise) väärtusega
masinloetavad dokumendid. Tegemist on esimese kavaga masinloetavate dokumentide
väärtuse määratlemiseks ja säilitamiseks (Fishbein 1972: 41).
1960.–70. aastatel oli rõhuasetus endiselt masinloetavatel andmekandjatel kui füüsilistel objektidel6 ning digiinfosse suhtuti ikkagi paberdokumentide säilitamisest lähtudes.
Digitaalsete andmete säilitamise probleemi lahendust nähti ennekõike võimalikult
pikaealiste andmekandjate kasutuselevõtus. Põhiliseks probleemiks oli andmekandjate
eluiga ja seda mõjutavad tegurid. Palju tähelepanu pöörati tolle aja peamiste andmekandjate magnetlintide seisundile, säilivusele ja hoiutingimustele (Rosenkrantz 1971;
Thexton 1974: 38). Magnetlintidele oli võimalik kirjutada andmeid korduvalt. See võimaldas küll olulist kokkuhoidu, kuid ülekirjutamise käigus läksid varasemad andmed
kaduma.
1969. aastal anti Ühendriikides välja esimene magnetlintide kogumise ja arhiivis säilitamise juhis (A procedure for…1969). Juhendis olid määratletud peamised tehnilised nõuded magnetlintide vastuvõtmiseks arhiivi (lindi vorming, andmete loetavus), nõuded
säilitustingimustele (temperatuur ja õhuniiskus) ning hooldusnõuded. Vastuvõetavatest
magnetlintidest valmistati säilitus- ja tagavarakoopiad. Koopiaid hoiti turvalisuse huvides eri hoonetes. Need põhimõtted on masinloetavate infokandjate säilitamise aluseks
tänapäevani. 1973. aastal andis Ameerika Ühendriikide rahvusarhiiv välja magnetlintide
säilitamise juhise (Recommended environmental…1973).
Arhiivides ja raamatukogudes hakati elektronarvutitele enam tähelepanu pöörama
1960. aastatel, mil arvutid võeti kasutusele kataloogide ja elektrooniliste nimekirjade
koostamiseks ning mitmesuguste administratiivsete ülesannete lahendamiseks. 1970.
aastatel kasutati teabeasutustes arvuteid juba üsna laialdaselt, kuid digitaalse teabe säilitamisega tegelesid siiski vaid üksikud asutused. 1968. aastal loodi USA rahvusarhiivis
esimene arvutidokumentidega (computerized records) tegelemise kava (Data Archives
Staff). 1970. aastate alguses koostasid USA, Inglismaa, Rootsi ja Kanada rahvusarhiiv
juhiseid masinloetavate infokandjate väärtuse määratlemiseks ja nende vastuvõtmiseks
arhiividesse (Naugler 1984: 3). Esimesed digitaalsed arhivaalid võeti USA rahvusarhiivi
vastu 16. aprillil 1970. Tegemist oli NASA edastatud andmetega, mis salvestati veealuse
kosmosesimulatsiooni Tektite I käigus (Brown 2003:1).
Raamatukogudes tulid esmalt kasutusele elektroonilised kataloogimissüsteemid,
1968. aastast hakati USA raamatukogudes kasutama masinloetavat bibliokirjete süsteemi
MARC (MAchine Readable Cataloging). 1970.–80. aastatel hakati raamatukogudes arendama sidusjuurdepääsuga elektronkatalooge (online public access catalogue, OPAC), mis
muutusid 1990. aastate lõpuks peamisteks kataloogisüsteemdieks. Digitaalse materjali
DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU
kogumisse suhtuti esialgu üsna konservatiivselt: kui selliseid objekte üldse vastu võeti,
siis tihti neid ei kataloogitud. Digitaalsete dokumentide korraldamise meetodid võeti
üle pabermaterjalidelt ja kohandati vastavalt uutele tehnilistele nõuetele. Olulisele
kohale tõusis dokumentide kasutatavuse küsimus. Teine küsimus oli piisava dokumentatsiooni olemasolu – kas on olemas piisavalt teavet dokumentide töötlemiseks ja kasutamiseks? Kui dokumendid sisaldavad küll olulist teavet, aga neid ei ole võimalik kasutada, siis muutub nende säilitamine mõttetuks.
1970. aastatel hakati pöörama tähelepanu sellele, et infokandjate vananemise kõrval
ohustab digiinfo säilimist ka seadmete ja programmide pidev muutumine (Thexton
1974: 38). Säilitatavate objektide füüsiliste omaduste kõrval muutus oluliseks nende
loomise ja kasutamise kontekst. Erinevate riist- ja tarkvarasüsteemide probleemi lahendamiseks hakkas USA rahvusarhiiv alates 1976. aastast nõudma, et arhiivimoodustajad
esitaksid failid riist- ja tarkvarast sõltumatus vormingus (Henry 2003:35). Lisaks erinevatele magnetkandjatele, mis olid senini olnud peamisteks infosalvestusvahenditeks,
ilmusid 1970. aastate keskel mitmesugused optilised andmekandjad. Hakati arutama
nende kasutusvõimalusi info säilitamisel (vt nt Kula 1977). Laiemalt tulid optilised
andmekandjad kasutusele siiski märksa hiljem, 1980. aastatel.
1980. aastatel olid arvutid teabeasutustes juba laialt levinud. Algselt kasutusel olnud
suurarvutid (mainframe) asendusid küllaltki kiiresti personaalarvutitega (Kesner Hurst
1981; Cook 1980). See tõi kaasa digiinfo hulga kiire suurenemise, veelgi tõsisemaks
probleemiks kujunes selle info mitmekesisus. Andmete kõrval hakati tähelepanu pöörama ka tekstilistele digitaalsetele dokumentidele ning geograafilistele infosüsteemidele
(GIS). Tekstidokumentide hulga suurenemine ja selle tõttu ka nendele tähelepanu
pööramine on seotud personaalarvutite laialdase kasutuselevõtuga töökohtades. Probleemide hulka kerkis relatsiooniliste andmebaaside säilitamine. 1980. aastatel, kui lisaks
varasematele andmetele hakati digitaalselt looma ka igasugust muud infot (tekstid, pildid, heli, filmid jms), muutus digitaalse ja muu info eristamine ebaoluliseks. Digitaalne
tehnoloogia võimaldas töödelda ja säilitada igasugust infot, sõltumata selle liigist.
Personaalarvutite laiem levik 1980. aastatel tähendas ka seda, et eri asutused võtsid
kasutusele erinevaid andmete haldamise süsteeme. 1980. aastate lõpus oli suur osa digiteabest personaliseeritud, mittestandardsetes andmesüsteemides (Blank Rasmussen
2004: 309). Mõiste „masinloetavad dokumendid“ hakkas asenduma elektrooniliste või
digitaalsete dokumentide mõistega (Fishbein 2003: xviii), mis võeti kasutusele 1990.
aastate alguses. Muutus näitas seda, et senise ikkagi vaid üksikute masinloetavate dokumentide käsitlemise asemel hakati rõhutama kogu traditsioonilise meedia üha suuremat
muutumist elektrooniliseks.
1980. aastate esimesel poolel levis idee, et kuna digitaalne info on füüsilise kandjate
lagunemise, ebapiisava metaandmestiku ning vananeva riist- ja tarkvara tõttu hävimisohus, tuleb säilitamiseks kanda teave mikrofilmile (computer output microfilm ehk
COM).7 See säilitamisidee tugines masinloetava andmekandja kui materiaalse objekti
käsitlusele. Säilitamiseks valiti mikrofilm, kuna tollel ajal loeti pikaajaliseks säilitamiseks sobivateks materjalideks ainult paberit ja mikrofilmi (Mallinson 1986: 147).
Selline lähenemine masinloetavate infokandjate säilitamisele lükati kohe tagasi, kuna
oli selge, et masinloetavate infokandjate olulisus ja väärtus seisnebki selles, et need on
masinloetavad. Kui neil säilitatav info ei ole enam masinkasutatav, siis kaotab see teave
olulise osa oma väärtusest. 1980. aastate teisest poolest hakati looma infotehnoloogilisi
7
6
Kasutatakse näiteks terminit „arvuti lindifail“ (computer tape files), vt nt Dollar 1978.
Kõige mõjukam selle seisukoha pooldaja oli Ameerika Ühendriikide rahvusarhiivi säilituskomitee,
mis esitas 1984. aastal vastavateemalise aruande (vt (Mallinson 1986).
33
34
KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS
standardeid, mille laiem kasutuselevõtt oli digitaalse teabe kogumise, säilitamise ja
kasutamise aluseks.
1990. aastate alguseks olid ainult suuremates teabeasutustes, näiteks Ameerika Ühendriikide ja Kanada rahvusarhiivis, olema vastavad kavad elektrooniliste dokumentide vastuvõtmiseks ja säilitamiseks. Mujal alles töötati selliseid kavasid välja (Cook 1986: 202).
Suurbritannia rahvusarhiivis alustati elektrooniliste dokumentide säilitamisega seotud
programmide väljatöötamist 1990. aastate keskel (Sleemann 2004: 174). Põhjamaadest
oli digitaalse info säilitamine seadusandlikult reguleeritud kõige varem Rootsis ja seda
juba 1970. aastatel. Soomes ja Norras kehtisid vastavad regulatsioonid 1980. aastatest.
Teistes Euroopa riikides töötati see regulatsioon välja valdavalt 1990. aastatel. Prantsusmaal oli vastav seadus olemas juba 1978. aastast, kuid tegelikkuses ei rakendunud see
enne 1982. aastat, mil Prantsuse rahvusarhiivi kaasaegsete arhiivide keskusesse hakati
võtma esimesi magnetlinte digitaalsete andmetega.
Samas hakkas 1980. aastate algupoolel selguma tõsiasi, et andmekandjate füüsiline eluiga on digitaalse informatsiooni säilitamise seisukohalt küllaltki ebaoluline tegur. Peamiseks probleemiks hakati pidama hoopiski andmekandjate kasutamiseks ettenähtud
seadmete kättesaadavuse tagamist. Lisaks tehniliste seadmete vananemisele rõhutati ka
erinevate andmevormingute olemasolu ja küllaltki kiiret vaheldumist (Mallinson 1986:
148–149, 151). Tõdeti, et oluline on käsitleda infosüsteeme terviklikena ja teha kindlaks, millistes süsteemiosades tuleks digitaalset teavet koguda ja säilitada. Sellega seoses
räägitakse isegi „meediumi türanniast vabanemisest“ – säilitamisel on kesksel kohal
informatsioon, mitte selle füüsiline kandja (Ahlgren McDonald 1981/82: 63–64). Elektrooniliste dokumentide pikaajaline säilimine tagatakse nende pideva kopeerimisega
uutele andmekandjatele (Gavrel 1986: 154). Tegemist on vägagi olulise kontseptuaalse
nihkega kogu säilitamisvaldkonnas. Tunnistatakse asjaolu, et informatsioon on seotud
tervete infosüsteemide tööga, ja seda, et digitaalne info on oma konkreetse füüsilise
kandjaga seotud märksa vähem kui n-ö klassikaliste infokandjate – raamatute, dokumentide, fotode jms puhul. Digitaalse teabe säilitamine seda vastavalt andmekandjate
või kasutussüsteemide vananemisele ümber kopeerides fikseeriti esmakordselt Briti
standardis 1988. aastal (British Standard 1988).
1990. aastate alguseks oli tehnoloogiate vananemine muutunud digisäilitamise keskseks
teemaks (vt nt Dollar 1993: 45; Structured glossary). Säilitamise paradigma nihkus
selgelt infokandjate säilitamiselt (mis iseloomustab n-ö klassikaliste materjalide säilitamist) informatsiooni pikaajalise kättesaadavuse tagamisele. Digiinfo pikaajalise kättesaadavuse tagamine on seotud info loetavusega (readability), kasutatavusega (retrievability) ja arusaadavusega (intelligibility). Loetavus tähendab, et info on kasutatav ka teiste
kui selle loomiseks ja hetkel säilitamiseks kasutatavate arvutisüsteemide poolt. Kasutatavus tähendab, et vastavaid faile on võimalik identifitseerida ja olemasoleva tarkvara
abil töödelda. Arusaadavus viitab sellele, et teave on kasutajatele mõistetav. Alles mõne
aja möödudes saadi aru, et digitaalne säilitamine ei seisne mitte niivõrd andmekandjate
füüsilises säilitamises, vaid digitaalse info loomises ja säilitamises. Tegemist on ühelt
poolt küll tehnoloogilise, aga teisalt ka sotsiaalse fenomeniga, seega peituvad ka lahendused nii tehnoloogias kui ka infokorralduses laiemalt (Hedstrom 1991: 338).
Jõuti arusaamisele, et oluline on kogu säilitussüsteemi loomine. Vaja on määratleda,
millised institutsioonid vastutavad digitaalse info säilitamise eest, luua vastav seadusandlik keskkond. Tehnilised probleemid on tegelikult teisejärgulised. Informatsiooni
terviklikkuse ja kasutatavuse tagamine on märksa olulisem võrreldes konkreetsete
andmekandjate vastupidavuse ja elueaga. Juba 1980. aastate teisel poolel hakati
looma infotehnoloogilisi standardeid, mille laiem kasutuselevõtt oli aluseks digitaalse
KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS
teabe kogumisel, säilitamisel ja kasutamisel (vt nt Law Rosen 1989; data and Document…1987; Protocols Standards 1989 a; Protocols Standards 1989b). Oluliseks hakati
pidama, et digitaalsete objektide säilitamise vajadust võetaks arvesse juba nende loomise ajal. 1996. aastal ilmus raport „Digitaalse teabe säilitamine“ (Preserving digital
information), kus rõhutati asjaolu, et digitaalse säilitamise eesmärk on infoobjektide
terviklikkuse (integrity) säilitamine. Selleks on vaja määratleda nende sisu (content),
püsivus (fixity), seosed (reference), päritolu (provenance) ja kontekst (context) (Waters
Garrett 1996). 1990. aastate alguses aduti, et digitaalse info edukaks säilitamiseks peavad säilitajad mõjutama infotehnoloogia valmistajaid ja kasutajaid, et need arvestaksid
tehnoloogia loomisel ja kasutamisel digiinfo säilitamise vajadusi (Hedstrom 1991:337).
Sellisel juhul saaks säilitamisega arvestada juba digiobjektide loomise ajal, mitte alles
tagantjärele. 1990. aastate keskpaigast muutusid oluliseks ka digitaalse info metaandmetega seotud teemad (Lazinger 2001; Day 2004). Esimene säilitusmetaandmete süsteem loodi Austraalia rahvusraamatukogus 1990. aastate lõpus (Phillips Woodyard et al.
2001). Sellele järgnes hulk teisi metaandmete süsteeme.
Digitaalsete dokumentide säilitamine jäi enamasti arhiivide ülesandeks. Mõnes riigis
aga otsustati anda digitaalsed dokumendid lepingu alusel üle arvutuskeskustele. Nii
näiteks sõlmis Soome rahvusarhiiv 1987. aastal lepingu Soome riikliku arvutuskeskusega, kuhu digitaalsed dokumendid võeti lühiajalisele säilitamisele. 1996. aastal võttis
rahvusarhiiv avaliku sektori digitaalsete dokumentide säilitamisega seotud õigused taas
endale. Soome ja Islandi rahvusarhiiv sõlmisid 1995. aastal vastavate arvutuskeskustega
digitaalsete dokumentide säilitamise lepingu, aga selline lahendus ei osutunud jätkusuutlikuks, kuna arvutuskeskused vastasid küll tehnilistele, aga mitte arhiivinduslikele
kriteeriumidele (Pulkinen Quinlan 1996: 49). Suurbritannias tegeleb valitsusasutuste
andmekogude säilitamisega alates 1997. aastast vastavalt rahvusarhiiviga sõlmitud lepingule Londoni ülikooli arvutuskeskus, kuhu loodi 1998. aastal Andmekogude riiklik
digitaalarhiiv (The National Digital Archive of Datasets, NDAD). Austraalia rahvusarhiiv
otsustas 1995. aastal digitaalseid dokumente mitte arhiivi üle võtta ja jätta need asutustesse, kus nad on loodud. Selline „mitte üleandmise strateegia“ (distributed custody,
non-custody practice, post-custodial) tähendas seda, et arhiiv säilitas vaid intellektuaalse
kontrolli digitaalsete dokumentide üle. Pärast dokumentide hindamist ja neile säilitustähtaja määramist jäid nad edasi neid loonud asutusse ning arhiiv pakkus nende säilitamiseks ja kasutamiseks nõustamisabi. Selline praktika lõpetati 2000. aasta kevadel ja
sellest ajast alates säilitatakse digitaalseid arhivaale Austraalia rahvusarhiivis.
Kuni 1980. aastate lõpuni tegeleti kõikide arhiividesse vastuvõetavate failidega eraldi. Selline kogumine ja vastuvõtmine muutus üha suureneva infomahu juures küsitavaks. Samuti
ilmnes, et vähe tähelepanu on pööratud digiobjektide oluliste omaduste säilitamisele.
Eksisteeris oht, et vastuvõtmise ja säilitamise käigus dokumente muudetakse, mis muudab ka nende väärtust. Hakati välja töötama digitaalsete dokumentide vastuvõtmise, haldamise ja säilitamise süsteeme. USA rahvusarhiivis oli selleks arhivaalide säilitussüsteem
(Archival Preservation System, APS), mida hakati välja töötama 1990. aastate alguses.
1990. aastatel teatasid paljud arhiivid ja muud asutused, et nad suudavad säilitada digitaalset teavet. See kutsus esile ka skeptitsismi ja nõude kehtestada standardid, mis
võimaldaksid hinnata asutuste võimet digitaalset infot pikka aega säilitada (Ambacher
2005). Samas ei olnud 1990. aastate keskpaigakski veel selge, kas käsitleda elektroonilisi dokumente sarnaselt kõikide teiste dokumentidega või on tegemist täiesti erilaadse
meediumiga. Väga sageli kirjeldati ja hallati neid sarnaselt muude „ebatraditsiooniliste
objektidega“, nagu näiteks fotod ja kaardid, muuhulgas ei lisatud neid tavalistesse otsivahenditesse (kataloogidesse) (Dryden 1995: 104).
35
36
DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU
Üha enam hakati erialaringkondades arutama digisäilitamise probleeme, ilmus terve
rida raporteid, artikleid ja juhendeid. Rahvusvaheline Arhiivinõukogu avaldas ülevaated digitaalsetest dokumentidest maailma arhiivides, üldised soovitused arhiividele
digitaalsete dokumentidega tegelemiseks ja digitaalsete dokumentide haldamist
käsitleva kirjanduse ülevaate (ICA 1996; ICA 1997a; ICA 1997b), mis muutusid
kohe laialt aktsepteeritud juhendmaterjalideks. 1996. aasta lõpul tuli kokku esimene
DLM Forum (DLM sõnadest Donneés lisibles par machinee – prantsuskeelne akronüüm masinloetavate dokumentide tähistamiseks, 2002. aastast kannab nime Document Lifecycle Management), mis kujunes Euroopas oluliseks digitaalse infoga seotud
probleemide käsitlemisel. 1997. aastal avaldas DLM Forum soovitused digitaalse teabe
haldamiseks (Guidelines on best…1997). Eestis jõuti digiinfo säilitamise probleemide
põhjalikuma käsitlemiseni 2000. aastatel. Koostati hulk selleteemalisi raporteid, mis
kõik keskendusid digitaalsete dokumentide säilitamisele arhiivinduslikust vaatest lähtudes ( Juhendeid…2000; Ülevaade…2001). Raportite eesmärk oli anda ülevaade digisäilitamise olukorrast ja teha soovitusi valdkonna arendamiseks Eestis.
Raamatukogudes seostus digitaalse teabe säilitamine esmalt elektrooniliste ajakirjadega. Paljud raamatukogud, eriti need, mis tegutsesid ülikoolide ja uurimisasutuste
juures, hakkasid paberkandjatel ajakirjade asemel üha enam tellima nende elektroonilisi versioone. Neile materjalidele pikaajalise ligipääsu tagamine sõltub aga muutuvast
tehnoloogiast ja välistest organisatsioonidest. Need probleemid olid aga hoopiski erinevad traditsioonilistest raamatukogu puudutavatest probleemidest. Peagi lisandusid ka
muude digitaalsete ressursside säilitamise probleemid.
1980. aastatel hakati digitaliseerima ja internetis kättesaadavaks tegema üksikuid kollektsioone. 1990. aastatel algatati paljudes teabeasutustes suuremahulisi digiteerimisprojekte, mille eesmärk oli võimalikult suure hulga teabe kättesaadavaks tegemine.
Euroopas seostus see näiteks e-Euroopa agendaga (e-Europe Action Plan). Projektid
olid enamasti omavahel koordineerimata, kasutati erinevat tehnilist ja organisatsioonilist lähenemist. Lähenemiste ühtlustamiseks algatati rahvusvahelised projektid. 4. aprillil 2001 kohtusid Rootsis Lundis (Rootsi eesistumisajal) Euroopa Nõukogu ja Euroopa
Liidu liikmesriikide esindajad ning eksperdid, et arutada, kuidas koordineerida ja väärtustada rahvuslikke digiteerimisprogramme Euroopa tasandil. Kohtumise tulemusena
avaldati üldpõhimõtete kogum avalike digiteerimisettevõtmiste juhtimise ja koordineerimise kohta, mida tuntakse Lundi põhimõtetena (Lund Priciples 2001).
Tänapäeval on kõige levinum internetiteenus kindlasti veeb (World Wide Web, WWW).
Veeb on avatud lähtekoodiga inforuum, kus dokumendid ja muud ressursid on identifitseeritud internetiaadressidega (URL), seotud omavahel hüpertekstilinkidega ja
kättesaadavad interneti kaudu. Veebi lõi inglise teadlane Tim Berners–Lee 1989. aastal
Euroopa Tuumauuringute Keskuses (Conseil Européen pour la Recherche Nucléaire,
CERN), kui ta hakkas eri arvutites asuvaid dokumente hüpertekstilinkidega ühendama.
1990. aastal lõi ta esimese veebilehitseja (browser), millega saab HTML–dokumente
lugeda ja veebis ringi liikuda. Veebi arhiveerimine on veebis leiduva info kogumise,
digiarhiivis säilitamise ja kasutajatele kättesaadavaks muutmise protsess. 1996. aastal
asutas Brewster Kahle mittetulundusühingu Interneti Arhiiv (Internet Archive), mis asus
koguma ja säilitama erinevaid veebilehti. Alates 1999. aastast kogub arhiiv lisaks veebilehtedele ka muid digiobjekte – tekste, filme, televisisiooni- ja raadiosaateid, fotosid,
tarkvara jms. 2001. aastal loodi arhiivile otsimootor Wayback Machine ja siis muutus
arhiivi sisu kättesaadavaks kõigile huvilistele.
2004. aastal loodi veebi arhiveeriv mittetulundusühing Euroopa Arhiiv (European Archive), alates 2010. aastast tegutseb see nimetuse Interneti mälu sihtasutus (The Internet
DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU
Memory Foundation) all, asukohaga Amsterdamis ja Pariisis. Veebi arhiveerimisega
tegelevad ka paljud riiklikud ja regionaalsed mäluasutused. 2003. aastal asutati Rahvusvaheline Veebiarhiveerimise konsortsium (International Internet Preservation Consortium, IIPC) , mis tegeleb rahvusvahelise koostöö korraldamisega, standardite loomisega
ja avatud lähtekoodiga veebiarhiveerimise tarkvara arendamisega.
1990. aastate lõpul tõusis olulisele kohale digiinfo autentsuse ja info oluliste omadustega
seotu (vt nt Waters Garrett 1996). Aastatel 1999–2001 kestis selleteemaline rahvusvaheline projekt InterPARES 1 (International Research on Permanent Authentic Records
in Electronic Systems) (InterPares Project). Digiobjektide autentsuse tagamisel on üks
vahendeid ka digitaalallkiri. Nüüdseks nii igapäevaseks muutunud toimingul on juba
päris kenake ajalugu. Esimene digiallkiri Eestis anti 7. oktoobril 2002. aastal – Tallinna
ja Tartu linnapea allkirjastasid kahe linna infotehnoloogiaalase koostöölepingu.
Üha enam nihkus tähelepanu bitijada säilitamiselt kontseptuaalsete objektide säilitamisele. Samuti arutati digisäilitamise peamisi strateegiaid – migratsiooni, emuleerimist
ja tehnoloogia säilitamist. Käidi välja universaalse virtuaalarvuti idee: digitaalne objekt
esitatakse universaalsel kujul ning seda võimalik kasutada kõikides järgnevates tarkvaraja riistvarapõlvkondades. Samale ideele tuginevad ka näiteks digiobjektide esitamine
XML kujul või spetsiaalsetes tarkvarakonteinerites. Digitaalsete arhiivide standardiks
kujunenud OAIS mudeli (Open Archival Information System Model – rahvusvaheline
avatud arhiiviinfosüsteemi mudel) esimene versioon avaldati 1999. ja teine 2001. aastal.
2002. aastal avaldatud kolmas versioon sai 2003. aastal ametlikult ISO standardiks.
Mudel pakkus välja terminoloogia ja põhimõtted, millele tuginedes oli edaspidi võimalik kooskõlaline infovahetus erialaspetsialistide vahel, ning digiarhiivi kontseptuaalse
skeemi, millele tuginedes oli võimalik kujundada reaalseid arhiivimudeleid.
2003. aasta 17. oktoobril võttis UNESCO vastu „Digitaalse pärandi säilitamise harta“
(Charter on the Preservation of Digital Heritage). Harta rõhutab, et digitaalne pärand
koosneb ainulaadsetest inimteadmiste ja kultuuriväljenduste ressurssidest. See hõlmab
kultuurilisi, hariduslikke, teaduslikke ja haldusressursse, aga ka tehnilisi, juriidilisi,
meditsiinilisi ja muid andmeid, mis on digitaalselt loodud või siis olemasolevatest analoogsel kujul esinevatest objektidest digitaalseks muudetud. Paljudel neist ressurssidest on püsiv väärtus ja olulisus ning seetõttu moodustavad need pärandi, mida tuleks
praegustele ja tulevastele põlvedele kaitsta ja säilitada. See pidevalt kasvav pärand võib
eksisteerida igas keeles, igas maailma piirkonnas ja igas inimteadmiste või kultuuriväljenduste valdkonnas.
Harta olulisus seisneb selles, et esmakordselt rõhutati rahvusvahelises ulatuses digitaalse teabe kuulumist kultuuripärandi hulka ja selle säilitamise vajadust.
37
38
DIGIINFO SÄILITAMISE PROBLEEMID
DIGIINFO SÄILITAMISE PROBLEEMID
4. DIGIINFO SÄILITAMISE
PROBLEEMID
Lugenud läbi selle peatüki,
• oskad välja tuua digiinfo säilimise peamisi ohte;
• oskad kirjeldada digiobjektide säilitamis- ja kasutussüsteemi
üldiseid tunnuseid;
• tead, kuidas tehnoloogia areng mõjutab digiobjektide säilitamist.
Toome järgnevalt ära peamised digiinfo säilitamisega seotud probleemid, mis esinevad
igasuguste digiobjektide säilitamisel. Digiinfo ohutegurid esinevad sageli kombineeritult, muutes tegeliku olukorra veelgi keerukamaks.
Digiobjektide loomise ja kasutamise süsteemi komplekssus
Digiobjektide loomiseks ja kasutamiseks on vajalik keerukas süsteem, mille moodustavad riist- ja tarkvara, dokumentatsioon ning vastavate teadmiste ja oskustega spetsialistid. Info säilitamise eest vastutajal puudub tavaliselt kontroll kogu selle süsteemi
üle. Operatsioonisüsteemid, seadmedraiverid, võrgu- ja kommunikatsioonitarkvara,
rääkimata püsi- ja riistvarast, on üldjuhul välja töötanud ja tootnud erineva erafirmad.
Erandiks on üksikute suuremate projektide jaoks loodud tarkvara ja riistvara. Kogu
infosüsteemi säilitamine tervikuna ei ole kindlasti ühele ega ka mitmele digiarhiivile
jõukohane, rääkimata eraisikutest ja ettevõtetest. Vaja on dokumenteerida kogu objektide valmistamisega seotud riist- ja tarkvara, vähemalt seadmetüübid, tarkvara nimetused ja versioonid ning väljalaskekuupäevad. Digisäilitussüsteemi toimimine nõuab selle
pidevat seiret ning vastavate vahendite eraldamist hoolduseks ja kaasajastamiseks.
Mõnel juhul on vaja koos digiobjektidega säilitada ka vastavat tarkvara. Tarkvara säilitamine võib olla vajalik, kui see moodustab säilitatava digiobjektiga lahutamatu terviku.
Üldjuhul on andmed ja tarkvara teineteisest lahutatud, mõnel juhul võivad aga andmed
moodustada tarkvaraga lahutamatu mudeli ning nende lahutamine on võimatu. Näiteks
kui andmete loomiseks on kasutatud väga spetsiifilist tarkvara, mida ei leidu ku sagil
mujal ja mille kasutamine on väga piiratud. See võib puudutada näiteks teaduslikke
andmemudeleid, simulatsioone vms. Tarkvara säilitamine võibki olla digiarhiivi eesmärk, näiteks kui tarkvara on mingi uurimis- või arendusprojekti tulemuseks. Samuti
võidakse tarkvara säilitada näiteks ajaloolisel eesmärgil.
Tehnoloogia areng ning seadmete ja tarkvara vananemine
Digiinfoga seotud tehnoloogia areneb väga kiiresti ning sellest tingitult toimub ka riist- ja
tarkvara kiire vananemine ja asendamine. Sellega oleme me kõik juba palju kordi kokku
puutunud. Tehnoloogia eluiga on keskmiselt 2–10 aastat. Pidevalt tulevad turule uued
arvutimudelid, mis on varustatud üha võimsamate protsessorite ja mahukamate kõvaketastega. Pidevalt asendatakse operatsioonisüsteeme ja rakendustarkvara, muutuvad
andmekandjad ning andmete nendele kirjutamiseks ja neilt lugemiseks vajalikud seadmed
(joonis 4.1).
Joonis 4.1. Näide andmekandjate muutumisest – 12-, 5- ja 3-tolline flopiketas
Kui uued tooted turule tulevad, lõpetatakse sageli vanade tootmine ja toetamine. Vananenud süsteemid ei sobi teistega kokku. Failivormingud muutuvad pidevalt ja uuemad
süsteemid ei suuda sageli varasemaid vorminguid töödelda. Kõik digitaalse infosüsteemi
osad vananevad ja asendatakse suhteliselt kiiresti.
Paljude digiobjektide kasutamine sõltub spetsiifilisest riist- ja tarkvarast ning neid ei saa
kasutada teiste seadmete ja tarkvaradega (vt näitekast 4.1). Mingi süsteem muutub ebarentaabliks, firma kaob turult. Järelikult ei valmistata enam seda tüüpi andmekandjaid
ja seadmeid. Tehnoloogia arengut juhib majanduslik, mitte säilitusväärtus. Seega ei ole
mingit põhjust eeldada, et näiteks paremal turupositsioonil olev tehnoloogia on parim
ka säilitamise mõttes. Uue tehnoloogia juurutamisel on tähtis säilitada teatud inertsus.
Uus tehnoloogia on sageli mugavam ja kuluefektiivsem ning pakub võimalusi, mida
varem ei olnud. Kasutajaskond eelistab tavaliselt uuemat tehnoloogiat. Pidevalt võetakse kasutusele tark- ja riistvara täiustatud versioone (upgrade). Tegemist on tark- või
riistvaratoote uuema, parema ja turvalisema versiooniga, mis on mõeldud sama toote
vanema versiooni asendamiseks. Tavaliselt lisatakse uuele tootele täiendavaid funktsionaalsusi ja suurendatakse kasutusmugavust. Säilitamise seisukohast on tegemist küllaltki problemaatilise tegevusega, kuna säilitatavad digiobjektid on loodud omal ajal
kasutusel olnud versiooniga ja kasutavad selle funktsionaalsusi. Samuti võib tekkida
probleeme vana tarkvara- või riistvaraversiooniga loodud digiobjekti kasutamisel uue
versiooniga.
Teadmiste puudumine riist- ja tarkvara kasutamise kohta
Teadmised selle kohta, kuidas vastavat riist- ja tarkvarasüsteemi kasutada, on digiobjektide säilitamiseks ja kasutamiseks hädavajalikud. Need teadmised kipuvad kaduma koos
vastavate süsteemide kadumise ja teisenemisega. Teadmiste ja oskuste säilitamine on
39
40
DIGIINFO SÄILITAMISE PROBLEEMID
kõige keerulisem ettevõtmine. Osaliseks lahenduseks on siin dokumenteerimine, kuid
väga palju on sellist teavet, mida on raske kirja panna (nn tacit knowledge).
Andmekandjate vananemine ja hävimine
Digiinfo tuleb säilitada andmekandjatel, need ei ole aga igavesed ega veakindlad. Nagu
kõik füüsilised objektid, vananevad ja lagunevad ka digiinfo kandjad. Andmekandjate
kahjustused kipuvad sageli olema sellised, et need muutuvad mitteloetavaks, st me ei
saa sealt enam andmeid kätte. Infokadu on seega järsk ja katastroofiline. Kõige erinevamatel põhjustel tekivad andmekandjatel juhuslikud bitivead (bit rot). Tehnoloogia
väljakujundamisel ja andmekandjate valmistamisel ei ole üldjuhul arvestatud nende säilitamise vajadust. Väga sageli osutuvad uued materjalid vanadest vähempüsivamateks.
DIGIINFO SÄILITAMISE PROBLEEMID
Loodusõnnetused ja avariid
Loodusõnnetusi ja kõikvõimalikke avariisid, näiteks tulekahjud, veeavariid jms, esineb
ühest küljest küll suhteliselt harva, kuid samas põhjustavad nad väga ulatuslikke kahjustusi, mille likvideerimine nõuab suuri kulutusi. Juhul kui andmeid ei varundata nõuetekohaselt, võib õnnetuste ja avariidega kaasneda andmete kadu.
Välised ründed
Väline rünne info kahjustamiseks, muutmiseks või hävitamiseks või delikaatse info
omandamiseks.
Säilitatavate digiobjektide autentsuse probleem
Riistvara avariid ja häired tarkvara töös
Nagu kõik seadmed, lähevad ka arvutid ja välismäluseadmed aeg-ajalt rikki või lõpetavad üldse töö. Seadmetel on erinev eluiga ja seda tasub nende hankimisel silmas pidada.
Digiarhiivi loomisel tuleks kasutada vastupidavamaid ja kauem kestvaid seadmeid.
Samas on selge, et ükskõik kui vastupidavad seadmed ei taga info säilimist. Täiesti ilma
vigadeta töötavat tarkvara ei ole olemas. Tarkvara töös esinevad häired võivad kahjustada süsteemis säilitatavat teavet.
Failide sisu, andmete riknemine
Andmetega töötamisel (nt failide kopeerimisel) tekkinud häired võivad esile kutsuda ka
ebasoovitavaid muutusi andmete sisus ja failide struktuuris.
Kuna digiinfot saab märksa kergemini kopeerida ja muuta, võivad lihtsalt tekkida tahtmatud ja tahtlikud vead, mis moonutavad teavet. Kas kasutaja saab olla kindel, et andmeid ei ole muudetud? Andmeobjektiga toimunud muutusi puudutavate metaandmete
puudumine või hävimine seab kahtluse alla objekti autentsuse.
Majanduslikud ja organisatsioonilised häired
Infot säilitavate organisatsioonide suutmatus tagada info säilimist, kas finantsraskuste
või pankroti tõttu või mõnel muul põhjusel. Organisatsiooni eesmärgid võivad muutuda
ja info säilitamine ei pruugi enam olla oluline. Oluliste teabekogude korral peab olema
süsteem nende üleandmiseks teistesse asutustesse.
Õiguslikud probleemid
Vead info asukohtade identifikaatorites
Info võib olla kättesaamatu valede aadresside, muudetud kataloogiasukohtade vms
tõttu. Samuti võivad osa digiobjektist moodustada lingid internetis asuvatele ressurssidele. Näiteks võib tuua veebilinkide muutumise – igaüks on kogenud seda, et mingi
veebilink enam ei tööta. See võib olla tõsine probleem, kui lingid teabele moodustavad
kogu olulise osa.
Metaandmete puudulikkus
Metaandmete puudumine või lünklikkus ei võimalda andmeid andmekandjatelt kätte
saada või neid mõista. Näiteks on säilinud Exceli tabel arvudega, kuid puudub info selle
kohta, milline teave on esitatud veergudes ja ridades. Andmed on küll füüsiliselt alles
ja neid saab ka lugeda, aga midagi mõistetavat sealt kätte ei saa. Ebatäielikku metaandmestikku peetakse digiteabe säilitamise üheks suurimaks probleemiks, mis takistab
andmete kasutamist tulevikus.
Inimlikud eksimused ja hooletus
Inimlikud eksimused ja vead võivad tekitada parandamatuid kahjustusi ja soovimatuid muutusi säilitatavas teabes. Väga suur osa isiklikust digiteabest ei säili seetõttu, et
inimesed ei hooli selle säilitamisest. Kui paberdokumendid või fotod säilivad ka aastakümneid pööningul kastides seistes, siis digiteave vajab pidevat hoolt ja tähelepanu.
Teabe säilitamist võivad takistada või isegi võimatuks muuta õiguslikud küsimused info
omanduse ümber. Näiteks on suuresti illegaalne arvutimängude säilitamine, kuna mängud kuuluvad eraettevõtetele ning teistel institutsioonidel ja isikutel puudub õigus neid
muuta ja töödelda, mis on aga säilitamiseks paratamatult vajalik (Pinchbeck 2014: 10).
Kommertstoodete koodi lahtimuukimine (extraction) loetakse tarkvarapiraatluseks,
samas ei ole mängude emulaatorite loomine ilma selleta võimalik (ROM hacking).
Keeruliseks võib osutuda ka digiobjektide autoriõiguste omajate identifitseerimine.
41
42
DIGIINFO SÄILITAMISE PROBLEEMID
DIGIINFO SÄILITAMISE PROBLEEMID
Näitekast 4.1. Digisäilitamisega seotud probleemid
Ülesanne.
Millised ülalkirjeldatud probleemid esinesid järgmiste juhtumite korral?
BBC Domesday projekt (BBC Domesday Project)
Normandia hertsog William vallutas aastal 1066 Inglismaa. 19 aastat hiljem,
siis juba Inglismaa kuninga William I Vallutajana, andis ta käsu korraldada oma
uutes valdustes maarevisjon. Selleks läkitati kuninga erivolinikud üheaegselt
kõigisse seitsmesse piirkonda, et kuulata üle krahvkondade esindajad ja hinnata ära riigi rikkused. Revisjoniga seadustati omandi ülevõtmine normannide poolt. Kirja pandi kõik maaomanikud, nende omand ja see, kuidas maad
kasutati, kõik inimesed orjadest ülikuteni, kõik tähelepanuväärsed rajatised,
sealhulgas linnad, kirikud ja veskid, ning isegi suuremad koduloomad. Maksustamise eesmärgil hinnati ümber maaomandid ja rendivaldused ühes metsa- ja
rohumaadega. Rõhutud inglased võrdsustasid selle suure revisjoni otsustava
kohtu ehk viimse kohtupäevaga. Nii hakatigi selle maarevisjoni protokolli
kutsuma „Domesday Book“ (viimse kohtupäeva raamat). Domesday Book
koosneb kahest ladinakeelsest pärgamendile kirjutatud köitest. Suuremate
lehtedega Great Domesday’s on 413 lehte; väiksemate lehtedega Little Domesday’s 475 lehte. Raamatute valmistamiseks kulus 900 lambanahka.
Tähistamaks „Domesday Book’i“ 900. aastapäeva, algatati BBC Domesday
projekt (BBC Domesday Project), mille eesmärk oli luua raamatu täiesti uus ja
tänapäevane digitaalne multimeediaversioon. Projektis osalesid Acorn Computers, Philips, Logica ja BBC. Osa kuludest kaeti Euroopa Komisjoni ESPRIT
programmist. Multimeediaprogramm loodi aastatel 1984–1986. Tegemist oli
Ühendkuningriigi uue „revisjoniga“, kus peamiselt koolilapsed kirjeldasid oma
kodukoha geograafiat, ajalugu ja lihtsalt igapäevast elu-olu. Haaratud oli üle
miljoni inimese, nendest enamik lapsed rohkem kui 9000 koolist. Kuulutati
välja ülemaaline fotovõistlus. Jutustused olid seotud kaartide, fotode, statistiliste andmete, videolõikude ja virtuaalsete jalutuskäikudega. Tekstimaterjali oli
147 819 lehekülge ja fotosid 23 225. Kogu teave säilitati 12tollistel laserplaatidel
LV-ROM (LaserVision Read Only Memory) vormingus. Plaadil oli nii analoogkui ka digitaalkujul andmeid. Kujutised, nii fotod kui ka videod, salvestati
analoogkujul, üks kujutis igal videoreal. Digitaalse info moodustasid tekstid,
statistilised andmed, kaardid ja ka rakendustarkvara. Olulise osa kogu süsteemist moodustas Domesday rakendustarkvara, mis võimaldas navigeerida, infot
vaadata ja ristviidata.
Laserplaadi kummalegi küljele mahtus 300 MB andmeid. Plaadid valmistati
ettevõttes Philips Laservision. Plaatide kasutamiseks oli vajalik Acorn BBC
Master tüüpi arvuti, mida oli laiendatud SCSI-kontrolleri ja koprotsessoriga,
mis juhtis laserplaadimängijat Philips VP415 Domesday Player (joonis 4.2).
Laserplaadimängija oli spetsiaalselt loodud selle projekti tarvis. Arvuti juhtimiseks kasutati klaviatuuri ja juhtkuuli. Tarkvara kirjutati BCPL (Basic Combined
Programming Language) programmeerimiskeeles, mis samuti iganes üsna
Joonis 4.2. BBC Domesday Book multimeediasüsteem (Regregex 2010)
BBC. Domesday Reloaded. http://www.bbc.co.uk/history/domesday
The National Archives. Domesday: Britain`s finest treasure http://www.nationalarchives.gov.uk/domesday/
kiiresti, vaatamata sellele, et mõjutas oluliselt C ja Java programmeerimiskeelte
arengut. Kuna plaatide lugemiseks vajalik plaadimängija ja arvuti olid väga
spetsiifilised ja ka kallid (koos riistvaraga oli hind 5000 naelsterlingit), siis said
neist õige pea haruldused. Plaatide kasutamine muutus juba 2000. aastateks
pea võimatuks. 2002. aastal hakkasid ajakirjanduses ilmuma artiklid, mis väitsid, et digitaalne info on muutunud kasutuskõlbmatuks juba 15 aastaga, samas
kui originaaldokumendid on endiselt kasutatavad. See tõstis digisäilitamise
probleemid laiema avalikkuse huviringi. Plaatidel oleva teabe säilitamise ja
kasutatavaks tegemise lugu iseloomustab hästi digisäilitamise keerukust.
Sellesse on olnud haaratud erinevad asutused ja üksikisikutest entusiastid.
1999. aastal moodustati USA Michigani ja Inglismaa Leedsi ülikooli ühiskonsortsium CAMiLEON (Creative Archiving at Michigan and Leeds: Emulating
the Old on the New), mille eesmärk oli emuleerimise rakendamine multimeediateoste säilitamisel. Aastatel 2002–2003 töötati välja emuleerimisel põhinev süsteem, mis emuleeris nii mikroarvutit kui ka videoplaadi lugejat Windowsi keskkonnas. Süsteem tugines „BeebEm“ BBC Micro emulaatorile, mille olid välja
töötanud David Gilbert ja Richard Gellman, sellele lisati BBC Domesday kasutamiseks vajalik täiendav tarkvara. Projekti tulemusena oli kolme videoplaadipoole
vaatamiseks võimalik kasutada emulaatorit. Siiski ei olnud avalikkusel võimalik
emulaatorit kasutada ja projekt lõpetati 2003. aastal. Seega oli projektil vaid teoreetiline tähtsus, kuna demonstreeriti emuleerimise võimalikkust.
Programmeerija Adrian Pearce kasutas pöördprojekteerimise meetodit ja lõi
selle abil 2004. aastaks versiooni, mis töötas Windows PCl ning oli kasutatav
43
44
DIGIINFO SÄILITAMISE PROBLEEMID
Rahvusarhiivi terminali ja interneti kaudu. Internetiversioon võeti maha pärast
Pearce’i surma 2008. aastal. 2003. aastal digitaliseeris Andy Finney Rahvusarhiivis säilitatavad originaalteabega Master 1-tollised videolindid ja säilitas info
digitaalsena Digital Betacam magnetlindil. Aastatel 2003–2004 digitaliseerisid
Simon Guerrero ja Eric Freeman originaalseadmeid kasutades ühel laserplaadil oleva materjali. Arvutusajaloo keskus (The Centre for Computing History)
võttis samuti ette analoogse projekti. Kasutati originaalseid plaate, pleierit ja
arvutit ning digitaliseeriti plaatidel olev teave. Keskuses on võimalus kasutada
ka algset Domesday süsteemi. Rahvuslikus arvutimuuseumis (The National
Museum of Computing) on samuti kasutusel kaks töötavat originaalset Domesday süsteemi. 2011. aastal avati internetilehekülg BBC Domesday Reloaded,
kuhu on üles laetud suur osa algse Domesday projekti materjalidest. Kasutati
originaalsetelt Master-videolintidelt digitaliseeritud materjali. Projekt haarab
ka uut infot, mis koguti kasutajatelt 2011. aasta kestel. Rahvuslikku arvutimuuseumisse paigaldati puuteekraaniga arvutisse Domesday Reloaded projekti versioon, mis jääb püsiekspositsiooni kõrvuti originaalse Domesday Projektiga.
Tehniliste probleemide kõrval on Domesday projekti materjalide avalikustamise kõige suuremad probleemid seotud aga hoopiski autoriõigustega. Materjalide autoriõigused kuuluvad vabatahtlikele osalejatele (keda on üle miljoni) ja
asutustele, lisaks on autoriõigustega kaitstud ka tehnilised seadmed ning tarkvara. Kõige selle tõttu ei saa projekti materjale ilma piiranguteta kasutada enne
2090. aastat ja sedagi juhul, kui autoriõigusi ei pikendata. 2006. aastal avas
Inglismaa Rahvusarhiiv internetilehekülje, kus saab tutvuda originaalse
„Domesday Book’i“ ja selleaegse Inglismaaga.
Allikad
McKie, Robin; Thorpe, Vanessa (2002-03-03). “Digital Domesday Book lasts 15 years not 1000”. The
Guardian (Guardian Media Group). https://www.theguardian.com/uk/2002/mar/03/research.elearning
Domesday. The BBC Domesday Project. http://www.atsf.co.uk/dottext/domesday.html
Centre for Computing History. 2011. Museum Helps BBC Domesday Reloaded Project http://www.
computinghistory.org.uk/news/14450/Museum-Helps-BBC-Domesday-Reloaded-Project/
http://www.computinghistory.org.uk/news/14450/Museum-Helps-BBC-Domesday-Reloaded-Project/
Saksamaa taasühendamine ja digiinfo
Pärast Saksa Demokraatliku Vabariigi (SDV) ja Saksa Föderatiivse Vabariigi
taasühendamist Saksamaa Liitvabariigiks 3. oktoobril 1990 ühendati ka
mõlema riigi arhiivisüsteemid. Muude probleemide hulgas oli vaja hakata kiiresti tegelema SDV andmearhiividega. Selleks moodustati 1991. aasta augustis
masinloetavate arhivaalide osakond, mis hakkas tegelema mõlema riigi masinloetavate dokumentidega. Tehniliste seadmete ja personaliga komplekteerimine kestis 1993. aastani, siis saadi alustada tööd. SDV andmearhiivide olukord
oli üsna hull. Mõnel juhul olid andmed kahjustunud või kadunud, andmetega
kaasnev dokumentatsioon kas puudus üldse või oli ebatäielik. Elektroonilist
infot töödeldi ja säilitati suurarvutitega varustatud spetsiaalsetes arvutuskeskustes. Pärast Saksamaade ühendamist osa arvutuskeskusi suleti ja osa erastati.
Erastatud arvutuskeskuste omanikud hakkasid kohe andmeid müüma. Enamik
endiste arvutuskeskuste töötajatest olid lahkunud mujale tööle. Polnud harvad
DIGIINFO SÄILITAMISE PROBLEEMID
juhtumid, kui nad võtsid endaga kaasa ka andmekeskuste dokumentatsiooni.
Andmekeskustes 1980. aastate lõpul kasutatud riist- ja tarkvara moodustasid 1970. aastatel läänes kasutatud tarkvara ja arvutite kehvema kvaliteediga
koopiad ja analoogid. Näiteks ESER suurarvutid olid IBM suurarvutite koopiad. Andmete salvestamiseks kasutatud 9-realiste magnetlintide (ORWO ja
PYRAL) magnetkihi sideained olid ebakvaliteetsed ja kippusid lagunema ning
magnetketaste pind oli nii ebaühtlane, et rikkus lugemispäid. Andmekandjate
halva kvaliteedi ja ebarahuldavate hoiutingimuste tõttu oli suur hulk andmeid
otseses hävimisohus. Lindid oli vaja puhastada ja kiiresti kopeerida. Programmid ja tööfailid säilitati perfolintidel ja -kaartidel ning 5,25- ja 8-tollistel flopiketastel.
Teine tõsine probleem oli seotud andmetele konteksti loova dokumentatsiooni puudulikkusega. Riigiarhiivi otsustati vastu võtta digitaalsed arhivaalid,
mille kohta oli olemas vähemalt järgmised dokumentatsioon: failide struktuur,
andmekogumite arv, andmeväljade väärtused, koodiraamatud, pakkimisalgoritmid, iga lindi sisukirjeldus. Vaatamata sellele üldisele nõudele võeti arhiivi
vastu ka selliseid dokumente, mille kohta dokumentatsioon puudus, aga mis
olid eriti olulised ja suure infoväärtusega. Selliste andmearhiivide näiteks
võib tuua riigi- ja parteitöötajate personaalandmete andmebaasi Kaderdatenspeicher, mis sisaldas 1989. aasta seisuga andmeid 331 980 inimese kohta.
Dokumentatsioon andmebaasi kohta peaaegu puudus, kuid sellel oli arusaadavalt väga suur väärtus, muuhulgas ka selle tõttu, et see sisaldas andmeid riigijulgeoleku-, kaitse- ja siseministeeriumi töötajate kohta. Andmebaasi töödeldi
assemblerprogrammide abil, algseks operatsioonisüsteemiks oli SVS 7.1 ja
riistavaraksriistvaraks ESER suurarvuti, mis oli IBM-seeria 360/370 arvutite
analoog. Andmebaasi kogumaht oli ligikaudu 5 gigabaiti. Kuigi andmebaasist
oli mitu koopiat, jõudis riigiarhiivi vaid üks täielik koopia.
Andmebaasist tehti koopia ning seejärel alustati köitemärgendite8 (volume
labels), päiste (headers) ja esimeste andmeblokkide (initial data blocks) identifitseerimisega. Köitemärgendid ja päised olid kergesti loetavad, kuna selgus,
et need on algses IBM-vormingus. Seda teavet kasutades sai kindlaks teha,
milline info on igal konkreetsel magnetlindil. Edasi aga selgus, et nii päiste kui
ka andmeelementide endi juures on kasutatud erinevaid andmetüüpe, samuti
varieerusid kirjete pikkused. Puudus teave andmete ja failide struktuuri kohta.
Nii näiteks saab kuupäevi esitada erinevalt vormindatuna ja selles andmebaasis
oligi kasutatud mitut vormingut. Ilma vormingute täpse kirjelduseta on neid
pea võimatu identifitseerida. Seega on dokumentatsiooni olemasolu kriitilise
tähtsusega. Isegi juhul, kui andmed on võimalik kätte saada, ei ole ilma dokumentatsioonita võimalik neist aru saada. Failistruktuuride kirjeldused õnnestus
koostada teiste elektrooniliste ja paberdokumentide abil. Loodi vastav tarkvara
failistruktuuride analüüsimiseks, kuupäevavormingute muutmiseks ja bitijadade
dešifreerimiseks. Sai selgeks, et ilma koodiraamatuteta ei ole võimalik andmeid
rekonstrueerida. Pakkimisalgoritmide ja muude kodeeringute tuvastamiseks
palgati tööle endiseid arhiivitöötajaid, kuna neid ei olnud võimalik mingil moel
ilma vahetute teadmisteta interpreteerida.
8
Kõvakettale, flopiajamile, CD-ROM ajamile või muule salvestile omistatav nimi.
45
46
DIGIINFO SÄILITAMISE PROBLEEMID
Kogu projektist selgus, et ilma vastava dokumentatsioonita ei ole võimalik
andmeid interpreteerida, kusjuures tundmatud olid nii magnetlindivormingud,
andmestruktuurid kui ka andmevormingud. Väga palju olulist teavet hoiti
andmekeskuste töötajate peades või isiklikes märkmeraamatutes. Siiski
õnnestus suur osa andmetest taastada.
Allikas
Wettengel, M. (1998), ‘German Unification and Electronic Records, The example of the ‘kaderdatenspeicher’, in Higgs, E. (ed), History and Electronic Artefacts (Oxford). 265–276.
Apollo 11 originaallindid kuundumisest
Apollo 11 oli kosmoselaev, mis viis esimese inimese Kuu pinnale. Ta sooritas
Apollo programmi viienda mehitatud lennu, sealhulgas kolmanda mehitatud
lennu Kuu orbiidile. Apollo 11 meeskonda kuulusid komandör Neil Armstrong, juhtimismooduli piloot Michael Collins ja kuumooduli piloot Edwin
Aldrin. Lend toimus 16.–24. juulil 1969. Inimese astumist Kuu pinnale sai
jälgida televisiooni otseülekandest.
Voolupiirangute ja ülekandesignaali piiratud ribalaiuse tõttu kasutati
Apollo 11-l aeglase laotusega videosüsteemi (slow-scan video), mille signaalid
tuli tavalises televisioonis edastamiseks konverteerida. Süsteem edastas 10
kaadrit sekundis, lahutusvõimega 320 rida. Televisioonistandard oli 30 kaadrit sekundis ja 525 rida. Tegemist oli kitsaribalise televisioonisignaaliga, mille
ribalaius oli 500 kHz. Tolleaegse kommertstelevisiooni ribalaius oli 4,5 MHz.
Kuult saadetud signaalid võtsid vastu kolm Maal asuvat jälgimisjaama. Need
salvestasid originaalsignaali, mis sisaldas video-, audio-, telemeetria- ja biomeditsiinilisi andmeid. Andmed salvestati 1-tollistele telemeetrilistele magnetlintidele, seejärel konverteeriti USA televisioonistandardile vastavale kujule
ning saadeti satelliitide ja maaliinide kaudu lennujuhtimiskeskusesse Houstonis, kust see edastati omakorda televisioonijaamadele. Seejuures kutsus signaalide konverteerimine esile paratamatu kvaliteedilanguse, millele aitas kaasa
ka signaalide pikk edastusteekond. Seda tüüpi televisioonikaamerat edaspidi
enam ei kasutatud, kuna selgus, et tegelikult on võimalik Kuult edastada ka
tavalist televisioonisignaali.
Telemeetrilised magnetlindid keriti 14-tollistele ketastele ja asetati metallist
toosidesse, mis omakorda pandi pappkarpidesse. Igaüks kolmest vastuvõtujaamast kasutas Apollo 11 info salvestamiseks 15 1-tollist magnetlindiketast. Seejärel toimetati need Goddardi lennujuhtimiskeskusesse (Goddard Space Flight
Center), kus kontrolliti lintide sisu. Umbes kuu aega hiljem leiti, et lindid ei
ole Apollo programmile vajalikud, ja need saadeti USA rahvusarhiivi hoidlasse
(Suitland, Md.). Tänapäevast tehnoloogiat kasutades oleks võimalik need originaallindid digitaliseerida ja teha algne video kättesaadavaks ilma varasema
kvaliteedikaota. Grupp entusiaste otsustaski seda teha, mis ei osutunud aga
sugugi nii lihtsaks, kui alguses võis arvata. Nimelt olid originaallindid kadunud! Grupi liikmed intervjueerisid NASA töötajaid, otsisid üles ja töötasid läbi
linte puudutava dokumentatsiooni, memod, teleksiteated ja andmebaasid. See
ei olnud lihtne, kuna vanemaid materjale ei olnud digitaliseeritud, samuti ei
DIGIINFO SÄILITAMISE PROBLEEMID
olnud kõiki dokumentide üleandmise protseduure ja dokumente üksikasjaliselt dokumenteeritud. Nad külastasid kõikvõimalikke arhiive, kus lindid
võisid asuda. Selgus järgmine lugu. 1969. aasta lõpul saatis NASA videolindid
rahvusarhiivi, kokku anti üle 2614 karpi Apollo missiooni puudutavaid magnetlinte. Apollo 11 lindid olid tõenäoliselt nende hulgas. Aastatel 1975–1979 võttis
Goddardi keskus tagasi kõik karbid peale kahe, mis jäid arhiivi. Nendes kahes
karbis olid Apollo 9 lendu puudutavad telemeetrilised andmed, seega kuulusid
tagastatud lintide hulka ilmselt ka Apollo 11 lindid. Originaallintide otsinguid
alustati 2005. aastal ja 2009. aastal tuli tõdeda, et need ongi jäädavalt kadunud.
Võib-olla kasutati neid teistkordselt andmete salvestamiseks, sest 1980. aastate
alguses oli NASAl tõsine puudus sobivatest magnetlintidest. Nimelt hakati
1970. aastate keskel magnetlintide sideainena kasutama uut sünteetilist ühendit. Selgus aga, et see ei ole püsiv ja laguneb juba mõne aastaga, põhjustades nn
kleepuva lindi sündroomi. Kuna uut, kvaliteedinõuetele vastavat linti ei olnud
piisavalt saada, alustas NASA vanade lintide uuskasutamist. Kas ka Apollo linte
selleks kasutati, ei õnnestunud kindlaks teha. Otsingud ei olnud siiski täiesti
tulemusteta, nende käigus otsiti üles ja digitaliseeriti kogu lintide üleviimist
puudutav dokumentatsioon. Samuti leiti senistest parema kvaliteediga televisioonivormingus lindid Apollo 11 maandumisest. Tänapäevast tehnoloogiat
kasutades õnnestus kujutise kvaliteeti digitaliseerimisega veelgi parandada.
Originaallintidest, sealhulgas ka Apollo 11 lendu puudutavatest videotest
tehtud koopiad asuvad Houstonis NASA Johnson Space Center’s Informational
Resources Directorate’i videohoidlas.
Allikad
NASA. The Apollo 11 Telemetry Data Recordings: A Final Report. www.nasa.gov/pdf/398311main_
Apollo_11_Report.pdf
Nell Greenfieldboyce. 2009. Houston, We Erased The Apollo 11 Tapes. http://www.npr.
org/2009/07/16/106637066/houston-we-erased-the-apollo-11-tapes
NASA. 2006. Update: Apollo 11 Tapes. http://www.nasa.gov/mission_pages/apollo/apollo_tapes.html
Apollo 11 missing tapes. https://en.wikipedia.org/wiki/Apollo_11_missing_tapes
47
48
DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME?
DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME?
5. DIGITAALNE SÄILITAMINE –
MIDA ME TÄPSEMALT
SÄILITAME?
harutada. Paberil esitatud info on enam seotud meediumiga. Paberil teksti sisu ja struktuur säilivad sama kaua, kuni kestab see paber. Et sõnumit dekodeerida ja sellest aru
saada, on loomulikult vajalikud ka piisav kontekstuaalne info ja taustateadmised. Kui
meil on tekst keeles, mida me ei mõista, siis ei ole võimalik sõnumist aru saada. Mõnel
juhul on meil isegi raske taibata, kas tegemist on üldse keelega. Digitaalsete infoobjektide korral on seos info kandja (meediumi) ja info enda vahel märksa nõrgem. Digitaalsel kujul esitatud info sõltub tervest kodeerimis- ja dekodeerimisetappide ahelast ning
inimesele esitatav kuju luuakse selle taasesitamise hetkel.
Lugenud läbi selle peatüki,
Digitaalseid süsteeme võidakse kirjeldada erinevalt, olenevalt selle kirjelduse eesmärgist. Kirjeldusviisist sõltub ka see, mida mõeldakse digitaalse teabe või digiobjektidena.
Kõige laiemalt saab digitaalses süsteemis eristada riistvara, tarkvara ja kodeeritud kujul
esitatud teavet. Seejuures on tarkvara ise samuti digitaalne teave. Täpsemaks kirjeldamiseks eristatakse digiinfo erinevaid kirjeldustasandeid. Näiteks Kenneth Thioboedeau
(2002) eristab kolme klassi objekte (füüsilised, loogilised ja kontseptuaalsed objektid),
OAIS infomudelis eristatakse viit tasandit (meedia, voo, struktuuri, objekti ja rakenduste tasand) (vt joonis 5.1). Vastavalt vajadusele võidakse eristada ka enamat arvu
kirjeldustasandeid.
• oskad eristada digitaalsena sündinud ja digitaliseeritud teavet;
• tead, mida tähistatakse terminiga „digitaalne objekt“;
• suudad kirjeldada digitaalse objekti mitmetasandilist olemust;
• tead, mis on andmetüüp;
• tead, mis on digiobjekti esitused;
• oskad tuua näiteid digiobjektide klassifitseerimise kohta.
Digitaalse info säilitamiseks on vaja määratleda säilitamise objekt. Eelmistes peatükkides nägime, et digitaalse info korral on meil tegemist sellise infosüsteemiga, mis kasutab digitaalset signaalitöötlust. Info on aga alati esitatud mingil füüsilisel kujul, kas
objekti või protsessina. Millised on siis digitaalse säilitamise korral säilitatava objekti
või protsessi tunnused ja omadused? Tegemist on väga olulise küsimusega, kuna vastavalt säilitatavava objekti definitsioonile valitakse ka säilitamise strateegia ja meetodid.
Järgnevalt vaatamegi lähemalt, mis on digitaalne objekt ja mille poolest see erineb n-ö
klassikalistest objektidest.
RAKENDUSKIHT (rakendusprogrammid)
Objektikihi liidese
teade
Objektikiht
• Andmeobjektid
• Konteinerobjektid
• Andmeid kirjeldavad
objektid
5.1. Digitaalne objekt
Digitaalse säilitamise objekti tähistamiseks on olemas hulk erinevaid termineid, mille
kasutamine sõltub suuresti kontekstist. Kõige üldisemateks terminiteks on näiteks
„digitaalsed ressursid“ (digital resources), „digitaalsed materjalid“ (digital materials) ja
„digitaalaines“ (digital records), millega harilikult tähistatakse digiteavet sõltumata selle
sisust ja vormist. Iseloomulik on see, et teave on omajatele ja kasutajatele oluline, kuna
sellel on kindlad väärtused.
Võidakse eristada digitaalteavet, mis tekib või saadakse kohe digitaalsel kujul, seda
nimetatakse digitaalsena sündinud teabeks (born digital), ja teavet, mis saadakse objektide digitaliseerimisel – digiteeritud infot (digitized). Digitaalselt sündinud teave on näiteks digitaalse fotoaparaadiga pildistatud fotod, digiteeritud teave aga näiteks paberalbumist skannitud foto. Säilitamise aspektist on see erinevus oluline, kuna digiteeritud
teabe korral on olemas n-ö klassikaline objekt, millest valmistatakse digitaalne objekt.
Kui kõrvuti digitaalse objektiga säilitatakse edaspidi ka algset objekti, siis on sellest alati
võimalik teha uus digitaalne objekt. Samuti võib tehnoloogia paremaks muutumisel
teha objektist sobivamate omadustega digiobjekti.
Nagu nägime kommunikatsioonisüsteeme käsitledes, esineb info alati füüsiliste objektidena, mis võivad olla vägagi erinevad. Näiteks paberile trükitud sõna ja sama sõna
arvuti mälus – nende vahel on päris suur erinevus, mida järgnevalt püüamegi lahti
Nimedega
andmestruktuurid
Nimega varustatud
bitivoog
Nimedega
andmestruktuurid
Struktuurikiht
• Lihtsad andmetüübid
• Järjendid ja massiivid
• Kirjed
• Nimedega andmeNimega varustatud
struktuurid
bitivoog
Nimega varustatud
bitivoog
Vookiht
• Piiritletud baidivood
MEEDIAKIHT (kettad, lindid ja arvutivõrk)
Joonis 5.1. OAIS infomudel (CCSDS 2012: 131)
Digitaalsete signaalide töötlus ja salvestamine toimub mingile füüsilisele kandjale kantud märkide või signaalide abil. Seda tasandit võib nimetada füüsiliseks tasandiks,
elektrooniliseks tasandiks, meediatasandiks või füüsiliste objektide tasandiks. Milliseid
signaale kasutatakse ja mil viisil märke füüsilistele kandjatele kantakse, sõltub meediumist. See on arusaadavalt erinev näiteks magnetketta ja CD korral. Märkide kandmise
viis võib aga erinev olla ka ühe meediumi korral. Näiteks magnetkandjale saab märke
49
50
DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME?
kanda erineva tihedusega, erineva orientatsiooniga magnetlindi pikkuse/laiuse suhtes
jne. Tuleb panna tähele, et objektile kantud füüsilised märgid ei ole veel bitid! Tegemist on lihtsalt mingite märkidega mingil füüsilisel objektil või füüsilises keskkonnas.
Sobiv riistvara suudab neid signaale lugeda ja muudab need bitijadadeks. Ilma vastava
interpreteerimiseta ei moodusta näiteks magnetkandjale jäädvustatud magnetvälja
erineva suunaga piirkonnad arvutisüsteemi teistel tasanditel kasutatavaid bitijadasid.
Kui vaadata kompaktplaadi pinda piisavalt võimsa mikroskoobiga, siis võib seal näha
erinevate peegeldusomadustega piirkondi (joonis 5.2). Nende piirkondade erinevuste
kaudu salvestataksegi plaadile loogilise taseme bitid. Bittide salvestamisel kasutatakse
algoritmi, mille järgi alustatakse ja lõpetatakse plaadi pigmendikihi muutmine laseriga
kokkuleppelise biti oleku 1 korral. See tähendab, et plaadil nähtav „laik“ või auk (pit) ei
vasta otseselt ühele bitile ja selle olekule. Vajalik on teave kasutatud algoritmide kohta,
mis selgitab, kuidas andmed on salvestatud ja kuidas neid lugeda. Antud näite korral
peab olema teada, et laigu serva avastamisel lisatakse bitijadasse bitt väärtusega 1, kõikidel muudel juhtudel on väärtusteks 0.
DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME?
TÄISARV
„21“
BITIJADA:
MÄRK
„U“
HELI
0101110000000001010100000000001000001111011110
REAALARV
„1.3125“
KUJUTIS
LOOGILINE BITTRASTER
„ei, ei, ei, jah“
ei, jah, ei, jah
Joonis 5.3. Bitijada võimalikud tähendused (Rothenberg 1999a: 7)
Joonis 5.2. Märgid kompaktplaadi pinnal ja nende seos bittidega
Füüsiline objekt muutub sellise interpreteerimise tulemusena loogiliseks objektiks.
Füüsilise objekti tasand on täiesti sõltumatu bittide tähendusest, bittide interpreteerimise viis ei ole määratletud. Arvutisüsteem ei tee mingit vahet, kas tegemist on teksti,
pildi või mõne muu digitaalse objektiga. Bitijadasid tuleb edasiseks kasutamiseks töödelda. Näiteks võib vajalikuks osutuda farssbittide (bit-stuffing), veaparanduskoodide
(error correction codes), loogiliste aadresside (logical addressing), ploki suuruste (block
sizes) vms eemaldamine. Seda taset nimetatakse vootasemeks (stream layer).
Kõrgemad tasemed saavad pöörduda selle taseme bitijadade poole, mis esinevad andmeplokkidena (data block), vastava nime vahendusel. Nimi tähendab siinkohal lihtsalt
kindlat unikaalset identifikaatorit, mis viitab konkreetsele andmeplokile. Sellisteks
nimedeks on näiteks faili nimi või arvutitevaheliste teadete korral teate identifikaatorid (message identifiers). Selle taseme funktsionaalsust pakuvad tänapäevastes arvutites
operatsioonisüsteemi failisüsteemid.
Nimega bitijadad muudetakse järgmises kihis, mida tuntakse struktuurse kihi (structure
layer) nime all, primitiivsete andmetüüpide adresseeritavateks struktuurideks. Struktuurses kihis identifitseeritakse bitijadad primitiivsete andmetüüpide ja nende kogumitena,
mida arvutisüsteem suudab ära tunda ja esitada. Bittide järjestuse ehk bitijada käsitlemiseks peab arvuti teadma selle jada struktuuri. Kui struktuur ei ole teada, on bitijada nii
riist- kui ka tarkvara jaoks tähenduseta. Bitijada tähendus võib olla mitmesugune. Näiteks
võib bitijada 1000010 tähistada arvu (66), tähte (B), masinkäsku vms (joonis 5.3). Kuidas
toimub bittide grupeerimine ja millised tähendused neile gruppidele antakse, sõltub nii
arvuti riistvarast kui ka programmeerimiskeelest ja kompilaatorist.
Bitid on tavaliselt grupeeritud ning need grupid kodeerivad ja esitavad kindlaid andmeväärtusi (data values). Loogilise objekti äratundmine rakendustarkvara poolt põhineb
andmetüüpidel. Andmetüüp on näiteks ASCII-kodeering. Tegemist on lihtsa (primitive) andmetüübiga, aga andmetüüp võib olla ka liitne (composite). Tavaliselt ongi loogilised objektid liittüüpi. Andmetüüp on programmeerimiskeeles teatud tüüpi andmete
klassifikatsioon või kategooria. Levinuimad lihtandmetüübid on järgmised:
· täisarv (integer);
· ujukomaarv (float);
· märk (character);
· sõne (string);
· tõeväärtus (boolean).
Liitsed ehk komplekssed andmetüübid on näiteks jada, massiiv, kirje, fail. Andmetüüp
määrab muutuja salvestamiseks vajaliku mälupesa suuruse ja sinna salvestatud andmete
tähenduse. Struktuurse kihi funktsionaalsuse tagavad vastavas programmeerimiskeeles
kirjutatud kompilaatorid ja interpretaatorid.
Objektikiht (object layer) muudab andmetüübid rakenduskihile arusaadavateks andmeobjektideks – tekstideks, tabeliteks, kujutisteks, kaartideks jne. Määratakse kindlaks,
milliseid objekti tunnuseid kasutajad näevad ja milliseid operatsioone nad nende andmeobjektidega sooritada saavad.
Näiteks tekstifail koosneb ASCII-koodist ja erikoodidest, mis määravad ära kirjatüübi,
stiili jms. Loogilised objektid võivad olla liitobjektid, st et nad võivad sisaldada teisi loogilisi objekte. Loogilist objekti võidakse säilitada ühes füüsilises objektis, näiteks ühte
tekstidokumenti ühes füüsilises failis. Tavaliselt see aga nii ei ole. Suur tekstidokument
jagatakse alamdokumentideks ja eraldi objektiks, mis määrab ära selle, kuidas alamdokumendid tuleb kokku panna. Alamdokumente säilitatakse eraldi füüsiliste failidena.
Kui tekstidokument kasutab väliseid fondikogusid, on need täiendavad digitaalsed
objektid samuti vajalikud dokumendi esitamiseks.
51
52
DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME?
Rakenduskiht (application layer) muudab loogilised andmeobjektid kontseptuaalseteks
objektideks, mida tunneb ära ja mõistab inimene. Kontseptuaalne vorm on see, kuidas
kasutaja kogeb infoobjekti, näiteks raamatut, lepingut, kaarti või fotot. Infosüsteemides
võib kontseptuaalne objekt olla ka selline, mille tunneb ära vastav rakendus – tegemist
ei pea tingimata olema inimesega. Kontseptuaalse objekti omadused on sellised, mis on
olulised reaalses maailmas. Rakenduskihi funktsionaalsuse tagavad rakendusprogrammid ehk lõppkasutajaprogrammid, millega töötavad lõppkasutajad – andmebaasiprogrammid (MS Access), tekstitöötlusprogrammid (MS Word), tabelarvutusprogrammid
(MS Excel) jt.
Kontseptuaalse objekti sisu ja struktuur sisalduvad loogilises objektis või objektides.
Sama kontseptuaalne sisu võib aga olla esitatud erinevate digitaalsete kodeeringute
kujul. Kontseptuaalne struktuur võib olulisel määral erineda loogilise objekti struktuurist. Dokumendi sisu võib olla digitaalselt kodeeritud näiteks lehekülje kujutisena
(pildifail) või tekstitöötlusdokumendina (näiteks DOC-fail). Meil võib olla sama kontseptuaalse objekti kaks erinevat loogilist esitust. Kuidas me saame öelda, kas loogiline
objekt on õige dokumendi esitus? See on nii juhul, kui dokument, mis tekib loogilise
objekti (digitaalse faili) töötlemisel vastava tarkvaraga, on identne originaaliga. Kui eesmärk on säilitada originaaldokumendi sisu, struktuur ja visuaalne väljanägemine, siis
sobivad mõlemad loogilised objektid (Microsoft Word, Adobe PDF), lisaks veel ju ka
näiteks LibreOffice, WordPad või Notepad, HTML ja dokumendi piltkujutis.
Vaatame lähemalt mingit tekstifaili, näiteks Microsoft Wordiga tekitatud DOC-faili.
Kõige elementaarsemal tasemel koosneb see fail binaarsetest ühikutest (bitid, 0 ja
1), mis näiteks arvuti kõvakettal on esitatud kui magnetkihi positiivse või negatiivse
polaarsusega piirkonnad. Magnetkettad on jagatud tuhandeteks klastriteks (clusters).
Konkreetne fail on jagatud osadeks, mis paiknevad eri klastrites. Kõvakettakontroller
tugineb faili asukohatabelile (file allocation table), kus on kirjas faili iga osa asukoht
klastrites. Faili osadest pannakse kokku lineaarne bittide jada. Bitijada liigub läbi kõvaketta draiveri tarkvara (input/output messaging subsystem) ja failisüsteemi draiveri tarkvara. Operatsioonisüsteem saadab bitijada edasi rakendustarkvarasse, mis on üles laetud ja töötab muutmälus (RAM, Random Access Memory). Rakendustarkvara peab ära
tundma info bitijada alguses (header information), et ta suudaks bitijada dekodeerida
ning esitada õiget kujundust ja vormingut kasutades. Samuti peab see ära tundma märkide kodeeringu (näiteks ASCII või Unicode UTF-8), mida kasutatakse teksti muutmisel loetavateks sümboliteks. Lõpuks saadab rakendustarkvara kuvamissignaalid operatsioonisüsteemi tarkvarasse ja sealt kuvari draiveri tarkvarasse. Sealt liiguvad signaalid
läbi emaplaadi graafikakaardile, mis saadab signaalid arvutimonitorile, kus elektrilised
signaalid lülitavad sisse vastavad pikslid. Nende kaudu esitatakse tekst meile nähtaval
kujul. Dokument, mida me näeme, esineb Microsoft Wordi dokumendina ainult loogilisel tasandil.
Kõik need füüsilised tasandid, kus digitaalne informatsioon asub ja kus seda töödeldakse, on vältimatult vajalikud, et anda infoobjektile struktuur, kuid need ei ole ise selle
infoobjekti struktuuriks. Digitaalse teabe esitluskuju ei ole seega jäigalt fikseeritud, vaid
see tekib iga kord tarkvarade abil bittide konkreetse tõlgendamise kaudu.
Digiobjektidel on kaks olulise eripära, ms on säilitamise seisukohalt olulised. Esiteks
võib ühel kontseptuaalsel objektil olla mitu digitaalset kodeeringut (loogilist objekti),
mis kõik säilitavad kontseptuaalse objekti olulised tunnused. Digitaalse objekti säilitamiseks peab teadma seoseid füüsiliste, loogiliste ja kontseptuaalsete objektide vahel.
Harva on see suhe üks-ühene st et ühele füüsilisele objektile vastab üks loogiline ja üks
kontseptuaalne objekt. Teiseks peab digitaalse objekti säilitamiseks olema võimalik
DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME?
identifitseerida ja taastada kõik selle digitaalsed komponendid. Objekti digitaalsed
komponendid on füüsilised ja loogilised objektid, mis on vajalikud kontseptuaalse
objekti esitamiseks. Need ei pea sugugi piirduma objektidega, mis esitavad dokumendi
sisu. Need võivad olla ka objektid, mis sisaldavad infot dokumendi struktuuri ja esituse kohta. Näiteks dokumendi välimuse säilitamiseks on vajalikud fonditeegid ja
HTML-lehtede jaoks stiililehed. Kui me kasutame andmebaasi, siis on vajalikud aruannete ja vormide spetsifikatsioonid. Ilma nendeta me ei tea, millise aruande kujul vastavad andmed esitati. Meil võib andmebaasi sisu olemas olla erinevates tabelites, mida
säilitatakse erinevates loogilistes ja füüsilistes objektides, aga pole võimalik konstrueerida kontseptuaalset objekti.
Digitaalse objekti säilitamine nõuab ka seda, et me töötleme seda õigesti. Füüsilisel
kujul bitijadana säilitatava dokumendi kasutamiseks on vaja see interpreteerida loogilise
objektina ja esitada seejärel kontseptuaalse objektina. Digitaalne säilitamine ei seisne
ainult füüsiliste objektide säilitamises, vaid tuleb säilitada võimet neid objekte esitada.
Seega on digitaalne säilitamise protsess on lahutamatult seotud nende objektide kasutamisega. Mitte kuidagi ei ole võimalik tõestada, et digitaalne objekt on säilinud, enne
kui see on esitatud kas inimesele või mingile arvutisüsteemile kasutataval kujul. See,
et kusagil mingi kõvaketta või CD peal on kogum mingeid füüsilisi märke, ei tähenda
digiobjekti seisukohalt just palju, kuigi ilma füüsiliste objektide säilitamiseta ei saa olla
olemas ka loogilisi ja kontseptuaalseid objekte. Kas digitaalse objekti säilitamiseks on
vajalik säilitada füüsilised ja loogilised komponendid ja nendevahelised suhted ilma igasuguste muutusteta? Tegelikult mitte. Säilitamiseks võib isegi olla vajalik muuta füüsilise ja loogilise objekti iseloomulikke tunnuseid. Näiteks võime me tekstidokumendi
oluliste omaduste säilitamiseks muuta selle PDF-failiks, seda tehes muudame me aga
nii füüsilist kui ka loogilist objekti.
5.2. Digiobjekti esitused
Kontseptuaalse objekti eraldamine füüsilisest ja loogilisest objektist tähendab ka seda,
et mitu füüsilist objekti võivad esitada ühte kontseptuaalset objekti. Digifotoaparaadiga
tehtud pilti säilitatakse RAW-failivormingus. Kasutamiseks tehakse RAW-failist koopia
JPG-failivormingus. Need failivormingud on füüsiliste ja loogiliste objektidena erinevad, kuid kujutavad ühte ja sedasama kontseptuaalset objekti. Tegemist on erinevate
andmeobjektidega, mida mõlemat saab kasutada, et luua täiesti ühesugust kontseptuaalset infoobjekti. Seega on tegemist ühe infoobjekti manifestatsioonide (manifestations) ehk esitustega (representations).
Väga oluline on eristada digiobjekti erinevaid esitusi eri versioonidest. Kui esitus on
digiobjekti tehnilise muudatuse tulemus, siis versioonid on sisuliselt erinevad ja kujutavad
endast uusi kontseptuaalseid objekte. Kui me RAW-failivormingus olevat pilti kuidagi
muudame, näiteks pöörame seda ja seejärel teeme muudetud failist koopia JPG-vormingus, on tegemist erinevate versioonidega, kuna kujutist ennast on muudetud.
Digiobjekti erinevate manifestatsioonide ja versioonide haldamine toimub metaandmete abil, mis kirjeldavad nii objekte kui ka protsesse, mille abil need on saadud.
53
54
DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME?
DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME?
Digiobjektide erinevus mitte-digitaalsetest artefaktidest
Esitatavad ja mitte-esitatavad objektid
Digiobjektid erinevad muudest objektidest järgmiste oluliste tunnuste poolest:
Esitatavad (rendered) on sellised digitaalsed objektid, mida arvuti esitab inimesele ning
mida inimene seejärel suudab interpreteerida neid vaadates-kuulates, varsti tõenäoliselt
ka kombates ja haistes. Selliste esitatavate objektide hulka kuulub enamik igapäevaselt
kasutatavaid failitüüpe – tekstidokumendid, tabelarvutusfailid, pildid, filmid jms.
Leidub aga ka terve rida digitaalseid objekte, millest arusaamiseks ei piisa lihtsalt nende
esitamisest, vaid on vajalik täiendav teave. Mitte sugugi kõikide digiobjektide korral
ei piisa nende kuvamisest arvutiekraanile. Mitte-esitatava objekti (non-rendered) väga
lihtsaks näiteks võib tuua joonisel 5.4 esitatud tabeli.
· iga kontseptuaalne infoobjekt võib esineda ühe või mitme erineva andmeobjekti
kujul, millest omakorda võib olla tehtud mitu identset koopiat;
· sisu (infoobjekt) on eristatud kandjast (andmeobjekt);
· infoobjekt tuletatakse andmeobjektist, kasutades vastavat esitusinfot (riist- ja tarkvara);
· infoobjekt esineb andmeobjekti mitme esitusena;
· esitused esinevad paljude füüsiliste koopiate kujul;
· autentsus on seotud infoobjekti ja selle esitustega, mitte füüsiliste koopiatega;
· võimalik on füüsilise taseme digiobjektide vigadeta kopeerimine;
· digiobjekte on võimalik lihtsalt muuta.
5.3. Digiobjektide klassifitseerimine
Digiobjekte võib, sõltuvalt eesmärgist, klassifitseerida erinevalt. Toome järgnevalt
mõned näited sellest, kuidas digiobjekte on võimalik jaotada (Giaretta 2011: 31–39).
Püüdmata anda ammendavat tüpoloogiat, on meie eesmärk näidata, kui erinevad
võivad digiobjektid olla. Selle erinevuse tõttu tuleb nende säilitamiseks kasutada ka
erinevaid meetodeid ja vahendeid. Ühel digitaalsel objektil võib loomulikult olla mitu
tunnust üheaegselt.
Lihtobjektid ja liit- ehk komposiitobjektid
Klassifitseerimisviis tugineb sellele, kas digiobjekti käsitletakse ühe tervikuna või lihtsamate osade kollektsioonina, liitobjektina (composite object). Komposiit- ehk kompleksobjekti näiteks võib tuua FITS9-faili, mis koosneb näiteks mitmest kujutisest ja
tabelist. Liitobjekti võib ette kujutada konteinerina, milles asetsevad teised liht- või ka
liitobjektid.
Säilitamise seisukohalt on see eristus oluline, kuna komposiitobjekte võidakse säilitamise lihtsustamiseks jagada osadeks, mida säilitatakse eraldi. Teisalt võib säilitamisega
probleeme tekkida siis, kui liitobjekti käsitletakse säilitusprotsessis lihtobjektina. Eristus liht- ja liitobjektideks ei ole kindlasti absoluutne, vaid sõltub suuresti käsitlusviisist.
Wordi tekstidokumenti vaadeldakse harilikult lihtobjektina, kuigi tegelikult on tegemist
keeruka struktuuriga objektiga, mis sisaldab infot lisaks sisule ka stiilide, teksti kujunduse jms kohta. Proovige näiteks DOCX-vorming ZIPiks ümber nimetada ja avada
ning te veendute selle komposiitsuses. Harilikult pole selle silmaspidamine aga oluline,
kuna tarkvara käsitleb Wordi faili tervikuna. Kui aga Wordi dokument sisaldab arvutustabeleid või jooniseid, siis neid töödeldakse eraldi. Sellisel juhul on mõistlik Wordi
faili käsitleda liitobjektina. Näiteks toodud FITS-fail on terviklik objekt, kuid tavaliselt
käsitletakse seda jällegi osade kaupa – vaadatakse ja vajadusel töödeldakse joonist 1,
seejärel joonist 2 jne. Üks failivorming võimaldab harilikult erinevaid võimalusi, seega
digiobjekti määratlemisel liht- või liitobjektiks tuleb lähtuda sellest konkreetsest objektist, mitte ainult objekti vormingust.
9
FITS ehk Flexible Image Transport System ehk paindlik pilditranspordisüsteem on astronoomias
piltide ja andmete esitamise standard.
1
2
X
4,2
7,5
Y
1,8
8,1
Joonis 5.4. Lihtne tabel
Arvuti suudab seda tabelit esitada, olgu see siis tekstivormingus (tabel1.txt) või näiteks
Exceli tabelina (tabel1.xls). Samas ei ole sellest tabelist võimalik sisuliselt aru saada
enne, kui on teada, mida tähistavad veergude ja ridade pealkirjad ning mis mõõtühikutes on tabelis antud arvud, mis võivad tähistada mingite objektide mõõtmeid, mingite
näitajate mõõtmistulemusi jne. Mitte-esitatavate digiobjektide korral on vajalik nende
täiendav töötlemine, et muuta nad inimesele mõistetavaks. See võib lihtsamal juhul
tähendada tabelitele vajaliku info lisamist, aga ka näiteks tabelis olevate arvude visualiseerimist või seostamist geograafiliste koordinaatidega ja kuvamist kaardile. Mitte-esitatavate digiobjektide hulka kuuluvad kõik programmifailid. Nende visuaalsel vaatamisel
ei saa enamik inimesi aru, mida see info endast kujutab. Programmi kasutamiseks on
tingimata vajalik see käivitada.
Staatilised ja dünaamilised objektid
Staatilised digitaalsed objektid on sellised, mille bitijada ei muutu, näiteks pildistatud
foto, kinnitatud dokument või väljaantud raamatu PDF-fail. Dünaamilised on aga sellised digitaalsed objektid, mis muutuvad – näiteks pidevalt täiendatav andmebaas või
veebilehekülg. Igal konkreetsel ajahetkel on dünaamiline digiobjekt tegelikult staatiline.
Sellist hetkelist väljavõtet süsteemist saab säilitada. Näiteks tehakse andmebaasist väljavõtted (snapshots) iga päeva lõpus. Säilitades kõik väljavõtted, tekib meil ettekujutus
dünaamilisest objektist. Tasub aga meelde jätta, et sellisel juhul ei ole meil tegemist
dünaamilise objekti enda säilitamisega. Dünaamilise digitaalse objektina võib käsitleda
ka mingit suuremat hulka digiobjekte, näiteks arhiivi ennast. Arhiiv sisaldab suurt hulka
digiobjekte, mis ise võivad olla staatilised, arhiiv tervikuna on aga dünaamiline, kuna
sinna tuleb pidevalt juurde uusi objekte.
Aktiivsed ja passiivsed objektid
Passiivne on digitaalne objekt, millega midagi tehakse. Näiteks on passiivne tekstidokument. Tekstitöötlusprogrammi abil saame me seda faili töödelda. Aktiivne on
selline digitaalne objekt, mis ise teeb midagi. Tekstitöötlustarkvara ise on aktiivne digitaalne objekt ja võib samuti nõuda säilitamist. Piir aktiivsete ja passiivsete digitaalsete
objektide vahel ei pruugi olla väga selge. Nii näiteks võib Access-andmebaasi käsitleda
55
56
DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME?
passiivse objektina, millega Access-tarkvara midagi teeb. Access-andmebaas võib aga
ise sisaldada tarkvara (näiteks makrosid), mis muudab jällegi andmebaasi enda aktiivseks objektiks.
Digitaalsed- ja hübriidobjektid (hybrid digital objects)
Digitaalsed objektid on sellised, mida defineerib täielikult nende digitaalne komponent.
Tekstifail on digitaalne, selle loomiseks ja kasutamiseks on küll vaja füüsilist seadet ja
inimest, kuid objekti enda määratleb täielikult selle digitaalne sisu. Hübriidobjektid on
sellised, milles kombineeruvad digitaalsed ja füüsilised komponendid, moodustades
lahutamatu terviku. Näideteks võib tuua arheoloogiliste objektidega seotud 3D-mudelid
ja visualiseeringud, aga ka mitmesugused digitaalsed kunstiobjektid, mis seovad samal
ajal ka füüsilisi objekte või nähtuseid (The Preservation of Complex Objects 2012).
Hübriidobjektidena võib käsitleda ka arvutimänge ja virtuaalseid maailmu (Second
Life, World of Warcraft), milles osalevad ja mida seega kaasloovad miljonid inimesed
paljude aastate kestel. Selliseid digiobjekte iseloomustab väga suur andmemaht, kiire
muutuvus ja erinevat tüüpi digiinfo sisaldus. Lisaks moodustavad kasutajad selliste
digiobjektide äärmiselt olulise komponendi. Second Life’i sisu ei moodusta mitte ainult
loodud maailm ja seal toimuv, vaid ka selle maailma kasutajad ise. Seega on vaja salvestada ka kasutajate käitumist, teha antroploogilisi uuringuid ning seostada need tark- ja
riistvaraga üheks tervikuks. Digitaalsed ja mittedigitaalsed objektid on lahutamatult
seotud. Juba arvuti ise koosneb digitaalsetest objektidest (tarkvara ja andmed) ning
neid töötlevatest mittedigitaalsetest osadest (riistvara).
MIDA TÄHENDAB MÕISTE “DIGITAALNE SÄILITAMINE”?
6. MIDA TÄHENDAB MÕISTE
“DIGITAALNE SÄILITAMINE”?
Lugenud läbi selle peatüki,
• tead, kuidas on määratletud digitaalset säilitamist;
• tead, kes moodustavad määratletud kasutajaskonna;
Digitaalse materjali säilitamise probleem kerkis kõigepealt teabeasutuste, ennekõike
arhiivide ja raamatukogude tasandil. Nüüdseks on selgeks saanud, et digitaalse säilitamise sihtgruppe on väga palju, alates riiklikest institutsioonidest ja lõpetades eraisikutega. Eri institutsioonid tegelevad erineva digimaterjali säilitamisega, samuti on säilitamisel erinevad eesmärgid. Ja nii on ka digisäilitamise probleemid loomulikult suuremal
või vähemal määral erinevad. Kui näiteks arhiivid keskenduvad dokumentide autentsuse säilitamisele, siis internetiarhiivid peavad säilitama mahukaid hüperlingitud failikogumeid.
Terminile „digitaalne säilitamine“ on pakutud hulk erinevaid määratlusi. Toome järgnevalt selle kohta mõned näited.
Digitaalse säilitamise koalitsiooni (Digital Preservation Coalition) määratlus on järgmine
(Digital preservation handbook 2016: Glossary): digitaalne säilitamine kujutab endast
juhitud tegevusi, mis on hädavajalikud tagamaks pidevat juurdepääsu digitaalsetele
materjalidele nii kaua, kui see on vajalik. Eristatakse erineva kestusega säilitamist:
· pikaajaline säilitamine (long-term preservation) – kestev juurdepääs digitaalsetele
materjalidele või vähemalt neis sisalduvale teabele lõpmatu aja kestel;
· keskpikk säilitamine (medium-term preservation) – kestev juurdepääs digitaalsetele
materjalidele sõltumata tehnoloogia muutustest kindla aja kestel, kuid mitte lõpmatult.
· lühiajaline säilitamine (short-term preservation) – juurdepääs digitaalsetele materjalidele kindla aja jooksul, mil neid tõenäoliselt kasutatakse, kuid mis ei ulatu kaugemale lähemast tulevikust, või kuni need tehnoloogia arengu tõttu kasutamatuteks
muutuvad.
OAIS mudelis määratletakse digitaalne säilitamine järgmiselt (The Consultative Committee 2012: 1–13): see on info hoidmine sõltumatult arusaadaval kujul määratletud
kogukonna jaoks koos tõenditega, mis kinnitavad selle autentsust pika aja kestel.
„Sõltumatult arusaadav kuju“ tähendab, et informatsioon on piisavalt täielik, et määratletud kasutajaskonnal oleks võimalik seda interpreteerida, mõista ja kasutada ilma
vajaduseta tugineda kitsalt kättesaadavatele spetsiaalsetele teadmistele, sealhulgas ka
inimestele. „Pika aja kestel“ tähendab ajaperioodi, mis on küllalt pikk selleks, et tekiksid probleemid, mis on seotud muutuva tehnoloogiaga, sealhulgas uute andmekandjate
ja andmevormingutega, ning määratletud kasutajaskonna muutuste mõjuga digihoidlas säilitatavale teabele. See ajavahemik ulatub täpsemalt määratlemata tulevikku.
Rõhutatakse vajadust tulla toime kiirete ja järskude tehnoloogiamuutustega, mis võivad
tegelikult toimuda vägagi lühikese ajaga.
Nagu on näha sellest definitsioonist, ei tähenda säilitamine mingi objekti, olgu see
siis esitatud analoogsel või digitaalsel kujul, lihtsat allesolekut või pelgalt olemasolu.
57
58
MIDA TÄHENDAB MÕISTE “DIGITAALNE SÄILITAMINE”?
MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS?
Oluline on inimeste võime seda objekti interpreteerida, kasutada ja mõista. Tegemist
on väga tähtsa aspektiga, mille tagamiseks ei piisa sellest, et näiteks mingit dokumenti
või fotot esitatakse inimesele nähtaval kujul. Lisaks peab olema võimalik tuvastada ka
selle dokumendi või foto tähendus. Informatsiooni tähenduse mõistmiseks võib olla ja
enamikul juhtudel ongi vajalik täiendava selgitava teabe olemasolu. See võib puudutada
näiteks dokumendi loomise aega, kohta ja loojat või siis näiteks fotol kujutatud isiku
nime ning pildistamise aega ja kohta. Säilitamise muudab keerukaks asjaolu, et see peab
tagama inforessursside kasutamise tulevikus. Millised on aga täpselt tulevikus esitatavad
nõuded infole ja millist infot üldse tulevikus vajatakse? Nendele küsimustele on võimatu
täpselt vastata, saab teha vaid võimalikult põhjendatud ja fikseeritud oletusi ning otsuseid.
7. MIS ON DIGIHOIDLA JA
SELLE MUDEL OAIS?
Määratletud kasutajaskond (designated community) kujutab endast identifitseeritavat
gruppi võimalikke kasutajaid, kes peavad olema võimelised mõistma mingit kindlat
infokogumit. Määratletud kasutajaskond võib koosneda mitmest eri kasutajagrupist.
Määratletud kasutajaskonna defineerib digiarhiiv ise ja see definitsioon võib loomulikult aja jooksul muutuda. Määratletud kasutajaskonnal on olemas teadmised ja oskused
digiarhiivis säilitatava teabe mõistmiseks ja kasutamiseks. Määratletud kasutajaskonna
teadmusbaas määrab ära selle, millist teavet tuleb digiarhiivis lisaks sisuobjektidele veel
säilitada. Selleks on vajalik määratletud kasutajaskonna selge ja piiritletud defineerimine, mis lubaks teha põhjendatud oletusi nende teadmusbaasi ulatuse kohta.
• mõistad info esitust OAIS mudelis;
Määratletud kasutajaskonna kontseptsioon tähendab seda, et infot säilitav institutsioon
määratleb, kellele ta seda teavet säilitab. Kasutajaskonna määratlemine teeb võimalikuks info säilitamise edukuse hindamise. Kui arhiiv teatab, et ta säilitab teavet laiale avalikkusele, siis saab seda väidet testida, vaadates, kas inimesed saavad säilitatavat teavet
kasutada ning kas nad suudavad seda interpreteerida, kasutada ja mõista. Ka identset
teavet säilitavad arhiivid võivad oma määratletud kasutajaskonna defineerida erinevalt,
näiteks võib see erinev olla teadusraamatukogul ja rahvaraamatukogul. Digiinfo säilitamise korral võib see tähendada erinevaid metaandmeid, mida koos teabega selle interpreteerimise, kasutamise ja mõistmise tagamiseks säilitada tuleb.
Ameerika Raamatukogude Assotsiatsiooni määratlus digisäilitamise kohta on järgmine:
digitaalne säilitamine kombineerib poliitikaid, strateegiaid ja tegevusi, et tagada juurdepääs info uuendamise teel saadud ning digitaalsena sündinud sisule, sõltumata andmekandjate vananemisest ja tehnoloogia muutustest. Digitaalse säilitamise eesmärk on
autentse sisu täpne esitamine läbi aja (Definitions of digital preservation 2007).
Kokkuvõtlikult võib öelda, et digitaalse säilitamise peamine ülesanne on tagada arhiveeritud teabe
· säilivus (arhiveeritud teave on füüsiliselt olemas);
· kasutatavus (arhiveeritud teavet on võimalik leida ja taasesitada);
· mõistetavus (arhiveeritud teavet saab esitada sihtrühmale arusaadaval kujul).
Lugenud läbi selle peatüki,
• mõistad, mis on digihoidla;
• oskad välja tuua digihoidla funktsioonid;
• tead, mis on OAIS raammudel ja mida see kirjeldab;
• tead, mis on infopaketid ja milleks neid kasutatakse;
• tead, millised nõuded kehtivad OAIS mudeliga vastavuses olevale digihoidlale.
Kus digitaalseid objekte säilitada? Lühike vastus sellele küsimusele kõlaks nii: digihoidlas, digiarhiivis või depositooriumis. Mida see aga täpsemalt tähendab? Tegemist on
ideega, mida võib realiseerida erineval viisil ja eri tasanditel. Ühe inimese digiobjektide
jaoks võib olla väikesemahuline ja lihtne hoidla, rahvusarhiivil aga kompleksne, keerukas ja suuremahuline hoidla, nagu muuseumi või raamatukogugi korral.
7.1. Digihoidla kontseptsioon
Digihoidla on inimeste, protsesside ja tehnoloogia kombinatsioon, mille eesmärk on
koguda, säilitada ja kättesaadavaks teha digitaalseid objekte. Digihoidla põhifunktsioonid on täpselt samasugused nagu kõikidel teistel mäluasutustel:
· info kogumine;
· info haldamine ja säilitamine;
· infole juurdepääsu tagamine.
1982. aastal asutati kosmose andmesüsteemide nõuandekomitee (Consultative Committee for Space Data Systems, CCSDS), mis ühendas kosmoseuuringute keskuseid, kes
olid huvitatud kosmoseuuringute jaoks standardite loomisest. See organisatsioon töötas
välja rahvusvahelise avatud arhiiviinfosüsteemi mudeli (Open Archival information System
Model, OAIS) (CCSDS 2012). Mudeli esimene versioon avaldati 1999. ja teine 2001. aastal.
2002. aastal avaldatud kolmas versioon sai 2003. aastal ametlikult ISO standardiks.
OAIS mudel kirjeldab digitaalset arhiivi ja selle teostamiseks vajalikke vahendeid viisil,
mis ei sõltu konkreetsetest organisatsioonilisest ega tehnilisest lahendusest. Tegemist
on formaalse, vägagi detailse ja põhjaliku mudeliga. Standard täidab mitut eesmärki,
kuid selle peamine ülesanne on pakkuda kooskõlalist mõistete ja terminite süsteemi,
mis oleks aluseks digitaalse säilitamise kavandamisele. OAIS raammudelis nimetatakse
arhiiviks inimestest ja süsteemidest koosnevat organisatsiooni, mille eesmärk on info
säilitamine ja selle kasutatavaks tegemine määratletud kasutajaskonnale ning mis vastab
selles standardis määratletud nõuetele. Arhiiv võib olla mingi ka suurema organisatsiooni osa. Digihoidla on määratud info pikaajaliseks säilitamiseks. Pikaajaline tähendab selles kontekstis selliseid ajavahemikke, mille jooksul tuleb tegemist teha tehnoloogia, näiteks andmekandjate ja failivormingute vananemisega või kasutajate kogukonna
59
60
MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS?
MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS?
muutustega. Raammudel keskendub digitaalsel kujul oleva info säilitamisele. Digitaalne
info võib seejuures olla nii säilitatav sisu ise, kui ka digitaalseid või füüsilisi objekte
kirjeldav teave. Mudel määratleb arhiivi ja selles säilitatava informatsiooni struktuuri,
samuti esitab see üldised nõuded digiarhiivi töövoogudele ning funktsioonidele. Raammudel ei määratle konkreetset arhiivi rakendust ega tehnilisi üksikasju, kuid kehtestab
OAIS arhiivi miinimumnõuded.
Tegemist on kontseptuaalse raamistikuga, mis rõhutab süsteemset lähenemist digisäilitamisele, käsitledes infosüsteemide arhitektuuri, standardeid, metaandmeid ja, tööriistu
kõikide oluliste protsesside läbiviimiseks. Vastavalt OAIS mudelile säilitavad digitaalsed
repositooriumid või hoidlad digiobjekte, võimaldavad neile ligipääsu, monitoorivad
digiobjektidega toimuvaid muudatusi ja säilitavad digiobjektide autentsust.
7.2. OAIS keskkond
LOOJAD
OAIS
KASUTAJAD
HALDAJAD
Joonis 7.1. OAIS keskkond
OAIS mudelis kirjeldatud digihoidla keskkonda on kujutatud joonisel 7.1. Väljapoole
digihoidlat jäävad info loojad, kasutajad ja haldajad. Info loojad on need isikud või
kliendisüsteemid, kes varustavad digihoidlat säilitamist vajava infoga. Tasub märkida, et
OAIS ei reguleeri otseselt sisendinfopaketi (SIP) loomist ega ülesehitust, seda käsitlevad info looja ja arhiivi seose spetsifikatsioon (Producer-Archive interface specification,
PAIS) ja info looja ja arhiivi seose metoodika abstraktne standard (Producer-Archive
Interface Methodology Abstract Standard, PAIMAS).
Haldajad määratlevad üldise poliitika ja arhiivi koha suuremas organisatsioonis, nad ei
tegele arhiivi igapäevase juhtimisega. Kasutajad on isikud või kliendisüsteemid, kes soovivad arhiivist saada seal säilitatavat teavet. Kasutajate erilise grupi moodustavad määratletud
lõppkasutajad. Tegemist on kasutajatega, kelle jaoks teavet arhiivis säilitatakse ja kes peavad
olema võimelised säilitatavat teavet mõistma. Kuna määratletud kasutajaskond ei pruugi
olla ajas püsiv, siis tuleb arvestada ka sellega, et säilitatava teabe kirjeldusi tuleb muutuste
korral uuendada ja täiendada, et teave oleks määratletud lõppkasutajatele alati arusaadav.
7.3. Info esitus OAIS mudelis
OAIS mudeli keskne idee on tõdemus, et teabe säilitamiseks ei piisa ainult digiobjekti
enda säilitamisest, vaid lisaks on vaja säilitada täiendavat teavet, nn esitusinfot (representation information) mis võimaldab kasutajal seda digiobjekti mõista. Esitusinfo
iseenesest ei ole omane ainult digitaalsetele infosüsteemidele. Näiteks juhul, kui me
ei oska ladina keelt väga hästi, vajame me ladinakeelse teksti mõistmiseks ladina-eesti
sõnaraamatut ja ladina keele grammatikat. Üldsegi oluline ei ole see, kas ladinakeelne
tekst, mida me loeme, on raamatus või arvutiekraanil. Digitaalsetes infosüsteemides on
esitusinfo olemasolu teabe mõistetavuse tagamiseks aga vältimatult vajalik. Infoobjekti
loogilise mudeli aluseks ongi idee, et informatsioon koosneb andmete ja kirjeldusinfo
kombinatsioonist: infoobjekt (information object) koosneb andmeobjektist (data
object), mis on kas füüsiline või digitaalne, ja esitusinfost, mis võimaldab andmete täielikku interpreteerimist tähenduslikuks informatsiooniks (joonis 7.2). Selline mudel
kehtib igasuguse digihoidlas oleva info kohta.
tõlgendatakse kasutades
ANDMEOBJEKT
ESITUSINFOT
saadakse
INFOOBJEKT
Joonis 7.2. Andmeobjekti interpreteeritakse selle esitusinfo abil ja saadakse infoobjekt.
Andmeobjekt võib olla kas füüsiline objekt koos esitlusinfoga või siis võib tegemist olla
digitaalse objektiga ehk ühe või mitme bitijärjestusega koos esitusinfoga, mis annab
sellele bitijadale tähenduse. Arvuti mälus või mõnel välisel andmekandjal on info esitatud bittidena, tegemist on andmetega. Kui need andmed kujutavad endast näiteks
ASCII-kodeeringus teksti, on nende mõistmiseks vajalik ASCII kooditabeli olemasolu.
Kooditabelit ei kasuta muidugi mitte inimene otseselt, vaid see asub andmeid kasutavas
arvutisüsteemis. Aga üldjuhul ei tule see kooditabel ka dokumendiga iseenesest kaasa.
Infoobjekt koosneb andmeobjektist, mis iseenesest võib olla nii füüsiline ese kui ka
digiobjekt, ja digitaalsel või analoogsel kujul olevast esitusinfost, mis võimaldab teabe
sellest andmeobjektist arusaadaval kujul kätte saada.
7.4. Esitusinfo OAIS mudelis
Esitusinfo annab digitaalse infoobjekti bittidele tähenduse, seades bitid vastavusse andmetüüpidega (märk, number jne), ning näitab nende kõrgema taseme tähendusi. Näiteks kui mõõdetakse kindlates geograafilistes punktides temperatuuri, siis peab esitusinfost selguma, et tabelis olevad kolm arvu kujutavad endast geograafilisi koordinaate ja
temperatuuri, mis on mõõdetud Celsiuse kraadides. Ilma sellise teabeta on need kolm
arvu võimaliku kasutaja jaoks ilma tähenduseta.
Digitaalse infoobjekti tähenduse säilitamiseks on kindlasti vajalik selle objekti esitusinfo
säilitamine. Selle väite selgitamiseks toome näite PDF-vormingus faili kohta. PDF-vormingus faili oskab kasutada igaüks, kes teab, millega on tegemist, ehk iga kasutaja, kelle
teadmusbaas sisaldab teavet PDF-failide kohta. Tänapäeval kuulub nende hulka ilmselt
enamik arvutikasutajatest. Kui kasutaja, kes ei tea, mis on PDF-fail, satub internetist
teavet otsides sellisele failile, siis enamikul juhul on kas dokumendis endas või seda levitaval veebilehel kirjas, et seda tüüpi failide lugemiseks on vajalik PDF-vaatur, mida on
võimalik internetist tasuta alla laadida. Kui selline teave puudub, leiab infot PDF-vormingu kohta hõlpsasti internetist, näiteks Vikipeediast.10 Samas tuleb arvestada sellega, et mitmed programmid võimaldavad luua PDF/A vormingus faile, aga kui neid
faile validaatoriga kontrollida, siis tuleb välja, et osa neist siiski ei vasta standardile, st
standardit on mingil põhjusel pisut erinevalt tõlgendatud, ja see on digitaalse informatsiooni säilitamise seisukohast äärmiselt ohtlik.
Kaugemas tulevikus ei pruugigi PDF-vormingus failide kasutamine olla lihtne.
Oletame, et mingil põhjusel kaob selline failivorming kasutusest, näiteks asendatakse
10
Vt: PDF. Wikipedia. http://en.wikipedia.org/wiki/Portable_Document_Format
61
62
MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS?
MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS?
lihtsama ja mugavama vorminguga. Kui kasutaja teadmusbaas ei sisalda teavet PDFfaili kohta ja seda pole ka väga lihtne hankida, vajab ta vastavat esitusinfot. Selle hulka
kuulub kindlasti PDF-failivormingu standard (PDF Reference 2006), mida ei ole ilmselt
mõttekas säilitada PDF-failina. Kõige lihtsam on see välja printida ja paberdokumendina säilitada. Paberdokumendi säilitamise ja kasutamise kohta on teave olemas ja seda
ei ole vaja esitusinfo hulka lisada. Digitaalsel kujul võiks kasutada lihtsat tekstivormingut, näiteks ASCII tekstifaili. Esitusinfo hulka kuulub sellisel juhul ka selle vormingu
kirjeldus ja kasutamiseks vajalik tarkvara. Tekstifaile kasutada võimaldavaid tekstiredaktoreid on erinevaid, osa neist töötavad mingil kindlal operatsioonisüsteemil, näiteks
Notepad Windowsi platvormil või TextEdit MacOs operatsioonisüsteemil. Paljud
tekstiredaktorid, nagu näiteks Vim, Geany, Alphatk jt, töötavad erinevate operatsioonisüsteemidega. Kui on olemas tekstivormingu kirjeldus, siis saab sellele programmeerida
vastava redaktori. Kui otsustatakse säilitada mõni olemasolevatest tekstiredaktoritest,
tuleb esitusinfos säilitada ka nende kirjeldused ning vastavate operatsioonisüsteemide ja
riistvara kirjeldus. Alternatiivseks võimaluseks PDF-tarkvara kasutamisele või vastava
tarkvara väljatöötamisele spetsifikatsioonidele tuginedes on PDF-faili enda analüüsimine ja andmete kättesaamine. Sellise strateegia korral on vajalik dokumendi andmete
kirjeldus mingis andmete kirjeldamise keeles (data description language). Esitusinfo
peab sisaldama vastava keele spetsifikatsiooni ning vajalik on tarkvara, mis võimaldab
säilitatud PDF-faile analüüsida. Tarkvaral omakorda on jällegi dokumentatsioon, mis
tuleb samuti säilitada.
Seega kokkuvõtteks võib tõdeda, et:
· kõik infoobjektid koosnevad andmeobjektist ja esitusinfost (joonis 7.3);
· andmeobjekt võib olla nii füüsiline ese (paberileht, raamat, foto) kui ka digiobjekt
(näiteks fail);
· digiobjekt koosneb ühest või mitmest bitist;
· andmeobjekti interpreteerimiseks kasutatakse esitusinfot;
· esitusinfo enda interpreteerimiseks kasutakse täiendavat esitusinfot.
INFOOBJEKT
tõlgendatakse
kasutades
ANDMEOBJEKT
FÜÜSILINE
OBJEKT
tõlgendatakse
kasutades
DIGITAALNE
OBJEKT
BITT
Joonis 7.3. Infoobjekt OAIS mudelis
ESITUSINFOT
Olukorra muudab keerukaks esitusinfo rekursiivne iseloom. Esitusinfo koosneb samuti andmetest ja nende mõistmiseks vajalikust esitusinfost. See tähendab, et esitusinfo
mõistmiseks võib olla vaja täiendavat esitusinfot, moodustub esitusinfoobjektide võrgustik ehk esitusvõrgustik (representation network). Minimaalselt vajaliku esitusinfo
määratlemine eeldab, et on olemas ettekujutus määratletud lõppkasutajate teadmusbaasist. Määratletud lõppkasutajad koos teadmusbaasiga ei ole staatilised, seega võib mingi
aja möödudes tekkida vajadus esitusinfot täiendada. Esitusinfo ise on samuti infoobjekt
ning võib esineda nii füüsilisel kujul (näiteks paberdokumendina) kui ka digitaalsena.
Kui esitusinfo on digitaalne, siis on vajalik täiendav esitusinfo, mis aitaks mõista esmase
esitusinfo bittide tähendust. Sellele viitab enesele suunatud nool infoobjekti skeemil
(joonis 7.3, interpreteeritakse kasutades).
OAISi määratluse kohaselt on esitusinfoobjektide võrgustik esitusinfo kogum, mis täielikult kirjeldab andmeobjekti tähendust. Digitaalsel kujul esitatud esitusinfo nõuab ise
täiendavat esitusinfot, mis tagaks selle mõistetavuse pika aja kestel. Näiteks kirjeldab
standard ISO 9660 teksti kui ASCII-kodeeringule vastavat. Kuidas ASCII-kodeeringut
rakendatakse, seda ei täpsustata. Seega moodustab osa standardi 9660 esitusvõrgustikust ASCII standard, mis on vajalik selle täielikuks mõistmiseks.
On väidetud, et esitusinfoobjektide võrgustik lõpeb siis, kui jõutakse mingil teisel
kujul esitatud teabeni, näiteks trükitud standardi, raamatu või juhendini. Sellisel juhul
loome me uuesti seose mittedigitaalse teabega ja see paneb piiri esitusinfoobjektide
rekursiivsele võrgustikule (Giaretta 2011: 20). Põhimõtteliselt kestab selline rekursiivne
viitamine kuni füüsilisel kujul esineva teabeni, mis on määratletud kasutajaskonnale
arusaadav. Mitte nii range lähenemise korral öeldakse, et esitusinfot on piisavalt, kui
määratletud kasutajaskond, tuginedes oma teadmusbaasile, saab selle abil andmeobjekti
kasutada. Näiteks ASCII-kodeeringus esitusinfo nõuab täiendavat esitusinfot ASCIIkodeeringu kohta. Kui see esitusinfo kujutab endast paberkandjal ASCII-standardit, siis
rohkem esitusinfot vaja ei ole. Kui see standard on aga esitatud näiteks PDF-failina, siis
on vajalik ka täiendav esitusinfo PDF-standardi kohta, mis võib näiteks olla paberkandjal. PDF-failide kasutamiseks on aga vajalik vastav tarkvara, see võidakse PDF-standardile tuginedes uuesti kirjutada või siis säilitatakse vastav olemasolev tarkvara, näiteks
Acrobat Reader. Kui eelistame viimast varianti, on vaja tegelda ka selle tarkvara säilitamisega. Tänapäeva määratletud kasutajaskonnale on PDF ilmselt vägagi tuntud failivorming ja selle kasutamist võimaldav tarkvara kättesaadav, kuid see ei pruugi olla samamoodi näiteks 50 aasta pärast.
Vajaliku esitusinfo hulk sõltub otseselt digiobjektide kasutajatest ehk määratletud kasutajaskonnast ja selle teadmusbaasist. Kasutajaskonna teadmusbaas on pidevas muutumises, sõltudes tehnoloogia arengust, kasutajatele ligipääsetavastest vahenditest, nende
vajadustest, mugavusest jms. Teavet, mis on määratletud kasutajaskonnal olemas ja millele ta vabalt ligi pääseb, ei ole vaja esitusinfos täielikult fikseerida. Näiteks ei ole tänapäeval PDF-failina säilitatava dokumendi esitusinfos vajalik märkida midagi peale selle,
et see dokument on PDF-vormingus. Võib veel lisada lingi Acrobat Readeri allalaadimiseks. Teadmine, kuidas kasutada PDF-faile on tänapäeval üldlevinud. Samas pikemas
perspektiivis ei pruugi see sugugi nii jätkuda.
Määratletud kasutajaskonnad võivad loomulikult olla väga laiaulatuslikud ja erinevad.
Ajalooarhiivi või raamatukogu kasutajateks on erinevad inimgrupid, kellel on ka väga
erinevad teadmised ja oskused digiandmete kasutamise ja tõlgendamise osas. Esitusinfo
koosneb seega suuresti erinevatest standarditest. Oluline on otsustada, milliseid neist
on võimalik ja vajalik konkreetses digiarhiivis säilitada ja millistele saab viidata.
63
64
MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS?
MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS?
7.5. Esitusinfo tüübid OAIS mudelis
7.6. Infoülekanded OAIS mudelis
Esitusinfo jagatakse struktuurseks, semantiliseks ja muuks infoks (joonis 7.4). Struktuuriesitusinfo käsitleb info vormingut, semantiline on seotud ontoloogiate ja andmesõnastikega ning muu info alla võib panna kõikvõimalikku muud olulist teavet.
Info esitamine loojate poolt digihoidlasse ja selle kasutamine kasutajate poolt toimub
diskreetsete infoülekannetena (transmission). Nende infoülekannete käigus tervikuna
edastatavat teavet määratletakse infopaketina (information package). Pakett tähendab
seda, et erinevad digitaalsed objektid seotakse kokku. Sisuinfo koosneb andmeobjektist ja esitusinfost, mis peavad olema kontseptuaalselt seotud. See sidusus tagataksegi
infopakettide abil. Infopakett on kontseptuaalne konteiner (conceptual container), mis
sisaldab kahte tüüpi informatsiooni – sisuinfot (content information) ja säilituskirjelduse
infot (preservation description information, PDI). Sisuinfo ja säilituskirjelduse info on
kapseldatud ja identifitseeritav paketiinfot (packaging information) kasutades (joonis
7.5). Infokogum on leitav kirjeldusinfo (descriptive information) abil.
tõlgendatakse
kasutades
ESITUSINFO
SÄILITUSKIRJELDUSE
INFO
SISUINFO
STRUKTUURIINFO
lisab
tähenduse
SEMANTILINE
INFO
MUU
ESITUSINFO
Joonis 7.4. Esitusinfo objekt OAIS mudelis
PAKETIINFO
PAKETT 1
Struktuuriinfo (structure information) on seotud bittide vastavusseseadmisega andmetüüpidega ja andmetüüpidele kõrgema taseme tähenduste andmisega. Need struktuurid
identifitseeritakse nimega või suhtelise asukohaga bitijärjestuses. Struktuuriinfole viidatakse sageli kui digiobjekti vormingule. Struktuuriinfost tavaliselt ei piisa andmeobjektist arusaamiseks. Näiteks kui digitaalne objekt koosneb kirjamärkidest ja see on esitusinfos kirja pandud, on täiendavalt vaja teada, millises keeles see tekst on. See täiendav
teave on semantiline info (semantic information). Semantiline info annab tähenduse
kõikidele struktuuriinfo elementidele, operatsioonidele, mida võib iga andmetüübiga
sooritada, ja nendevahelistele seostele. Lisaks struktuuri- ja semantilisele infole võib
esitusinfo sisaldada väga erilaadilist teavet. Sisu andmeobjektist arusaamiseks võib vaja
minna tarkvara, algoritme, krüpteeringuid jne. Selline esitusinfo grupeeritakse muu
esitusinfo (other representation information) alla.
Kaks spetsiifilist esitusinfo tüüpi on esitusinfot esitav tarkvara (representation rendering
software, RRS) ja rakendustarkvara. RRS võimaldab esitada esitusinfot arusaadaval
kujul. Kui meil on tegemist ASCII-standardit kirjeldava dokumendiga, mida säilitakse
PDF-failina, siis selle faili kasutamiseks vajalik tarkvara kujutabki endast RRSi. AS kujutab endast tarkvara, mis esitab infoobjekti kogu sisu või ainult osa sellest inimestele
või tehnilistele süsteemidele mõistetaval kujul. See tarkvara võib pakkuda ka võimalusi
infoobjekti töötlemiseks. Tüüpiliseks näiteks on tekstitöötlustarkvara. Digihoidla ülesandeks ei ole tingimata sellise tarkvara säilitamine ja kasutatavana hoidmine. Väga sageli
on tegemist kommertstarkvaraga, millega tegelevad vastavad ettevõtted. Kui on aga
tegemist mingi spetsiifilise tarkvaraga, mis on teatud tüüpi infoobjektide esitamiseks
hädavajalik, siis võib digihoidla tegeleda ka selle säilitamisega. AS, mida kasutatakse
digiobjekti esitamiseks, ei asenda esitusinfot selle digiobjekti kohta. Probleem on selles,
et AS lähtekoodist võib olla raske vajalikku esitusinfot eraldada, kuna see on seal koos
mitmesuguste töötlus- ja esitusalgoritmidega, samuti ei pruugi AS lähtekood sisaldada
täielikku esitusinfot.
KIRJELDUSINFO
PAKETT 1 KOHTA
Joonis 7.5. Infopakett OAIS mudelis
Infopakett võib olla, kuid ei pea olema üks fail. Tegemist on loogilise konstruktsiooniga,
kus erinevad infoobjektid on seotud. See sidusus tagatakse paketiinfo vahendusel.
Paketiinfost on näha, kas pakett moodustub ühest failist või failide kogumist või on
tegemist näiteks kogumi baitidega. Vaatame järgnevalt infopaketti kuuluvat teavet.
Sisuinfo on see primaarne info, mille säilitamine on eesmärgiks. Sisuinfo koosneb füüsilisest või digitaalsest sisuandmeobjektist (content data object) ja sellega seotud esitusinfost, mis on vajalik sisuandmeobjekti mõistetavaks tegemiseks määratletud lõppkasutajatele. Säilituskirjelduse info (preservation description information, PDI) on
seotud konkreetse sisuinfoga ja selle eesmärk on tagada sisuinfo säilivus. Säilituskirjelduse info võimaldab sisuinfot täpselt identifitseerida ja aitab mõista selle loomise konteksti. PDI keskendub sisuinfo varasema ja praeguse seisu kirjeldamisele, tagades selle
identifitseeritavuse ja selle, et keegi ei ole autoriseerimatult sisu muutnud. Tegemist on
sisuinfot kirjeldavate metaandmetega. PDI jaguneb viide tüüpi: päritoluteave, kontekstiteave, viited, püsivusteave ja juurdepääsuõigused. PDI, nagu igasugune muu säilitatav
digiinfo, vajab vastavat esitusinfot, mis tagab selle mõistetavuse ja kasutatavuse.
Päritoluteave ehk provenients (provenance information) on info, mis dokumenteerib
sisuinfo ajaloo. See kirjeldab sisuinfo päritolu või selle allikat ning kõikvõimalikke
pärastisi muutusi ja töötlusi, aga ka seda, kes on info säilitamisega tegelenud ja selle
65
66
MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS?
autentsuse eest vastutanud. See võimaldab jälgida kõiki selle infoga toimunud muutusi,
andes tulevikus selle info kasutajatele suurema kindluse info autentsuse suhtes. Arhiiv
vastutab päritoluinfo loomise ja säilitamise eest alates sisuinfo vastuvõtmisest arhiivi,
varasem päritoluteave pärineb info üleandjalt. Päritoluteabe saab jagada tehniliseks ja
mittetehniliseks. Tehniline päritoluteave hangitakse ja salvestatakse üldjuhul automaatselt vastav tarkvara abil. Mittetehniline päritoluteave puudutab näiteks inimesi, kes selle
sisuinfo eest vastutavad. Sisuinfo mõne osa täpsemaks kirjeldamiseks võidakse kasutada
täiendavat teavet. Sellist infoobjekti mõnda tunnust täpsustavat teavet nimetatakse infotunnuse kirjelduseks (information property description).
Kontekstiteave (context information) dokumenteerib sisuinfo seoseid keskkonnaga.
Nende seoste hulka kuulub teave selle kohta, miks sisuinfo loodi ja kuidas on see seotud teiste (ükskõik kus asuvate) sisuinfodega. OAISi raames käsitletakse kontekstiinfot
mõnevõrra kitsamalt, võrreldes konteksti tavapärase tähendusega, mille kohaselt konteksti alla kuuluks ka päritoluinfo.
Viidete (reference information) all tuuakse ära nii digihoidla sisemised kui ka süsteemivälisedsüsteemivälised identifikaatorid, mis identifitseerivad unikaalselt selle sisuinfo.
Sellisteks süsteemideks on bibliograafiad, kataloogid, indeksid, taksonoomiad, viitesüsteemid (reference systems), registreerimissüsteemid (registration systems). Näiteks võib
tuua raamatu ISBN-numbri. Vajaduse korral kirjeldatakse ka mehhanisme, mida kasutatakse sisuinfole identifikaatorite loomiseks. Enamik sellest infost sisaldub ka paketi
kirjelduses, mis võimaldab kasutajatel vajaliku sisuinfo üles leida. Viiteinfo alla kuuluvad
ka püsivad identifikaatorid, mis kujutavad endast pikaajalise püsivusega viiteid digitaalsetele objektidele (Hilse Kothe 2006; Hakala 2010).
MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS?
Tabel 7.1. Säilituskirjelduse info näited (CCSDS 2012)
Sisuinfo
tüüp
Viited
Päritoluteave
Kontekst
Püsivusteave
Juurdepääsuõigused
Kosmose- objekti
uuringute identifiinfo
kaator,
artikliviide,
missioon,
instrument,
pealkiri,
omaduste
komplekt
instrumendi kirjeldus, uurimisgrupi
juht, töötlemise
ajalugu, säilitamise
ja käsitsemise
ajalugu, sensori
kirjeldus, instrument, instrumendi
töörežiim, kommunikatsioonisüsteemide mudel,
tarkvara, info omaduste kirjeldused
kalibreerimise ajalugu, seotud
andmegrupid,
missioon,
rahastamise
ajalugu
tsükkelkoodi kontroll,
kontrollsumma,
ReediSolomoni
kodeering
autoriseeritud
määratletud kasutajate identifitseerimine (juurdepääsu kontroll),
load andmete
säilitamiseks ja
levitamiseks,
viidad püsivus- ja
päritoluteabele
(nt digiallkirjad ja
õiguste omanikud)
Digiraamatukogu
kogud
digitud kogude
korral:
viited seotud dokumentidele
algses
keskkonnas
avaldamise
hetkel
digiallkirjad,
kontrollsummad,
autentsuseautentsuse
identifikaator
juriidiline raamistik, litsentseerimised, õiguste
tagamist toetavad
meetmed info
levitamise etapis,
säilitamise ja levitamisega seotud
õigused, info
digitaalsete vesimärkide kohta,
mida on rakendatud objektide
vastuvõtmisel ja
säilitamisel,
viited püsivus- ja
päritoluteabele
(nt digiallkirjad ja
õiguste omanikud)
abifail, kasutusjuhend,
seotud tarkvara, keel
sertifikaat,
kontrollsumma,
krüpteering,
tsükkelkoodikontroll
määratletud kasutajaskond, juriidiline raamistik,
litsentseerimised,
õiguste tagamist
toetavad meetmed
info levitamise etapis, viited püsivusja päritoluteabele
(nt digiallkirjad ja
õiguste omanikud)
bibliograafiline kirjeldus, püsiv
identifikaator
algselt digimaterjali korral:
Püsivus-, kinnistus- ja terviklikkusteave (fixity information) on info, mida kasutatakse
sisuinfo kaitsmiseks volitamata muutmise eest. Tuuakse ära andmeterviklikkuse kontrollkoodid ja õigsuse kontrolliks kasutatavad krüpteeringud, samuti kodeerimis- ja
veaavastuskoodid, näiteks sisuinfo kontrollsumma.11 Kontrollsummade leidmiseks
kasutatavad algoritmid ja meetodid tuleb dokumenteerida.
viide digioriginaalile;
säilitusprotsessi
metaandmed:
viited varasematele versioonidele,
muutuste ajalugu,
infotunnuse
kirjeldus
Juurdepääsuõigused (access rights information) kujutavad endast teavet sisuinfo kasutuspiirangute kohta: õiguslikud piirangud sisuinfo kasutamisel, arhiivi õigused sisuinfo
säilitamisel jms. Juurdepääsuõigused sisaldavad sisuinfo kasutus- ja levitustingimusi, nii
nagu need on kokku lepitud üleandmise-vastuvõtmise lepingus (submission agreement).
Mõned näited säilituskirjelduste info kohta on toodud tabelis 7.1.
Tarkvarapaketid
11
Räsiväärtused (hash), nagu näiteks CRC-32, MD-5, RIPEMD-160, SHA, HAVAL kontrollivad
bitijadade samasust.
digimisprotsessi
metaandmed,
viide masterversioonile;
nimi, autor/
looja,
versiooni
number,
seeria
number
paranduste ajalugu, registreerimine, autoriõigus,
infotunnuse
kirjeldus
Määratletud kasutajaskonnast lähtuv digihoidla säilituseesmärk on täidetud, kui kõik
OAIS mudelis ette nähtud infoobjektid on varustatud piisava teabega.
67
MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS?
MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS?
Info pakendamine (packaging) tähendab infoobjektide seostamist loogilisel ja füüsilisel
tasemel. Loogilise infopaketi korral ei asu seostatud infoobjektid ühes failis. Füüsilise
pakendi korral asuvad failid ühes konteinerfailis, näiteks erinevad failid ühes ZIP-failis.
Mõlemal juhul on vaja fikseerida failidevahelised seosed. Info pakendamiseks on olemas
erinevaid süsteeme – IMS-sisu pakendamine (IMS Content Packaging), SOAP (Simple
Object Access Protocol – objektipöördusprotokoll struktureeritud info veebis vahetamiseks), METS (Metadata Encoding and Transmission Standard), XFDU (XML Formatted
Data Unit) jt.
Paketiinfo on info, mis aktuaalselt või loogiliselt seob, identifitseerib ja suhestab sisuinfo ja PDI. Kui näiteks sisuinfo ja PDI on määratletud kui spetsiifiliste failide sisu ning
failid asuvad füüsiliselt CD-ROMil, on pakendiinfo CD-ROMi failide struktuur vastavalt
standardile ISO 9660 ning failide ja kataloogide nimed.
Paketi kirjeldusinfo aitab kindlaks teha, millises paketis asetseb meid huvitav sisuinfo.
Lisaks info säilitamisele peab digihoidla pakkuma kasutajale piisavat teavet, et ta suudaks endale vajaliku teabe üles leida, seda analüüsida ja endale vajalikku teavet tellida.
See toimub spetsiaalsete infoobjektide abil, mida nimetatakse kirjeldavaks infoks. Kirjeldav info on sisendiks dokumentidele või rakendustele, mida nimetatakse otsivahenditeks või abideks (access aids) ning mida kasutatakse info asukoha kindlaksmääramisel,
analüüsimisel, väljaotsimisel ja tellimisel. Kirjeldav info tuletatakse üldjuhul sisuinfost
ja PDIst. Kirjeldavat infot võib käsitleda indeksina, mis võimaldab ligipääsu vajalikule
infopakendile otsivahendite vahendusel.
OAIS mudelis eristatakse kolme tüüpi infopakette (vt joonis 7.6): arhiivi antakse üle
sisendinfopaketid (submission information package, SIP),), arhiivis säilitatakse arhiiviinfopakette (archival information package, AIP)) ja kasutamiseks antakse väljundinfopakett (dissemination information package, DIP).).
AIP konkreetne rakendus sõltub arhiivist. See, milline info sisaldub SIPis ja DIPis, ning
nende suhted vastavate AIPdega sõltuvad konkreetse arhiivi kokkulepetest info loojate
ja kasutajatega. Kasutajale esitakse info DIPi kujul, mis ei pruugi sisaldada kogu esitusinfot või kõiki PDIsid. Üks DIP võib sisaldada ühe AIP, aga samuti ka osa AIPst või
mitu AIPd. DIPs võib olla ainult osa AIP PDIst.
7.8. OAIS funktsionaalne mudel
OAIS funktsionaalne mudel kuue peamise funktsionaalse üksusega on esitatud joonisel 7.7.
SÄILITAMISE PLANEERIMINE
Kirjeldused
ANDMEHALDUS
Kirjeldused
päringud
VASTUVÕTT
SIP
JUURDEPÄÄS
SÄILITAMINE
AIP
päringuvastused
tellimused
AIP
DIP
HALDUS
Haldajad
INFO LOOJA
Sisendinfopakett
(SIP)
saabunud üks või mitu SIPi muudetakse üheks või mitmeks AIPks. Ühest SIPist
võidakse moodustada üks AIP, aga samuti võivad ühe AIP moodustada mitu SIPi ja
vastupidi. SIP ei pruugi sisaldada piisavalt esitusinfot või PDIsid. Samuti võib digihoidlasse saabuv teave olla organiseeritud teistmoodi, kui seal säilitatav info.
Kasutajad
7.7. Info pakendamine ja infopaketid OAIS mudelis
Andmeallikad
68
DIGIHOIDLA
Väljundinfopakett
(DIP)
d
d
gu use
t
rin
s
pä
va
ed
gu
us
rin
m
pä
lli
te
Arhiiviinfopakett
(AIP)
Joonis 7.7. OAIS funktsionaalne mudel
INFO KASUTAJA
Joonis 7.6. Infopaketid OAIS mudelis
SIP on pakett, mille saadab digihoidlasse info looja. Selle täpsem vorm ja sisu sõltub
info looja ja hoidla haldaja kokkuleppest. SIP sisaldab sisuinfot ja sellega seotud PDIsid.
Samas võib sisuinfo ja sellega seotud PDIde esitamiseks vaja olla mitut SIPi. Nii sisuinfo
kui ka PDId omavad esitusinfot. Kui mitmel SIPil on ühesugune esitusinfo, siis edastatakse see digihoidlasse ühekordselt. Kui ühest allikast tuleb mitu SIPi, millel on ühine
PDI, siis võidakse viimane esitada eraldi SIPina, kus ei ole sisuinfot. Digihoidlasse
Digitaalsed andmed SIPide kujul võetakse vastu vastuvõtuprotsessi (ingest) käigus.
Vastuvõtufunktsioon hõlmab SIPide vastuvõtmist, nende kvaliteedi hindamist, AIP
loomist, kirjeldava info (descriptive information) eraldamist AIPst selle lisamiseks
arhiivi andmebaasi.
Arhiivisäilituse (archival storage) funktsioon on tagada AIP säilitamine, haldamine ja
otsingud. AIP võetakse vastuvõtust ja lisatakse püsivasse hoidu (permanent storage),
tagatakse püsiva hoiu süsteem, andmete värskendamine ja säilitusmeediate vahetus,
vigade kontroll, ohuplaneering ning AIP esitamine kasutamisse infonõuete täitmiseks.
Andmehaldusfunktsioon (data management) tagab kirjeldava info ja arhiivi haldamiseks kasutatavate administratiivsete andmete kogumise ja hoolduse ning ligipääsu neile.
See sisaldab arhiivi andmebaasi administreerimist, andmete värskendamist andmebaasis, päringute teostamist.
Administreerimisfunktsioon (administration) tagab kogu arhiivisüsteemi toimimise.
See hõlmab kokkulepete sõlmimist info loojatega, saabuva info auditeerimist, et see
vastaks arhiivi nõuetele, arhiivi riist- ja tarkvara haldamist, samuti arhiivi süsteemide
toimimise jälgimist ja täiustamist, arhiivis säilitatava teabe inventuuri ning vajadusel
69
70
MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS?
migreerimist ja täiendamist. Ka arhiivi standardite ja poliitikate kehtestamine ja jälgimine on selle funktsiooni osaks.
Säilitamise kavandamise funktsioon (preservation planning) tagab keskkonna jälgimise
ning esitab soovitusi ja säilituskavasid tagamaks, et digihoidlas säilitatav teave oleks
määratletud kasutajaskonnale kasutatav ja mõistetav ka siis, kui algne riist- ja tarkvarakeskkond iganeb. See funktsioon hõlmab arhiivis säilitatava teabe hindamist, soovitusi täiendamiseks ja migreerimiseks ning standardite ja poliitikate ajakohastamiseks,
riskianalüüside teostamist, tehnoloogiliste arengute ning määratletud kasutajaskonna
vajaduste ja teadmusbaasi muutuste jälgimist. Samuti koostatakse infopakettide mallid,
detailsed migreerimiskavad, tarkvaraprototüübid ja testimiskavad, mis tagavad administreerimisfunktsiooni poolt määratletud migreerimiseesmärgid.
Juurdepääsufunktsioon (access) toetab kasutajaid, pakkudes teavet arhiivis säilitatava
teabe olemasolu, sisu, asukohtade ja kättesaadavuse kohta. Võimaldab kasutajatel esitada päringuid ja saada neile vastuseid. Juurdepääsufunktsioon hõlmab kasutajatega
suhtlemist, piirab kaitstud info kasutamist, koordineerib päringutele vastamist, koostab
vastused (DIP, päringuvastused, raportid) ja toimetab need kasutajateni.
Lisaks eeltoodutele eeldab digiarhiivi toimimine pajude toetavate, üldkasutatavate
teenuste (common services) olemasolu. Nende hulka kuuluvad tarkvarade toimimisega
seotud protsesside käigushoid ja juhtimine, võrguteenuste tagamine, turvalisus.
7.9. OAIS mudeliga kooskõlas olev digihoidla
OAIS mudeliga kooskõlas olev arhiiv kasutab sama infoesitusmudelit ning täidab kõik
arhiivile esitatavad kohustuslikud nõuded. OAIS ei määratle ega nõua mingit kindlat
tehnilise rakenduse viisi ega platvormi. Kohustuslikud nõuded OAIS kooskõlalisele
digihoidlale on järgmised.
· Metaandmete hankimine info loojatelt. Info loojatega peab olema kokkulepe, mille
kohaselt edastavad nad arhiivi lisaks sisuinfole ka esitusinfo (representation information) ja säilituskirjelduse info (preservation description information). Ilma vajaliku
metaandmestikuta, millest suur osa pärinebki info loojatelt, on teabe säilitamine võimatu. OAIS ei määratle täpsemalt selle kokkuleppe sisu ega vormi, seda käsitlevad
näiteks sellised standardid nagu PAIMAS (CCSDS 2002) ja PAIS (CCSDS 2013).
· Arhiivil on teabe pikaajaliseks säilitamiseks vajalik füüsiline ja õiguslik kontroll selle
üle. Ilma selleta on info pikaajaline säilitamine võimatu. Füüsiline kontroll, mis tagatakse digiobjektide säilitamisega arhiivi halduses olevas digihoidlas, on vajalik näiteks bittide olemasolu tagamiseks (bitijada kopeerimine). Õiguslik kontroll, mis eeldab vastavate lepingute ja seaduste olemasolu, on vajalik selleks, et tagada digiteabe
kopeerimine ja migreerimine.
· Arhiiv teeb kindlaks määratletud lõppkasutajaskonna ja piiritleb tema teadmusbaasi,
et oleks võimalik kindlaks teha vajaliku esitusinfo hulk. Määratletud kasutajaskonna
defineerimist OAIS lähemalt ei käsitle.
· Arhiiv tagab säilitatava teabe sõltumatu arusaadavuse määratletud kasutajaskonnale.
Määratletud kasutajaskond peab suutma infost aru saada ilma spetsiaalsete ressurssideta, näiteks ilma info loojate või ekspertide abita. Tegemist on pideva ülesandega,
kuna määratletud kasutajaskonna teadmusbaas muutub ajas. Selle kohustuse tagamiseks peab arhiivil olema vajalik esitusinfo – arhiiv peab olema võimeline seda infot
MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS?
looma või peab tal olema juurdepääs vajalikule infole. Samuti peab arhiiv suutma
määratleda, kui palju esitusinfot on vajalik.
· Arhiiv järgib dokumenteeritud poliitikaid ja protseduure, mis tagavad selle, et säilitatav info on kaitstud võimalike ettenägematute asjaolude, sealhulgas arhiivi sulgemise
eest. Info hävitamine on lubatud ainult strateegias ettenähtud juhtudel või asjaoludel.
Kuna arhiivi ülalpidamine nõuab ressursse, on rahastamise jätkusuutlikkus vägagi
oluline. Kord juba arhiivi vastuvõetud info hävitamine peab olema võimalik ainult
täpselt defineeritud juhtudel. Juhuks, kui arhiiv lõpetab mingitel põhjustel tegevuse,
peab olema ette nähtud süsteem teabe üleandmiseks teistesse arhiividesse.
· Arhiiv teeb säilitatava teabe määratletud kasutajaskonnale kättesaadavaks ja tagab
selle levitamise arhiivi vastuvõetud andmeobjektide ning nende autentsust toetavate
tõendite koopiate kujul või tagab andmete jälgitavuse originaalse andmeobjektini.
See nõue keskendub kasutajate edastatud teabe autentsuse tagamisele. Arhiiv säilitab kas originaalse bitijada ja saadab kasutajale sellest koopia või teostab mingeid
toiminguid, näiteks saadab kasutajale vaid mingi osa originaalsest bitijadast. Samuti
võib arhiiv originaalset bitijada säilitamise käigus muuta. Igal juhul peavad arhiivil
olema vastavad tõendid, et näidata, kuidas originaalset digiobjekti on muudetud.
71
72
DIGITEERIMINE
8. DIGITEERIMINE
Lugenud läbi selle peatüki,
• tead, mis on digiteerimine;
• mõistad digiteerimine tulenevat kasu;
• tead digiteeritavate objektide valiku põhimõtteid;
• tead digiteerimise etappe;
Digikogude loomise kõige olulisemaks eesmärgiks on info laialdasema kättesaadavuse
ja töötlemise võimaldamine. Suur hulk teabeasutustes, organisatsioonides ja üksikisikute valduses olevast teabest on endiselt mittedigitaalne. Tõsi on see, et juurde tulev
teave on enamasti juba digitaalne. Kas mittedigitaalset teavet tuleks püüda igal juhul
digiteerida, ehk siis esitada digitaalsel kujul? Mittedigitaalse teabe digiteerida mõttekus
sõltub loomulikult konkreetsest kontekstist, säilitatavast teabest, säilitamise eesmärkidest jpm.
Digiteerimisest saadav kasu võib olla mitmesugune:
· teabele juurdepääsu suurenemine. Digitaalsel kujul esitatud teavet on võimalik kasutada sõltumata kasutaja geograafilisest asukohast. Info kasutamiseks ei ole vajalik
enam füüsiliselt külastada info säilituskohta. Digiteerimine muudab paremini kasutatavaks teatud tüüpi teavikuid, näiteks mikrofilmid, suurte mõõtmetega kaardid,
kustunud tekstiga dokumendid jms, mille kasutamine algsel kujul on raskendatud;
· tulu teenimine. Suurt hulka säilitatavast teabest, eriti fotosid ja audiovisuaalseid
teavikuid, on võimalik kasutada tulu teenimiseks. Digitaalsel kujul teavet on lihtsam
korduvkasutada, reklaamida ja müüa;
· organisatsiooni kuvandiloome. Digitaalne teave võimaldab asutust või kogu tutvustada väga mitmekesisele auditooriumile, teha reklaami ja olla abiks kuvandiloomel;
· infotöötluse ja -otsingu lihtsustumine. Digitaalset teavet on võimalik arvutite abil
töödelda ja sellest on tunduvalt lihtsam kasutajale olulist teavet otsida. Digiinfo kasutamise efektiivsus on märksa suurem;
· säilitamise toetamine. Juhul kui analoogobjektid on kahjustatud või kahjustusohus,
on võimalik nende kasutamist vähendada, kui suunata kasutajad esmalt digitaalsete
koopiate juurde. Enamikule tavakasutajatest sellest piisab ja seega saab vähendada
originaalide kasutamisest tulenevaid riske. Teisalt võib digitaliseerimine objektide
tutvustamise kaudu ka suurendada nõudlust originaalide kasutamise järele;
· teabe edastamine. Digitaalsel kujul olevat teavet on võimalik levitada kõige
erinevamaid suhtluskanaleid pidi – sotsiaalmeedias, videoportaalides, blogides jms.
Digiinfo on aluseks erinevatele meetoditele, millega haarata kasutajaskonda sisuloomesse, inforessursside kirjeldamisse, märksõnastamisse jne;
· teabe integreerimine. Digiinfo korral lihtsustub teabe integreerimine erinevatesse
kataloogisüsteemidesse, otsinguportaalidesse jm;
· tagatiskogude loomine. Digikoopiate abil on võimalik luua tagatiskogusid, mis
suurendavad teabe allesjäämise tõenäosust õnnetuste korral.
DIGITEERIMINE
Samas on märgata ka kriitilist suhtumist kogude digiteerimisse - see võib:
· kulutada liiga palju ressursse (raha, aeg jne) võrreldes saadava kasuga;
· kaotada olulisi originaali omadusi (nt allkiri paberil, pintslitõmbed maalil);
· teisendada originaali tähendust ja konteksti (nt digitaliseeritud fotode hilisem esitamine ülejäänud sisust eraldi);
· tegeleda ebaolulise asjaga, sest kasutajad saavad ka ilma konkreetse kogu digitaliseerimiseta hakkama – nt mõne kogu massdigitaliseerimise järele võib tegelikkuses
puududa piisav nõudlus.
Seda enam on objektide digiteerimisel oluline tähelepanu pöörata valiku tegemisele, et
saaks ühtselt kokku leppida, kas ja mida ikkagi digitaliseerida, et saadav kasu kaaluks
üles eelmainitud kahju.
8.1. Digiteeritavate objektide valik
Digiteerimise korral ei ole tegemist neutraalse tegevusega. Valik, mida digitaliseerida,
eeldab kriitilist otsustust ja prioriteetide määratlemist. Vähemalt esialgu tundub ebareaalne säilitada kogu tsivilisatsiooni poolt loodud ja loodav informatsioon, sõltumata
selle väärtusest või esinemiskujust. Samas, digiteerimisele kuuluvate objektide valik
on otsus käesolevas ajas ega pruugi tulevikust vaadates kõige õigem olla. Digitaalsete
kogude loomisel valitakse olemasolevatest kogudest objektid, mis seejärel digiteeritakse. Tegemist on seega teistkordse valikuga, kuna objektid on esmase valiku käigus
juba teabeasutuste kogudesse valitud.
Info uuendamise projektid baseerusid esmalt mikrofilmimisel. 1980.–1990. aastatel
läbiviidud mikrofilmiprojektid põhinesid kogudel (collection driven). Trükiseid käsitleti
rahvusliku koguna (USAs) ja iga raamatukogu mikrofilmis sellest mingit kindlat osa.
Trükiste ja perioodika prioriteetsus määrati sisu, ilmumisaja või mõlema järgi. Digiteerimisprojektide alguses, 1990. aastatel lähtuti prioriteetide kehtestamisel tegelikult
samast printsiibist nagu mikrofilmimise korralgi, ainuke erinevus oli see, et keskenduti
peamiselt erikogudele (special collections) – haruldastele, mingis osas erilistele materjalidele. Üldjuhul eelistati visuaalseid materjale, kuna ühelt poolt sobivad need arvutivõrkudes kasutamiseks, teiselt poolt pole vaja rakendada tekstituvastussüsteeme, mida
harilikult kasutatakse tekstide kasutusväärtuse tõstmiseks.
Digiteeritavate objektide valik on sageli olnud küllaltki eklektiline. Valikukriteeriumid
tulenesid pikka aega pigem digiteerimisest endast, konkreetsetest projektidest, mitte
mäluasutuste üldisest kogude arendamise poliitikast. Osa digiteerimisprojekte on
prioriteetide määramise aluseks võtnud kasutusvajaduse (user-driven needs). Selliste
objektide hulka kuulub kindlasti perioodika – ajakirjad ja ajalehed. Sellistest projektidest on tuntumad JSTOR (Teadusajakirjade Arhiiv), DIEPER (Euroopa Digitaliseeritud Perioodika), TIDEN (Põhjamaade digitaalsete ajalehtede raamatukogu), DEA
(Digiteeritud eesti ajalehed). Kasutusvajadust saab hinnata ka lähtuvalt kasutussagedusest. Näiteks kui mõnda paberdokumenti kasutatakse palju, siis tasuks kaaluda selle
digiteerimist.12 Samuti olukorras, kus dokument on kehvas seisukorras või lihtsalt väga
väärtuslik. Eestis läbi viidud projektidest võib nimetada eesti trükiste punast raamatut,
mis põhines väga selgelt määratletud valikukriteeriumidel (vt näitekast 8.1).
12
Näiteks Mark Custer (2009) on oma uuringus leidnud, et 10% kõige kasutatavamate piltide võrgus
avaldamine pakub paremaid juurdepääsuvõimalusi rohkem kui 50%-le kasutajatest.
73
74
DIGITEERIMINE
2000. aastate keskel alustati laiaulatuslike digiteerimisprojektidega, mille eesmärk oli
suure hulga teavikute massiline digiteerimine. Üks tuntumaid sellistest projektidest on
kahtlemata Google Books, varasemate nimetustega Google Book Search ja Google Print.
2004. aastal alustatud projekti käigus on nüüdseks digiteeritud üle 25 miljoni nimetuse
raamatuid, seda nii raamatukogudest kui ka kokkuleppel autorite ja kirjastajatega.
Näitekast 8.1 Eesti trükise punane raamat
„Eesti trükise punane raamat“ sündis vajadusest välja töötada kriteeriumid,
mis võimaldaksid moodustada loetelu nendest väärtuslikest ja haruldastest
trükistest, mis säilitusprioriteete silmas pidades kuuluvad eriti suure säilivusriskiga trükiste etteotsa. „Eesti trükise punane raamat“ kujutab endast Eesti
ajaloo, teaduse ja kultuuriloo seisukohalt väärtuslike haruldaste trükiste andmebaasi koos teabega originaali ning tagatis- ja kasutuskoopiate leidumuse kohta
ning iga nimetuse vähemalt ühe originaaleksemplari füüsilise seisundi kirjeldusega. Punase raamatu nimekirja koostamisel arvestati kriteeriumidena:
· trükise kultuuriloolist väärtust;
· trükise leidumust;
· trükise seisundit.
Trükise kultuuriloolise väärtuse määramisel järgiti järgmisi kriteeriume:
· esimene eestikeelse tekstiga raamat;
· esimene täielikult eestikeelne raamat;
· esimene trükis Eesti territooriumil (Tallinn, Tartu, Narva, Pärnu jne);
· esimene trükis omas tüübis (katekismus, aabits, kalender, ajaleht jne);
· esimene trükis omas teemavaldkonnas (keel, kirjandus, ajalugu, geograafia, matemaatika jne);
· Eestis kultuuriloolisi suundumusi oluliselt mõjutanud trükis (keele, kirjanduse, hariduse, teaduse, usu, teadmiste ja praktiliste oskustega seotud
trükised);
· raamatukujunduse ja trükitehnika arengu poolest oluline trükis (nt esimene illustreeritud trükis, omamaiste illustraatorite tööd (E. M. Jakobson,
Daugell jt)).
Esimeses projektis (aastatest 1535–1850) kujunes olulisemaks aspektiks raamatute säilivusriskide hindamine tulenevalt nende seisundist. Algses nimestikus, mis koostati aastatel 2001–2004, oli 413 eestikeelset raamatut. Nüüdseks
on nimestikku täiendatud uute leidumusandmetega ELNET Konsortsiumi
raamatukogudest ja valimist seni puudunud ainueksemplaride osas. Sellega on
algne nimestik laienenud rohkem kui 500 nimetuseni. Teises etapis (aastate
1851–1917 kohta, projekti juhtis ELNET Konsortsium) oli põhirõhk trükiste
rariteetsusel ja kultuuriväärtusel. Lõppnimekirja valiti 1526 kirjet (valik võib
edaspidi täpsustuda ja täieneda seoses laekumistega raamatukogudesse).
Raamatukogud on Eesti trükise punase raamatu nominente digitaliseerinud
vastavalt oma võimalustele. Näiteks aastatel 2010–2012 digitaliseeriti Eesti
DIGITEERIMINE
Kirjandusmuuseumis Euroopa Liidu struktuuritoetuste toel läbi viidava projekti „Eesti trükise punase raamatu ja eesti kultuuri käsikirjaliste alliktekstide
säilivuse ja kättesaadavuse tagamine“ raames 100 000 lehekülge „Eesti trükise
punase raamatu“ ja muu haruldase vanaraamatu kollektsioonist (1535–1917).
Halvasti säilinud eksemplarid ennistatakse ja konserveeritakse. Failid arhiveeritakse digitaalarhiivis DIGAR ning tehakse kättesaadavaks nii DIGARi kui
ka e-kataloogi ESTER kaudu (vt joonis 8.1). Turvalisuse huvides säilitatakse
arhiivifaile ka Eesti Kirjandusmuuseumi failirepositooriumis Kivike. „Eesti
trükise punase raamatu“ digitaliseeritud nimetusi leiab ESTERis komplekssemalt kui otsida neid eressursside alt. Eraldi kogumi moodustavad „Eesti trükise punase raamatu“ nimetused ka DIGARis. „Eesti trükise punase raamatu“
nimestiku koostamise raames kooskõlastasid raamatukogud ka oma digitaliseerimisjuhised. Valmisid „Eesti trükise punase raamatu“ ja vanaraamatu digitaalsete tagatiskoopiate valmistamise juhend ning soovitused raamatukogudele
digitaalsete tagatiskoopiate valmistamiseks.
Joonis 8.1. „Eesti Trükise punase raamatu“ projekti raames kirjeldatud
trükised leiab raamatukogukataloogist ESTER
Allikad
Aru, K., Konsa, K., Siiner, M. 2005. Eesti trükise punane raamat. – Keel ja Kirjandus, 1, 1−8.
Eesti trükise Punane Raamat. http://www.nlib.ee/PunaneRaamat.
Eesti trükise punane raamat. ELNET Konsortsium. http://www.elnet.ee/index.php/projektid/eestitruekise-punane-raamat.
75
76
DIGITEERIMINE
DIGITEERIMINE
8.2. Digiteerimise mõju kogude haldamisele
täiendamise võimalused. Esimeses etapis toimub digiteeritavate objektide ettevalmistamine, mis võib tähendada nende puhastamist, kataloogimist, konserveerimist jms.
Digiteerimise käigus saadakse lisateavet kogu enda kohta, mida saab edaspidi kasutada
kogu paremaks haldamiseks. See teave haarab nii objektide kirjeldamist kui ka näiteks
andmeid nende seisundi kohta. Digiobjektide olemasolu võimaldab täiendada olemasolevaid kogusid, kasutades selleks teistes institutsioonides olevaid objekte, mida saab
antud koguga seostada. Samuti on võimalik luua kogusid, mis baseeruvad hoopis teistel
põhimõtetel, võrreldes olemasolevate kogudega, mille aluseks on institutsionaalsed
traditsioonid.
Digiteerimisprojekti teises etapis toimub digitaliseerimine ise. Lisaks hõlmab see saadud digiobjektide kvaliteedi hindamist, nende varustamist metaandmetega ning säilitus- ja kasutusfailide loomist. Selles etapis toimub ka teksti optiline tuvastus (OCR), kui
seda vajalikuks peetakse. Tuleb jälgida, et digiteerimisprotsess ei kahjustaks originaale.
Objektide digiteerimine võib vähendada originaalide kasutamist. Selleks on kindlasti
vajalik vastav poliitika, mis sätestab selle, et digitaliseeritud objektide korral suunatakse
kasutaja esmajoones digiobjekti juurde ja alles siis, kui see kasutaja vajadusi ei rahulda,
pääseb ta ligi originaalile. Kuna originaalide kasutamine on piiratud, saab neile luua
sobivamad hoiutingimused, näiteks hoida fotosid madalamal temperatuuril. Kõige olulisemalt mõjutab digiteerimine arusaadavalt objektide ja kogude kasutamist. Digitaalsel
kujul esitatud teave on laialdaselt ja kiiresti kättesaadav, tekste ja kujutisi on võimalik
töödelda ning rakendada erinevaid otsingumeetodeid ja vahendeid. Digitaalsed kogud
aitavad oluliselt kaasa uute kasutajate ligitõmbamisel mäluasutustele.13
Digiteerimisprojekti tegevused võib jagada nelja etappi (Bülow Ahmon 2011: 10–13):
1. etapp:
· projekti kavandamine;
· objektide valik ja hindamine;
· ressursside hankimine ja koostöö;
· ettevalmistused digitaliseerimiseks;
2. etapp:
· digiteerimine;
· kvaliteedi hindamine;
· metaandmete lisamine;
· failihaldus;
3. etapp:
· andmebaasi loomine;
· kasutuskeskkonna loomine;
· turundus;
· kasutuse hindamine;
4. etapp:
· projekti pikaajalise jätkusuutlikkuse tagamine.
Esimene etapp hõlmab digitaliseeritavate materjalide valikut ja hindamist. Siinkohal
tuleks arvestada nii objektide võimaliku kasutuse kui ka näiteks autoriõigusest ja andmekaitsest tulenevate piirangutega. Kuna digiteerimisprojektid on üldjuhul küllaltki
ressursimahukad, võib vajalikuks osutuda partnerite ja väliste toetajate hankimine.
Enne projekti lõplikku kavandamist on kindlasti vaja tutvuda digiteeritava materjaliga,
sest nende koosseis ja seisund võivad oluliselt mõjutada kogu projekti maksumust,
vajaminevaid seadmeid ja tööprotseduure. Projekti kavandamist mõjutab ajaraamistik,
olemasolevad vahendid (tehnilised seadmed, ruumid, inimesed, teadmised) ja nende
13
Digiteerimise mõju mäluasutuse toimimisele Briti raamatukogu näitel vt Smith 2006.
Kolmas etapp hõlmab digiteeritud ressursside kasutajatele kättesaadavaks tegemist ja
digikogu tutvustamist. Vältimatu on võimalikult tihe koostöö kasutajatega. Kõik see
nõuab samuti ressursse, mille eraldamine peab olema projekti sisse planeeritud.
Neljas etapp – pikaajalise jätkusuutlikkuse tagamine – tähendab seda, et organisatsioonil peavad olema pikaajaliselt kavandatud ressursid nii digiteeritud objektide kui
ka originaalide säilitamiseks. Seejuures võivad digiobjektide säilitamise kulud ületada
originaalide säilituskulusid. Originaalide säilitamine on aga vältimatu, kuna seoses tehnoloogia arenguga võib tekkida vajadus neid uuesti digiteerida, et saada parema kvaliteediga või mingitele muudele nõuetele paremini vastavaid digikoopiaid.
8.3. Digiteerimiseks kasutatavad seadmed
Visuaalsete kujutiste digiterimiseks kasutatakse skannereid ja digifotoaparaate, kinofilmide korral ka telecine-seadmeid. Skanner on seade, mis võimaldab optiliselt muuta
pildid, tekstid või esemed digitaalseteks kujutisteks. Objektilt peegeldunud valgus
suunatakse sensorile.
Skannerid jagatakse erinevatesse tüüpidesse sõltuvalt nende ehitusest ja kasutuseesmärkidest. Peamised tüübid on:
· tasa- ehk lauaskanner;
· trummelskanner;
· projektsiooniskanner;
· slaidiskanner;
· filmiskanner;
· 3D-skanner.
Kasutatavate seadmete valikul tuleb arvestada
· digiteeritavate objektide iseloomu;
· objektide mõõtmeid;
· erinevat tüüpi objektide arvu;
· objektide seisundit;
· töötajate kogemusi ja oskusi;
· eelarvet;
· digiteerimiseks kasutatavaid ruume;
· kogu projekti ajaraamistikku.
Digiteerimisparameetrite ja -meetodite valiku hõlbustamiseks on kasutusel hulk
kvaliteedisüsteeme. Kvaliteedisüsteem määratleb kvaliteedi erinevad tasemed ja selle
alusel saab otsustada, milliseid parameetreid kasutada, et saada sobivate omadustega
digiobjektid. Näiteks USA föderaalametite digitaliseerimisjuhiste algatus (Federal
Agencies Digitization Guidelines Initiative, FADGI) kasutab neljatasemelist ja Hollandi
77
78
DIGITEERIMINE
programm Metamorfoze14 kolmetasandilist süsteemi. Samas rõhutavad kõik juhendid
seda, et kui digiteerimise eesmärk on digitaalsete säilituskoopiate saamine, tuleks kasutada võimalikult kõrgeid kvaliteediparameetreid.
Skaneerimise kvaliteet sõltub paljudest teguritest:
· optiline resolutsioon;
· värvisügavus;
· värviruum;
· optiline tihedus;
· valgusallika omadused;
· seadme optiliste osade kvaliteet;
· seadme kalibreerimine.
Vaatleme mõnda tähtsamat neist veidi lähemalt.
DIGITEERIMINE
resolutsioon 300 dpi. Digikogus jälgitavad kasutuskoopiad võimaldavad laiendada juurdepääsu unikaalsele kultuuripärandile, tutvustada seda rahvusvahelises mastaabis ning maandada teabe kadumise riske originaaldokumentide võimaliku kahjustumise või hävimise korral. Alates 2012. aasta aprillist on kõigil
huvilistel võimalus digitaliseeritud pärgamente vaadata ja lugeda Rahvusarhiivi
digikogus Saaga (joonis 8.2).
Allikad
Pärgamendid. Rahvusarhiiv. http://www.ra.ee/pargamendid
Digiteerimise näitena vaatame pärgamentdokumentide digiteerimise projekti
(vt näitekast 8.2).
Näitekast 8.2. Pärgamentide digitaliseerimise projekt
Pärgamentalusel arhivaalid sisaldavad ainestikku nii Eesti kesk- ja varauusaegse
asustus- ja agraarajaloo kui ka poliitilise, sõja- ja kultuuriajaloo uurimiseks.
Peegeldades tolleaegse Eesti sidemeid Euroopaga, on need dokumendid ajalooallikatena tähtsad ka rahvusvaheliselt, eriti Euroopa keskaja ajaloo mõistmiseks. Pärgamentidel on koostatud Eestis hoitavad kõige vanemad kirjalikud
ajalooallikad 13. sajandist. Eestis asuv vanim kirjalik dokument aastast 1237
on Tallinna Linnaarhiivi Tallinna magistraadi kogus säilitatav pärgamentürik,
milles paavsti saadik Modena Wilhelm annab teada Saksa-Rooma keisri Friedrich II määrusest kirikule tehtavate annetuste kohta. Samasse aega kuuluvad ka
Rahvusarhiivi vanim ürik kirikukümnise tasumise kohta aastast 1240 ja Eesti
Ajaloomuuseumi kollektsioonis hoitav paavst Innocentius IV indulgents 1247.
aastast. Meie mäluasutustes talletatavad kõige hilisemad pärgamendid on pärit
19. sajandi keskpaigast.
Rahvusarhiiv, Eesti Ajaloomuuseum ja Tallinna Linnaarhiiv viisid aastatel
2010–2012 läbi digitaliseerimisprojekti, mille eesmärk oli neis mäluasutustes
säilitatavate pärgamentide kõrgekvaliteediliste digitaalkujutiste valmistamine.
Digitaliseeris Ennistuskoda Kanut ning projekti rahastas Majandus- ja Kommunikatsiooniministeerium infoühiskonna edendamise struktuurivahenditest.
Pärgamentide digitaliseerimine hõlmas 4122 arhivaalilehe recto- ja verso-vaadetest tagatis- ja kasutuskoopiate valmistamist. Digitaalsed tagatiskoopiad on
originaalidega samas suuruses (1 : 1), failid salvestati kompresseerimata
vormingusse TIFF, kujutise näidud on: 24bit sRGB IEC61966-2.1 värviprofiil,
14
Hollandi pabermaterjalide rahvuslik säilituskava vt Dormolen 2012.
Joonis 8.2. Pärgamentide andmebaasi veebileht
79
80
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
9. METAANDMED –
DIGIOBJEKTIDE JA NENDE
KOGUDE KIRJELDAMINE
Lugenud läbi selle peatüki,
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
infosüsteemide vahelistest seostest ning sellest, millisel eesmärgil kasutaja seda infot
käsitleb (Gilliland-Swetland 2000b: 12).
Sellises laias tähenduses ulatub metaandmete kasutamine tagasi esimeste raamatukogukataloogide juurde (Alexandria raamatukogu Vanas-Egiptuses). Raamatu kirjeldus raamatukogukataloogis on tüüpiline näide metaandmetest (joonis 9.1). Termin „metaandmed“ võeti kasutusele aga alles 1960. aastatel (Greenberg 2005: 19–20). 1970. aastatel
kasutati seda terminit andmebaaside halduses ja alates 1990. aastate keskpaigast info- ja
raamatukoguvaldkonnas (Roussopoulos Mark 1986). Tänapäeval kasutatakse terminit
„metaandmed“ peamiselt seoses elektroonilisel kujul oleva infoga.
• tead, mis on metaandmed ja millist tüüpi metaandmeid on olemas;
• tead, milleks metaandmeid kasutatakse;
• tead, mis on metaandmete skeemid ja standardid;
• mõistad peamisi digiobjektide kirjeldamiseks kasutatavaid
metaandmete süsteeme;
• oskad kasutada Dublin Core’i metaandmete süsteemi;
• tead, mis on märgistuskeeled ja milleks neid kasutatakse;
• tead, mis on metaandmete registrid.
9.1. Metaandmete määratlusi
Kõige lihtsama ja levinuma määratluse kohaselt on metaandmed andmed andmete
kohta ehk andmed, mis kirjeldavad mingeid teisi andmeid. Samas ei ütle see määratlus
midagi selle kohta, milleks üldse on vaja andmeid andmete kohta ning mille kohta
täpsemalt need andmed peaksid olema.
Kirjandusest võib leida ka täpsemaid metaandmete määratlusi:
· metaandmed kirjeldavad ressursside erinevaid atribuute (Dempsey Heery 1997);
· metaandmed kirjeldavad diskreetseid andmeobjekte (Gill 1998);
· metaandmed pakuvad kasutajale kasulikku teavet dokumentide olemasolu ja tunnuste kohta (Dempsey Heery 1998);
· metaandmedmetaandmed kirjeldavad mingi inforessursi sisu, vormingut ja/või tunnuseid (Haynes 2004);
· metaandmed on struktureeritud informatsioon, mis kirjeldab, selgitab, näitab asukohta või aitab mõnel muul viisil inforessurssi leida, kasutada ja hallata (NISO 2001);
· metaandmed on andmed, mis kirjeldavad teavikute konteksti, sisu ja struktuuristruktuuri ning nende haldusprotsessi (ISO 15489-1:2016).
Kokkuvõtlikult võib öelda, et metaandmed kirjeldavad mingisuguse infoobjekti tunnuseid, mis on vajalikud infoobjektile juurdepääsuks, selle üles leidmiseks, kasutamiseks,
mõistmiseks, haldamiseks ja säilitamiseks. Infoobjektiks on siinkohal diskreetse üksusena käsitletav informatsioon, mida suudab kasutada inimene või infosüsteem. Tegemist võib olla ühe objektiga, näiteks raamatu või failiga, aga ka objektide kogumi või
terve arhiivi, raamatukogu või andmebaasiga. Metaandmeid kasutavad seega nii inimesed kui ka arvutiprogrammid erinevate ülesannete täitmisel. Infoobjekti ja metaandmetemetaandmete vaheline piir ei ole selge ega jäik. Ühe infoobjekti metaandmed võivad
samaaegselt olla teise infoobjekti andmeteks. Suurel määral sõltub see infoobjektide ja
Joonis 9.1. Tartu Ülikooli raamatukogus kasutusel olnud kataloogikaardid
(Foto: Tartu ülikooli raamatukogu)
Metaandmed täidavad peamiselt viit olulist funktsiooni (Duff McKemmish 2000;
Haynes 2004):
· ressursside kirjeldus – metaandmed võimaldavad objekte identifitseerida ja kataloogida ning nende konteksti säilitada. Konteksti säilitamine on eriti oluline selliste
objektide korral, mis moodustavad ühe osa mingist kogust või kollektsioonist (arhivaalid arhiivis, raamatud raamatukogus, museaalid muuseumikogus jne);
· infootsing – otsisüsteemid kasutavad metaandmeid inforessursside otsimisel.
Objekti kasutamisega seotud administratiivne info (võimalikud juurdepääsupiirangud, kasutamise ajalugu jms) ja muud metaandmed aitavad kasutajal infot üles leida,
kätte saada, kasutada;
· inforessursside haldamine – metaandmed on üks olulisi viise, kuidas tagada infoobjektide haldamine, sealhulgas ka säilitamine. Infoobjektide säilitamise käigus
toimub nende muutmine, metaandmed on vahend, mis tagab inforessursside sisu
püsivuse (persistence) ning säilitab objektide sõltumatuse nende säilitamiseks ja
kasutamisekskasutamiseks mõeldud tehnilisest süsteemist;
· inforessurssideinforessurside omandiõiguse ja autentsuse tagamine – metaandmed
sisaldavad infot objekti omandi- ja autoriõiguse, päritolu, struktuuri ja konteksti
kohta ning on seega otsustava tähtsusega objekti autentsuseautentsuse, struktuurse
ja funktsionaalse terviklikkuse hindamisel;
81
82
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
· koostalitlusvõime ja infovahetuse võimaldamine – metaandmete vormingud võimaldavad andmeid erinevate süsteemide vahel vahetada ning seejuures õigesti
interpreteerida ja informatsiooni tähenduse säilitada. Inforessursi kirjeldamine
metaandmetega muudab selle mõistetavaks arvutisüsteemidele ja aitab sellega kaasa
koostalitlusvõimele.
Nagu näha, on metaandmed olulised nii info haldajale kui ka kasutajale. Info lõppkasutajal ei ole tavaliselt oluline inforessursi metaandmeid näha, need on tähtsad info organiseerimise ja haldamise seisukohast. Kuna metaandmed täidavad nii mitmekesiseid
funktsioone, siis on selge, et erinevaid metaandmete süsteeme on väga palju. Samuti
on erinevaid võimalusi metaandmesüsteeme kategoriseerida. Üks võimalus on jagada
metaandmete standardid ja skeemid nelja gruppi (Digital preservation metadata 2010: 6).
Kirjeldavad metaandmed määratlevad infoobjekti bibliograafilised tunnused. Tegemist
on infoga, mis identifitseerib inforessursse, aitab neid üles leida ja dokumenteerib
suhteid erinevate inforessursside vahel. Kirjeldavad metaandmed võivad lähtuda
mõnest kindlast teavikutüübist, näiteks FGDC (Federal Geographic Data Committee)
standardist ruumiliste digiandmete kohta või ISAD(G) (General International Standard
Archival Description) standardist arhivaalide kohta. Teised metaandmete vormingud,
näiteks MARC 21 või Dublin Core, on üldisemad ja sobivad erinevate teavikutüüpide
kirjeldamiseks. Kirjeldavad metaandmed võivad sisaldada ka teavet ajaloolise konteksti
kohta, näiteks raamatu kohta, mille digimisel digiobjekt on saadud (allika provenients).
Strukturaalsed metaandmed määratlevad loogilised või füüsilised suhted infoobjekti
eri osade vahel, näiteks kirjeldavad peatükkide asetust raamatus, keeruka digiobjekti
erinevate failide vahelisi seoseid vms. Levinuim standard on METS.
Tehnilised metaandmed määratlevad info, mis kajastab digiobjekti töötlemiseks vajalikku riist- ja tarkvara ning infot kontrollsummade ja digiallkirjade kohta, mis tagavad
infoobjekti autentsuse. Vastavate standardite näiteks võib tuua fotokujutiste standardi
MIX, tekstistandardi TEI, audiostandardi AUDIOMD ja videostandardi VIDEOMD.
Tehnilised metaandmed võidakse paigutada ka administratiivsete metaandmete hulka
(Hurley Price-Wilkin et al. 1999).
Administratiivsed metaandmed määratlevad info, mis on seotud infoobjektiga tehtud
toimingute, st loomise, haldamise, säilitamise ja kasutamisega, sealhulgas kõikvõimalikud muudatused ja otsustused, samuti info õiguste ja objektile juurdepääsu kohta.
Näiteks intellektuaalomandi õigusi kajastavate metaandmete standard on ODRL.
Alates 1990. aastatest on levinud ka metaandmete grupeerimine kolme tüüpi: kirjeldavad,
struktuursed ja administratiivsed metaandmed. Anne Gilliland on pakkunud välja teistsuguse metaandmete kategoriseerimise võimaluse, mis põhineb infoobjektide omadustel.
Nimelt on igal infoobjektil, sõltumata selle konkreetsest füüsilisest kujust, kolm iseloomulikku tunnust: sisu, kontekst ja struktuur. Metaandmed peavad kajastama kõiki neid infoobjekti tunnuseid (Gilliland-Swetland 2000). Metaandmete erinevad jaotused on vajalikud
nende lihtsamaks käsitlemiseks, tegelikkuses metaandmete eri kategooriad suuresti kattuvad ja selged piirid nende vahel puuduvad. Eriti ilmneb see säilitusmetaandmete juures.
Metaandmed võivad esineda väga erineval kujul: tegemist võib olla vabatekstiga, märksõnadega, kontrollitud terminoloogiaga või siis täpselt määratletud kategooriate süsteemiga. Järgnevalt käsitleme alguses üldisemaid kirjeldavate metaandmete standardeid ja
seejärel juba lähemalt säilitusmetaandmete standardeid ja skeeme.
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
9.2. Metaandmete skeemid ja standardid
Metaandmed luuakse vastavalt kindlale eesmärgile. Ei ole olemas ühtset metaandmete
skeemi või standardit, mis sobiks igasuguste eesmärkide jaoks. Universaalset metaandmete skeemi või standardit tuleb kindlasti kohandada konkreetsele kasutusele. Vastavalt sellele on nii erinevad institutsioonid (valitsused, raamatukogud, arhiividarhiivid,
muuseumid, ettevõtted jne) kui ka institutsioone koondavad huvigrupid loonud endale
kõige sobivamaid metaandmete skeeme ja standardeid.
Metaandmete skeem on kindlal eesmärgil koostatud metaandmete elementide loetelu
koos loogiliste seostega elementide vahel. Metaandmed on tavaliselt mingil viisil struktureeritud. Selleks määratletakse infoobjektide kirjeldamisel kasutatavad kategooriad
(näiteks “autor”, “pealkiri”, “teema”), info esitamise viis, kategooriate omavahelised
seosed jms. Metaandmete struktuur vastab kirjeldatavate infoobjektide olulisematele
tunnustele. Kuna eri institutsioonid kirjeldavad erinevaid objekte, siis on ka kasutatavad
metaandmete struktuurid erinevad. Metaandmete kategooriaid nimetatakse ka metaandmete elementideks või ühikuteks (units). Metaandmeelemendid (metadata element)
on metaandmete eraldiseisvad ühikud. Nende elementide tähendused või määratlused
moodustavad metaandmete skeemi semantika. Metaandmeelemendid väljendavad inforessursi mingisuguseid tunnuseid, näiteks „autor“, „teema“, „väljaandja“. Metaandmeelemendid on defineeritud terminid, mida kasutatakse inforessursi omaduste kirjeldamisel. Igal metaandmeelemendil on nimi ja määratletud semantika ehk väärtus. Enamasti
on kindlaks määratud ka reeglid, kuidas elemendi sisu formuleeritakse ja esitatakse.
Näiteks metaandmeelement „autor“ võib sisaldada väärtust „Kurmo Konsa“. Väärtused
võivad olla esitatud erinevalt, näiteks „Kurmo Konsa“, „Konsa, Kurmo“, „Konsa, K.“
jne. Kindlal eesmärgil loodud metaandmeelementide kogumit nimetatakse metaandmete skeemiks (metadata scheme), andmestruktuuriks (data structure), metaandmehulgaks (metadata set), spetsifikatsiooniks (specification) või vorminguks (format).
Metaandmete standard15 võib sisaldada:
· metaandmeelemente koos määratlustega;
· elementide sisu määratlusi, reegleid või kirjeldusi selle kohta, milliseid väärtusi
andmeelement võib omandada (data content standards);
· sõnastikku, tesaurust, kontrollitud sõnastikku vms, mis määratleb andmeelementide
konkreetsed väärtused (data value standards).
Metaandmete sisu moodustavad metaandmete elementidele antud väärtused. Metaandmesüsteem määratleb elementide nimed ja nende semantika. Lisaks võivad olla juhendid selle kohta, kuidas sisu määratleda (näiteks kuidas identifitseerida inforessursi pealkirja) ja esitada (näiteks reeglid selle kohta, milline täht pealkirjas peab olema suurtäht)
ning millised on sisu lubatavad väärtused (näiteks tuleb terminid valida kontrollitud
sõnastikust). Paika võib olla pandud nii elementide kui ka sisu kodeerimine. Metaandmesüsteemi, kus sellised ettekirjutatud süntaksireeglid puuduvad, nimetatakse süntakssõltumatuks süsteemiks. Metaandmete kodeerimiseks kasutatakse SGMLi (Standard
Generalized Markup Language) või XMLi (Extensible Markup Language).
Metaandmed võivad inforessursse kirjeldada erineval tasemel: kirjeldatakse nii kogusid tervikuna, üksikuid infoobjekte kui ka infoobjekti eri osasid, näiteks artiklit ja
artiklis asuvat fotot. Keerukate infoobjektide või mitmetasandiliste kogude korral on
sageli parim lahendus erinevate metaandmesüsteemide kooskasutamine. Esimesed
15
Nimetatakse ka metaandmesüsteemiks või andmestruktuuri standardiks.
83
84
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
metaandmesüsteemid olid ette nähtud inforessursside kirjeldamiseks ja otsingute toetamiseks. Seejuures keskenduti kindlat tüüpi inforessurssideinforessursside kirjeldamisele. Üldised, eri tüüpi inforessursside kirjeldamiseks mõeldud metaandmesüsteemid
ilmusid hiljem. Kindlasti kõige tuntum nende seas on Dublin Core’i metaandmesüsteem.
2.1. Raamatukogude kirje- ja kataloogimissüsteemid
Raamatukogudes kasutatakse objektide kirjeldamiseks bibliokirjeid, mille koostamisel
lähtutakse vastavatest kirje- ja kataloogimisreeglitest. Teavikud kirjeldatakse bibliograafilise kirjega ja kataloogitakse bibliograafilistes vormingutes. Kataloogimisreeglite
aluseks on tänapäeval üldiselt ISBD (International Standard Bibliographic Description) –
IFLA poolt välja töötatud standardite rühm, mis määrab eri teavikutüüpide kirjeldamisel esitatavate andmete valiku, vormi ja järjekorra, samuti kirjavahemärgid, mida kirjes
kasutatakse. ISBD ei käsitle pealdisi, sisuavamiselemente ega muud täiendavat teavet,
mis kataloogikirjes antakse. Lisaks ISBDdele on olulised ka angloameerika reeglid
(Anglo-American Cataloguing Rules, AACR). Nende teine, uuendatud väljaanne AACR2
põhineb kirje osas ISBDl, kuid sisaldab lisaks pealdiste, st otsitunnuste moodustamise
reegleid. AACR2 edasiarenduse tulemusena valmis 2010. aastal Resource Description and
Access (RDA) standard.16 Tegemist on juhendite grupiga, mis määratleb raamatute ning
teiste raamatukogudes, muuseumides jm säilitatavate teavikute kataloogimise reeglid.
Bibliograafilistest vormingutest on kõige enam levinud MARC (Machine Readable
Cataloguing) rühma kuuluvad standardid. Algne MARC loodi aastail 1965–1966 Ameerika Ühendriikides Kongressi Raamatukogus. Eri riikides võeti kasutusele sellele tuginevad, kuid kohalikku kataloogimistava ja muid asjaolusid arvestavad n-ö rahvuslikud
MARC-vormingud, näiteks Kanadas CanMARC, Saksamaal MAB jpt. MARC standardid koosnevad MARC-vormingutest, mis määratlevad bibliograafilise teabe digitaalse
esitamise ja vahetamise reeglid. MARC-vormingu struktuur esitati esialgu ANSI standardina Z39.2 „Information Interchange Format“. 1981. aastal avaldati selle strandardi
uus versioon pealkirjaga „Documentation – Format for bibliographic information interchange on magnetic tape“. Selle standardi viimane versioon pealkirjaga „Information
Interchange Format (Z39.2-1994)“ pärineb 1994. aastast. Tänapäeval kasutatakse ISO
standardit ISO 2709:2008 „Information and documentation – Format for information exchange“. Standardis on määratletud kirje põhistruktuur ja mitmesuguste tehniliste andmete esitusviis. Andmesisu määratlevad MARC-välised reeglistikud ja standardid nagu
ISBD ja AACR2. Kõige uuem vorming selles rühmas on MARC 21, mis tekkis kahe
vormingu, USMARCi ja CANMARCi harmoniseerimise tulemusena 1999. aastal.
MARC21-vorming (joonis 9.2) esitab standardid eri tüüpi andmete esitamiseks ja
vahetamiseks arvutiloetaval kujul. Nende andmete hulka kuuluvad:
· bibliograafilised andmed (bibliographic data);
· normandmed (authority data);
· liigitusandmed (classification data);
· leidumusandmed (eksemplari kohta: kohaviit, eksemplari staatus ja seisukord jms)
(holdings data);
· kogukonna andmed (community data) – mittebibliograafilised andmed (üritused,
isikud, asutused, organisatsioonid jms).
Joonis 9.2. Raamatu täiskirje andmed MARC 21 vormingus raamatukogukataloogis
ESTER
Tänapäeval on kõige levinumad MARC 21 ja UNIMARC-vorming. MARC XML on
XML-skeem, mis tugineb MARC 21 standarditele. Seda arendab USA Kongressi Raamatukogu17 eesmärgiga tagada bibliograafilise info lihtne jagatavus erinevate arvutisüsteemide vahel. Normkirjete koostamist MARC 21 raames reguleerib Metaandmete
normkirjete kirjeldusstandard (Metadata Authority Description Standard, MADS)18 –
MARC 21-ga ühilduv XML-vorming MARC 21 normandmetesse kantavate andmete
esitamiseks. Iga MADS-kirje koosneb vähemalt ühest pea <authority> elemendist ja
erinevast arvust täiendavatest peaelementidest: <authority>, <related>, <variant>.
Iga peaelement sisaldab ühte või enamat järgnevatest kirjeldavatest alamelementidest:
<name>, <titleInfo>, <topic>, <temporal>, <genre>, <geographic>, <hierarchical
Geographic>, <occupation>.
9.2.2. Arhiivikirjelduse rahvusvaheline standard ISAD(G)
Rahvusvaheline arhiivinõukogu (International Council on Archives) on välja töötanud
arhiivikirjelduse rahvusvahelise standardi ISAD(G) (General International Standard
Archival Description), mille esimene versioon avaldati 1994. aastal. ISAD(G) kehtestab
arhivaalide kirjeldustasandid ja määrab kirjelduselementide koosseisu vastavalt kirjeldustasandile. 2000. aastal avaldati selle teine, korrigeeritud väljaanne ISAD(G)2, mis on
ka praegu kehtiv arhiivikirjelduse standard (ICA 2000).
17
16
http://www.rdatoolkit.org/.
18
http://www.loc.gov/standards/marcxml/.
http://www.loc.gov/standards/mads/mads-doc.html.
85
86
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
Standard põhineb järgmistel põhimõtetel:
· kirjeldus liigub üldiselt üksikule;
· kirjeldusinfo peab vastama kirjeldustasandile;
· eri tasandite kirjeldused peavad olema seotud, st igal hetkel peab olema selge,
millise kirjeldustasandiga on tegemist;
· kõrgemal kirjeldustasemel antud informatsiooni madalamal tasemel ei korrata.
Standardis kasutatakse mitmetasandilist kirjeldussüsteemi (joonis 9.3):
· arhiiv, kollektsioon (fonds);
· sari (series);
· säilik (file);
· arhivaal (item)19.
Arhivaalide kirjeldusinfo rahvusvahelise vahetatavuse seisukohalt loetakse kõige olulisemaks identiteediala elemente.
Rahvusvaheline arhiivinõukogu on vastu võtnud ka standardi, mis käsitleb normkirjete
koostamist juriidiliste ja füüsiliste isikute ja perekondade kohta (ICA 2004) ja millele
vastavalt kirjeldatakse arhiivimoodustajaid. Teine seotud standard on rahvusvaheline
standard, mis reguleerib juriidiliste isikute tegevuste ja funktsioonide kirjeldamist (ICA
2007). Nimede normeeritud esitamine hõlbustab oluliselt infootsingut ja teabevahetust.
ARHIIV,
KOLLEKTSIOON
ALLARHIIVID
SARJAD
ALLSARJAD
SÄILIKUD
SARJAD
SARJAD
ALLSARJAD
SÄILIKUD
juurdepääsutingimused (conditions governing access), intellektuaalomandi reprodutseerimise tingimused (conditions governing reproduction), keel ja kirjaviis (language
and scripts of material), füüsilised tunnused ja tehnilised nõuded (physical characteristics and technical requirements), täiendav otsivahend (finding aids);
· seotud ainese ala (allied materials area): originaalide olemasolu ja asukoht (existence
and location of originals), koopiate olemasolu ja asukoht (existence and location of
copies), seonduv aines (related units of description), publikatsioonid (publication note);
· märkuste ala (note area): märkus (note);
· kirjelduse kontrolli ala (description control area): kirjelduse koostamise andmed
(archivist’s note), põhimõtted (rules or conventions), kirjelduse koostamise aeg
(date(s) of descriptions).
SÄILIKUD
ARHIVAALID
SÄILIKUD
ARHIVAALID
Joonis 9.3. Arhiivikirjelduse mitmetasandiline süsteem
Standard sisaldab 29 andmeelementi, mis on jagatud seitsmesse gruppi:
· identiteediala (identity statement area): teatme kood või tähis (reference code), pealkiri, autor, kuupäev, kirjeldamistasand (level of description), maht: kogus ja ühik
(extent and medium of the unit of description (quantity, bulk, or size));
· kontekstiala (context area): arhiivimoodustaja nimetus või nimi (name of creators),
administratiivne või biograafiline ajalugu – organisatsiooni struktuur või isiku sugupuu (administrative / biographical history), hoiustamise ajalugu (archival history,
immediate source of acquisition or transfer);
· sisu ja struktuuri ala (content and structure area): sisu ja hõlmavus (scope and content), hindamine (appraisal, destruction and scheduling information), täienemine
(accruals), korrastussüsteem (system of arrangement);
· juurdepääsu- ja kasutustingimuste ala (condition of access and use area):
9.2.3. Kodeeritud arhiivikirjeldus (EAD)
Kodeeritud arhiivikirjeldus (Encoded Archival Description, EAD) on metaandmete
standard, mida kasutatakse peamiselt arhiivide, aga ka raamatukogude ja muuseumide
kogude masinloetavate kirjelduste (inventariraamatud, registrid, indeksid, kataloogid
jms) loomiseks. Standardi arendamine algas California ülikoolis 1993. aastal. Standardi
töötasid välja USA Kongressi raamatukogu ja Ameerika arhivaaride ühing (Society of
American Archivists). EAD tugineb SGMLile ja alates 1998. aasta versioonist EAD 1.0
on see kooskõlaline ka XMLiga. EAD toetab igati arhiivide mitmetasandilist kirjeldussüsteemi ja on laiendatav <odd> elementidega, kuhu saab mahutada sisu, mis teiste
elementide alla ei mahu. EAD sisaldab 163 andmeelementi, mida saab kasutada info
kodeerimiseks ja vahetamiseks. Paljud EAD-elemendid on samased ISAD(G), MARC
ja Dublin Core standarditega.20
9.2.4. Dublin Core metaandmesüsteem
1995. aastal loodi Dublin Core Metadata Initiative (DCMI), mille eesmärk oli elektroonilise info kirjeldamise standardi loomine. DCMI sai alguse 1995. aastal Iowa osariigis
Dublinis toimunud konverentsil. 1998. aastal avaldati 15 elemendist koosnev Dublin
Core Metadata Element Set (DCMES). „Informatsioon ja dokumentatsioon Dublin
Core metaandmeelemendid” on rahvusvaheline standard ISO 15836:2003, mis on üle
võetud Eesti standardiks EVS-ISO 15836:2004. Dublin Core’i tunnustatakse ametlikult
ka WWW Consortiumi ja ISO 23950 raames ning Dublin Core’i metaandmeelemendid
on kehtestatud USA standardina ANSI/NISO Z39.85. Standard sisaldab metaandmete
loetelu valdkondadevaheliseks elektroonilise informatsiooni kirjeldamiseks. Dublin
Core sisaldab 15 elementi, mis jagunevad kolme üldisesse gruppi: inforessursi sisuga,
20
Elementide nimekiri on kättesaadav aadressil https://www.loc.gov/ead/EAD3taglib/index.html.
87
88
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
inforessursi kasutamise ja intellektuaalomandi õigustega ning inforessursi loomega
seotud elemendid (vt tabel 9.1). Dublin Core’i ülesehitus võimaldab seda laiendada,
kombineerides sellesse teisi metaandmesüsteeme, samuti saab mahukamaid süsteeme
ekspordiks või süsteemidevaheliseks otsinguks Dublin Core’i teisendada.
Tabel 9.1. Dublin Core’i andmeelemendid
Grupp
Element
Sisu (content)
Pealkiri (title)
Teema ja märksõnad (subject)
Kirjeldus (description)
Tüüp (type)
Allikas (source)
Seos (relation)
Hõlme (coverage). Inforessursi sisu käsitlusulatus
Autor (creator)
Väljaandja (publisher)
Kaasautor (contributor)
Õigused (rights)
Daatum (date)
Vorming (format)
Identifikaator (identifier), nt URL, URN
Keel (language)
Intellektuaalomand (intellectual property)
Loome (instantiation)
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
näiteks kontrollitud sõnastikke välja „subjekt“ täitmisel, kohustuslik see aga ei ole.
Nii näiteks kasutatakse välja „formaat“ elementidena Multipurpose Internet Mail Extensions (MIME) standardi raames defineeritud sisutüüpe (content types) ja alamtüüpe
(subtypes).21
Tänu oma lihtsusele on Dublin Core metaandmesüsteem laialdaselt kasutusel vägagi
erinevates valdkondades (vt näitekast 9.1). Dublin Core’i lihtsus on üheaegselt nii selle
süsteemi tugev kui ka nõrk külg. Lihtsus vähendab metaandmete loomisega seotud
kulutusi ja soodustab koostalitlusvõimet. Teisest küljest aga ei võimalda lihtsus sellist
semantilist ega funktsionaalset mitmekülgsust, mida toetavad keerukad metaandmesüsteemid. Samas saab keerukamaid metaandmesüsteeme vajadusel Dublin Core’iga
kombineerida. Dublin Core ongi mõeldud kooskasutuseks teistsuguse semantikaga
metaandmestandarditega, sageli ühes ja samas inforessursikirjelduses.
Näitekast 9.1. Dublin Core’i metaandmesüsteemi kasutamine
Dublin Core’i metaandmete koostamiseks saab kasutada veebigeneraatorit
(http://www.dublincoregenerator.com/generator.html), mis pärast andmete
sisestamist loob XML-vormingus kirje. Koostame kirje Kurmo Konsa raamatule „Laulupidu ja verivorst: 21. sajandi vaade kultuuripärandile“.
Dublin Core’i metaandmetele on iseloomulik, et
· metaandmeid on võimalik täiendada valdkonnaspetsiifiliste elementidega;
· kõik elemendid on vabalt valitavad, ükski neist ei ole kohustuslik;
· kõik elemendid on korratavad;
· elemendid võivad olla esitatud erinevas järjestuses
· iga element on määratleja poolt muudetav.
Dublin Core’i järgi on metaandmeelementide puhul oluline:
· lihtsus (simplicity) – andmeelementide semantika üldine lihtsus;
· semantiline koostalitlusvõime (semantic interoperability) – kirjeelemendid võimaldavad valdkondadevahelist otsingut;
· rahvusvaheline ühtlustatus (international consensus) – Dublin Core’i kasutatakse
rohkem kui 20 riigis Põhja-Ameerikas, Euroopas, Austraalias ja Aasias;
· paindlikkus (extensibility) – Dublin Core on kohandatav ja ühildatav erinevate standarditega (nt andmevahetusvorminguga MARC);
· metaandmete modulaarsus (metadata modularity on the Web) – W3C on hakanud
rakendama veebis kuvatavate metaandmete arhitektuuri raamistikku (Resource
Description Framework);
· vastavus W3C standarditele (nt HTTP, XML ja HTML).
Väljadele kantav sisu sõltub kirjeldajast, standard seda otseselt ei määratle. Nendel
väljadel, kus seda on võimalik rakendada, soovitatakse kasutada kontrollitud väärtusi,
<?xml version=”1.0” encoding=”UTF-8”?>
<metadata
xmlns:xsi=”http://www.w3.org/2001/XMLSchema-instance”>
21
http://www.iana.org/assignments/media-types/index.html.
89
90
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
>
xmlns:dcterms=”http://purl.org/dc/terms/”>
<dc:title>Laulupidu ja verivorst</dc:title>
<dcterms:alternative>21. sajandi vaade kultuuripärandile</dcterms:alternative>
<dc:creator>Konsa, Kurmo</dc:creator>
<dc:subject xsi:type=”dcterms:AAT”>cultural heritage</dc:subject>
<dc:subject xsi:type=”dcterms:AAT”>heritage management</dc:subject>
<dc:description>Pärandit võib käsitleda erinevate vaatenurkade alt, alates
selle filosoofilisest tähendusest ja lõpetades väga tehniliste konserveerimismenetlustega. See raamat lähtub ideest, et pärand on inimeste poolt praegusel
hetkel loodav nähtus. Raamatu võib paigutada interpretatiivse käsitlusviisi
paradigmasse, mis tähendab seda, et pärandit vaadeldakse nähtusena, millele
antakse väärtus ja tähendus kindla sotsiaalse konteksti raames toimuva interpreteerimisprotsessi käigus</dc:description>
<dc:publisher>Tartu Kõrgem Kunstikool</dc:publisher>
<dcterms:created xsi:type=”dcterms:W3CDTF”>2014</dcterms:created>
<dc:type>book</dc:type>
<dc:identifier>ISSN 1406 - 8893</dc:identifier>
<dc:identifier>ISBN 978-9949-9645-0-5</dc:identifier>
<dc:identifier> http://www.ester.ee/record=b4443145*est</dc:identifier>
<dc:language xsi:type=”dcterms:ISO639-2”>est</dc:language>
<dcterms:educationlevel>students</dcterms:educationlevel>
<dcterms:rightsholder>Konsa, Kurmo</dcterms:rightsholder>
<dcterms:rightsholder>Tartu Kõrgem Kunstikool</dcterms:rightsholder>
</metadata>
9.2.5. Märgistus- ehk märgendkeeled
Selleks, et arvutil oleks võimalik inforessursse töödelda, peab ta neist aru saama.
Senini ei suuda arvutid informatsiooni mõista päris selliselt, nagu teevad seda inimesed.
Kui inimene loeb dokumenti, kus on kirjas selle koostaja nimi, siis saab ta aru, kes on
dokumendi teinud. Arvutile tuleb täpselt öelda, kus asub dokumendis koostaja nimi,
vastasel korral ei pruugi ta seda ära tunda, võib ju see nimi esineda erinevates kohtades,
olla kirjutatud erineval viisil jne. Märgistuskeeli kasutataksegi inforessursi osade märgistamiseks. Inforessursi eri osad eristatakse vastavate koodidega, mida kutsutakse
lipikuteks ehk märgenditeks (tag, markup tag). Arvutiprogramm tõlgendab märgendeid
kas käskudena info esitamiseks (näiteks millist tekstiosa näidata kursiivis või mingi
värviga) või siis mingi osa info eraldamiseks dokumendist selle edasiseks töötlemiseks
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
või andmebaasis säilitamiseks. Nii näiteks võidakse dokumendist eraldada automaatselt
kataloogi kandmiseks autor, pealkiri, ilmumisaasta jne.
Märgendkeel peab määrama,
· millised märgendid on lubatud;
· millised märgendid on kohustuslikud;
· kuidas märgendeid tekstist eraldatakse;
· mida märgend tähendab.
Erinevatel eesmärkidel kasutamiseks on loodud terve hulk märgendkeeli: SGML,
HTML, XML, AIML, LaTeX, PS (PostScript) jt.
Standardne üldistatud märgistuskeel (standard generalized markup language, SGML)
on dokumentide kirjeldamise üldine märgistuskeel, millele tuginevad mitmed teised
tuntud märgistuskeeled, nagu HTML, XML, AIML jt. SGML on avatud ning rakendustest ja arvutiplatvormidest sõltumatu rahvusvaheline standard, mis kirjeldab suhet
dokumendi sisu ja selle struktuuri vahel. Aastast 1986 on tegemist ISO standardiga
(ISO 8879).
SGMLis eristatakse elemente (elements) ja tunnuseid (attributes). Elementideks on kõik
dokumendi struktuurielemendid: pealkirjad, lõigud, tabelid, peatükid jne. Tunnused
annavad teavet vastava elemendi kohta. Elementide eraldamiseks kasutatakse märgendeid ja eraldajaid (delimiter).22 Näiteks võidakse teksti autori eristamiseks kasutada järgmist tähistust: <author>Tarvo Kärberg</author>. Autori tähistamiseks kasutatakse
märgendit <author>, kahe sellise märgendi vahel asub sisu, antud juhul autori nimi.
Elemendi lõppu tähistab märgend </author>. Erinevate tekstiosade märgendamiseks
kasutatakse erinevaid märgendeid.
SGML-dokument koosneb kolmest osast:
· SGML deklaratsioon, mis määratleb dokumendis kasutatud märgistiku,
elementide nimede pikkuse ja teised olulised tunnused;
· dokumenditüübi kirjeldaja (document type definition, DTD);
· dokument ise.
Dokumenditüübi kirjeldaja ehk dokumenditüübi määrang on dokumendi juurde kuuluv teave selle kohta, kuidas dokumenti esitav rakendusprogramm peab märgendeid
tõlgendama. DTD kirjeldab dokumendi igat elementi ja määratleb seosed nende vahel.
Hüperteksti märgistuskeel (HyperText Markup Language, HTML)
SGML sobib hästi digitaalsete objektide märgistamiseks, kuid seejuures on tegemist
küllaltki keeruka ja töömahuka keelega. Veebidokumentide loomiseks töötati välja
lihtsam märgistuskeel HTML. Dokumenti lisatud HTML-märgendid määravad selle,
kuidas veebileht veebilehitsejas välja näeb. Nad annavad lehitsejale teada, mida sisuga
teha, mil moel seda vormindada ja kuvada. Kõik HTML-märgendid on ümbritsetud
noolsulgudega < >. Paljudele elementidele saab lisada parameetreid, mis elemendi esitamisviisi lehitseja jaoks täpsustavad. Parameetrid kirjutatakse elemendi algusmärgendi
juurde noolsulgude sisse. Igal parameetril on tavaliselt mitu võimalikku väärtust või
väärtusvahemikku.
22
Piire, eraldaja (delimiter) – märk (vahel ka mitmest märgist koosnev märgikomplekt), mida kasutatakse lihttekstis üksteisele järgnevate sõltumatute piirkondade alguse ja lõpu tähistamiseks.
91
92
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
HTMLi lõi koos veebiga 1990. aastal Tim Berners-Lee. Aastal 1994 asutas ta World
Wide Web Consortiumi (W3C), mis on sellest ajast alates tegelenud muuhulgas ka
HTMLi standardite väljatöötamisega. Praeguseks on olemas viis HTMLi redaktsiooni.
2000. aasta jaanuaris avaldas W3C laiendatava hüperteksti märgistuskeele spetsifikatsiooni XHTML 1.0 (extensible hypertext markup language) – HTML 4.01 redaktsiooni,
mis on esitatud XMLis. Seega on tegemist kõikide XML-keeltega ühilduva märgistuskeelega, mis on sobilik veebilehtede kirjeldamiseks.
Laiendatav märgistuskeel (extensible markup language, XML)
XML on SGMLi alamosa (standardprofiili ehk kitsendatud vormiga), erinevalt
HTMList, mis on SGML standardile tuginev keel. XML on platvormist sõltumatu –
XML-andmeid saab lugeda ja töödelda iga XMLi kasutamiseks mõeldud programm,
olenemata riistvarast ja operatsioonisüsteemist. XML on laiendatav – igal kasutajal on
võimalik defineerida oma elemente. XML võimaldab koostada kuitahes keeruka struktuuriga dokumente. Kui võimalik, tuleks kasutada olemasolevaid XML rakendusi, kui
neid ei ole, siis luua uus.
Igal XML-dokumendil on loogiline ja füüsiline struktuur. Füüsilise struktuuri määravad andmed, mida XML-dokument sisaldab. Füüsiliselt koosneb dokument kirjetest,
mida nimetatakse üksusteks (entities). Üksus võib viidata teistele üksustele, põhjustades
nende kaasamise dokumenti. Üksus sisaldab kas grammatiliselt parsitud (analüüsitud)
või parsimata andmeid. Parsitud andmed koosnevad märkidest (characters), kas märkandmete (character data) või märgistuse (markup) vormis. Märgistusega kodeeritakse
andmete paigutus dokumendis ja dokumendi loogilise struktuuri kirjeldus. Igal üksusel
on mingi sisu ja nimi. Dokument algab juur- ehk dokumendiüksusega (document entity).
Eksisteerib üks ja ainult üks element, mida nimetatakse juur- ehk dokumendielemendiks ja mille ükski osa ei esine mitte üheski teise elemendi sisus (content). Kõikide teiste
elementide korral, mille lähtemärgis asub mingis teises elemendis, asub lõpumärgis
samas elemendis, st et lähte- ja lõpumärgisega eraldatud elemendid sisestuvad (nest)
üksteises õigesti.
Dokumendi loogilist struktuuri võib nimetada dokumenti kirjeldavaks raamistikuks
(framework). Loogiliselt koosneb dokument deklaratsioonidest, elementidest, kommentaaridest, viitadest märkidele, töötluseeskirjadest, mis on kõik üksikasjaliku märgistusega dokumendis ära näidatud. Iga dokument sisaldab ühte või mitut elementi, mis
on piiritletud kas algusmärgistega (start-tags) ja lõpumärgistega (end-tags) või tühielemendi (empty) korral tühielemendi märgisega (empty-element tag).
Ka XML kasutab märgendeid, kuid erinevalt HTMList peavad kõik märgendid olema
suletud. Märgendite vahel olevat sisu koos märgenditega nimetatakse XML-elemendiks.
Igal elemendil on nimega identifitseeritav tüüp, mida mõnikord nimetatakse tema sootunnuseks (generic identifier, GI) ja mis võib omada kogumit atribuutide spetsifikatsioone. Atribuut võimaldab elemendile infot lisada.
XML-skeemid (XML schema) on välja töötatud spetsiaalselt XML-dokumentide tarbeks
ja pakuvad tunduvalt rikkamaid võimalusi võrreldes dokumendi tüübi deklaratsioonidega. XML-skeem kirjeldab mingit XML-dokumendi klassi ja tegelik XML-dokument
on selle klassi realisatsioon. Skeem on XML-fail, mis sisaldab reegleid selle kohta, mis
võib XML-andmefailis sisalduda ja mis mitte. Skeemifailide failinimelaiend on tavaliselt
.xsd, samas kui XML-andmefailide laiend on .xml. XMLil baseeruvaid skeemi lahendusi on mitu: XML-Data – andmetüüpide lisamise võimalus (loodud SQL tüüpide
eeskujul); DCD (Document Content Description); SOX (Schema for Object-oriented
XML); DDML (Document Definition Markup Language); XDR (XML-Data Reduced);
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
XSD (XML Schema). Skeemid lubavad programmidel XMLide korrektsust kontrollida,
annavad andmete struktureerimiseks raamistiku ja tagavad selle arusaadavuse loojale ja
teistele kasutajatele. Seni, kuni XML-faili andmed vastavad skeemi reeglitele, saab iga
XMLi toetav programm sealt andmeid lugeda, tõlgendada ja töödelda.
XML-skeemi määratlus (XML schema definition, XSD) võimaldab XMLis kirjeldada
väga keerulisi andmestruktuure. Selles saab kirjeldada
·
·
·
·
elementide järjestikulist esinemist;
elementide esinemiste arvu;
atribuutide esinemisi elementides;
atribuutide ja elementide väärtustüüpe.
Lisaks on võimalik määrata andmetele tingimusi ja teha oluliseks nende esinemise järjekorra.
XML-dokumente luuakse tekstiredaktorite või spetsiifiliste XML-redaktoritega. Tarkvaramoodulit XML-protsessor kasutatakse XML-dokumentide lugemiseks ning juurdepääsu tagamiseks dokumendi sisule ja struktuurile. Eeldatakse, et XML-protsessor töötab koos rakendustarkvaraga.
Teksti kodeerimise algatus (Text Encoding Initiative, TEI)
TEI loodi 1987. aastal eesmärgiga töötada välja humanitaar- ja sotsiaalteaduslike ning
lingvistiliste tekstide kodeerimise juhendid.23 Alates 2000. aastast tegeleb TEI juhendite haldamise ja täiendamisega rahvusvaheline TEI Consortium. „TEI Guidelines for
Electronic Text Encoding and Interchange“ avaldati 1994. aastal. Käesoleval ajal kehtib
2007. aastal ilmunud TEI juhendite versioon (TEIP5).24 TEI loomisel võeti eesmärgiks
teha selline tekstide märgendussüsteem, mis sobiks võimalikult paljudeks eesmärkideks
ning
· oleks üldine, paindlik ja vajadusel laiendatav;
· annaks standardse vormi, mis teeb võimalikuks teksti üleviimise ühest arvutist ja
keskkonnast teise ja selle kasutamise teises keskkonnas;
· esitaks ühtsed tekstide märgendamispõhimõtted;
· pakuks standardse vormi erinevates tekstides esinevate erinevate nähtuste märgendamiseks.
Iga TEI-dokumendi struktuuri kohustuslik osa on päis (header), mis sisaldab metaandmeid märgendatud teksti kohta. Päis koosneb neljast osast:
· faili kirjeldus (file description) <fileDesc> – sisaldab faili täielikku bibliograafilist
kirjeldust;
· kodeeringu kirjeldus (encoding description) <encodingDesc> – kirjeldab seost
elektroonilise teksti ja nende allikate vahel, kust see tekst on saadud;
· teksti profiil (text profile) <profileDesc> – teksti mitte-bibliograafiliste tunnuste
detailne kirjeldus, ennekõike tuuakse ära kasutatud keeled, situatsioon, kus tekst
loodi, ja kes selle loomises osalesid;
· korrigeerimise kirjeldus (revision description) <revisionDesc> – kirjeldab faili
korrigeerimise ajalugu.
23
24
http://www.tei-c.org/index.xml.
http://www.tei-c.org/release/doc/tei-p5-doc/en/html/index.html.
93
94
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
TEI päise kirjeldav info langeb suures osas kokku teiste standardite (MARC, MODS,
Dublin Core) poolt määratletud kirjeldava teabega objektide kohta. Sarnaselt teiste
märgendkeeltega on TEIs määratletud hulk silte (tags) ehk XML-elemente, mida saab
teksti lisada, et märgendada teksti struktuuri või muid huvipakkuvaid tunnuseid. Lisaks
on olemas atribuudid (attributes), mida saab kasutada elementide muutmiseks. Kuna
TEI on ette nähtud igasuguste tekstide märgendamiseks, siis on terviklik siltide hulk
vägagi suur, koosnedes ligikaudu 500 sildist. Igal konkreetsel juhul kasutatakse neist
muidugi ainult väikest osa.
TEI sildihulga elemendid jagunevad kahte suurde gruppi. Ühed on ette nähtud märgendatava teksti metaandmete (bibliograafiline kirjeldus, päritolu, käsikirja kirjeldus jne)
kirjapanekuks, teiste abil märgendatakse teksti ennast. Tekstide märgendamiseks kasutatakse näiteks järgmiseid silte: lõik <p>, lause <s>, tsiteering <q>, reavahetus <lb>,
leheküljevahetus <pb>, nimekiri <list> jne.
Välja on töötatud märgendusmudelid erinevate tekstitüüpide jaoks. TEId kasutatakse
näiteks lingvistiliste korpuste märgendamiseks – British National Corpus,25, Eesti keele
koondkorpus26. Lisaks on olemas ka TEI analoog muusika jaoks – MEI (Music Encoding Initiative)27.
9.3. Säilitusmetaandmed
Pikaajalise säilitamise edukus sõltub suurel määral metaandmete olemasolust ja kvaliteedist. Säilitusmetaandmete korral on tegemist metaandmetega, mis on vajalikud inforessursside pikaajaliseks säilitamiseks. Nad aitavad digiressursside säilitamist korraldada
ja dokumenteerivad säilitusprotsessi ennast. Säilitusmetaandmed on igasuguse digisäilitusstrateegia väga oluline osa (Anderson Delve et al. 2009: 16).
Kitsama käsitluse kohaselt kuuluvad säilitusmetaandmed administratiivsete metaandmete hulka. Laiema käsitluse järgi kuulub säilitusmetaandmete alla nii osa administratiivseid, kui ka strukturaalseid metaandmeid. Kirjeldavaid metaandmeid otseselt säilitamisega ei seostata. Samas kui objekt ei ole leitav ega kasutatav, siis ei saa tegelikult ka
tema säilitamisest rääkida.
Säilitusmetaandmed peavad tagama info järgmiste oluliste valdkondade kohta (Lavoie
Gartner 2005):
· provenients– info objekti loomise ja edasiste omanike kohta; olulised sündmused
objekti ajaloos;
· autentsus – info, mis on piisav selleks, et tagada infoobjekti usaldusväärsus. Kõik
infoobjektiga kas tahtlikult või tahtmatult toimunud muudatused peavad olema
dokumenteeritud. Teave autentsuse tagamiseks rakendatud tehniliste meetodite
(kontrollsummad digiallkirjad jms) kohta;
· säilitustegevused – kõik objektiga toimunud säilitustegevused (migratsioonid,
normaliseerimised, emuleerimine jms) ning nende mõju infoobjektile peavad
olema dokumenteeritud;
· tehniline keskkond – info, mis kirjeldab tehnilisi nõudeid nii digiobjekti kasutamiseks vajalikule riist- kui ka tarkvarale. Tegemist on üliolulise teabega, kuna enamik
säilitusstrateegiaid vajab teavet laiema tehnilise keskkonna kohta;
25
26
27
http://www.natcorp.ox.ac.uk/
https://www.keeletehnoloogia.ee/et/ekktt/ekktt-projektid/eesti-keele-koondkorpus/koondkorpus
http://music-encoding.org/.
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
· intellektuaalomandi õigused – info õiguslike aspektide kohta, mis võivad piirata
digiobjekti säilitamist ja kasutamist.
Nagu näha, hõlmavad säilitusmetaandmed vägagi suurt hulka küllaltki erilaadilist teavet.
Säilitusmetaandmete süsteemide loomisel ongi kõige keerukam igal konkreetsel juhul
otsustada, millist informatsiooni on täpselt vaja, et tagada infoobjektide säilitamine. See
sõltub sellest, milliseid infoobjekte, kui pikalt ja millisel eesmärgil säilitatakse. Võimatu
on luua ühtset metaandmete süsteemi, mis sobiks kõikidele säilitatavate digiobjektide
tüüpidele ja kõikidele säilitamisega tegelevatele institutsioonidele. Teisalt on jällegi
sobiv metaandmete süsteem vaja luua kohe algusest peale, kuna tagantjärele on paljude
metaandmete hankimine võimatu. Säilitusprotsessi eri etappidel ja eri osalistele on olulised erinevad metaandmed.
Enamik säilitusmetaandmete süsteeme tugineb kas otseselt OAISile või siis on arendatud lähtudes samadest ideedest nagu OAIS. OAIS määratleb järgmised üldised säilitusmetaandmete tüübid, mis on vajalikud digiobjektide pikaajaliseks säilitamiseks:
esitlusinfo – info, mis on vajalik säilitatava bitijada esitamiseks. Siia kuulub info vormingute, märgistike, riist- ja tarkvarakeskkonna kohta jne. Näiteks kui säilitatakse andmetabelit, peab olemas olema info nii tabeli vormingu (struktuuri), kui ka arvuliste väärtuste tähenduse (semantika) kohta;
säilitamise kirjeldusinfo – info, mis toetab ja dokumenteerib arhiveeritud objekti säilitamist, sealhulgas:
· viiteteave – arhiveeritud objekti unikaalne identifikaator;
· kontekstiteave – kirjeldab arhiveeritud objekti seoseid teiste arhiveeritud objektidega ja seoseid keskkonnaga, näiteks põhjust, miks arhiveeritud objekt on loodud;
· päritoluteave – dokumenteerib arhiveeritud objekti ajalugu, selle loomist, muutmist
ja haldamist;
· kinnitusinfo – kinnitab arhiveeritud objekti autentsust ja terviklikkust, näiteks
kontrollsumma;
· paketi kirjeldus – info, mis seob kõik infopaketi komponendid üheks loogiliseks
tervikuks;
· kirjeldav info – info, mis aitab kasutajal arhiveeritud objekti leida ja kasutada.
Pakendi tasemel metaandmed.
OAIS ei määratle kindlaid metaandmete elemente, kuid selline üldine metaandmete
kirjeldus on aluseks spetsiifilisemate säilitusmetaandmesüsteemide loomisel.
9.4. Metaandmesüsteemi valik
Metaandmesüsteemi valikul tuleks pidada silmas järgmisi asjaolusid:
· inforessursside kasutajad ja nende vajadused – millist infot nad vajavad ja eeldavad,
et neile pakutakse. Lõppkasutajate infovajadusi on oluline arvestada juba metaandmete süsteemi kavandamise algstaadiumis, kuna need mõjutavad oluliselt metaandmete elementide loetelu, pakendamisepakendamise vormingut ja esitamise viisi;
· kogude haldajad – milline info on vajalik digiressursside kogu haldamiseks, säilitamiseks ja kasutatavana hoidmiseks. Oluline on arvestada digiressursside pikaajalise
säilitamise ja kasutamisekasutamise vajadusi;
· olemasolevad standardid, mida sarnaste kogude puhul kasutatakse. Niipalju kui võimalik tuleb kasutada olemasolevaid standardeid või siis neid vastavalt vajadustele
95
96
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
·
·
·
·
·
kohandada. Ühelt poolt aitab see vahendeid kokku hoida ja teiselt poolt soodustab
eri süsteemide koostalitlusvõimet;
Kasutatav metaandmesüsteem – milliseid metaandmeid kasutatakse ja kuidas nad
rahuldavad vajadusi;
koostoime teiste olemasolevate süsteemidega – kas metaandmed peavad sobima
olemasolevate süsteemide, näiteks elektronkataloogidega;
ressursside olemasolu – kui palju aega ja vahendeid on võimalik eraldada metaandmete loomiseks ja haldamiseks ning kas on olemas inimesed, kes omavad kogemusi
ja teadmisi metaandmetega tegelemiseks;
koostöövõime – kas kogu peab töötama koos teiste kogudega;
kogu arenguplaanid – millised on kavad kogu arendamiseks, milliseid uusi ressursse
võidakse kogusse lülitada, kuidas võib muutuda kogu kasutajaskond.
9.5. Metaandmete loomine
Metaandmeid loovad kas inimesed või automaatsed süsteemid. Metaandmete loomiseks on mõned tüüpilised ajahetked infoobjekti elutsüklis: objekti loomine, avaldamine,
hoidlasse paigutamine ja taasläbivaatamine.
Metaandmete loomise seisukohalt on oluline nende jaotamine sisemisteks ja välisteks.
Sisemised ehk implitsiitsed metaandmed (intrinsic, implicit metadata) on vahetult ja
otseselt seotud kirjeldatava objektiga. Sellisteks metaandmeteks on näiteks failivorming,
faili suurus, eraldusvõime, rastrisügavus jms. Sedalaadi teave on failivormingu korral
üldjuhul kirjas faili päises (header). Kontekstist tuletatud metaandmete näiteks võib
tuua faili asukoha kataloogis. Suur osa sisemistest metaandmetest on tehnilised. Sisemisi metaandmeid saab infoobjektidest endist või nende kontekstist tuletada automaatselt. Välised ehk eksplitsiitsed metaandmed (extrinsic, explicit metadata) on märksa
subjektiivsemad ning omistatakse infoobjektile lähtudes selle kontekstist ja suhetest
teiste infoobjektidega. Nende hulka kuuluvad näiteks kirjeldavad metaandmed. Välised
metaandmed loob üldjuhul inimene.
Arvutid võivad tekitada näiteks märksõnade indekseid, kasutajate logisid ja kontrolljälgi,28 kuid enamiku metaandmeid loovad siiski inimesed. Käsitsi on kõikide metaandmete loomine vägagi töömahukas ülesanne. Oluline on tagada metaandmete automaatne
hõive dokumendihaldussüsteemidest, olemasolevatest metaandmeid sisaldavatest
andmebaasidest ja muudest allikatest. Tänapäeval põimuvadki metaandmete loomisel
inimese teostatavad toimingud automaatsete protsessidega. Metaandmeid luuakse infoobjekti elutsükli eri etappidel, erinevatel eesmärkidel ja eri inimeste poolt. Me võime ette
kujutada, et infoobjekt korjab oma elu jooksul enda ümber ja ka sisse pidevalt üha uusi
metaandmete kihte. Võimalikult palju tuleb kasutada juba olemasolevaid metaandmeid,
mida saab üle kanda raamatukogude, kirjastajate, arhiivide jne andmebaasidest. Kirjastajad kasutavad näiteks XMLil baseeruvat metaandmete standardit ONIX29, et levitada infot
raamatute, jätkväljaannete ja kirjastamisega seotud litsentside kohta.
28
29
Kontrolljälje moodustavad infoüksuse töötluskäigu taastamist ja kontrolli võimaldavad andmed.
Kontrolljälg annab informatsiooni äritehingu oluliste sammude toimumise kohta ja võimaldab
kontrollijal kindlaks teha, et tehingu aruandesse pole tekkinud vigu. E-kommertsis aitab hea kontroll
välja selgitada programmeerimisvigu ja võimalikke lahkuminekuid selles, kuidas tehingupooled on
tehingu registreerinud.
http://www.editeur.org/8/ONIX/.
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
Enamik institutsioone loob kirjeldavaid metaandmeid käsitsi, tehnilisi metaandmeid
tuletatakse enamikul juhtudel automaatselt. Suur osa struktuurseid ja administratiivseid
metaandmeid saadakse digiobjekti loojatelt. Ka kirjeldavate metaandmete kvaliteet on
mõnel juhul parem, kui need esitab digiressursi looja. Eriti oluline on see selliste digiressursside korral, mille loojal on kõige parem info selle kohta, kuidas ja milleks need
on loodud. Selliste digiressursside heaks näiteks on teadusprojektide käigus kogutavad
andmebaasid. Samas on väga paljude digiressursside korral kirjeldavate metaandmete
loojateks vastava eriala spetsialistid, kuna autoritel või loojatel puuduvad selleks teadmised ja oskused. Nii näiteks loovad raamatutele metaandmed raamatukogutöötajad,
mitte autorid, kuigi nende käest võidakse nõu küsida.
Metaandmete loomiseks on olemas mitmesuguseid abivahendeid, mida võib grupeerida järgmiselt (NISO 2004: 10):
· mallid (templates) – kasutaja sisestab metaandmed valmis vormi. Mall esitab vormindatud metaandmetemetaandmete elementide ja vastavate väärtuste süsteemi;
· märgendusvahendid – struktureerivad metaandmete elemendid ja väärtused vastavasse märgendkeelde. Enamik neist vahenditest loob XML- või SGML-dokumendi
tüüpide määratlusi (document type definitions, DTD). Osa malle esitavad samuti
metaandmed sellisel märgendatud kujul;
· tuletusvahendid (extraction tools) – loovad automaatselt metaandmed digiressursi
analüüsimise teel. Üldjuhul sobivad tekstiliste digiobjektide analüüsimiseks. Nende
abil loodud metaandmed peab inimene kindlasti üle kontrollima ja toimetama. Kujutiste analüüsimisel saab infot vormingute, värvussügavuse, pakkimise jms kohta;
· teisendusvahendid (conversion tools) – muudavad ühe metaandmete vormingu
teiseks.
Bibliograafiliste metaandmete automaatseks hankimiseks kasutatakse metaandmete
kaevandamist (metadata mining), kogumist (metadata harvesting), veebiotsinguid jt
meetodeid.
Metaandmete loomine on pikka aega olnud teabeasutuste (raamatukogude, arhiivide,
muuseumite) üks põhitegevusi. Tänapäeval eeldatakse, et digitaalsete dokumentide
metaandmed tekivad peaasjalikult juba objekti loomisel ja edasise elukäigu jooksul
tekib neid väga minimaalselt, pigem uuendatakse olemasolevaid metaandmeid.
Metaandmete loomises osalevad tänapäeval üha enam ka kasutajad. Paljudes veebikeskkondades on kasutajatel võimalik lisada tekstidele, piltidele jms metaandmeid. Kasutajate loodud metaandmeid nimetatakse folksonoomiaks. Folksonoomia on meetod sisu
märgendamiseks ja kategoriseerimiseks koostöös loodud ja hallatud märksõnade abil
(tagging tools). Materjali avaldaja võib kasutada vabalt valitud märksõnu. Kasutajate
loodud metaandmete hea külg on see, et teatud huvigrupid, kes vastavaid inforessursse
kasutavad, loovad neile ka kõige sobivamad metaandmed. Tegemist on ka suhteliselt
odava viisiga olemasolevaid metaandmeid täiendada ja laiendada. Puudusteks on kvaliteedikontrolli vajadus ja probleemid koostalitusvõimega - mõne inforessursi metaandmed võivad olla liiga spetsiifilised ja sellele ressursile ainuomased.
Metaandmed võivad olla tehtud ka infoobjekti looja poolt. Tavaliselt toimub see koos
infoobjekti enda loomisega. Tegemist võib olla originaalse infoobjektiga või ka näiteks
digitaliseeritud variandiga mingist objektist. Näiteks võib tuua raamatu pealkirja, autori
nime, maali nimetuse, digitaliseerimise tulemusena saadud faili vormingu ja nime jne.
Metaandmed võidakse objektile luua aga ka hiljem, tavaliselt siis juba ka teiste inimeste
poolt – näiteks raamatute bibliokirjed ja kataloogiandmed, failide URLid jms.
97
98
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
Osa metaandmeid, näiteks paljud kirjeldavad metaandmed, on staatilised – kui nad on
kord loodud, siis nad püsivad muutumatutena. Dünaamilised metaandmed muutuvad
säilitamise, kasutamise ja infoobjektide töötlemise käigus. Selliste metaandmete hulka
kuuluvad näiteks säilituskorralduslikud metaandmed, vorminguid ja objektide töötlemist käsitlevad metaandmed, kataloogipuud, õigusi puudutav teave.
9.6. Metaandmete sidumine infoobjektiga
Metaandmed võivad olla esitatud
· kirjena andmebaasis;
· märgenditena inforessursis endas;
· eraldi failina;
· tavakeelse kirjeldusena.
Ühe ja sama inforessursi metaandmed võivad olla esitatud ning infoobjektiga seotud
erineval moel. Manustatud metaandmed (embedded metadata), mida võidakse nimetada ka sisemisteks metaandmeteks, on osa infoobjektist, kuhu nad lisab tavaliselt juba
infoobjekti looja. Manustatud metaandmeid võivad sisaldada näiteks HTML-dokumendid, suur osa tekstidokumente, PDF-tüüpi failid, kujutisefailid jne. Liidetud ehk
ühendatud metaandmeid (associated metadata) hoitakse failides, mis on tihedalt seotud
ressursiga, mida nad kirjeldavad. Tihti on ressurss ja metaandmed pakendatud kokku
nii, et moodustub uus fail. Selliseks konteineriks on näiteks METS-fail. Eraldiseisvad
metaandmed (detached metadata), mida nimetatakse ka välisteks metaandmeteks, on
metaandmed, mille kirjeid hoitakse selleks ettenähtud andmebaasides infoobjektist
eraldi. Tüüpilised välised metaandmesüsteemid on näiteks arhiivskeem ja dokumendiregister. Väliseid metaandmeid säilitatakse kõige sagedamini andmebaasides ja XMLfailidena. Eraldi failidena esinevad metaandmed võivad olla kirjeldatava infoobjektiga
lingitud.
METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE
9.7. Metaandmete koostalitlusvõime
Kuna eri huvigrupid on arendanud välja endale kõige sobivamad metaandmesüsteemid
ja ühtset universaalset metaandmesüsteemi ei ole võimalik luua, siis on väga oluline
tagada metaandmete jagatavus eri süsteemide vahel. Tehnilisel tasemel sõltub koostalitlusvõime standardiseeritud süntaksite olemasolust ja ühiste kommunikatsiooniprotokollide kasutamisest. Standardsed süntaksid põhinevad tänapäeval XMLil ning
levinumad kommunikatsiooniprotokollid on Z39.50 (ANSI/NISO Z39.50-2003) ja
Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH). Märksa keerukam
võrreldes tehnilise koostalitlusvõimega on tagada semantilist koostalitlusvõimet. Selleks
on vajalik erinevates valdkondades kasutatava terminoloogia ja tähenduste ühtlustamine. Lihtsaim lahendus semantilise koostalitlusvõime tagamiseks on kasutada erinevate
metaandmesüsteemide vastavustabeleid (mappings ehk crosswalks) kombineerituna valdkondadevaheliste metaandmestandarditega, näiteks Dublin Core’iga. Vastavuste leidmine
erinevate metaandmesüsteemide vahel ei ole tavaliselt väga lihtne, kuna nad on loodud
spetsiifilisi eesmärke ja konkreetset valdkonda silmas pidades (Day 2005: 17).
Erinevate metaandmesüsteemide integreerimiseks saab kasutada World Wide Web
Consortiumi (W3C) loodud ressursikirjeldusraamistikku (The Resource Description
Framework, RDF), mis on andmemudel veebiressursside kirjeldamiseks.30 Tegemist on
keelega, mis oli algselt ette nähtud veebiressursside metaandmete, nagu pealkiri, autor,
veebilehe muutmise aeg, info autoriõiguste kohta jms, esitamiseks. RDF võimaldab
metaandmetega seotud infot erinevate rakenduste vahel vahetada nii, et säiliks andmete
tähendus. RDFi aluseks on objektide identifitseerimine ühtset ressursiidentifikaatorit
(uniform resource identifiers, URI) kasutades ning resursside kirjeldamine lihtsate tunnuste (simple properties) ja tunnuste väärtuste (property values) abil. RDFi saab esitada
mitme notatsiooni abil. Neist traditsioonilisem on XML-kuju, mida nimetatakse RDF/
XML.
Metaandmete säilitamisel on kõige olulisem tagada side metaandmete ja infoobjekti
vahel. Sellest eesmärgist lähtudes tuleb ka hinnata võimalike säilitusmeetodite häid ja
halbu külgi. Metaandmete säilitamine koos selle objektiga, mida nad kirjeldavad, tagab
selle, et metaandmed ei lähe kaotsi, ennetab andmete ja metaandmete seostamisel
tekkida võivaid probleeme ning tagab, et andmeid ja metaandmeid muudetakse koos.
Samas muudab metaandmete olemasolu failivormingu keerukamaks ning keerukamate
digiobjektide säilitamisel võib tekkida rohkem vigu. Selliselt esitatud metaandmeid
on keerukam keskselt töödelda, sest metaandmed asuvad ju erinevates objektides.
Metaandmete säilitamine eraldi andmebaasis tagab nende lihtsama otsitavuse ja kasutamise ning metaandmete endi halduse. Samas kaob sel juhul automaatne side andmete ja
metaandmete vahel. Infoobjekti võib kopeerida, ümber paigutada, muuta või kustutada,
ilma et selle metaandmed muutuksid.
Üha enam on levinud tava hoida sisuandmeobjekte failisüsteemis või sisuhaldamise
süsteemis ning säilitada metaandmeid nii koos objektiga kui ka eraldi andmebaasis.
Andmebaasis hoitavaid metaandmeid kasutavad hoidlasüsteemid, objektiga koos
hoitavad metaandmed muudavad aga objekti isemääratlevaks (self-defining), näiteks
väljaspool digihoidla konteksti (Anderson Delve et al. 2009: 39). Sellisel juhul on
metaandmed dubleeritud ning nende säilitamiseks kulub rohkem aega ja vahendeid.
Probleemseks võib osutuda nii objektis kui ka andmebaasis asuvate metaandmete
sünkroniseerimine nende muutmisel. Võidakse kasutada ka sellist lahendust, et andmebaasis on metaandmed täielikul kujul ja objekti juures on ainult osa metaandmeid.
30
http://www.w3.org/RDF/.
99
100
SÄILITUSMEETODID DIGIHOIDLAS
SÄILITUSMEETODID DIGIHOIDLAS
10. SÄILITUSMEETODID
DIGIHOIDLAS
objektist täpne koopia. Koopia valmistamise käigus bitijada ei muudeta, näiteks kui
tehakse koopia kõvakettast, siis kopeeritakse ka kõik peidetud, ajutised ja rikutud failid,
failifragmendid ning kustutatud failid, mida ei ole veel üle kirjutatud. Bitijada kopeerimisel on oluline, et koopia langeks täpselt kokku algallikaga. Selle tagamiseks kasutatakse kontrollsummasid või digitaalseid allkirju. Kui bitijada on natukenegi muudetud,
siis kontrollsumma muutub.
Lugenud läbi selle peatüki,
Bitijada kopeerimine on lihtne, probleeme võib tekkida vaid väga suure andmemahu
korral. Bitijada kopeerimine on tegelikult kõikide säilitusmeetodite üks osa. Aga ainuüksi seda ei loeta digiinfo pikaajaliseks säilitusmeetodiks, kuna lahendamata jääb bitijada inimesele mõistetavaks muutmise küsimus.
• tead, miks on kõikide säilitusstrateegiate alus bitijada kopeerimine;
• oskad faile varundada;
• tead, milline meedia ei sobi pikaajaliseks digiobjektide säilitamiseks;
• tead, mis on digiobjektide migreerimine;
• tead, millised failivormingud sobivad digiobjektide säilitamiseks;
• tead, mis on emuleerimine ja kuidas seda digiobjektide säilitamisel
kasutada saab.
Digitaalse info säilitamiseks on erinevaid meetodeid. Ei ole olemas üht meetodit, mis
sobiks kõikidel juhtudel. Digiinfo säilitamine eeldab selle pidevat haldamist. Selline
vajadus on tingitud nii tehnoloogia, andmekandjate kui ka määratletud kasutajaskonna
teadmusbaasi muutustest. Säilitusstrateegiaid eristatakse peamiselt selle alusel, kas
digiobjekt säilitamise käigus muutub või mitte. Kui digiobjekti ennast ei muudeta, siis
on üks võimalus selle kasutamiseks vajaliku tarkvara emuleerimine. Emuleerimine
tagab digiobjekti kasutamise sellisena, nagu see loodi, samas võib see jällegi vähendada
info võimalikke kasutusviise. Digiobjekti muutmata jätmine tagab selle autentsuse.
Teine võimalus tagada muutmata digiobjektide kasutatavus on luua nende kirjelduste
alusel uus tarkvara, mis võimaldab neid objekte kasutada. Uus tarkvara võib olla identne
algse tarkvaraga või siis baseeruda uuel tehnoloogial.
Juhul kui kasutajatele on oluline digiobjekti väljanägemine või muud tunnetuslikud
omadused, näiteks heli (look and feel), siis võivad emuleerimisel tekkida tõsised probleemid. Selleks, et hinnata, kas uuestiloodav tarkvara esitab digiobjekte autentsel kujul,
tuleb lisaks tarkvara kirjeldusele säilitada ka tarkvara toimimise väljund – kujutised,
videod, helid, vibratsioonid jne. Siis on võimalik võrrelda emuleeritud tarkvara pakutavat käitumist originaalse tarkvara omaga. Kasutajakogemuse formaalne kirjeldamine on
esialgu vägagi raske ja korraliku lahenduseta küsimus.
Teine säilitamisstrateegia on muuta säilitatavat digiobjekti nii, et see oleks kasutatav
kaasaegsete programmide ja riistvaraga. Sellised säilitusstrateegiad liigitatakse üldnimetuse migratsioon alla. Migreerimisest ja emuleerimisest tuleb selles peatükis veel põhjalikumavalt juttu, aga kui alustada algusest, siis tuleb öelda, et igasugune digiinfo säilitamine eeldab piisava esitusinfo olemasolu. Tasub ka tähele panna, et see ei ole staatiline,
vaid muutub pidevalt koos tehnoloogia ja kasutajate teadmusbaasi muutumisega.
Kuna digiinfot on võimalik suhteliselt lihtsalt ja vigadeta kopeerida, siis on kõikide
digiinfo säilitusmeetodite aluseks tegelikult bitijadast koopiate tegemine.
10.1. Bitijada kopeerimine
Bitijada kopeerimine (bitstream copying) on rohkem tuntud andmete varundamise
(backing data) või arhiveerimisena. Bitijada kopeerimisel valmistatakse digitaalsest
Koopia võidakse teha ühest või mitmest failist või tervest andmekandjast. Failide korral
nimetatakse protsessi faili kopeerimiseks ja tervete andmekandjate korral kettakujutise
või tõmmise tegemiseks (disc imaging, disc cloning, disc ghosting). Ketta kopeerimine
erineb lihtsalt kõikide kettal asuvate failide kopeerimisest selle poolest, et säilib ka ketta
struktuur ja andmete suhteline asukoht kettal. Kui kopeerida failid ühelt kettalt teisele,
siis paigutatakse need uuel kettal sinna, kus on ruumi. Kõik andmed jäävad küll samaks,
aga see, kuidas andmed on kettal jaotunud, muutub. Kettast täpse koopia tegemisel
kantakse aga üle iga füüsiline sektor, nii et andmete jaotus kettal jääb täpselt samaks.
Kantakse täielikult üle andmekandja sisu ja struktuur, sektorite kaupa tehakse täpne
koopia ilma failisüsteemile tähelepanu pööramata. Kettast tehtud koopiafaili, mis tavaliselt on ka kokku pakitud, nimetatakse kettakujutiseks (image file). Tekitatud koopia
on nii füüsiliselt kui ka loogiliselt täpselt samasugune kui originaal. Ketta peegeldamine
(disc mirroring) tähendab samade andmete salvestamist kahele eri kõvakettale või sama
ketta kahte eri jaotusse, et tagada süsteemi tõrgeteta töö. Ketta peegeldamise puhul
kasutatakse mõlema ketta juhtimiseks üht ja sama kontrollerit.
10.2. Varundamine
Varundus on liiasusel põhinev käideldavuse ja tervikluse tugevdamise abinõu ning
tähendab infosüsteemi varuandmete loomist nende osalise või täieliku hävimise või kasutuskõlbmatuks muutumise puhuks (Infosüsteemide turve 1998: 334). Varundamine tugineb bitijada kopeerimisele. Andmete perioodiline varundamine võimaldab järgmist:
· kasutaja andmete varundamisel on võimalik taastada olukord varundushetke seisuga.
Seda võib vaja olla siis, kui on toimunud tehniline rike või kasutaja on kogemata oma
andmed kustutanud või muutnud neid viisil, mida tegelikult ei tahtnud;
· süsteemi seadete varundamisel on tehnilise rikke puhul võimalik kiiresti taastada
süsteemi algne olek;
· süsteemi logide varundamine annab võimaluse pärast mõne probleemi ilmnemist
kontrollida kasutajate või rakenduste tegevust.
Andmete efektiivseks varundamiseks tuleb kindlasti luua varundusplaan.
10.2.1. Varundusplaan
Varundusplaan on dokument, mis on loodud konkreetse asutuse konkreetsete süsteemide
varundamiseks, arvestades asutuse eripära ja võimalusi. See on tegutsemisjuhis, mis sisaldab tavaliselt esmaseid tegevusi (seadmete valik, esialgne andmekoopia, rutiinide paikapanek) ning regulaarseid toiminguid (kuidas ja kui tihti varundamine toimub).
101
102
SÄILITUSMEETODID DIGIHOIDLAS
Varundusplaan peab kindlasti vastama järgmistele küsimustele (vt ka näitekast 10.1):
· kelle ülesanne on varukoopiate tegemine ja vajadusel nendest andmete taastamine?
· milliseid andmeid varundatakse (millised andmed on olulised)?
· kui tihti andmeid varundatakse?
· millisel viisil andmeid varundatakse (protsessi ja varundusutiliidi kirjeldus)?
· kus varukoopiaid säilitatakse, kuidas neile ligi pääseb?
· millisel meedial varukoopiaid säilitatakse (peaks tagama pikaajalise säilivuse)?
· mis kohas varukoopiaid säilitatakse (soovitavalt tule ja kuumuskindel lukustatav
turvakapp)?
· kuidas varukoopiaid indekseeritakse ja kataloogitakse (vähemalt andmekandja nimi,
varundusaeg ja salvestusparameetrid)?
· kuidas toimub varukoopiast taastamine?
· kuidas toimub andmete kustutus enne korduskasutust?
· kes vastutab jälgimise eest, eriti automaatse varundamise puhul (veateated, vaba
maht andmekandjal).
Eelkõige on varundusplaan mõeldud eeskirjaks inimesele, kes peab seda täitma.
Esmajärjekorras tuleks kirjeldada just andmete taastamist, kuna see on primaarne.
Ka varundusplaanist peaks tegema varukoopiaid.
Näitekast 10.1. Varundusplaani koostamise juhend
Riigi Infosüsteemi Ameti koostatud juhend varundusplaani koostamiseks.
Varundusplaan sisaldab järgmist teavet:
·
·
·
·
·
·
·
·
·
·
teenuse varundatavad komponendid;
komponentide omanik;
varunduse eest vastutav ametikoht;
varunduse tüüp, sagedus ja aeg;
suurim lubatud andmekadu;
varukoopia tähtajatule säilitamisele paigutamise ajavahemik
(tüüp, säilitamise kestus);
varukoopiate lühiajalisele säilitamisele paigutamise ajavahemik
(1 nädal, 1 kuu vms);
varunduse maht GB;
andmete meedialt taastamiseks kuluv aeg;
varundatavad andmed.
Allikad
Varundamise ja arhiveerimise kord. Riigi Infosüsteemi Amet. https://www.ria.ee/public/ISKE/naidisdokumendid/LISA1.07.Varundamise_ja_arhiveerimise_kord.doc.
SÄILITUSMEETODID DIGIHOIDLAS
Varundusplaani koostamisel tuleks jälgida järgmist:
· kolme põlvkonna printsiip (kolm eri varukoopiat) – nii on varundite kaotamine
vigase mäluseadme või andmekandja tõttu vähem tõenäoline. Hoidke varundeid
kahes eri kohas, sest kui ühe kohaga peaks midagi juhtuma, on teises asukohas olev
varund alles;
· kõik kasutatava tarkvara rakendus- ja konfiguratsiooniandmed varundada kord
nädalas väliskandjale;
· suure mahu korral olgu iga kolmas varundus täielik, vahepealsed diferentsiaalsed;
· varundus tuleb dokumenteerida: vähemalt andmekandja nimi, varundusaeg ja
salvestusparameetrid.
Kindlasti pole hea mõte teha uus varukoopia olemasoleva varukoopia peale. Võib juhtuda, et rike tabab just varukoopia salvestamisel. Kui vana koopiat kirjutatakse üle ja
varundatavas süsteemis toimub rike, läheb see kohe ka varukoopiasse ning andmed on
mõlemast kohast kadunud.
10.2.2. Varundamise liigid
Varundamine jaguneb täisvarundamiseks ja muutvarundamiseks. Täieliku ehk täisvarunduse (full backup) korral luuakse igal varunduskorral täielik koopia kõigist varundamiseks määratud andmetest. Kui kettamaht ja aeg võimaldavad, on see kõige parem
variant, sest täisvarundeid on kõige lihtsam luua ja hiljem hallata. Muutvarundamise
korral tehakse varukoopia ainult nendest failidest, mis on pärast varasemat varundamist
muutunud. See hoiab kokku aega ja ruumi. Ei ole mõtet teha koopiat failidest, mis ei
ole muutunud. Kui andmemaht on väike ning oluline on lihtsus ja odavus, maksab iga
kord varundada kõik andmed. Suurte andmebaaside korral, kus enamik andmeid jääb
samaks, pole aga mõtet iga varukoopiaga salvestada samu andmeid, sel puhul varundatakse vaid muutunud failid.
Muutvarundamine võib olla diferentsiaalne või inkrementaalne.
Diferentsiaalse varunduse (differential backup) puhul luuakse igal varundamiskorral
koopia andmetest, mis on muutunud alates viimasest täielikust varundamisest. Selle
meetodi eelis on andmete lühem taasteaeg võrreldes täieliku ja inkrementaalse varundusega, kuna vajalikud on ainult kaks varunduse ümbrisfaili (container fails) – viimane
täieliku varunduse fail ja viimane diferentsiaalse varunduse fail. Kui diferentsiaalset
varundust teha küllalt sageli ja selle aluseks võtta pidevalt üks ja sama täisvarund, siis
lähteandmete muutumisel diferentsiaalse varundi suurus aina kasvab. Andmemaht võib
kasvada suuremaks kui täieliku varunduse korral.
Inkerementaalse ehk järk-järgulise varunduse (incremental backup) puhul luuakse igal
varundamiskorral koopia andmetest, mis on muutunud alates viimasest täielikust, diferentsiaalsest või inkrementaalsest varundamisest. Tehes seda täisvarundi põhjal, on tulemus seega samane diferentsiaalse varundiga. Edaspidi võib inkrementaalset varundit teha
ka teise muutvarundi põhjal. Sarnaselt diferentsiaalse varundamisega tuleb otsustada, kui
tihti teha täielikku varundamist. Järk-järguline varundamine on kõige kiirem, aga kuna
käsitsi on väga keeruline muudatuste üle arvestust pidada, tuleb selline varundusstrateegia kõne alla üldiselt ainult seda toetava varundustarkvara olemasolu korral.
Diferentsiaalsel ja inkrementaalsel varundusel on aga ka oluline erinevus: kui inkrementaalse varunduse korral tehakse koopiad failidest, mida on muudetud alates viimasest täielikust, diferentsiaalsest või inkrementaalsest varundamisest, siis diferentsiaalne
103
104
SÄILITUSMEETODID DIGIHOIDLAS
SÄILITUSMEETODID DIGIHOIDLAS
varundus pakub omalaadset keskteed. Selle korral varundatakse failid, milles on toimunud muutusi alates viimasest täielikust varundusest. Tuleb otsustada, kui tihti on mõistlik teha täielik koopia kõigist andmetest. See muudab varundusprotsessi keerulisemaks,
kuid säästab andmekandjate mahtu. Ainult muutuste salvestamisel võib juhtuda, et
kunagi ammu tehtud täisvarunduse andmetest polegi enam suurt midagi järele jäänud,
enamik ongi muutused. Muutvarunditest andmete taastamine aga on tavaliselt keerulisem. Inkrementaalse varundusega täiendatud täielik varundamine on tavaliselt kiirem
võimalus ja kulutab ka vähem talletusruumi. Näiteks tehakse täielik varundus kord
nädalas ja iga päev toimub inkrementaalne varundus.
Sünteetiline täisvarundus (synthetic full backup) on inkrementaalse varunduse üks
alaliike. Andmetest tehakse täisvarundus ning siis rida koopiaid muudetud failidest,
seejärel aga loob server täisvarunduskoopiad, kombineerides olemasolevat täisvarunduskoopiat ja muudetud faile. Sellisel viisil saadakse täisvarunduskoopiast eristamatu
koopia. Meetod pakub kõiki täisvarundi eeliseid väiksema ajakuluga, taastamisaeg on
samuti väiksem.
Hea idee on jagada failid gruppidesse, vastavalt sellele, kui sageli neid muudetakse.
Esimesse kuuluksid mitte kunagi või harva muutuvad failid, näiteks pildiarhiivid, aastaaruanded, mida muudetakse kord aastas. Teine kategooria oleks regulaarselt muutuvad
dokumendid, näiteks nädala- või kuuaruanded. Kolmandasse kuuluksid iga päev muutuvad failid. Faile, mis ei muutu kunagi või muutuvad väga harva, ei ole mõtet iga kuu, nädal
või päev varundada. Harva muutuvate failide regulaarsest varundamisest loobudes kulub
kogu protsessile vähem aega ja raha. Mida tihedamini dokumendid muutuvad, seda tihedamini tuleks neid ka varundada. See, milliseid faile on muudetud, tehakse tavaliselt kindlaks failide ja kataloogide muutmiskuupäevade põhjal. See ei ole küll päris kindel variant,
kuna kuupäevi on lihtne käsitsi muuta, kuid samas on see jällegi kõige kiirem.
Varundusskeem (backup rotation scheme) määrab ära selle, millistele andmekandjatele,
millal ja millisel viisil varukoopiad tehakse, samuti koopiate arvu ja andmekandjate
uuestikasutamise aja. Võimalikke varundusskeeme on mitu.
Ringskeem (round-robin) on kõige lihtsam varundusskeem. On olemas mingisugune
hulk andmekandjaid, neile tehakse mingi kindla aja tagant koopiad ja kui andmekandjad täis saavad, siis alustatakse uuesti algusest, st koopia tehakse kõige vanemale
varundile. See skeem sobib siis, kui on kindel, et ei teki vajadust andmete järele, mis
on vanemad kui rotatsiooniperiood. Olgu meil näiteks viis magnetlinti. Iga päev teeme
varukoopia ühele lindile ning esmaspäeval võtame kõige vanema koopiaga lindi ja salvestame üle (vt tabel 10.1.).
Tabel 10.1. Ringjas varundusskeem
1. nädal
2. nädal
Esmaspäev
1. lint
1. lint
Teisipäev
2. lint
2. lint
Kolmapäev
3. lint
3. lint
Neljapäev
4. lint
4. lint
Reede
5. lint
5. lint
salvestatakse eraldi lintidele. Seega säilitatakse kahe nädala andmed. Kokku kasutatakse
kuut linti (vt tabel 10.2).
Tabel 10.2. Isa-poeg-varundusskeem
1. nädal
2. nädal
Esmaspäev
1. lint
1. lint
Teisipäev
2. lint
2. lint
Kolmapäev
3. lint
3. lint
Neljapäev
4. lint
4. lint
Reede
5. lint
6. lint
Vanaisa-isa-poeg-skeem (grandfather-father-son, GFS). Kõige sagedamini praktikas
rakendatav skeem. Kasutatavate andmekandjate arv vastab näiteks tööpäevade arvule.
Iga päev tehakse varund uuele andmekandjale. Neid kulub neli. Neljal päeval tehakse
koopiad uuele kandjale ja viiendal päeval (reedel) kasutatakse n-ö nädala andmekandjat. Neid kulub kolm. Neljandal nädalal võetakse kasutusele kuuandmekandja. Kuna
aastas on 13 neljanädalalist tsüklit, siis on vaja 13 andmekandjat. Et päevaseid andmekandjaid kasutatakse kõige sagedamini, siis on neid vaja ka kõige tihedamini vahetada
(tabel 18.3). Lihtsam näide GFS-graafikust on järgmine: kord nädalas täisvarund (isa),
igal muul nädalapäeval muutvarund (poeg) ning kord kuus „ülendatakse“ nädalane täisvarund igakuiseks ja tehakse eraldi meediumile (vanaisa).
Tabel 18.3. Vanaisa-isa-poeg-skeem
1. nädal
2. nädal
3. nädal
4. nädal
Esmaspäev
1. lint
6. lint
11. lint
16. lint
Teisipäev
2. lint
7. lint
12. lint
17. lint
Kolmapäev
3. lint
8. lint
13. lint
18. lint
Neljapäev
4. lint
9. lint
14. lint
19. lint
Reede
5. lint
10. lint
15. lint
1. kuu lint
Hanoi torn (hanoi tower). See on kõige keerukam varundusviis, mis põhineb prantsuse
matemaatiku Édouard Lucas’ 1883. aastal leiutatud matemaatilisel mõistatusel Hanoi
torn. Mõistatuses on kolm pulka ja mingi arv kettaid, mis tuleb neid ühekaupa ja väiksemat suurema peale tõstes esimeselt pulgalt kolmandale saada. Mängu lahenduse idee järgi
varundeid tehes saavutabki andmete pikema ajaloo võimalikult väheste varundite arvuga.
Hanoi torni kasutamise puuduseks on selle keerulisus ja seepärast jäetakse selle realiseerimine tavaliselt varundustarkvara hooleks. Selliseid programme aga väga palju ei ole.
Tegemist on kõige parema strateegiaga andmete pikaajaliseks säilitamiseks. Näiteks viit
linti kasutades saame kuuajase kindluse (25 – 1), kümne lindiga aga juba peaaegu juba
kolm aastat. Igat andmekandjat kasutatakse erinev arv kordi. Vanemaid andmekandjaid
kasutatakse vähem (tabel 10.4).
Tabel 10.4. Hanoi torni varundusskeem kolme kandja korral
Säilivuse seisukohalt ei ole see lahendus hea. Andmekandjad kuluvad sagedase korduva
kasutamise tõttu, samuti ei taga see andmete pikaajalist säilimist (või siis on vaja väga
palju andmekandjaid).
Isa-poeg-skeem (father-son). Selle skeemi korral on igaks päevaks üks magnetlint,
kuhu salvestatakse selle päeva andmed. Kahe järjestikuse nädala reede andmed
Päev
1
1.lint
2
3
1. lint
4
2. lint
5
1. lint
6
7
1. lint
8
2. lint
3. lint
3. lint
105
106
SÄILITUSMEETODID DIGIHOIDLAS
Varundusi tuleb kontrollida, taastades andmed reaalselt mõnda proovikohta.
Selle abil saab:
· tagada varunduskandjate ja varundatud andmete töökindluse;
· tuvastada varundamisprotsessi võimalikke probleeme;
· saavutada kindluse, mis tuleb kasuks tegeliku kriisi korral.
10.2.3. Varundamisel kasutatavad andmekandjad
Varundamiseks on mitmesuguseid tehnilisi lahendusi. Milline neist valida, sõltub suuresti konkreetest olukorrast. Oluline on valida ka varukoopiate tegemiseks sobilik
andmekandjatüüp. Varundusandmekandja valikul arvestatakse:
· mahutavust;
· maksumust;
· töökindlust;
· kiirust;
· andmete poole pöördumise kiirust.
Kõvaketaste suuruse ja hinna suhe on muutunud nii heaks, et hind pole juba ammu eriline põhjus varundamiseks mõnd teist meediumi kasutada. Kui meedium ei ole ainult
arvutis paigal, vaid tuleb toimetada kuhugi eemale, muutuvad aga tähtsaks selle füüsilised omadused (raskus, vastupidavus, mõjutatavus magnetväljadest jms).
Töökindlus (reliability) on oluline, sest iga seade läheb millalgi rikki ja mida keerulisem
ta on, seda kergemini see tavaliselt juhtub. Töökindlust on küllaltki keeruline hinnata,
kuna seda mõjutavad vägagi erinevad tegurid (Tape drive technology 2014: 13). Seetõttu ei ole selleks ka ühte ja ainsat mõõdikut. Seadmete tootjad mõõdavad töökindlust
tavaliselt parameetriga MTBF (mean time between failures), mis näitab, mitu tundi
peaks seade töötama ilma riketeta. Kindlasti ei tohiks seda kasutada ainsa mõõdikuna.
Võimalikud näitajad, mida saab kasutada töökindluse hindamisel, on järgmised:
· vigade ja rikete statistika;
· andmekandjate vigadeta laadimine lugejasse ja eemaldamine lugejast
(nt USB-mälupulkadel on kirjutus- ja lugemistsüklite arv piiratud);
· vigadeta kirjutatud ja loetud baitide arv;
· lugemis-kirjutamispeade lubatavate töötundide arv;
· andmete terviklikkus (integrity), mida väljendatakse bitiveateguri (bit error rate,
BER) abil. Bitiveategur näitab rikutud bittide arvu ja salvestatud bittide koguarvu
suhet. Näiteks bitiveategur 10–6 tähendab, et vigane on keskmiselt 1 bitt miljonist.
Eristatakse parandamata bitiveategurit (uncorrected bit error rate) ja avastamata bitiveategurit (undetected bit error rate). Parandamata bitiveategur tähendab neid vigu,
mida veaparanduskood (error correction code, ECC) küll avastab, aga ei suuda parandada. Avastamata bitiveategur näitab neid vigu, mida veaparanduskood avastada ei
suuda;
· magnetlintide kasutamisel määrab tootja ära selle, mitu korda võib lint ilma vigadeta
läbida kirjutus-lugemispesasid.
Kiirus tähendab seda, kui kiiresti on andmed meediumile kirjutatavad ja sealt loetavad.
Andmete poole pöördumise kiirus näitab seda, kui palju võtab aega, et jõuda andmekandjal mingis suvalises kohas olevate andmeteni. Lindiseadmetel on see näitaja suhteliselt halb, kuna lindi keskel olevate andmete kätte saamiseks on tarvis lint kõigepealt
SÄILITUSMEETODID DIGIHOIDLAS
lõpust algusesse ja siis algusest vajaliku kohani kerida. Andmekandja puhul on oluline,
et see oleks üldiselt tunnustatud ja kasutatav ka mõne aasta pärast. Kindlasti ei tasu
unustada ka andmekandja kasutamiseks mõeldud seadmeid! Varundiga ei ole midagi
peale hakata, kui pole töökorras seadet, millega andmekandjat kasutada.
Andmekandjatena on kasutusel olnud erinevad tehnilised süsteemid. Sarnaselt muu
arvutitehnoloogiaga toimub ka selles vallas pidev areng ja kasutusele tulevad üha uued
andmekandjatüübid. Peamiselt kasutatakse varundamist magnetlintidele (LTO, Linear
Tape Open) ja kõvaketastele.
10.3. Andmekandjate värskendamine
Andmekandjate värskendamisel (refreshing, recopying)kopeeritakse bitijada täpselt
samasugusena teisele sama tüüpi andmekandjale. Näiteks on CD-ROMil säilitatava
teabe bitiveategur jõudnud ohtliku piirini ja otsustatakse plaadist täpne koopia teha.
Pärast koopia valmistamist kontrollitakse plaatidel oleva info identsust. Kui selgub, et
info on kopeeritud identselt, asendab uus CD-ROM eelnenud plaadi. OAISi terminoloogiat kasutades ei muutu pakendusinfo, sisuinfo ega ka PDI. Andmete värskendamine
kaasneb kõikide digitaalse säilitamise meetoditega. Kui seda tehakse vastavalt standarditele ja tehniliselt õigesti, on tegemist suhteliselt lihtsa ja andmeid mittekahjustava
protsessiga. Andmete värskendamine toimub perioodiliselt. Oluline on seejuures kontrollida failide olukorda. Millal seda teha? Aja määratlemisel tuleks lähtuda kasutatava
andmekandja teadaolevast elueast ja sellest, milline on andmete kontrollimisel ilmnenud veatase. Bitijada kopeerimise järel tuleb kindlasti kontrollida, ega ülekandmisprotsessis vigu ei tekkinud. Loomulikult tuleb andmeid värskendada ka siis, kui võetakse
kasutusele uus süsteem (uued arvutid, tarkvara, andmekandjad). Kogu protsess peab
kindlasti olema dokumenteeritud.
Andmete värskendamine ei ole üldjuhul piisav strateegia digiobjektide pikaajaliseks
säilitamiseks. Probleem seisneb digiobjektide erinevas sõltuvuses konkreetsest riist- ja
tarkvarast. Andmete värskendamise abil on võimalik säilitada digiobjekti, mis on riistja tarkvarast täiesti sõltumatu. Valdava enamiku digiobjektide korral see aga nii ei ole.
Andmete värskendamisega seostub pikaealise meedia kasutamine andmekandjatena.
10.4. Pikaealiste andmekandjate kasutamine
Pikaealiste andmekandjate (durable media, persistent media) kasutamine võib vähendada vajadust värskendamise järele ning vältida meedia vananemisest ja kahjustumisest
tulenevaid kadusid. Teisi digiobjektide säilitamisega seotud probleeme see ei lahenda.
Pigem võib see tekitada vale ettekujutuse, et kui andmete säilitamiseks kasutada „arhiivisobivat andmekandjat“, siis ongi digiinfo säilitamiseks kõik oluline tehtud ja midagi
muud polegi enam vaja. See on aga täiesti vale seisukoht.
10.5. Failide migreerimine
Migreerimine (migration) on kõige laialdasemalt kasutatav meetod, et pidada sammu
pidevalt muutuva tehnoloogiaga. See tähendab digiobjektide ülekandmist ühest riistvõi tarkvara keskkonnast teise, vajaduse korral ka digiobjekte muutes (joonis 10.1).
Digitaalsed objektid migreeritakse, et nad oleksid kasutatavad ka muutunud riist- ja
107
108
SÄILITUSMEETODID DIGIHOIDLAS
SÄILITUSMEETODID DIGIHOIDLAS
tarkvarasüsteemides. Migratsioon on kõige kergemini mõistetav andmete säilitamise
meetod. Kui kasutusele tuleb uus arvutisüsteem, siis eksisteerib see mõnda aega kõrvuti
vanema süsteemiga ja failid kantakse vanast süsteemist uude üle. Kui uus süsteem mingeid
vanu failiformaate ei toeta, siis konverteeritakse vanad failid uude failivormingusse.
Tõenäoliselt on igaüks meist andmeid migreerinud, avades uue tarkvaraga vanu faile,
ning väga sageli ei saa me täpset originaalteksti või kujutist, mõnikord on erinevused
väiksemad ja teinekord suuremad. Teine valdkond, kus failide migreerimine on
hädavajalik, on andmete vahetamine kasutajate vahel, kes kasutavad eri operatsioonisüsteeme või erinevat rakendustarkvara. Ka juhul kui me kasutame ühte ja sama
rakendustarkvara, näiteks Microsoft Office’it eri operatsioonisüsteemidel, Windowsis
ja Macintoshil, võib failivahetusel probleeme tekkida.
“VANA” KESKKOND
“UUS” KESKKOND
ÜLEKANTUD
DIGITAALNE
OBJEKT
DIGITAALNE
OBJEKT
RAKENDUSPROGRAMMID
DIGITAALNE
OBJEKT
MIGRATSIOONI
PROTSESS
ÜLEKANTUD
DIGITAALNE
OBJEKT
UUED VÕI
ÜLEKANTUD
RAKENDUSPROGRAMMID
VANA
OPERATSIOONISÜSTEEM
UUS
OPERATSIOONISÜSTEEM
VANA RIISTVARA
UUS RIISTVARA
Joonis 10.1. Migreerimine digiobjektide säilitusstrateegiana
Migratsioon on märksa laiem mõiste kui värskendamine, haarates terve rea tegevusi ja
põhimõtteid, mille eesmärk on tagada digitaalsete objektide säilitamine nende perioodilise ülekandmisega ühest riist- või tarkvara konfiguratsioonist teise või ühest arvutipõlvkonnast teise. Migratsiooni erinevus andmete värskendamisest ongi selles, et
migratsiooni käigus digiobjektid tehniliselt muutuvad. Samuti võivad nad muutuda ka
kontseptuaalsel tasandil. Seega võib migratsiooniga kaasneda digiobjektide autentsuse
probleem. Selle vältimiseks kasutatakse migratsiooni ainult juhtudel, kui ollakse veendunud migreerimisel oluliste omaduste püsima jäämises. Migratsiooni korral muutub
andmestruktuur, kuid püütakse säilitada info sisuline terviklikkus. Kuna andmeid muudetakse, tekib loomulikult küsimus nende sisu samasuse säilitamisest. Mida lihtsam andmestruktuur, seda tõenäolisem on selle sisu samasuse säilimine migratsioonil. Keerukal
viisil seotud infoobjektide, näiteks veebilehtede sisu säilitamine on võimalik ainult siis,
kui on olemas üksikasjalik dokumentatsioon nende struktuuri kohta.
Nii migratsioon kui ka sellega kaasnev andmete värskendamine toimub digitaalse objekti
pikaajalise säilitamise kestel palju kordi. Andmete värskendamine ja migratsioon ei
pruugi ajaliselt kokku langeda, mis muudab dokumentatsiooni ja kogu digitaalse säilitamise korralduse mõnevõrra keerukamaks. Iga migratsioonitsükliga kantakse üle kõik
andmed, sõltumata sellest, kas neid tulevikus kasutatakse või mitte. Tegemist on küllaltki
töömahuka ja kuluka ettevõtmisega. Kuna migratsiooni käigus andmeid muudetakse, siis
on oluline nende migratsioonijärgne kontroll, et infoobjekti olulised omadused ei oleks
liiga palju muutunud ega kahjustunud. Kuna migratsioon toimub pikaajalisel säilitamisel
korduvalt, võivad andmed kumulatiivselt oluliselt muutuda.
Migratsiooni reaalseks läbiviimiseks kasutatakse erinevaid meetodeid. Üksikute failide
migreerimiseks sobib näiteks rakendustarkvara. Vanemas versioonis tehtud fail kantakse
üle uuemasse verisooni ja salvestatakse uue versiooni failina. Suurema hulga failide migreerimiseks või selliste failide migreerimiseks, mida tarkvara enam ei ava, tuleb kasutada
spetsiaalselt loodud programme. Kui rakendada migreerimisstrateegiat, peab kindlasti
säilitama ka originaalfailid, mida migreeriti. Siis on vajadusel võimalik hiljem kasutada
migreerimiseks ka teisi programme (näiteks kui ilmuvad täiuslikumad migreerimisprogrammid) või hoopis teisi säilitusstrateegiaid. Oht on selles, et kuna algsete failide säilitamine nõuab vahendeid ja migreeritud failid on ju olemas, tekib kiusatus kulude kokkuhoiuks algsed failid kustutada.
Lihtsate failivormingute migreerimine ei ole keeruline. Samas on teadaolevaid failivorminguid palju, rohkem kui 6000, ja osa neist on väga tihedalt seotud riistvaraga, mille
jaoks nad on välja töötatud. Sellistes vormingutes failide migreerimine võib osutuda
küllaltki keerukaks. Migreerimine sobib üldjuhul suure hulga digiobjektide korral, mis
on hästi tuntud ja eneseküllased, st ei oma väliseid seoseid.
10.6. Failivormingute valik, spetsifikatsioonid, levik ja
standarditele tuginemine
Avatud spetsifikatsioone kasutatakse tagamaks seda, et digiobjektid oleksid kodeeritud ja vormindatud kindlal viisil. See meetod eeldab, et kasutatud spetsifikatsioonid
on püsivad ja ühilduvusega seotud probleemid lahendatakse standardi kohandamisega
uuele arvutuskeskkonnale (riistvara, tarkvara, operatsioonisüsteem, rakendustarkvara).
Näiteks JPG2000 on muutunud laialt kasutatavaks ja tunnustatud standardiks. Kui toimuvad mingid muutused, hoolitsetakse selle eest, et ka uues süsteemis oleks võimalik
sellise failivorminguga faile kasutada, kuna kasutajaskond ja seega ka nõudmine on nii
suur. Kuigi meetod vähendab otsest ohtu digiobjektidele, ei ole tegemist pikaajalise
säilitusstrateegiaga.
10.7. Väljund analoogmeediale
Digitaalsel kujul esitatud info esitatakse analoogsena. Kõige lihtsamal juhul tähendab
see näiteks digitaalse dokumendi või foto väljaprintimist. Kasutatakse ka digitaalse info
kandmist mikrofilmile (computer output to microfilm, COM). Meetod sobib hästi tekstide ja kahevärviliste kujutiste ülekandmiseks, ei sobi aga halltoonide ja värviliste kujutiste jaoks, kuna viimasel juhul läheb liiga palju infot kaotsi. Loomulikult on väga suur
hulk digitaalseid objekte, mida ei saagi analoogsele kujule teisendada. Digitaalsed arhivaalid, mis sisaldavad hüperteksti viiteid, multimeediat, relatsioonilised andmebaasid,
helikatked ja geoinfosüsteemid kaotaksid oma vormingust tuleneva funktsionaalsuse ja
vormi, kui need kantaks paberile või mikrofilmile. Paljude digiobjektide (näiteks tekstidokumentide) korral võimaldab meetod säilitada sisu, vormi ja konteksti, kuid mittetöödeldavas vormingus. See toob kaasa suured kaotused kasutamise funktsionaalsuses
võrreldes digitaalsete arhivaalidega.
109
110
SÄILITUSMEETODID DIGIHOIDLAS
Meetodi eelised on järgmised:
· dokumentide autentsust on suhteliselt lihtne kindlaks teha ja säilitada;
· kaob tehnoloogia iganemise probleem;
· puudub vajadus andmekandja uuendamise järele.
Üks võimalus on säilitada dokumente paberkandjal või mikrofilmil ja kui tekib vajadus
neid kasutada, siis nad uuesti digitaliseerida. See meetod sobib siis, kui mingil põhjusel
ei soovita või ei saa säilitada digitaalset teavet, näiteks perekonnafotode säilitamisel.
Ka äärmiselt oluliste digiobjektide korral võib olla vajalik luua neist n-ö varukoopiad
analoogmeedial
10.8. Emuleerimine
ALGNE DOKUMENT
ALGNE TARKVARAPROGRAMM
ALGNE OPERATSIOONISÜSTEEM
EMULAATOR
KÄESOLEV ARVUTIPLATVORM
(RIIST- JA TARKVARA)
MIKS ON VAJALIK DIGIINFO SÄILITAMINE?
operatsioonisüsteeme ega ka rakendusi. Need säilitatakse originaalsel kujul, nagu ka
kõik failid, ja nad töötavad emuleeritud riistvaraplatvormil.
Mida keerukama struktuuriga on digiobjekt, seda suuremad kaod esinevad selle migreerimisel uutesse vormingutesse ning uue põlvkonna riist- ja tarkvarasse. Selliste objektide
jaoks on emulatsioon/virtualiseerimine kõige parem strateegia. Kui digiobjekti olulisteks
omadusteks on funktsionaalsuse erinevad aspektid, võib emulatsioonil/virtualiseerimisel olla eeliseid migreerimise ees, kuna viimase korral ei pruugi need omadused säilida.
Sellisteks objektideks võivad olla näiteks veebilehed, mängud, kunstiobjektid.
Emuleerimine toimub ainult siis, kui digiobjekte on vaja kasutada. See tähendab, et
emulatsiooni maksumus lükkub edasi tulevikku. Kui vastavat emulaatorit olemas ei ole,
siis tuleb see ise kirjutada või spetsialistidelt tellida. Emulaatorite kirjutamine on keerukas
ettevõtmine, nõudes oskusi ja küllaltki palju ressursse. Kuna uued süsteemid muutuvad
üha keerulisemateks, siis suureneb pidevalt uute ja vanade süsteemide erinevus. Teiselt
poolt, kui on tegemist suure arvu objektidega – miljonite dokumentidega –, siis piisab
sellest, kui panna püsti üks emulaator, selle asemel et kanda üle suurt arvu objekte. Kuna
emulaator kasutab tänapäevast riist- ja tarkvara, on selle haldamine märksa lihtsam.
Emuleerimis strateegia kasutamisel digiobjektide säilitamiseks on kõige suurem kulu
seotud emulaatori tegemise või omandamisega (kui see on tasuline). Ka võib objektide
kasutamiseks olla vajalik kasutuskeskkonna eelnev tundmaõppimine. Emuleeritavad
rakendusprogrammid ja operatsioonisüsteemid ei pruugi tulevasele kasutajale tuttavad
olla. Emulaatorid ise on samuti digitaalsed objektid ja vajavad nagu andmeobjektidki
säilitamist. Samuti sõltuvad nad riistvarast, millele nad on disainitud. Kui riistvara vahetub, ei pruugi emulaator sellel enam töötada. Siis on vajalik emulaatori uuendamine või
selle emuleerimine uue emulaatoriga. Viimase meetodi rakendamisele võib ette kujutada järjest tekkivaid emulaatorikihte.
10.9. Tehnoloogia säilitamine
Joonis 10.2. Emulaator võimaldab kasutada olemasolevale arvutiplatvormile
sobimatut tarkvara
Migreerimise kõrval on emuleerimine teine suur meetodite rühm, mida kasutatakse
digiobjektide säilitamisel. Emuleerimine on ühe andmetöötlussüsteemi jäljendamine
teisega, nii et see võtab vastu samu andmeid ja annab töötlemise järel samu tulemusi.
Emuleerimisel säilitatakse digiobjekt selle originaalsel kujul, ehk siis nii, nagu see on
loodud (joonis 10.2). Emuleerimise meetod peab tagama selle digiobjekti esitamiseks
vajaliku tarkvarasüsteemi olemasolu siis, kui digiobjekti soovitakse kasutada.
Emuleerida on võimalik:
· rakendusi – luuakse uus tarkvara, mis teeb kõiki operatsioone, mida teostas eelmine
tarkvara. Emuleeritud rakendus võimaldab faile kasutada muu operatsioonisüsteemiga arvutil, kui oli originaalsel arvutil, millel algne rakendus töötas;
· operatsioonisüsteeme – kõiki rakendusi, mis töötasid originaalset operatsioonisüsteemi kasutaval arvutil, on võimalik kasutada ka operatsioonisüsteemi emuleeritud versioonil. Emuleeritud operatsioonisüsteem nõuab ka vastava riistvaralise
platvormi olemasolu või emuleerimist;
· riistvara arhitektuuri – kõik operatsioonisüsteemid ja rakendused, mis töötasid
originaalsel riistvaraplatvormil, töötavad ilma igasuguste muudatusteta ka selle emuleeritud versioonil. Riistvara arhitektuuri emuleerimisel ei ole vaja emuleerida ei
See strateegia, mida tuntakse ka arvutimuuseumi-lähenemisena, põhineb kogu arvutisüsteemi tehnilise keskkonna (riistvara, operatsioonisüsteemi ja rakendustarkvara)
säilitamisel. See võimaldab pikendada aegunud riist- ja tarkvara kasutusaega. Ilmselt
on sellist säilitusmeetodit mõttekas kasutada mingitel üksikutel juhtudel. Tegemist ei
ole otseselt digitaalse säilitamise meetodiga. Samas säilitatakse kõige täielikumal kujul
digiobjekti originaalne kasutuskogemus, mis võib mõnda tüüpi objektide, näiteks
mängude või digitaalsete kunstiteoste puhul olla ülioluline (LeFurgy 2013). Võimaluse
korral tuleb säilitada ka töökorras riistavarasüsteemid, et oleks võimalik uurida nende
toimimist. Ennekõike on see vajalik tehnoloogiaajaloolastele, kelle tähelepanu keskendub just nimelt riistvarale.
Tuleb arvestada, et see säilitusstrateegia piirab digiobjektide kasutust. Kui mingi digiobjekt on kasutatav vaid väga spetsiifilisel riistvaral, mis on olemas vaid ühes asutuses,
siis saab seda objekti ka ainult seal kasutada.
Tegevused, mida on vaja tehnoloogia säilitamisel teha:
· varuosade hankimine;
· süsteemide töökindluse regulaarne kontroll;
· riistvara hooldus;
· töökõlbmatuks muutunud osade väljavahetamine.
111
112
MIKS ON VAJALIK DIGIINFO SÄILITAMINE?
Selle strateegia kulud kasvavad pidevalt sedamööda, mida enam aega on möödunud
seadmete laiema kasutamise lõpetamisest.
Mõned organisatsioonid, mis tegelevad riist– ja tarkvara säilitamisega:
·
·
·
·
·
·
Computer History Museum31;
The National Museum of Computing32;
The Heinz Nixdorf MuseumsForum33;
Centre for Computing History34;
Tartu Ülikooli arvutimuuseum35;
Arvutimuuseum MTÜ36.
MIKS ON VAJALIK DIGIINFO SÄILITAMINE?
11. MIKS ON VAJALIK
DIGIINFO SÄILITAMINE?
Lugenud läbi selle peatüki,
• tead, mis on väärtus;
• oskad nimetada info peamisi väärtusi;
• tead, miks on oluline digiteabe säilitamine.
10.10. Digitaalne arheoloogia, andmearheoloogia
Andmearheoloogia tähendab vananenud formaadis või vanadel andmekandjatel oleva
digitaalse info päästmist (Ross Gow 1999). Sellised objektid võivad olla mingil põhjusel
jäänud migreerimata, samuti võib andmearheoloogia olla vajalik avariide ja õnnetuste
tagajärjel kahjustunud digiinfo taastamiseks. Andmeid on võimalik taastada ka tugevasti kahjustatud meedialt, eriti puudutab see magnetkandjaid. Andmete taastamisega
tegelevad üldjuhul spetsialiseeritud firmad. Andmearheoloogiaks kasutatakse erinevat
tehnoloogiat, tulemuste edukus sõltub paljudest konkreetsetest asjaoludest. Andmearheoloogiat on pakutud ka digitaalse säilitamise strateegiaks. Vastavalt sellele mudelile
toimub regulaarne andmete värskendamine, kuid mitte nende migratsioon. Samuti ei
säilitata programme nende hilisemaks emuleerimiseks. See, kuidas säilitatud digiobjektidest andmeid kätte saada ja interpreteerida, jäetakse tulevaste andmearheoloogide
õlgadele. Tegemist on küll suhteliselt lihtsa ja esialgu ka vähe maksva lahendusega, aga
samas on see väga kõrge riskiga ettevõtmine, sest mitte miski ei garanteeri, et tulevikus,
kui neid digiobjekte oleks vaja kasutada, õnnestub neid taastada. Üks argument selle
strateegia poolt on tõsiasi, et tulevikus on andmete taastamiseks kindlasti kasutada
hoopis täiuslikumad digitaalsed tehnoloogiad.
Esmapilgul võib see tunduda asjatu küsimusena – kuna digiinfo on olemas, siis tuleb
seda ka säilitada. Ometigi on säilitamine alati seotud säilitatavate objektide ja nähtuste
väärtustega, mille tundmine on kogu säilitusprotsessi haldamise aluseks. Nagu kommunikatsioongi, toimub info säilitamine ühiskonna erinevatel tasemetel Eri ühiskonnatasanditel võivad olulised olla erinevad väärtused ja seega ka põhjused teavet säilitada.
11.1. Väärtused ja info säilitamine
Tänu oma väärtustele saab info täita teatud funktsioone. Ilma igasuguste, sealhulgas ka
potentsiaalsete väärtusteta info on täiesti kasutu ja võib säilida ainult juhuslikult. Väärtused on selles mõttes tinglikud, et nad ei ole objektiivsed nagu eseme kaal, värvus, keemiline koostis jms. Me ei saa neid leida, fikseerida ega loota, et nad jäävad muutumatutena sellisteks ka edaspidi. Väärtused tekivad objekti, konteksti ja inimeste vastastikuse
mõju tulemusena. Seega saab väärtusi käsitleda ainult kindlas kontekstis – kes, millal ja
kus on neid määratlenud (Lipe 1984). Väärtussüsteemid erinevad samuti, alates isikust
ja lõpetades kogu inimkonnaga. Kultuuris toimub väärtuste pidev ümberdefineerimine,
mõni väärtus muutub olulisemaks, teised jällegi vähemoluliseks.
Väärtused (values) on üldised ja püsivad kvaliteedid, mis on inimese seisukohast olulised ja tähenduslikud. Väärtusi tajutakse soovitavaina, nendega õigustatakse suhtumist ja
käitumist. Need avalduvad normides ja ettekirjutustes ning tõekspidamistes ja eesmärkides. Väärtussüsteem on ajalooliselt kujunenud ja sõltub ühiskonnast. Seoses digiinfoga
võib väärtuse mõistet kasutada kahes tähenduses:
· eetilised printsiibid või ideed, mis on nii indiviididele kui ka kollektiividele käitumisjuhisteks digiinfoga ringikäimisel;
· printsiibid, millega me digiinfo tunnuseid võrdleme.
31
32
33
34
35
36
http://www.computerhistory.org/
http://www.tnmoc.org/
http://www.hnf.de/start.html
http://www.computinghistory.org.uk/
http://arvutimuuseum.ut.ee/
http://arvutimuuseum.ee/
Ühel ja samal digiobjektil võib harilikult välja tuua mitu erinevat väärtust. Järgnevalt
käsitleme mõningaid olulisemaid digiinfo väärtusi, lähtudes ennekõike säilitamise
vaatenurgast.
Majanduslikud väärtused
Digiinfo majanduslikud väärtused jagunevad (joonis 11.1) kasutusväärtuseks (use
value) ja mittekasutusväärtuseks (nonuse value), viimane omakorda veel olemasolu-,
113
114
MIKS ON VAJALIK DIGIINFO SÄILITAMINE?
MIKS ON VAJALIK DIGIINFO SÄILITAMINE?
võimalus-, ja pärandiväärtuseks. Kasutusväärtus on seotud käesoleval ajal pärandist
tuleneva otsese majandusliku tuluga. Olemasolu- ehk eksistentsiväärtus (existence
value) viitab sellele, inimesed väärtustavad teabe olemasolu isegi siis, kui nad seda
otseselt ei kasuta. Olemasoluväärtus on hüve või rahulolu, mille inimesed saavad teadmisest, et mingi oluline teave on olemas. Võimalusväärtus (option value) – inimesed
tahavad säilitada võimalust, et nad ise või teised saavad teavet tulevikus kasutada. Antud
hetkel säilitatakse ressurssi selleks, et kunagi tulevikus oleks seda võimalik kasutada.
See võib olla seotud sellega, et me ei oska seda ressurssi praegu hinnata või puuduvad
selle kasutamiseks tingimused ja võimalused. Tegemist on võimaliku tulevikus saadava
kasuga. Pärandiväärtus (bequest value) – inimesed tahavad seda teavet pärandada tulevastele põlvkondadele.
DIGIINFO MAJANDUSLIK VÄÄRTUS
KASUTUSVÄÄRTUS
MITTEKASUTUSVÄÄRTUS
• eksistentsiväärtus
• võimalusväärtus
• pärandiväärtus
Joonis 11.1. Digiinfo majanduslike väärtuste jagunemine
Majanduslik väärtus sõltub suures osas säilitatava teabe kasutusest, samas ei saa tähelepanuta jätta ka mittekasutusväärtust, mis osa teabe korral on vägagi oluline. Ennekõike
puudutab see kultuuripärandi hulka loetavat digiteavet.
Teaduslik väärtus, informatsiooniline väärtus, teabeväärtus
Teaduslik väärtus on seotud digiobjektide kasutamisega uurimisallikana. Digiobjektil
või objektide kogul on teaduslik väärtus, kui tal on suur potentsiaal tulevaseks uurimistööks. Enamik tänapäeva teaduses kogutavast infost on digitaalne.
Ajalooline väärtus
Väga sageli säilitatakse digiinfot selle ajaloolise väärtuse tõttu. Laiemalt kajastab see
kriteerium teabe seotust ajaloolise arenguga. Ajalooline väärtus võib tuleneda erinevatest aspektidest. Info ise võib olla pärit minevikust, kuid see iseenesest ei pruugi veel
olla piisav ajaloolise väärtuse omistamiseks. Ajalooline väärtus kajastab teabe seotust
inimeste, sündmuste, kohtade ja teemadega. Seejuures võib see tähendada seost nii
kuulsate inimeste ja oluliste sündmustega kui ka tavaliste inimeste igapäevase eluga.
Samuti kuulub siia kindlate tegevusalade, tööstuse või eluviiside kajastamisega seotud
teave. Ajalooline väärtus on ka paljudel isikliku taseme digiobjektidel (fotod, videod,
kirjad jms), mis moodustavad digitaalse isiku- ja perekonnapärandi (joonis 11.2).
Joonis 11.2. Facebooki konto kuulub tänapäeva inimese isikliku pärandi hulka
Sotsiaalne väärtus37
Sotsiaalne väärtus tähendab, et mingi kogukond peab säilitatavat teavet käesoleval ajal
oluliseks. Sotsiaalne väärtus seisneb ennekõike tähenduses, mida info omab inimeste
jaoks. Põhjuseid, miks mingi objekt, paikkond või nähtus on oluline, võib olla mitmeid.
Sellel võivad olla näiteks vaimsed, poliitilised, rahvuslikud, kohatunnetusega seotud põhjused, mis igal juhul on tihedalt seotud kogukonna identiteedi ja sotsiaalse sidususega.
Sotsiaalse väärtuse näiteks võib tuua virtuaalmaailmades, näiteks Second Life’is (joonis
11.3) kasutajate poolt loodavad infoobjektid (esemed, kunstiteosed, filmid jms). Lisaks
sellele, et nende objektidega on võimalik koguda sotsiaalset kapitali, on neil ka selge
majanduslik väärtus. Selles maailmas kehtib oma raha (linden, $L), mille eest saab osta
ja müüa virtuaalseid objekte. Virtuaalsete objektide ehitamiseks on lihtne programmeerimiskeel, mille abil saab teha ükskõik mida – maju, autosid, riideid, relvi jne. Sünteetilises maailmas asuvaid digitaalseid objekte saab nii müüa kui ka osta, sünteetiliste
maailmade kaubandus on sulandunud reaalse maailma äriga. Lindeneid on võimalik
vahetada dollariteks ja vastupidi.
Sotsiaalne väärtus on ainult tänapäevane, käesolev väärtus. Sageli kombineerub sotsiaalne väärtus ajaloolise ja sümboolse väärtusega. Teave omandab sotsiaalse väärtuse
siis, kui mingi kogukond leiab, et see on tema jaoks oluline. Kui aktuaalne sotsiaalne
väärtus kaob, võib see muutuda ajalooliseks väärtuseks.
37
Mõnel juhul võidakse sellele väärtusele viidata ka kui kasutusväärtusele (use value).
115
116
MIKS ON VAJALIK DIGIINFO SÄILITAMINE?
MIKS ON VAJALIK DIGIINFO SÄILITAMINE?
Poliitiline väärtus
Tegelikult on kõik pärandiga seotud väärtused poliitilised, kuna pärand ise on oma olemuselt poliitiline nähtus (vt Konsa 2014). Kitsamalt väljendavad ja esitavad poliitilised väärtused kindat tüüpi sotsiaalset süsteemi ning sellega seotud poliitilisi vaateid. Sageli loetakse
neid ka sümbolväärtuse alla kuuluvateks, kuna poliitilisi väärtusi võib omistada kõige erinevamatele digiobjektidele. Sarnaselt teiste väärtustega poliitiline väärtus ajaga muutub.
Kasutusväärtus, kasutatavus
Kasutusväärtus iseloomustab seda, et digiobjektide abil on võimalik interpreteerida
sündmusi, kogemusi, ajaloolisi teemasid, inimesi, struktuure, piirkondi ja välja tuua
nende erisuguseid aspekte. See väärtus kajastab digiobjektide ja -kogude väärtust teabeasutusele näituste, haridusprogrammide jms seisukohast, samuti seose tõttu kogutavate
teemadega, kogude ajalooga ning nende interpreteerimise viisiga. Tihti tuleneb digiinfo
kasutusväärtus mõnest teisest, näiteks ajaloolisest väärtusest. Kasutusväärtuse realiseerumiseks on vajalik pärandi oskuslik interpreteerimine ja esitamine.
Joonis 11.3. Virtuaalne maailm Second Life
Esteetiline väärtus
Üks digiobjektide ilmsemaid kasutusi on seotud nende visuaalsete tunnustega. Ilu kategooria on sageli olnud väga oluliseks põhjenduseks, miks lugeda mingi objekt pärandi
hulka kuuluvaks. Laiemas käsitluses on esteetiline väärtus seotud kõikvõimalike sensoorsete kogemustega, mida pärand pakub. Esteetiline väärtus võib olla säilitatavatel
digikunstiobjektidel, filmidel, fotodel jms. Digiobjekt võib olla esteetiliselt väärtuslik
oma kunstilise töötluse, stiili, tehnilise meisterlikkuse või ilu poolest.
Kunstiväärtus
Küllaltki suur osa säilitatavast kuulub kunsti valdkonda. Kunstiväärtus on olemas objektidel ja nähtustel, mida me loeme kunstiks. See, mida kunstiks loetakse, sõltub arusaadavalt kontekstist – suur osa sellest, mida me praegu käsitleme kunstina, ei olnud seda
teoste loomise ajal. Kunstiväärtusega on tihedalt seotud esteetiline väärtus, aga nad ei
ole lahutamatult seotud. Kõik ilusad objektid ei kuulu veel tingimata kunsti alla ja paljudel kunstiobjektidel jällegi ei ole esteetilist väärtust, vähemalt mitte iga inimese jaoks.
Kunstiväärtus on tihedalt seotud ajaloolise väärtusega: sageli on kunstiväärtus seotud
tuntud kunstniku või arhitekti töödega, samuti võib olla tegemist olulise mingit kunstistiili esindava tööga.38
Sümboolne väärtus
Sümboolset väärtust kandvad digiobjektid sümboliseerivad midagi, kannavad ühiskonna või indiviidi jaoks olulist tähendust, talitlevad teatud märgi või tekstina. Sageli
on tegemist rahvuslike, riiklike ja religioossete sümbolitega, mis tihti viitavad kuulsusrikkale minevikule.
38
Ülevaate digikunsti arengust saab järgmisest raamatust: Kelomees 2009.
Sentimentaalne, tundeväärtus
Tegemist on väärtusega, mis on iseloomulik isiklikule ja perekondlikule tasandile.
Sentimentaalne väärtus on inimesele isiklikult olulisel digiinfol – perekonnafotodel,
lemmikmuusikal, -raamatutel ja -filmidel. See väärtus säilib tavaliselt niikaua, kuni elab
neid väärtustanud inimene, kuid osa objekte antakse edasi põlvest põlve.
Seoseväärtus
Digiobjektid on seotud väljapaistvate isikute, kohtade, sündmuste või rühmitistega.
Tegemist on kaasaegset situatsiooni kajastava väärtusega. Need objektid võivad, aga ei
pruugi omandada ajaloolise väärtuse.
Terviklikkus, täielikkus, autentsus
See väärtus kajastab seda, kas digiobjekt on terviklik, algses, originaalses või väga originaalilähedases seisundis, ilma tahtlike või juhuslike muudatusteta, mis takistaksid tema
tajumist originaalina. Kui objekt koosneb osadest või on tegemist objektide komplektiga,
siis peavad kõik osad ja esemed alles olema. Samuti kuuluvad selle kriteeriumi alla
tervikuna säilinud kogud ning algsel kujul säilinud filmid, muusikapalad jms.
Päritolu
Päritolu kajastab info olemasolu digiobjekti või kogu omanike ja kasutuskonteksti
kohta. See on oluline lisakriteerium ajaloolise või teadusliku väärtuse jaoks. Objekti
olemasolu, kasutamise ja omanike dokumenteeritud ajalugu annab objektile ühiskonna
või üksikisiku jaoks konteksti. Äärmiselt oluline on päritolu näiteks kunstiteoste, arheoloogiliste leidude ja arhiividokumentide korral.
Rahaline väärtus, turuväärtus
Tegemist on objekti praeguse turuväärtusega. See väärtus võib väga kiiresti muutuda.
Rahaline väärtus ei ole teiste väärtustega otseselt seotud. Rahalist väärtust ei saa
117
118
MIKS ON VAJALIK DIGIINFO SÄILITAMINE?
kasutada kõikide teiste väärtuste iseloomustamiseks (see, et asi on kallis, ei pruugi
tähendada, et see on igas mõttes väga väärtuslik).
MIKS ON VAJALIK DIGIINFO SÄILITAMINE?
digikunstiobjektide jms korral. Digitaalse teabe loomine ja kasutamine sõltub tervest
reast füüsilisest objektidest ja keskkondadest, mille säilitamine võib teaduslikust seisukohast vägagi oluline olla (Farr Kraus et al. 2009).
Tõestusväärtus
Digiinfol on väärtus selle looja päritolu, funktsioonide ja tegevuse tõendina. See võimaldab tõendada faktide ja sündmuste toimumist. Kuigi sageli seostatakse seda just
arhiividokumentiga, võib tõestusväärtus olla igasugusel teabel.
Juriidiline väärtus
Digidokumente saab kasutada õiguslike toimingute teostamiseks või nende seaduslikkuse tõendamiseks. Selline väärtus võib olla arhiividokumentidel.
Administratiivne väärtus
Digiobjekt on oluline mingi organisatsiooni tegutsemiseks või toimingute tagamiseks,
näiteks arhitektuurijoonised ja plaanid ehitiste parandamisel, tehnilised joonised seadmete tööshoidmisel, kaardid maastiku, ökosüsteemide ja pärandiobjektide muutuste
kindlaks tegemisel jne.
Omaväärtus
Omaväärtus viitab digiobjekti korral nendele aspektidele, mis on seotud selle materiaalse küljega. Esmapilgul tundub, et digiobjektide korral ei ole need aspektid üldse
olulised. Pole ju digiobjekti enda seisukohalt vahet, kas see on salvestatud arvuti kõvakettale või CDle. Siiski võib välja tuua mõned omaväärtusega seotud asjaolud. Kõige
ilmsem omaväärtus on digiobjektide ümbristel. Muusikaalbum CDl ei ole ainult digitaalsed muusikapalad, vaid ka plaadiümbris, CDle kantud tekstid ja kujutised, sageli on
kaasas veel paberil vihik tekstide ja piltidega (joonis 11.4).
Joonis 11.4. Ansambli Psychoterror plaat „Streik“ –
CD, plaadiümbris ja plaadiga kaasas olev buklett laulusõnadega
Digiobjektide kasutuskogemus sõltub tihti mitmesugustest välistest seadmetest, nagu
ekraanid, kõlarid, klaviatuurid, hiired, juhtkangid jne. Eriti kehtib see mängude,
Unikaalsus
See väärtus on teabel, mis on ainulaadne või mille taasloomine on väga keeruline või
kulukas. Harilikult kombineerub unikaalsus mingi teise väärtusega.
11.2. Digiteabe säilitamise funktsioonid ühiskonnas
Digiteabe säilitamise funktsioonid ühiskonnas on tegelikult määratud väärtustega, millega
see teave on seotud. Kuna väärtusi on erinevaid, täidab ka digiinfo säilitamine ühiskonnas mitmesuguseid funktsioone. Kõige üldisemalt võib öelda, et digiteave, moodustades osa kultuurist, on ka osake kontekstist, mis üldse teeb meist inimesed.
Info säilitamise majanduslik tähtsus
Info ja selle säilitamise majanduslik tähtsus on pidevalt kasvanud. Info majanduslikud
funktsioonid tulenevad otseselt selle majanduslikest väärtustest. Uuringufirma McKinsey tehtud analüüsi andmetel annab ainuüksi internet 21% tänapäeva arenenud riikide
sisemajanduse koguprodukti kasvust, kusjuures 75% interneti mõjust tuleneb selle
kasutamisest traditsioonilistes majandusharudes (Rausas Manyika et al. 2011). Teadmuspõhine majandusmudel tuginebki digitaalsele teabele, mis hoiab käigus tänapäevast
infomajandust. Tasulise digiinfo kasutamisest, saavad vastavat teenust pakkuvad organisatsioonid otsest majanduslikku tulu. Tänapäeva maailmas on info muutunud üheks
olulisemaks kaubaartikliks. Infole tuginedes toodetakse tervet hulka kaupu ja teenuseid, mis pakuvad inimestele nii materiaalset kui ka mittemateriaalset kasu.
Äriprotsesside juhtimiseks vajalik teave on tänapäeval peamiselt digitaalsel kujul.
Selle teabe haldamine ja säilitamine on ettevõtete jaoks äärmiselt tähtis. Digitaalsele
asjaajamisele üleminek on võimalik vaid siis, kui tagatakse olulise teabe autentsus ja
säilimine infosüsteemides. Järjest olulisemaks muutub organisatsioonide mälu (organizational memory, corporate memory) säilitamine. Organisatsiooni mälu kujutab endast
teabekogumit, mis on moodustunud organisatsiooni tegevuse kestel. See teabekogum
on ühelt poolt kajastatud kõikvõimalikus fikseeritud infos, aga teiselt poolt ka inimeste
mälus. Organisatsiooni mälu haldamiseks luuakse organisatsioonisiseseid arhiive, andmepanku, raamatukogusid, muuseume. Suur osa sellest teabest eksisteerib tänapäeval digitaalsel kujul. Lisaks organisatsiooni ajaloo ja väärtuste säilitamisele on see teave oluline
ka kogutud teadmiste, kogemuste ja oskuste säilitamise ning edasiarendamise seisukohalt. Lausa kriitilise tähtsusega on see teadmismahukas tootmises ja arenduses
(näiteks infotehnoloogias, kosmosetehnoloogias, ravimitööstuses jne). Paljude valdkondade ettevõtete jaoks on väga oluline kliendiinfo kogumine, töötlemine ja säilitamine. Ka teavet varasemate tehniliste lahenduste, arvutiprogrammide jms kohta säilitakse tänapäeval digitaalselt. Säilitatavale digiteabele tuginemine võimaldab uusi ja
innovaatilisi tooteid ning teenuseid luua väiksemate arenduskuludega.
Tänapäeva infoühiskonnas tegeleb üha enam ettevõtteid otseselt teabe loomise, kogumise, vahendamise, töötlemise ja säilitamisega. Selliste ettevõtete jaoks on digitaalne
säilitamine kriitilise olulisusega. Organisatsioonide kohustused dokumentatsiooni,
sealhulgas digitaalsete dokumentide säilitamiseks on reguleeritud õigusaktidega.
119
120
MIKS ON VAJALIK DIGIINFO SÄILITAMINE?
Teabe säilitamine võimaldab hoida kokku kulusid, mis tekiksid vajaminevat infot uuesti
hankides. Digitaalses arhiivis säilitatav autentne info võimaldab ilma teabekao ohuta
kustutada organisatsiooni infosüsteemis esinevad inforessursside koopiad. Digiinfo on
ka loomemajanduse oluline osa, nii inspiratsiooniallika kui ka otsese töövahendina.
Digiteabe säilitamine tekitab olulisi kulutusi, samas on see töömahukas ja pakub kõrgekvaliteedilisi töökohti ning loob teadmisi ja oskusi.
Ühiskonna korraldus ja poliitika
Digiinfot on võimalik kasutada infoühiskonna poliitika nutikamaks suunamiseks. See
nõuab vastava teabe kogumist, säilitamist ja töötlemist. Mida olulisemale kohale tõusevad nn suurandmed, seda tähtsamaks muutub ka nende säilitamine. Säilitatav info
võimaldab tõestada kõikvõimalikke õigusi ja tehinguid, näiteks autoriõiguste või patentidega seotud vaidlustes, olles seega ühiskonnaelu korraldamise seisukohast olulise
tähtsusega.
Teadusliku uurimistöö tagamine
Tänapäevane teadmusühiskond tugineb teaduslikule uurimistööle, mis loob aluse tehnoloogilisele arengule. Seejuures on suurem osa uurimistöö käigus loodavast teabest
digitaalne. Sageli on need andmekogused ülisuured, näiteks Euroopa Tuumauuringute
Keskuse (Conseil Européen pour la Recherche Nucléaire, CERN) andmekeskus töötleb
iga päev ühe petabaidi jagu teavet. Sellise teabekoguse säilitamiseks oleks vaja 210 000
DVDd.39 Märksa lihtsama töötlemise ja kasutamise tõttu konverteeritakse varem
kogutud teave digitaalsele kujule. Olemasolevate teabekogude digitaliseerimine muudab need laialdaselt kättesaadavaks ja suurendab seeläbi oluliselt nende kasutatavust.
Võimalikuks on saanud ühtsete kirjeldus- ja analüüsimeetodite kasutamine erineva
institutsionaalse päritoluga teabekogude (arhiivide, raamatukogude, muuseumite,
teadusandmekogude) vahel.
MIKS ON VAJALIK DIGIINFO SÄILITAMINE?
Säilitatud teave on olulisel kohal riikliku identiteedi kehtestamisel ja säilitamisel, mis
aitab püsida riigi struktuuridel ja institutsioonidel ning toetab sotsiaalsete, poliitiliste ja
kultuuriliste pingete lahendamist (Asworth Larkham 1994: 14). Riikide ametlikustatud
pärand on riikliku identiteedi kujundamise väga oluline komponent. Riiklikku pärandit
kasutatakse riigi määratlemiseks ja legitimeerimiseks, samuti kodanike samastumiseks
riigiga. Riigi identiteedi loomine tähendab kindla ajalooversiooni esitamist ja selle seostamist valitseva ideoloogiaga. Üha suuremas ulatuses kasutatakse riiklike identiteetide
kehastamiseks just digiteavet. Näite võib tuua Ühendkuningriigist – vt infokast 11.1.
Näitekast 11.1. Pärand ja rahvuslikkus
Mingile rahvusele omaste tunnuste ja eripärade väljatoomine oli kunagi tõsine
teaduslik teema, mis tänapäevaks on muutunud meeleahtuslikuks, aga samas
ka poliitiliseks ettevõtmiseks. 2000. aastate teisel poolel tõstsid Briti poliitikud
esile pärandi kui rahvusliku identiteedi tugevdamise ja sotsiaalse sidususe suurendamise vahendi. Üks selle väljendusi oli võrguprojekt „ICONS of England“.
Kultuuriministeeriumi algatatud projekti eesmärk oli luua virtuaalne pilt Inglismaast ja inglaslikkusest. Loodi veebileht (www.icons.org.uk, töötas aastail
2006–2011, vt joonis 11.5), kus sai esitada Inglismaad 21. sajandil kõige enam
iseloomustavaid objekte ja nähtusi ning hääletada ja kommenteerida juba esitatuid. Esitatute hulgas olid ka meie jaoks Inglismaad sümboliseerivad Big Ben,
tass teed, James Bond, Nelsoni mälestusmärk, punane kahekorruseline buss ja
punane telefoniputka (joonis 11.6), aga ka meil vähem tuntud Põhjaingli kuju,
Spitfire hävitaja, Rosetta kivi ja Domesday Book.
Digitaalsete kogude loomine, haldamine ja säilitamine on kõikide teabeasutuste üks
olulisemaid tegevussuundi. Kuna suur osa tänapäevaste ühiskondade teabest esineb
digikujul, on selle säilitamine hädavajalik tulevaseks uurimistööks mineviku kohta.
Säilitatavaid andmeid on võimalik hiljem üha uuesti analüüsida, kasutades uuemaid
meetodeid ja kontseptsioone. Samuti on võimalik minevikus kogutud andmeid kombineerida kaasaegsete andmetega, avades nii uusi võimalusi uurimistööks. Digiteabe säilitamine on avanud mitu uut uurimissuunda ja -meetodit (näiteks andmekaeve).
Identiteedi kujunemine ja säilitamine
Alates 20. sajandi keskpaigast on teave omandanud ühiskonnakäsitlustes järjest suurema kaalu. Selle põhjus on vägagi selge: info osaleb aktiivselt sotsiaalse ja kultuurilise
identiteedi kujundamisel ning esitamisel nii lokaalsel, regionaalsel, riiklikul ja rahvuslikul kui ka globaalsel tasandil. Ükski kogukond ei saa eksiteerida ilma jagatud teabeta,
mis tagab ühise mineviku- ja tulevikutunnetuse. Jagatud teabe üks olulisemaid funktsioone ongi grupiidentiteedi loomine ja tugevdamine. Tänapäeval on see teave jällegi
valdavalt digitaalne. Olulisele kohale on kerkinud vaimse ja suulise kultuuripärandi digitaalne dokumenteerimine.
Joonis 11.5. Projekti „ICONS of England”veebileht
39
CERN. Computing. https://home.cern/about/computing
121
122
MIKS ON VAJALIK DIGIINFO SÄILITAMINE?
MIKS ON VAJALIK DIGIINFO SÄILITAMINE?
Kultuuriline mitmekesisus
Nii nagu looduses on tähtis bioloogiline mitmekesisus, on kultuurisüsteemide püsivaks
olemasoluks oluline kultuurilise mitmekesisuse säilitamine. Kultuuriline mitmekesisus
moodustab lahutamatu osa sotsiaalsest sidususest ja inimeste elukvaliteedist. Mitmekesisus on kultuurilise kapitali oluline omadus, kuna see on uue kapitali loomise alus.
Kõige lihtsamal kujul avaldub see selles, et minevikus loodu on aluseks uutele kultuuriväljenduse vormidele. Interkultuuriline dialoog on jätkusuutliku arengu lahutamatu
komponent. Digiteave pakub selleks erakordselt suuri võimalusi.
Haridus
Digitaalsel teabel on väga oluline hariduslik funktsioon, ta võimaldab inimestele juurdepääsu inimkultuuri pärandile ja nüüdisaegsetele saavutustele. Digitaalne õppematerjal
muudab õppimise sõltumatuks senistest piirangutest, edendades seeläbi nii formaalset
kui ka mitteformaalset haridust. Teabeasutused peavad tänapäeva teabeühiskonnas
toimima universaalsete elukestva õppe pakkujatena. Võimalus sellist teavet kasutada
on oluline inimeste isikliku arengu seisukohalt. Säilitatud teabega tegelemine võimaldab omandada uusi teadmisi, kogemusi, oskusi, tõsta enesehinnangut ja mõjutada
suhtumist minevikku, kultuuri ja loomingusse (Wavell Baxter 2002). Digiteave võimaldab õpetamisel kasutada seni raskestikasutatavaid inforessursse ja kuvamisvahendeid
(3D-animatsioonid, visualiseeringud jms). Digiteave ise on muutunud inimühiskonna
lahutamatuks osaks ning seega on ka selle säilitamine hädavajalik tehnoloogia, ühiskonna, inimeste endi ajaloo tundmaõppimise eesmärgil.
Joonis 11.6. Punane telefoniputka on kindlasti Inglismaa
üks tuntumaid sümboleid
Digiteave ja sotsiaalne sidusus
Sotsiaalne sidusus on ühiskonna suutlikkus kindlustada oma ühtsus ning liikmete võrdsus ja heaolu. Sidusus tugineb sotsiaalsele usaldusele, kindlustundele, vastastikusele
abistamisele, jagatud väärtustele ja võrdsetele võimalustele. Ühise teabevälja olemasolu
suurendab kaheldamatult sotsiaalset sidusust, kuid selleks peab info kasutatavus ja kättesaadavus olema tagatud kõikidele ühiskonna liikmetele sõltumata nende sotsiaalmajanduslikust grupist, sissetulekust, geograafilisest asukohast ja muudest tunnustest.
Praegustel põlvkondadel lasub kohustus säilitada teavet tulevastele põlvedele. Seega
pakub digiinfoga seotud väärtuste säilitamine laiemat perspektiivi võrreldes igapäevaste
kohustustega ja loob pikema ajalise tunnetuse. Igasugune tegelemine pärandiga, igasugune osasaamine sellest on tegelikult suhtlus minevikuga, enne meid elanud inimestega.
Olles minevikupärand tulevikupõlvkondadele, moodustab see osa põlvkondadevahelise
võrdsuse kontseptsioonist ja suurendab põlvkondade sidusust. Digitaalse pärandi kogumine, loomine ning säilitamine seob inimesi ja kogukondi, luues ühise infovälja, mis
ulatub minevikust tulevikku.
Inimeste heaolu
Minevikus loodud kunsti-, kirjandus-, muusika-, ja teadustööde nautimine moodustab
osa inimeste heaolust ja vaimsest keskkonnast. Digitaliseerimine on suure osa mineviku
kultuuripärandist muutnud väga lihtsalt kasutatavaks. Järjest suurenev osa inimkonna
loomingust esineb aga ainult digitaalsel kujul. Mona Lisa maalist on olemas miljoneid
veebist kättesaadavaid digitaalseid kujutisi, 3D-animatsioone ja visualiseeringuid, kuid
on võimalik tutvuda ka maali füüsilise originaaliga Louvre’i muuseumis. Seevastu arvutimänge saabki kasutada ainult digitaalsel kujul.
Meelelahutus
Suur osa meelalahutusmaailmast on muutunud digitaalseks, ka klassikalistes valdkondades – tänapäeval naudime muusikat, filme, raamatuid jms digitaalsel kujul. Võib-olla
veelgi olulisem on aga see, et koos digitaalse teabe kasutuselevõtuga on ilmunud ka
hulk digispetsiifilisi meelelahutusi. Kõige tuntumad neist on kindlasti digimängud,
aga meelelahutuses mängivad väga olulist osa ka sotsiaalmeediakanalid, virtuaalsed
maailmad, digitaalsed simulatsioonid jms.
123
124
KASUTATUD KIRJANDUS
KASUTATUD KIRJANDUS
KASUTATUD KIRJANDUS
Bülow, A., Ahmon, J. 2011. Preparing collections for digitization. Facet Publishing.
A procedure for accepting digital and analog magnetic tape for archival storage. 1969.
Washington DC: NARS, Data Archives Staff.
CCSDS 2002. Producer Archive Interface Methodology Abstract Standard (PAIMAS). CCSDS
651.0-M-1. Washington: The Consultative Committee for Space Data Systems. http://pin.
association-aristote.fr/lib/exe/fetch.php/public/documents/20030115_ccsds_651_r1.pdf
Adams, M. O., Brown, T. E. 2000. Myths and realities about the 1960 Census. – Prologue
Magazine, 32, 4. http://www.archives.gov/publications/prologue/2000/winter/1960-census.
html#f5
CCSDS 2010. The data description language EAST specification. (CCSD0010). Washington:
The Consultative Committee for Space Data Systems. https://public.ccsds.org/
Pubs/644x0b3.pdf
Adams, M. O. 1995. Punch card records: precursors of electronic records. – American
Archivist, 58, 182–201.
CCSDS 2011. Audit and certification of trusthworthy digital repositories. Washington: The
Consultative Committee for Space Data Systems https://public.ccsds.org/pubs/652x0m1.pdf
Adams, M. O. 2007. Analyzing archives and finding facts: use and users of digital data records. –
Archival Science, 7, 21–36.
Agur, U. 1976. Andmetöötluse riistvara. Tallinn: Valgus.
CCSDS 2012. Recommendation for Space Data System Practices. Reference model for an open
archival information system (OAIS). Washington: The Consultative Committee for Space
Data Systems. https://public.ccsds.org/pubs/650x0m2.pdf
Ahlgren, D., McDonald. 1981/82. The archival management of a Geographic Information
System. – Archivaria, 13, 59–65.
CCSDS 2014a. Producer Archive Interface Specification (PAIS). Washington: The Consultative
Committee for Space Data Systems. https://public.ccsds.org/Pubs/651x1b1.pdf
Ambacher, B. 2005. The development of a standard for digital repository certification. https://
studylib.net/doc/13347573/the-development-of-a-standard-for-digital-repository-cert
Ceruzzi, P. 2012. Computing: A Concise History. United States: Smithsonian Institution.
An Act for the Disposition of Certain Records of the United States Government. 5. August 1939.
(53 Stat. 1219-21).
Anderson, D., Delve, J., Pinchbeck, D., Agegn Alemu, G. 2009. Preliminary document
analyzing and summarizing metadata standards and issues across Europe. Report No.D3.1:
KEEP Project. Portsmouth.
Apollo 11 missing tapes. – Wikipedia: the free encyclopedia. https://en.wikipedia.org/wiki/
Apollo_11_missing_tapes
Arhiivieeskiri. 2011. Vastu võetud 22.12.2011. https://www.riigiteataja.ee/akt/129122011229
Arhiiviseadus. 2011. Vastu võetud 17.02.2011. https://www.riigiteataja.ee/akt/106012016006
Aru, K., Konsa, K., Siiner, M. 2005. Eesti trükise punane raamat. – Keel ja Kirjandus, 1, 1−8.
Asworth, G., Larkham, P. 1994. Building a new heritage: Tourism, culture and identity in the
new Europe. London, New York: Routledge.
Beniger, J.R. 1986. The Control Revolution. Cambridge: Harvard University Press.
Blank, G., Rasmussen, K. B. 2004. The data documentation initiative: the value and significance
of a worldwide standard. – Social Science Computer Review, 22, 3, 307–318.
British Standard BS 4783:1988. Storage, transportation and maintenance of media for use in
data processing and information storage. Recommendations for magnetic tape cartridges and
cassettes. Part 2: 1988, Recommendations for magnetic tape on open spools; Part 3: 1988,
Recommendations for flexible disk cartridges; Part 4: 1988, Recommendations for magnetic
tape cartridges and cassettes; Part 5: 1991, Recommendations for 12.7mm magnetic tape
cartridges for data interchange, recording at 1491 data bytes per millimetre on 18 tracks; Part
6: 1993, Recommendations for optical disk cartridges; Part 7: 1993, Recommendations for
optical data disks (CD-ROM); Part 8: 1994, Recommendations for 4mm and 8mm helical
scan tape cartridges.
Brooks, P. 1940. The selection of records for preservation. – The American Archivist, 3, 4,
221–234.
Brothman, B. 2006. Archives, life cycles, and death wishes: a helical model of record formation.
– Archivaria, 61, 235–269.
Brown, T., E. 2003. History of NARA’s...”. – Thirty years of electronic records, Ambacher, B. I.
(ed.). Lanham, Md.: Scarecrow Press, 1–23.
Charter on the Preservation of Digital Heritage. 2003. Paris: UNESCO. https://unesdoc.
unesco.org/ark:/48223/pf0000133171.page=80
Cook, M. 1980. Archives and the computer. London, Boston: Butterworths.
Cook, T. 1986. Easy to byte, harder to chew: the second generation of electronic records
archives. – Archivaria, 33, 202–216.
Couture, C., Rousseau, J-Y. 1987. The life of a document: a global approach to archives and
records management. Montreal: Véhicule Press.
Custer, M. 2009. Incorporating patron requests into archival workflows and digital repository
interfaces. – Sustainable Archives. Joint Annual Meeting of the Society of American
Archivists and the Council of State Archivists. http://saa.archivists.org/Scripts/4Disapi.
dll/4DCGI/events/eventdetail.html?Action=Events_Detail&InvID_W=1089
Data and document interchange standards and the National Archive [Project No. 1-6465]. 1987.
ttawa: Canadian Bureau of Management Consulting.
Day, M. 2005. Metadata. DCC Digital Curation Manual. DCC. What is digital curation? http://
www.dcc.ac.uk/digital-curation/what-digital-curation#sthash.t79d2VYM.dpuf
Definitions of digital preservation. 2007. ALA (American Library Association). Chicago:
American Library Association. http://www.ala.org/ala/mgrps/divs/alcts/resources/
preserv/defdigpres0408.pdf
Demmerle, A. M., Holmes, R. G., Poland, W. B. 1967. GSFC program in telemetry data
archiving, discussing necessity of data accessing capability. – Wincon 67, Winter convention
on aerospace and electronic systems, 8th, Los Angeles, Calif., IIID-12–IIID-17.
Dempsey, L., Heery, R. 1997. A review of metadata: a survey of current resource description
formats work package 3 of telematics for research project DESIRE (RE 1004). http://www.
ukoln.ac.uk/metadata/desire/overview/
Dempsey, L., Heery, R. 1998. Metadata: a current view of practice and issues. – Journal of
Documentation, 54, 2, 145–172.
Derek, C. 1984. Records surveys and schedules: a RAMP study with guidelines. Paris:
UNESCO. http:// unesdoc.unesco.org/images/0006/000635/063518eo.pdf
Digital preservation handbook. 2016 (2nd edition). Digital Preservation Coalition. http://
handbook.dpconline.org/
125
126
KASUTATUD KIRJANDUS
Digital preservation metadata standards. 2010. – ISO Information Standards Quarterly, 22, 2,
5–13.
Dollar, C., M. 1978. Appraising machine-readable records. – The American Archivist, 41, 4,
423–430.
Dollar, C., M. 1993. Archivists and records managers in the information age. – Archivaria, 36,
37–52.
Domesday: Britain’s finest treasure. The National Archives. http://www.nationalarchives.gov.
uk/domesday/
Domesday. The BBC Domesday project. http://www.atsf.co.uk/dottext/domesday.html
Domesday reloaded blog. BBC. http://www.bbc.co.uk/history/domesday
Dormolen, H. van. 2012. Metamorfoze preservation imaging guidelines. The Hague:
Koninklijke Bibliotheek. https://www.metamorfoze.nl/sites/metamorfoze.nl/files/
publicatie_documenten/Metamorfoze_Preservation_Imaging_Guidelines_1.0.pdf
Doorn, P. 1998. Electronic records and historians in Netherlands. – History and electronic
Artefacts, Higgs, E. (ed.). Oxford: Clarendon Press, 304–316.
Doorn, P. 2004. Research data archives and public electronic record-offices: what can we learn
from each other? – Archives in Cyberspace. Electronic Records in East and West, Doorn, P.,
Garskova, I., Tjalsma, H. (eds.). Moscow: Moscow University Press.
Dryden, J. E. 1995. Archival description of electronic records: an examination of current
practices. – Archivaria, 40, 99–108.
Duff, W., McKemmish, S. 2000. Metadata and ISO 9000 compliance. – Information
Management Journal, 34, 1.
Eesti trükise Punane Raamat. http://www.nlib.ee/PunaneRaamat
Eesti trükise punane raamat. ELNET Konsortsium. http://www.elnet.ee/index.php/projektid/
eesti-truekise-punane-raamat
Elektrooniliste dokumentide haldamise näidisnõuded. Spetsifikatsioon MoReq 2. 2010. Tallinn:
Eesti Riigikantselei. https://www.mkm.ee/sites/default/files/spetsifikatsioon_moreq2.pdf
KASUTATUD KIRJANDUS
Giaretta, D. 2011. Advanced digital preservation. Berlin, Heidelberg: Springer.
Gill, T. 1998. Metadata and the World Wide Web. – Introduction to metadata: pathways
to digital information, Baca, M. (ed.). Getty Infirmation Institute. http://www.slis.kent.
edu/~mzeng/metadata/gill.pdf
Gilliland-Swetland, A. 2000b. Setting the stage: defining metadata. – Introduction to metadata:
pathways to digital Information, Murtha B. (ed.). Los Angeles: Getty Information Institute.
http://www.getty.edu/research/publications/electronic_publications/intrometadata/
setting.html
Greenberg, J. 2005. Understanding metadata and metadata schemes. – Cataloging and
Classification Quarterly, 40, 3/4, 17–36.
Greenfieldboyce, N. 2009. Houston, we erased the Apollo 11 tapes. http://www.npr.
org/2009/07/16/106637066/houston-we-erased-the-apollo-11-tapes
Guidelines on best practices for using electronic information. 1997. DLM-Forum. Brussel:
European Communities. http://dlmforum.typepad.com/gdlines.pdf
Hakala, J. 2010. Persistent identifiers – an overview. Technology Watch Report (TWR):
Standards in Metadata and Interoperability. http://metadaten-twr.org/2010/10/13/
persistent-identifiers-an-overview/
Hausstein, B., Brislinger, E. 1998. Data and information transfer between Eastern and Western
Europe. – Information dissemination and access in Russia and Eastern Europe: problems and
solutions in East and West, Walker, R., Taylor, M. F. (eds.). Amsterdam: IOS Press, 77–87.
Haynes, D. 2004. Metadata for information management and retrieval. Facet Publishing.
Hedstrom, M. 1991. Understanding electronic incunabula: a framework for research on
electronic records. – The American Archivist, 54, 3, 334–354.
Heide, L. 2009. Punched-card systems and the early information explosion, 1880–1945.
Baltimore: The John Hopkins University Press.
Henry, L. J. 2003. Appraisal of electronic records. – Thirty years of electronic records,
Ambacher, B. I. (ed.). Lanham, Md.: Scarecrow Press, 25–41.
EVS-ISO 15836:2004. Informatsioon ja dokumentatsioon – Dublin Core’i
metaandmeelemendid. Tallinn: Eesti Standardikeskus.
Hilse, H-W., Kothe, J. 2006. Implementing persistent identifiers: overview of concepts,
guidelines and recommendations. London/Amsterdam: Consortium of European Libraries
and European Commission on Preservation and Access.
FADGI. 2010. Technical guidelines for digitizing cultural heritage materials: creation of raster
image master files. Still Image Working Group. http://www.digitizationguidelines.gov/
guidelines/FADGI_Still_Image-Tech_Guidelines_2010-08-24.pdf
Hurley, B. J., Price-Wilkin, J., Proffitt, M., Besser, H. 1999. The making of America II Testbed
Project: a digital library service model. Washington, D.C.: Council on Library and
Information Resources. http://www.clir.org/pubs/abstract/pub87abst.html
Farr, E. L., Kraus, K. M., Nelson, N., Peters, C. S., Redwine, G., Reside, D. 2009. Digital
materiality: preserving access to computers as complete environments – iPRES 2009: the
Sixth International Conference on Preservation of Digital Objects. Proceedings, 105–112.
http://escholarship.org/uc/item/7d3465vg
ICA. 1996. Electronic records programs: report on the 1994/95 survey.
Fishbein, M. H. 1972. Appraising information in machine language form. – The American
Archivist, 35, 1, 35–43.
ICA. 2000. ISAD(G): General International Standard Archival Description (second edition).
Ottawa: International Council on Archives. http://www.icacds.org.uk/eng/ISAD(G).pdf
Fishbein, M. H. 2003. Recollections ... – Thirty years of electronic records, Ambacher, B. I.
(ed.). Lanham, Md.: Scarecrow Press, xiii–xix.
ICA. 2004. ISAAR(CPF): International Standard Archival Authority Record for Corporate
Bodies, Persons and Families. International Council on Archives. http://www.icacds.org.uk/
eng/ISAAR(CPF)2ed.pdf
Floridi, L. 2009. Information: a very short introduction. Oxford, New York: Oxford University
Press.
Gavrel, S. 1986. Preserving machine-readable archival records: a reply to John Mallinson. –
Archivaria, 22, 153–155.
Geda, C., L. 1979. Social science data archives. – The American Archivist, 42, 2, 158–166.
ICA. 1997a. Guide for managing electronic records from an archival perspective.
ICA. 1997b. Electronic records management: a literature review.
ICA. 2007. ISAF: International Standard for Activities/Functions of Corporate Bodies.
International Council on Archives. http://www.gobiernodecanarias.org/opencmsweb/
export/sites/cpj/dgmcs/temas/archivos/docs/isaf_ingles.pdf
Infosüsteemide turve II: turbe tehnoloogia. 1998. Tallinn: Küberneetika.
127
128
KASUTATUD KIRJANDUS
ISO 15489-1:2016. Information and documentation – Records management – Part 1: Concepts
and principles.
Jakobson, R. 1981. Linguistics and poetics. – Jakobson, R. Selected Writings III. Poetry of
Grammar and Grammar of Poetry. The Hague: Mounton Publishers, 18–51.
Juhendeid digitaalsete dokumentide säilitamiseks. 2000. Ruusalepp, R., Rand, J. (koost).
Tallinn: Eesti Äriarhiiv.
Kelomees, R. 2009. Postmateriaalsus kunstis. Indeterministlik kunstipraktika ja
mittemateriaalne kunst. Tallinn: Eesti Kunstiakadeemia.
Kesner, R. M., Hurst, D. 1981. Microcomputer applications in archives: a study in progress. –
Archivaria, 12, 3–19.
Konsa, K., Hermann, E. The logic of text and structure of books: Changing the functions. –
Reading in changing society, Lauristin, M., Vihalemm, P. (eds.). Tartu: University of Tartu
Press, 28–38.
KASUTATUD KIRJANDUS
Moore, G. 1965. Cramming more components onto integrated circuits.– Electronics Magazine,
38, 8. ftp://download.intel.com/museum/Moores_Law/Articles-Press_Releases/Gordon_
Moore_1965_Article.pdf
MPEG-21 Book. 2006. John Wiley & Sons Ltd.
Museum Helps BBC Domesday Reloaded Project. 2011. Centre for Computing History. http://
www.computinghistory.org.uk/news/14450/Museum-Helps-BBC-Domesday-ReloadedProject/
NASA. The Apollo 11 telemetry data recordings: a final report. www.nasa.gov/
pdf/398311main_Apollo_11_Report.pdf
NASA. 2006. Update: Apollo 11 tapes. http://www.nasa.gov/mission_pages/apollo/apollo_
tapes.html
Naugler, H. 1984. The archival appraisal of machine-readable records: a RAMP study with
guidelines. Paris: UNESCO.
Konsa, K. 2014. Laulupidu ja verivorst: 21. sajandi vaade kultuuripärandile. Tartu: Tartu
Kõrgem Kunstikool.
NISO. 2001. Understanding metadata. P.1. NISO Press. http://www.niso.org/publications/
press/UnderstandingMetadata.pdf
Kula, S. 1977. Optical memories: archival storage system of the future, or More pie in the sky. –
Archivaria, 4, 43–48.
O’Reagan, G. 2012. Brief history of computing. Springer.
Lazinger, S. 2001. Digital preservation and metadata: history, theory, practice. Libraries
Unlimited.
Lavoie, B., Gartner, R. 2005. Technology watch report: preservation metadata. Oxford
University Library Services and Digital Preservation Coalition. http://www.dpconline.org/
docs/reports/dpctw05-01.pdf
Law, M. H., Rosen, B. K. 1989. Framework and policy recommendations for the exchange
and preservation of electronic records. Report prepared by the National Computer Science
Laboratory, National Institute of Standards and Technology for the National Archives and
Records Administration.
PDF reference. 2006 (sixth edition). Adobe® Portable Document Format Version 1.7. http://
www.adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/pdf_reference_1-7.pdf
PDF. Wikipedia. http://en.wikipedia.org/wiki/Portable_Document_Format
Phillips, M., Woodyard, D., Bradley, K., Webb, C. 2001. Preservation metadata for digital
collections: exposure draft. National Library of Australia.
Pikaealised Voyagerid. 2008. – Tehnikamaailm. http://www.tehnikamaailm.ee/pikaealisedvoyagerid/
Protocols, standards and communications, Inc. 1989a. The application of ODA/ODIF
standards. Ottawa: National Archives of Canada.
Lawson, M. G. 1948. The machine age in historical research. – The American Archivist, 11, 2,
141–149.
Protocols standards and communications, Inc. 1989b. Application portability. Ottawa: National
Archives of Canada.
LeFurgy, B. 2013. Hardware Matters. – The Signal. Library of Congress. http://blogs.loc.gov/
thesignal/2013/05/hardware-matters/
Pulkinen, M., Quinlan, T. 1996. Nordic archives and electronic records: preservation of
electronic records in Nordic Countries. – For the record: data archives, electronic records,
access to information and the needs of the research community, Lohan, R., Conrad, M.,
Hannigan, K., Jackson, J. A. (eds.). Dublin: Institute of Public Administration, 48–53.
Levi, D. M. 2003. Documents and Libraries: A sociotechnical Perspective. – Digital library use:
social practice in design and evaluation, Bishop, A. B., Van House, N. A., Pfeil Buttenfield, B.
(eds.). Cambridge, London: The MIT Press, 26–42.
Lipe, W. 1984. Value and meaning in cultural resources. – Approaches to the archaeological
heritage, Cleere, H. (ed.). Cambridge: Cambridge University Press, 1–11.
Lievesley, D. 1998. Increasing the value of data. – History and electronic artefacts, Higgs, E.
(ed.). Oxford: Clarendon Press, 25–32.
Lund Principles. 2001. https://cordis.europa.eu/ist/digicult/lund-principles.htm
Pärgamendid. – Rahvusarhiiv. http://www.ra.ee/pargamendid/index.php/et
Rausas, M., P. Manyika, J. du, Hazan, E., Bughin, J., Chui, M., Said, R. 2011. Internet matters:
The Net’s sweeping impact on growth, jobs, and prosperity. McGinsley and Company.
http://www.mckinsey.com/insights/high_tech_telecoms_internet/internet_matters
Recommended environmental conditions and handling procedures for magnetic tape. 1973.
Washington DC: NARS.
Mallinson, J. C. 1986. Preserving machine-readable archival records for the millennia. –
Archivaria, 22, 147–152.
Records and Information Life Cycle Management. Library and Archives Canada. https://www.
bac-lac.gc.ca/eng/services/government-information-resources/lifecycle-management/
Pages/life-cycle-management.aspx
Marker, H.–J. 1998. Data conservation at a traditional data archives. – History and electronic
artefacts, Higgs, E. (ed.). Oxford: Clarendon Press, 294–303.
Regregex. 2010. VCF 2010 Domesday tray open.jpg. CC BY 3.0. https://commons.wikimedia.
org/w/index.php?curid=10716074
McKie, R. Thorpe, V. 2002. Digital Domesday Book lasts 15 years not 1000. – The Guardian.
https://www.theguardian.com/uk/2002/mar/03/research.elearning
Rosenkrantz, G. J. 1971. National archives mass storage requirements – 1975 to 1980. – IEEE
Transactions on Magnetics, 7, 4, 843–847.
METS. 2010. Metadata encoding and transmission standard: Primer and reference manual.
USA: Digital Library Federation. http://www.loc.gov/standards/mets/mets-schemadocs.html
Rosenzweig, R. 2003. Scarcity or abundance? Preserving the past in a digital era. – American
Historical Review, 108, 3, 735–762.
129
130
KASUTATUD KIRJANDUS
KASUTATUD KIRJANDUS
Ross, S., Gow, A. 1999. Digital archaeology: rescuing neglected and damaged data resources.
London: Library Information Technology Centre. http://www.ukoln.ac.uk/services/elib/
papers/supporting/pdf/p2.pdf
Upward, F. 1997. Structuring the records continuum. Part two: structuration theory and
recordkeeping. – Archives and Manuscripts, 25, 1. http://www.infotech.monash.edu.au/
research/groups/rcrg/publications/recordscontinuum-fupp2.html
Rothenberg, J. 1999a. Ensuring the longevity of digital information. http://www.clir.org/pubs/
archives/ensuring.pdf
Upward, F. 2000. Modelling the continuum as paradigm shift in recordkeeping and archiving
processes, and beyond a personal reflection. – Records Management Journal, 10, 3, 115–139.
Roussopoulos N., Mark, L. 1986. Metadata management. – Computer, 19, 12, 26–36.
Varundamise ja arhiveerimise kord. Riigi Infosüsteemi Amet. https://www.ria.ee/public/ISKE/
naidisdokumendid/LISA1.07.Varundamise_ja_arhiveerimise_kord.doc
Runardotter, M., Quisbert, H., Nilsson, J., Hägerfors, A., Mirijamdotter, A. 2005. The
information life cycle – Issues in long-term digital preservation. – Proceedings of
IRIS28 in Kristiansand, Norway 6–9 August 2005. http://www.researchgate.net/
publication/228531497_The_information_life_cycleissues_in_long-term_digital_
preservation
Shannon, C. E. 1948. A mathematical theory of communication. – The Bell System Technical
Journal, 27, 379–423, 623–656. http://math.harvard.edu/~ctm/home/text/others/shannon/
entropy/entropy.pdf
Schellenberg, T. R. 1956. Appraisal of modern public records. http://www.archives.gov/
research/alic/reference/archives-resources/appraisal-of-records.html
Sleemann, P. 2004. It’s public knowledge: The National Digital Archive of Datasets. –
Archivaria, 58, 173–200. http://data-archive.ac.uk/media/54761/ukda-40thanniversary.pdf
Smith, N. 2006. Digitising documents for public access. – Digital heritage: applying digital
imaging to cultural heritage, MacDonald, L. (ed.). Butterworth-Heinemann, 3–32.
Structured glossary of technical terms. The impact of digital Technologies. http://www.clir.
org/pubs/reports/lynn/impact.html
Tape drive technology comparison. 2014. Spectra. https://edge.spectralogic.com/index.
cfm?fuseaction=home.displayFile&DocID=2513
Task force on archiving of digital information. 1996. Preserving digital information.
Washington, D.C.: Commission on Preservation and Access. https://www.clir.org/pubs/
reports/pub63watersgarrett.pdf
Tegmark, M. 2014. Our mathematical universe: my quest for the ultimate nature of reality.
London: Penquin Books.
The preservation of complex objects. 2012. Volume 1: visualisations and simulations, Delve, J.,
Anderson, D., Dobreva, M., Baker, D., Billenness, C., Konstantelos, L. (eds.). Portsmouth:
The University of Portsmouth. http://eprints.port.ac.uk/7745/1/pocos_vol_1.pdf
The preservation of complex objects. 2012. Volume 2: software Art, Konstantelos, L., Delve, J.,
Anderson, D., Baker, D., Billenness, C., Dobreva, M. (eds.). Portsmouth: The University of
Portsmouth. http://radar.gsa.ac.uk/2806/1/pocos_vol_2_final_release%5B1%5D.pdf
The preservation of complex objects. 2013. Volume 3: gaming environments & virtual worlds,
Anderson, D., Delve, J. (eds.). Portsmouth: The University of Portsmouth.
Thexton, J. E. 1974. Archival potential of machine-readable records in business. – The American
Archivist, 37, 1, 37–42.
Thioboedeau, K. 2002. Overview of technological approaches to digital preservation and
challenges in coming years. – The state of digital preservation: an international perspective.
Conference proceedings documentation abstracts. Washington, D.C.: Institute for
Information Science. http://chnm.gmu.edu/digitalhistory/links/pdf/preserving/8_37e.pdf
Upward, F. 1996. Structuring the records continuum. Part one: Postcustodial principles
and Properties. – Archives and Manuscripts, 24, 2. http://www.infotech.monash.edu.au/
research/groups/rcrg/publications/recordscontinuum-fupp1.html
Vickery, B., Vickery, A. 1992. Information science in theory and practice. London: BowkerSaur.
Voyager Golden Record. – Wikipedia: the free encyclopedia. https://en.wikipedia.org/wiki/
Voyager_Golden_Record
Voyager 1. – Wikipedia: the free encyclopedia. https://et.wikipedia.org/wiki/Voyager_1
Voyager. The interstellar mission. http://voyager.jpl.nasa.gov/spacecraft/goldenrec.html
Waters, D., Garrett, J. 1996. Preserving digital information: final report of the task force on
archiving of digital information. The Commission on Preservation and Access and The
Research Libraries Group.
Wavell, C., Baxter, G., Johnson, I., Williams, D. 2002. Impact evaluation of museums, archives
and libraries: available evidence project. Resource: The Council for Museums, Archives and
Libraries.
Wettengel, M. 1998. German unification and electronic records: the example of the
‘kaderdatenspeicher.’’ – History and electronic artefacts, Higgs, E. (ed.). Oxford: Clarendon
Press, 265–276.
Ülevaade Euroopa riikide rahvusarhiivide juhistest digitaalsete dokumentide haldamiseks ja
säilitamiseks. 2001. Ruusalepp, R (koost). Tallinn: Eesti Äriarhiiv.
Yusof, Z., Chell, R. 2000. The records life cycle: an inadequate concept for technologygenerated records. – Information Development, 16, 3, 135–141.
131