Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Digitaalne mälu

Ülevaade digitaalse teabe säilitamisest.

Kurmo Konsa Digitaalne mälu SISUKORD 1. 5 1.1. 5 Kommunikatsiooniprotsesside kirjeldamine 1.2. Kommunikatsiooni ajalised aspektid 10 INFORMATSIOONI ELUTSÜKKEL 15 2.1. Dokumentide elukäigu mudelid 15 2.2. Elutsüklimudeli laiendamine dokumentidelt teabele 22 DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU 25 3.1. Digitaalse infotöötlemise esiajalugu 26 3.2. Elektronarvutite kasutuselevõtt 28 3.3. Andmearhiivid ja digitaalne säilitamine 30 3.4. Digiinfo säilitamise paradigma muutus 32 4. DIGIINFO SÄILITAMISE PROBLEEMID 38 5. DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME? 48 5.1. Digitaalne objekt 48 5.2. Digiobjekti esitused 53 5.3. Digiobjektide klassifitseerimine 54 6. MIDA TÄHENDAB MÕISTE “DIGITAALNE SÄILITAMINE”? 57 7. MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS? 59 7.1. Digihoidla kontseptsioon 59 7.2. OAIS keskkond 60 7.3. Info esitus OAIS mudelis 60 7.4. Esitusinfo OAIS mudelis 61 7.5. Esitusinfo tüübid OAIS mudelis 64 7.6. Infoülekanded OAIS mudelis 65 7.7. Info pakendamine ja infopaketid OAIS mudelis 68 7.8. OAIS funktsionaalne mudel 69 7.9. OAIS mudeliga kooskõlas olev digihoidla 70 DIGITEERIMINE 72 8.1. Digiteeritavate objektide valik 73 8.2. Digiteerimise mõju kogude haldamisele 76 8.3. Digiteerimiseks kasutatavad seadmed 77 2. 3. Õppevahend on loodud HITSA projektis „IKT-alase võimekuse suurendamine ning digihumanitaaria arendamine Tartu Ülikooli humanitaarteaduste ja kunstide valdkonnas“. 8. Kujundanud ja küljendanud: Aide Eendra Fotod: Kurmo Konsa Joonised: Aide Eendra KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS 2 3 9. METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE 80 9.1. Metaandmete määratlusi 80 9.2. Metaandmete skeemid ja standardid 83 9.2.1. Raamatukogude kirje- ja kataloogimissüsteemid 84 9.2.2. Arhiivikirjelduse rahvusvaheline standard ISAD(G) 85 9.2.3. Kodeeritud arhiivikirjeldus (EAD) 87 9.2.4. Dublin Core metaandmesüsteem 87 9.2.5. Märgistus- ehk märgendkeeled 90 9.3. Säilitusmetaandmed 94 9.4. Metaandmesüsteemi valik 95 9.5. Metaandmete loomine 96 9.6. Metaandmete sidumine infoobjektiga 98 9.7. Metaandmete koostalitlusvõime 99 10. SÄILITUSMEETODID DIGIHOIDLAS 100 10.1. Bitijada kopeerimine 100 10.2. Varundamine 101 10.2.1. Varundusplaan 101 10.2.2. Varundamise liigid 103 10.2.3. Varundamisel kasutatavad andmekandjad 106 10.3. Andmekandjate värskendamine 107 10.4. Pikaealiste andmekandjate kasutamine 107 10.5. Failide migreerimine 107 10.6. Failivormingute valik, spetsifikatsioonid, levik ja standarditele tuginemine 109 10.7. Väljund analoogmeediale 109 10.8. Emuleerimine 110 10.9. Tehnoloogia säilitamine 111 10.10. Digitaalne arheoloogia, andmearheoloogia 112 11. MIKS ON VAJALIK DIGIINFO SÄILITAMINE? 113 11.1. Väärtused ja info säilitamine 113 11.2. Digiteabe säilitamise funktsioonid ühiskonnas 119 SISSEJUHATUS Lubatagu mul alustada ühe isiklikumat laadi meenutusega. 1990. aastal avaldasin tollases ajalehes Edasi artikli arvutikunstist, mille pealkirjaks olin pannud „Virtuaalne reaalsus kunstimuuseumi teisel korrusel“. Toimetaja parandas sõna „virtuaalne“ järjekindlalt sõnaks „vitaalne“ ja keeldus seda muutmast, sest sõna „virtuaalne“ polevatki olemas. Tänapäeval me õnneks enam nii ei arva. See looke iseloomustab hästi meie mõttemaailmas toimunud muutusi, mida võib lõppkokkuvõttes seostada tehnika ja kitsamalt infotehnoloogia tormilise arenguga 20. sajandi teisel poolel. Inimese üks kõige suuremaid eripärasid seisneb selles, et ta muundab aine infoks ja informatsiooni aineks. Seda teevad muidugi kõik elusorganismid, kuid inimene on selles osutunud kõige edukamaks. Nii ongi informatsioon see, mida me bioloogiliste ja kultuuriliste olenditena kõige enam toodame ja endast maha jätame. Seega on kõik tänapäeval toimuvad muutused ühel või teisel viisil seotud info ja kommunikatsiooniga. Digitaalne kommunikatsioon on meie kaasaegse ühiskondliku infosüsteemi aluseks. E-post ja muud internetiteenused, mobiilsed infosüsteemid, raadio ja televisioon, filmid, fotod – kõik see põhineb digitehnoloogial. Suur osa digitehnoloogiast jääb tavakasutajale tabamatuks, on muutunud nähtamatuks, taandudes tehnilistesse süsteemidesse. Suur osa tehnilistest seadmetest on tänapäeval varustatud digitaalsete mikroprotsessoritega. Lisaks inimestevahelisele suhtlusele on tekkinud inimeste ja masinate vaheline ning masinate endi vaheline kommunikatsioon. Digitaalsel infosüsteemil on aga ka märksa olulisem kontseptuaalne mõju. Paberile kirjutamine ja trükkimine fikseeris kirjutatu, luues mulje stabiilsest, püsivast informatsioonist. Digitaalne info on äärmiselt tihedalt kommunikatsiooniprotsessidesse integreeritud ja info omandab tähenduse just pidevas suhtlusprotsessis. See vähendab tekstide stabiilsust. Kui raamatu tekst on stabiilne, siis võrrelge seda näiteks Vikipeedia tekstiga või mõne veebilehega. Osa digitaalsest tekstist püütakse muidugi esitada sama stabiilsena kui paberile trükitud tekst. Sellisel juhul on meil lihtsalt tegemist trükitud raamatu või artikli erikujuga. Enamik digiinfot ja järjest suuremal määral aga ei ole selline. Infot kopeeritakse üha uuesti ja uuesti, kuid samal ajal seostatakse seda pidevalt mingite teiste infokontekstidega ja nii võib sündida kas hoopis uus teadmine või siis kasutajale kõige sobivamal viisil integreeritud informatsioon. Digitaalsed meetodid on andmete kogumise, töötlemise, kasutamise ja kommunikatsiooni muutunudmuutnud seniolematult kiireks ja kõikehõlmavaks. 20. ja 21. sajandi ühiskonda iseloomustab teaduse, tehnoloogia ja sotsiaalsete süsteemide ülikiire arengu kõrval kindlasti ka püüdlus teadlikult säilitada võimalikult palju oma minevikust ja kaasajast tulevastele põlvedele. Erandiks ei ole siin ka digitaalsel kujul esinev teave. Selle säilitamine on tänapäeval muutunud teemaks, mis puudutab nii üksikisikuid, ettevõtteid ja organisatsioone, mäluasutusi kui ka kogu riiki ning lõpuks inimkonda kui tervikut. Info loomise, levitamise, kasutatavaks tegemise ja säilitamisega tegelevad kõikides ühiskondades spetsiaalsed inimesed, organisatsioonid ja institutsioonid. Digitaalne tehnoloogia on aga toonud teabe loomise, levitamise, säilitamise ja kasutamise iga inimese igapäevaellu. Tänapäeval oleme me kõik teabetöötajad ning sellealased teadmised ja oskused on hädavajalikud. Üks osa teabeprotsessidest on ka säilitamine. Kursus „Digitaalne mälu“ käsitlebki digitaalse info säilitamise protsesse ühiskonnas. Ennekõike on see suunatud humanitaarerialade üliõpilastele ning mäluasutuste töötajatele. Eesmärgiks anda ülevaade digitaalse teabe olemusest, funktsioonidest, mida see täidab ühiskonnas ning digikogude moodustamise ja kirjeldamise alustest. 4 KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS Kursus algab ülevaatega informatsiooni olemusest ja ühiskonnas toimuvatest kommunikatsiooniprotsessidest, millesse informatsioon on haaratud. Vaatamata suhteliselt lühikesele eale on digisäilitamises toimunud palju huvitavaid arenguid, millest ülevaate saamine aitab paremini mõista ka meie tänaseid tegemisi. Sellele ongi pühendatud kolmas peatükk. Neljandas peatükis toon lühidalt välja probleemid ja raskused, mis digisäilitamise ees seisavad. Viies peatükk käsitleb väga olulist teemat, säilitatava digiinfo täpsemat määratlemist. Sellest peatükist selguvad digiinfo mitmed äärmiselt olulised eripärad, mille mõistmine on kogu digitaalse säilitussüsteemi alus. Kuuendas peatükis määratlen digitaalse teabe säilitamise mõiste. Digiobjekte säilitatakse digihoidlas, aga mis on digihoidla täpsemalt, see selgub seitsmendas peatükis. Üks viis, kuidas säilitatavad digiobjektid tekivad, on digiteerimine ehk olemasolevate analoogobjektide muutmine digitaalseteks. Mida see tähendab ja kuidas seda tehakse, vaatlen kaheksandas peatükis. Üheksas peatükk on pühendatud digiobjektide ja kogude kirjeldussüsteemidele. Kümnes peatükk käsitleb digiobjektide võimalikke säilitusstrateegiad digihoidlas. Kursuse kokkuvõtvaks peatükiks on 11. peatükk, milles vaatlen seda, mis kasu me saame digiinfo säilitamisest ja milleks see üldse vajalik on. Iga peatüki alguses olen lühidalt ära nimetanud peamised teemad ja pädevused, mida selle peatüki läbimisega omandatakse. Tänan südamest kõiki, kes on selle õppematerjali valmimisele kaasa aidanud. Vestlused ja arutelud Tarvo Kärbergiga avardasid väga palju mu arusaamist digimaailmast. Autori kõige hullemaid lollusi aitasid välja rookida head inimesed Rahvusarhiivist. Tänud Aadi, Kaido, Kati, Lauri ja Ülle! 1. KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS Lugenud läbi selle peatüki, • tead, mis on kommunikatsiooniprotsess; • oskad välja tuua eri kommunikatsioonimudelite sarnasusi ja erinevusi; • tead, mis on asümmeetriline kommunikatsiooniprotsess; • oskad kirjeldada info säilitamise rolli kommunikatsiooniprotsessides. Kuidas toimub info loomine, levitamine, kogumine, alleshoidmine ja kasutamine ühiskonnas? Inimeste hulk, kes infot loovad, täiendavad, kasutavad, kasvab pidevalt. Suur hüpe selles vallas on toimunud sotsiaalmeedia (nn Web 2.0) kasutusse tuleku ja järjest suureneva populaarsusega. See, mida me inimestena kõige enam toodame ning endast maha jätame, on andmed ja informatsioon. Selle põhjuseks on ennekõike digitaalse info- ja kommunikatsioonitehnoloogia kättesaadavaks muutumine järjest suuremale osale inimkonnast. Tehnoloogia muutub odavamaks, kiiremaks (nii protsessorid kui ka võrgud) ja lihtsamini kasutatavamaks. Tehnika arengu iseloomustamiseks kasutatakse tihti nn Moore’i seadust. Nimelt väitis kuulsa kiibifirma Intel üks asutajaid Gordon Moore 1965. aastal, et transistoride arv kiibil kahekordistub iga kahe aasta järel (Moore 1965). Senini on kompuutertehnika areng sellele seaduspärasusele vastanud. Infosüsteemides osalejate arvukuse kasv on seotud ka haridustaseme tõusu ja töö iseloomu muutumisega. Järjest raskem on leida töökohta, mis ei nõua IT-vahendite kasutamist. Loodava ja kasutatava info korraldamine on muutunud väga oluliseks nii üksikisiku, ettevõtte kui ka ühiskonna kui terviku jaoks. 1.1. Kommunikatsiooniprotsesside kirjeldamine Informatsioon ei esine inimühiskonnas mingi eraldiseisva olemina, ta on haaratud paljudesse protsessidesse, mis moodustavad ühiskonna infosüsteemi. Selles peatükis vaatleme lähemalt, kuidas toimib ühiskonnas info loomine, töötlemine, säilitamine ja kasutamine. Informatsiooni vahetamine ja tähenduste kommunikeerimine kuulub lahutamatult igasse sotsiaalsesse süsteemi. Inimühiskond kujuneb omavahel suhtlevatest indiviididest. Suhtlus, mis põhineb infovahetusel ehk kommunikatsioonil, on ühtaegu nii inimliku olemise eeldus kui ka tagajärg. Ühiskondlikus infosüsteemis toimuvaks elementaarprotsessiks võib lugeda kommunikatsiooniakti. Kommunikatsiooni on defineeritud kui sündmuste järjestust, mis viib informatsiooni ülekandele infoallikalt vastuvõtjale. Informatsiooni ülekandmise tähistamiseks kasutatakse ka terminit „transmissioon“. Tehnilises käsitluses on terminid „kommunikatsioon“ ja „transmissioon“ sünonüümid. Sotsiaalses käsitluses eeldab kommunikatsioon lisaks signaalide kättesaamisele ka teatest arusaamist – kommunikatsiooni korral on kõige tähtsam see, et infoallikast saadetud sõnum oleks adressaadile mõistetav. Signaalid võidakse küll edastada, aga kui vastuvõtja ei ole võimeline neid interpreteerima ja neile reageerima, siis kommunikatsiooni ei toimu. Siinkohal tasub tähele panna asjaolu, et vastuvõtja ei pea sõnumit interpreteerima samamoodi kui saatja, oluline on vaid interpreteerimise toimumine. 5 6 KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS Kommunikatsioon tugineb sümbolite transmissioonile ja nende sümbolite interpreteerimisele teate vastuvõtja poolt. Kuigi harilikult käsitletakse kommunikatsiooni inimeste vahel, ei tohiks unustada, et kommunikatsioonivõimelised on kõik elusolendid ja ka inimese loodud masinad. Kommunikatsioonisüsteemi kõige lihtsamas mudelis, mida nimetatakse stiimuli- reaktsiooni mudeliks (SR model, stimulus-response model), võib eristada teate saatjat, teate vastuvõtjat ja sõnumit (joonis 1.1). INFOALLIKAS SÕNUM VASTUVÕTJA Joonis 1.1. Kommunikatsioonisüsteemi lihtsaim, nn stiimuli-reaktsiooni mudel Infoallikaks ehk teate saatjaks võib olla nii inimene, mõni muu elusorganism kui ka masin, samuti võib infoallikatena käsitleda inimeste gruppe ja institutsioone. Sõnum võib olla suuline, kirjalik, pildiline vms. Sõnum on infoallika poolt moodustatud märkide kogum, mis kannab tähendust. Märkideks võivad olla häälikud, kirjatähed, visuaalsed kujundid vms. Sõnumi loomine võib iseenesest olla keeruline protsess ja selles võib olla erinevaid osalisi – mõeldagu siinkohal kasvõi raamatu või kinofilmi valmistamise peale. Vastuvõtja ehk adressaat võib olla inimene või mõni muu olem. Täpsema analüüsi huvides tuleks eristada protsesse, mis kommunikatsiooniahelas toimuvad. Infoallikas koostab oma sisemistele seisunditele tuginedes sõnumi, millel on sisu – tähendus, mida sõnum omab infoallikale ja adressaadile. Sõnum on alati esitatud mingil füüsilisel kujul, mille valib info looja. Seega valitakse info tekitamisel nii selle sisu kui ka vorm ehk esitusviis. Sisu saab edasi anda erinevas vormis. Tasub tähele panna, et sõnumi sisu ja vorm ei ole täiesti sõltumatud, vaid mõjutavad teineteist olulisel määral (vt nt Konsa Hermann 2014). Informatsiooni edastatakse, töödeldakse ja salvestatakse signaalide kujul. Signaalid on mingid ajas muutvad füüsikalised suurused, nagu näiteks õhurõhk, elektripinge, võnkesagedus, valguse heledus vms. Signaalide abil on võimalik luua sidet ruumiliselt üksteisest kaugel asuvate kommunikatsiooniosaliste vahel. Signaale saab salvestada ja see võimaldab seostada ka ajaliselt eraldatud kommunikatsiooniosalisi. Infoallika loodud algse sõnumi transmissiooniks muudetakse see saatjas signaalideks, vastuvõtjas toimub jällegi vastupidine protsess – signaalidest saadakse sõnum. Signaalid võivad olla pidevad (nt analoogtelevisioon), diskreetsed (digi-TV) või kombineeritud (nt impulss-koodmodulatsiooni teisendused telefonivõrgus). Vastavalt sellele, millisel füüsilisel kujul info esitatakse, on vajalik sobiv saatja. Kitsamas mõttes on info saatjaks looduslik või tehniline abivahend, mis teeb võimalikuks info esitamise kindlal viisil (joonis 1.2). Kui infot esitatakse suulise kõne kujul, võib saatjaks olla nii inimese hääleaparaat kui ka vastav kõnesüntesaator. Adressaadil on vajalik jällegi vastava vastuvõtja olemasolu, olgu selleks siis näiteks kõrv või mikrofon. INFOALLIKAS SAATJA SÕNUM Joonis 1.2. Kommunikatsioonisüsteem, kus on eristatud info saatja VASTUVÕTJA Sõnumi edastamine on ülekandeprotsess, milleks kasutatakse erinevaid meetodeid – helilaineid, postisüsteemi, telegraafijuhtmeid, raadiolaineid, valgussignaale vms. Seejuures võib info ülekanne toimuda nii ruumis kui ka ajas. Kasutades raadiolaineid, on võimalik pidada sidet kogu Maa piires ja isegi kosmilistel kaugustel. Info ülekandel ajas jätab infoallikas sõnumi kasutamiseks kunagi lähemas või kaugemas tulevikus. Info säilitamine ongi tegelikult tulevikku suunatud kommunikatsiooniprotsess. Sellist kommunikatsiooniahelat iseloomustab see, et me teame küll selle infoallika-poolset osa, aga vastuvõtja-poolne ahelaosa on esialgu tundmatu. Meil on küll ettekujutus sõnumist praegusel hetkel, kuid kuidas see täpselt tulevikku kandub ning kuidas seda seal vastu võetakse ja mõistetakse, selle kohta saab täna teha üksnes oletusi. Informatsioon on alati kodeeritud. Kodeerimine on informatsiooni esitusvormi muutmine kindla reeglistiku alusel. Reeglistikku, mis määrab kindlaks koodtähiste moodustamise korra, nimetatakse koodiks. Koodid on kokkuleppelised, nad on ajalooliselt või harjumusena kujunenud või kehtestatud. Näiteks morsetähestik on telegraafikood, milles tähtede, numbrite ja kirjavahemärkidega on vastavusse seatud pikkade ja lühikeste signaalide kombinatsioonid, näiteks a-tähele vastab lühike ja pikk signaal (.–). Kood koosneb märkidest ja reeglitest, mis määravad selle, kuidas ja mis seostes märke kasutatakse ning kuidas nendest kombineeritakse keerukamaid teateid. Kommunikatsioonivorme võib eristada kasutatava koodi alusel: suuline, kirjalik, visuaalne kommunikatsioon. Erinevaid kodeerimis- ja dekodeerimisprotsesse võib kommunikatsiooniprotsessis olla mitu (joonis 1.3). Mida kauem infot säilitatakse, seda tõenäolisem on erinevate kodeerimis- ja dekodeerimisprotsesside esinemine selle elutsüklis. INFOALLIKAS SAATJA SIGNAAL SÕNUM VASTUVÕTJA INFOKANAL KODEERIMINE DEKODEERIMINE Joonis 1.3. Kodeerimis- ja dekodeerimisprotsesside eristamine kommunikatsioonisüsteemis Kodeerimine- ja dekodeerimine iseenesest on jällegi kommunikatsiooniaktid. Nagu edaspidi näeme, ei kulge kommuniaktsioon ilma vigadeta. Mida enam on kommunikatsiooniakte, seda suurem on vigade tõenäosus info ülekandel. Signaalid kanduvad edasi mööda side(info)kanalit. Kanaliks on igasugune füüsikaline keskkond, milles signaalid levivad, näiteks valguslained, häälevõnked, raadiolained, närvirakud, valguskaablid jne. Sidekanali füüsikalised omadused määravad teatud ulatuses ära ka koodi, mida saab kasutada. Signaalide ülekanne kanalis ei toimu tegelikes tingimustes kunagi veatult, kuna alati kaasneb signaaliga ka müra. Müra hulka võib lugeda kõikvõimalikke sidekanalis toimuvaid protsesse, mis moonutavad või häirivad edastatavaid signaale. Kaks peamist mürade gruppi on väline müra, mille korral on müra allikas vastuvõtjaväline, ja sisemine müra, mille korral on müraallikaks vastuvõtja ise. Väliseks müraks võivad olla näiteks elektromagnetilised häiritused, liiga vähene valgustatus jms. Sisemine müra on näiteks elektronseadmetes tekkiv soojuslik müra, aga ka psühholoogilistest ja 7 8 KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS kultuurilistest teguritest tingitud sõnumite vastuvõtuhäired. Sõnumi sumbumise põhjuseks võib olla ka selle mittevastavus kasutatava sidekanali omadustele. Selline olukord võib tekkida näiteks siis, kui sõnumis sisalduv informatsioonihulk ületab kanali läbilaskevõime. Kirjeldatud kommunikatsioonimudeli, mida tuntakse ka edasikandelise (transmissional) mudeli nime all (joonis 1.4), esitas Claude E. Shannon oma 1948. aastal ilmunud artiklis „Kommunikatsiooni matemaatiline teooria“ . INFORMATSIOONI ALLIKAS EDASIANDJA SÕNUM VASTUVÕTJA SIGNAAL SAABUNUD SIGNAAL LÕPPPUNKT SÕNUM mõistma objekte ja nähtusi, mida sõnumis käsitletakse. Infoallikal ja adressaadil on kindlad teadmised, millele tuginedes sõnumid luuakse ja neist aru saadakse. Sellist teadmiste kogumit nimetatakse teadmusbaasiks (knowledge base) (vt joonis 1.5). INFOALLIKAS SAATJA TEADMUSBAAS 1 KODEERIMINE SIGNAAL INFOKANAL SÕNUM VASTUVÕTJA TEADMUSBAAS 2 DEKODEERIMINE Joonis 1.5. Infoallika ja adressaadi teadmusbaasid info kommunikatsioonisüsteemis SEGAJAD Joonis 1.4. Shannoni kommunikatsioonimudel ehk info transmissioonimudel Kommunikatsioonikanali tähenduses kasutatakse sageli ka terminit „meedium“. Meediumi all mõistetakse nii kommunikatsioonikanalit, ülekandjat ennast, kui ka vastavaid organisatsioone. Nii on meediumiteks näiteks kõne, raamat, film, internet, aga ka kirjastused, raadio- ja televisiooniorganisatsioonid. Shannoni mudel ei tegele sõnumitete tähendusega. Ometigi vahetame me sõnumeid ainult sellepärast, et need tähendavad midagi. Sõnumi tähendus tekib sõnumi ja selle tajuja vastasmõjus. Informatsioonile tähenduse andmiseks peab seda kasutama kas inimene, mõni muu elusolend või inimese poolt loodud tehislik süsteem. Tähendust esitab atomaarne kommunikatsiooniakt tervikuna toimides: teave ei ole selle süsteemi üheski osas eraldi, vaid süsteemis tervikuna, sealhulgas selle süsteemi toimimises, st protsessis. Tähendus on lahutamatult seotud kontekstiga, milles kommunikatsioon toimub. Info loomine ja sellest arusaamine nõuab kontekstuaalset teavet. Kontekst tähendab seejuures nii konkreetse kommunikatsiooniolukorra keskkonda kui ka kindlale sõnumile eelnenud ja järgnenud teateid ning nende tähendusi. Juba märgid ise ei kanna tähendust isoleerituna, vaid kindla koodisüsteemi liikmena. Laiemas käsitluses hõlmab kontekst tervet maailma, kus kommunikatsiooniakt aset leiab. Kontekst mõjutab kommunikatsiooniakti tervikuna. Konteksti olulisust sõnumi tähenduse mõistmiseks rõhutas oma kommunikatsioonimudelis semiootik Roman Jakobson (1981: 22, 27), kes lisas kommunikatsioonimudelisse kontakti mõiste. Selleks, et kommunikatsioon saaks üldse toimuda, peab olema kontakt saatja ja vastuvõtja vahel. Kontakt tähendab siinkohal nii füüsilist kommunikatsioonikanalit kui ka psühholoogilist kontakti sõnumi saatja ja vastuvõtja vahel. Saatja ja vastuvõtja peavad kommunikatsiooniolukorda sarnaselt tõlgendama. Kommunikatsiooni toimumiseks on seega vajalik, et sõnumi saatjal ja vastuvõtjal oleksid ühesugused teadmised selle kohta, kuidas sõnumid on kodeeritud ja kuidas nad tähendustega seostuvad. Suhtlemiseks loomuliku keele abil, näiteks vestlemisel, on vajalik osata ühist keelt. Ühine keel tähendab aga lisaks ühisele koodile ka suure hulga ühise teadmise olemasolu. Saatja ja vastuvõtja peavad mingilgi määral sarnaselt Raamatust arusaamine eeldab keele- ja kirjaoskust, selle sisu täpsem mõistmine võib nõuda teadmisi ka vastavast teemavaldkonnast (ajaloost, teoloogiast, füüsikast jne). Minevikust või teistest kultuuridest pärit tekstide korral on vajalik lisaks veel ajaloo ja kultuurikonteksti tundmine. Teadmised muutuvad loomulikult koos ühiskonna ja kultuuri arenguga. Juhul, kui infoallikal ja adressaadil on täiesti erinev teadmusbaas, ei saa kommunikatsioon toimuda. Kui aga teadmusbaasid täielikult kokku langevad, pole kommunikatsioonil erilist mõtet, kuna informatsiooni hulk, mida kommunikatsioon suudaks pakkuda, oleks minimaalne. Tõsi küll, mõnikord võib väikene informatsiooni hulk suure kaaluga olla, näiteks kui saadetud sõnum on mingiks oluliseks tegevuseks vajalik „võti“. Saadetud sõnum võib vastuvõtja teadmusbaasis mingi muudatuse esile kutsuda ja kui see muudetud info on tihedalt seotud ülejäänud teadmusbaasiga, siis võib vastuvõtja teadmusbaas ahelreaktsioonina oluliselt teiseneda. Tänapäevasest piisavalt erinevat teadmusbaasi nõudva info mõistmiseks kasutatakse seda valdavate spetsialistide ja institutsioonide abi. Näiteks Vana-Kreeka keeles kirjutatud tekste vahendavad, tõlgivad ja kommenteerivad vastava hariduse saanud spetsialistid – kõikidele teistele jäävad need mõistetamatuks. Konteksti (tähenduste ja väärtuste) muutumine muudab info mõistmise võimatuks või vähemalt raskendab seda tunduvalt. Info loomise ja kasutamise kontekstid ei ole kunagi täiesti identsed. Mida kultuuriliselt erinevamad on info looja ja retsipient, seda erinevam on ka kontekst. Konteksti erinevused muutuvad eriti oluliseks asünkroonse kommunikatsiooni korral, kus sõnumi saatmise ja vastuvõtu vahele jääb ajaline distants. Mida suuremad on konteksti erinevused, seda enam täiendavaid kommunikatsiooniprotsesse on kommunikatsiooni haaratud. Shannoni kommunikatsioonimudel on ühesuunaline ja lineaarne. Tegelik kommunikatsioon sarnaneb aga sageli hoopis dialoogile, kus sõnumeid vahetatakse vaheldumisi ning sõnumite sisu ja vormi varieeritakse vastavalt kaasvestlejalt saadud sõnumitele. Sellise olukorra kajastamiseks lisatakse kommunikatsiooniprotsessi mudelisse tagasiside. Tagasiside on protsess, mille käigus sõnumi saatja saab infot selle kohta, kas vastuvõtja on sõnumi kätte saanud ja kuidas sõnumi vastuvõtja on seda mõistnud, kas sõnumil on olnud selline mõju nagu saatja eeldab. Otsese suhtluse käigus saame partnerilt pidevalt tagasisidet sõnade, žestide, miimika jms kaudu. Tagasiside võib olla ka keerukam, selleks võivad olla loodud spetsiaalsed institutsioonid – eelretsenseerimine (peer review) teaduskirjanduse korral, kriitika, eellinastused filmidele jms. Tagasiside võimaldab 9 10 KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS saatja edastatavaid sõnumeid vastavalt adressaadi reageeringule kohandada. Kommunikatsiooniprotsessi tagasisideahelaid on oma mudelis lähemalt käsitlenud Brian ja Alina Vickery (Vickery Vickery 1992: 41– 42). INFOALLIKAS SAATJA TEADMUSBAAS 1 SIGNAAL SÕNUM INFOKANAL KODEERIMINE VASTUVÕTJA TEADMUSBAAS 2 DEKODEERIMINE Joonis 1.6. Üks võimalik tagasisideahel kommunikatsiooniprotsessis Saadetud ja vastuvõetud sõnumite erinevuse vähendamiseks võidakse muuta mingeid sidekanali omadusi, näiteks rääkida kõvemini või suurendada kanali läbilaskevõimet (vt joonis 1.6). Teise tagasisidestuse kaudu püütakse mõjutada saadetavat sõnumit ennast, näiteks palutakse sõnumi saatjat rääkida selgemini või öelda nimi tähthaaval. Tagasiside võib olla ka kaudsem ja toimuda pikema aja pärast, seda eriti asümmeetrilise kommunikatsiooni korral. Õpetaja võib muuta oma sõnumit alles pärast vastuvõtu kontrollimist (tunnikontrolli), reklaamifirma muudab reklaami pärast ostutulemuste selgumist jne. 1.2. Kommunikatsiooni ajalised aspektid Kommunikatsiooni võib jagada sünkroonseks ja asünkroonseks. Sünkroonse kommunikatsiooni korral on kõik osapooled korraga haaratud reaalajas toimuvasse suhtlusprotsessi. Osalejad võivad ruumiliselt asuda samas kohas (näiteks otsene suuline vestlus kahe inimese vahel) või olla üksteisest füüsiliselt eraldi (näiteks telefonivestlus, videokonverents, tekstisuhtlus, jututuba vms). Asünkroonne kommunikatsioon on ajalise viivitusega toimuv suhtlus, informatsiooni edastamiseks kasutatakse mingit vahendajat (kiri, kujutised jms). Asünkroonse kommunikatsiooni korral on osalised tavaliselt ka ruumiliselt eraldatud. Kommunikatsiooni maksimaalset ajalist kestust ei ole võimalik üheselt defineerida, kuid kehtivate loodusseaduste alusel võime väita, et ükskõik milline kommunikatsioon ei saa olla ajas kiirem kui valguse liikumise kiirus vaakumis (ligikaudu 3 × 108 m/s). Kommunikatsiooni suurim võimalik kiirus määrab ära ka suurima ruumiosa, millega põhimõtteliselt on võimalik suhelda. Kuna informatsioon ei saa liikuda kiiremini valguse kiirusest vaakumis, on kõige kaugem ruumiosa, kust informatsioon meieni võib jõuda, umbes 5 × 1026 meetri kaugusel. Tegemist on inimesele põhimõtteliselt tajutava universumiga. Tegelik multiversum võib aga olla lõputu (Tegmark 2014: 119–132). Küllaltki ekstreemseks asünkroonse kommunikatsiooni näiteks võib tuua kosmosesondide Voyager 1 ja Voyager 2 pardale pandud kullatud vaskplaadid teabega inimkonna kohta. Kui seda kunagi üldse keegi loeb, toimub see tulevikus ja ruumiliselt väga kaugel Maast (vt näitekast 1.1). Näitekast 1.1 Kosmosesondi Voyager kuldne plaat NASA programmi Voyager raames saadeti kosmosesse kaks automaatjaama: 1977. aasta 20. augustil Voyager 2 ja kaks nädalat hiljem, 5. septembril Voyager 1. Mõlemad Voyagerid on täpselt ühesuguse ehitusega. Kummagi automaatjaama mass on 722 kg ja pardal on 10 mitmesugust uurimisseadet. Maaga sidepidamine käib 3,7-meetrise läbimõõduga paraboolantenni vahendusel, suurim allalaadimiskiirus on ainult 1,4 kb/s. Elektrienergiaga varustavad neid kolm termoelektrilist raadioisotoopgeneraatorit, mida on kasutatud kõigil Marsist kaugemale suunduvatel automaatjaamadel, sest päikesepatareid oleksid suure kauguse tõttu Päikesest ebaefektiivsed. Maalt lahkudes oli nende energiaallikate võimsus 420 W, mis aga radioaktiivsete ainete lagunemise tõttu pidevalt väheneb. Tuumakütust peaks jätkuma vähemalt 2020. aastani. Selle abil hoitakse töös magnetvälja ja päikesetuult uurivad instrumendid. Voyagerid saadeti teele ülesandega uurida lähemalt Jupiteri ja Saturni. Nad pildistasidki Jupiteri Suurt Punast Laiku ja Saturni rõngaid ning mõlema planeedi kaaslasi. Voyager 2 siirdus seejärel Uraani ja Neptuuni juurde. Voyager 1 sai Saturni gravitatsiooniväljalt lisakiirenduse ja liikus edasi Päikesesüsteemi piiride poole. Voyager 1 on praeguseks jõudnud 22 miljardi km kaugusele ja liigub kiirusega 17 km/s. Umbes 40 000 aasta pärast jõuavad Voyagerid oma teel esimeste tähtede lähikonda. Voyager 1 möödub 1,6 valgusaasta kauguselt tähest kataloogitähisega AC+79 3888. Praegu Kaelkirjaku tähtkujus asuv täht on selleks ajaks jõudnud juba Maokandja tähtkujusse ja Päikesest lahutab teda siis 3 valgusaastat. Voyager 2 lendab umbes samal ajal 1,7 valgusaasta kauguselt mööda tähest nimetusega Ross 248, mis asub siis meist 3,25 valgusaastat eemal. Ligikaudu 296 000 aasta pärast jõuab Voyager 2 tähistaeva kõige heledamast tähest Siiriusest „vaid” 4,3 valgusaasta kaugusele. Voyager 1 ja Voyager 2 pardal on inimkonna läkitus võimalikele intelligentsetele Maa-välistele eluvormidele. 12tollisele (30,5 cm) kullaga kaetud vaskplaadile (joonis 1.7) on analoogkujul salvestatud helid ja pildid Maa kultuurist ja elurikkusest. Joonis 1.7. Kosmoseaparaadi Voyager pardal asuv nn kuldne plaat (vasakul) ja selle ümbris koos plaadi kasutusjuhistega. NASA GPN-2000-001976.jpg ja GPN-2000-001978.jpg 11 12 KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS Plaat on alumiiniumümbrises ja sellele on lisatud plaadi mängimiseks vajalik helipea. Helide õigeks taasesitamiseks tuleb plaati mängida kiirusega 16 2/3 pööret minutis. Plaadi ümbrisel on visuaalne juhis selle kasutamiseks. Helisalvestised ja kujutised valis välja komitee, mida juhtis Cornelli ülikooli professor dr Carl Sagan. Selle, kuldseks plaadiks kutsutava salvestise pealkiri on „The Sounds of Earth“ („Maa helid“). Plaadil on 55 keeles tervitused, sealhulgas avasõnad tollaselt ÜRO peasekretärilt Kurt Waldheimilt ja USA presidendi Jimmy Carteri läkitus. Lisaks võib kuulda erinevaid loodushelisid (nt äike, veevulin, vaalade laul jne). Suurima osa fonogrammidest moodustavad muusikanäidised: klassikalist muusikat esindavad teiste seas Bach, Stravinski ja Mozart, pärimusmuusikat Peruu pulmalaul, Senegali löökriistad jpm, popmuusikat esitab Chuck Perry. Külmale sõjale vaatamata kaasati ka Nõukogude artiste Gruusia ja Aserbaidžaani Nõukogude Sotsialistlikust Vabariigist. Kuldsel plaadil on ka 116 fotot ja joonist, mis tutvustavad Maa asukohta Päikesesüsteemis, matemaatika, keemia, füüsika, bioloogia ja anatoomia põhitõdesid ning looduse ja inimkultuuride mitmekesisust. Selleks, et heliplaadi leidjatel oleks võimalik määrata selle vanust, on selle ümbrisele kinnitatud tükike radioaktiivset isotoopi uraan-238, mille poolestusaeg on 4,5 miljardit aastat. Vanuse leidmiseks peavad välistsivilisatsiooni füüsikud mõõtma järelejäänud uraani ja tema lagunemisproduktide hulga suhte. Peale kahe Voyageridega kosmosse saadetud plaadi on sellest maailmas olemas ainult kümme eksemplari, millest suuremat osa eksponeeritakse NASA-le kuuluvates rajatistes. Plaati on võimalik kuulata SoundCloudis: https://soundcloud.com/search?q=voyager%20golden%20record Allikad Pikaealised Voyagerid. 2008. – Tehnikamaailm. http://www.tehnikamaailm.ee/pikaealised-voyagerid/ Voyager Golden Record. https://en.wikipedia.org/wiki/Voyager_Golden_Record Voyager 1. https://et.wikipedia.org/wiki/Voyager_1 Voyager. The Interstellar Mission. http://voyager.jpl.nasa.gov/spacecraft/goldenrec.html Voyageride tegevust saab jälgida NASA kodulehelt: http://voyager.jpl.nasa.gov/ Oluline on selle näite juures asjaolu, et vaatamata kommunikatsiooni asünkroonsusele eeldatakse, et see toimub. Isegi kui välistel põhjustel jääb see toimumata, on kommunikatsiooni toimumine potentsiaalselt võimalik. Me oleme teadlikult loonud sõnumi, teinud seda sel viisil, mida me arvame olevat teistel mõistuslikel olenditel kõige parem mõista, salvestanud selle võimalikult püsivalt ja saatnud nende poole teele. See näide iseloomustab hästi kommunikatsiooni ühte olulisemat aspekti: kommunikatsiooniprotsessi korral eeldatakse alati, et see toimub. KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS INFOALLIKAS SAATJA TEADMUSBAAS SIGNAAL SÕNUM ? INFOKANAL KODEERIMINE Joonis 1.8. Asümmeetriline kommunikatsiooniakt Asünkroonse kommunikatsiooni korral jääb kommunikatsiooniprotsessi parempoolne osa võimalikkuseks (joonis 1.8). Kommunikatsiooniakti vasakpoolne osa on toimunud ja me eeldame, et parempoolne toimub kunagi hiljem või kusagil mujal. See võib jääda toimumata, aga me eeldame, et see toimub. Enamiku kommunikatsiooniprotsesside korral ei ole nende ajaline kestvus oluline. Suurem osa teabest on määratud lühiajaliseks kasutamiseks. Tegemist võib olla info looja (indiviid, organisatsioon, masin) jaoks mingiks ajaks vajaliku teabega. Näiteks võib inimene õppida pähe luuletuse, et seda jõuluvanale esitada. Olenevalt inimese mälusüsteemist võib see salmike olla kasutatav ühekordselt või jääda meelde kogu eluks. Teiseks näiteks võib tuua kalendrisse tehtava märkuse, mis on oluline mingi aja kestel. Ettevõtte dokumendid on mingi aja jooksul aktiivselt kasutuses, sellel järgneb mitteaktiivne periood ja seejärel kas üleandmine arhiivi või hävitamine. Info fikseerimine kirja ja kujutiste kujul võimaldab seda kauem säilitada. See on oluline ka tagasiside aspektist, kuna fikseeritud info võimaldab selle juurde uuesti tagasi pöörduda. Kirjapandud teksti või salvestatud kõnet saab uuesti üle lugeda või kuulata, parandusi ja täiendusi teha. Osa teabest on selline, mida soovitakse säilitada võimalikult pikka aega. Ühiskondades on selleks välja kujunenud vastavad institutsioonid ja nendega seotud protsessid. Enamik ühiskonnas käigus olevast teabest toimib sedaviisi, et seda kasutatakse üha uuesti, töödeldakse ümber. Vahel harva on vajalik pöörduda tagasi info algallika juurde. Igapäevases elus me üldjuhul ei vaja paari aasta tagust e-kirjavahetust. Loomulikult sõltub kõik tegevusvaldkonnast, ajaloolased näiteks eelistavad alati tugineda algallikatele. Kui õpime koolis Archimedese seadust, siis me ei loe Archimedese teoseid, seda enam, et neid ei olegi säilinud. Enamikul juhtudest ei takista info algallika kadumine selle edasist kasutamist, kuigi kaotus ajaloole ja kultuuriloole on loomulikult suur ning sageli korvamatu. Originaalallikate olemasolu on vägagi oluline aga näiteks selleks, et vajadusel oleks võimalik info autentsust kontrollida. Elementaarsed kommunikatsiooniaktid grupeeruvad enamikul juhtudest seostunud kommunikatsiooniahelateks. Toome näiteks võõrkeelse teadusliku teksti lugemise (joonis 1.9, 1. ahel). Teksti lugedes kasutatakse sõnaraamatut (joonis 1.9, 2. ahel), lisaks kontrollitakse internetiotsingu abil terminite määratlusi (joonis 1.9, 3. ahel). 13 14 KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS INFOALLIKAS SAATJA TEADMUSBAAS 1 SIGNAAL INFORMATSIOONI ELUTSÜKKEL SÕNUM TEKST 1 VASTUVÕTJA TEADMUSBAAS 2 INFOKANAL KODEERIMINE DEKODEERIMINE 2. INFORMATSIOONI ELUTSÜKKEL Lugenud läbi selle peatüki, • tead, mis on dokumendi elukäigu mudel; • oskad välja tuua elukäigumudelite sarnasusi ja erinevusi; • tead, millised on teabe elukäigu mudelid. INFOALLIKAS SAATJA TEADMUSBAAS 1 SIGNAAL SÕNUM TEKST 2 TEADMUSBAAS 2 INFOKANAL KODEERIMINE INFOALLIKAS SAATJA TEADMUSBAAS 1 VASTUVÕTJA DEKODEERIMINE SIGNAAL SÕNUM TEKST 3 INFOKANAL KODEERIMINE VASTUVÕTJA TEADMUSBAAS 2 Inimühiskondade kujunemine ja areng on lahutamatult seotud informatsiooni ja kommunikatsiooniga. Info loomise, levitamise, kasutatavaks tegemise ja säilitamisega tegelevad kõikides teadaolevates ühiskondades spetsiaalsed inimesed, organisatsioonid ja institutsioonid. Suulisel infol baseerunud ühiskondades olid nendeks inimesed ja inimeste grupid, kes tegelesid narratiivide meelespidamise, esitamise ja edasiandmisega. Suulisele tekstile lisandusid visuaalsed kujundid, maastikumärgid jms, mis moodustasid ühtse kommunikeeritava teadmise. Läbi ajaloo võime jälgida ühelt poolt järjest spetsiifilisemate ülesannetega organisatsioonide ja institutsioonide teket, teiselt poolt aga ka eri funktsioonide ühtesulamist. Pärast trükikunsti leiutamist oli sageli üks inimene või ettevõte nii kirjastaja, trükkali kui ka raamatulevitaja ülesannetes, veelgi sagedamini oli ta ise ka autor. Hiljem need funktsioonid eraldusid. Tänapäeval on need institutsioonid jagunenud mitte ainult funktsioonide, vaid ka trükiste tüübi alusel (ajalehekirjastus, teadusraamatute kirjastus, lasteraamatute kirjastus jne). Pärast digitaalse kirjastamise, trükkimise ja levitamise kasutuselevõttu võib aga taas olla üks inimene nii info looja, levitaja, kasutatavaks tegija kui ka säilitaja. DEKODEERIMINE 2.1. Dokumentide elukäigu mudelid Joonis 1.9. Kommunikatsiooniahelate seostunud võrgustik Teine ja kolmas kommunikatsiooniprotsess aitavad kasutaja teadmusbaasi täiendamise teel esimesest tekstist aru saada. Kommunikatsioonivõrgustike toimimise tagavad vastavad institutsioonid. Need institutsioonid on kultuurilised mehhanismid, mille abil luuakse ja hoitakse toimimas tähenduslik ning korrastatud sotsiaalne maailm (Levi 2003: 38). Kommunikatsiooniaktis muutub teate vastuvõtja seisund. Sageli genereerib vastuvõtja esimese kommunikatsiooniakti järel uue sõnumi või täiendab algset sõnumit mingil viisil. Protsesside uurimiseks jagatakse nad tavaliselt erineva kestusega etappidesse. Sellist lähenemist kasutatakse nii ajaloos (kiviaeg, pronksiaeg, rauaaeg, vanaaeg, keskaeg, uusaeg, uusim aeg), organismide arengus (embrüonaalne areng, juveniilne ehk noorjärk, sigimisvõimeline periood, vananemine) kui ka ajaarvamises (sekund, minut, tund, päev, kuu, aasta, sajand). Maa ajalugu jaotatakse samuti etappidesse (eoonid, aegkonnad, ajastud, ajastikud). Tsüklilisus on omane kõikidele nendele käsitlustele, kus kirjeldatava protsessi metafooriks on elusorganism. Kui räägitakse dokumentide või informatsiooni elutsüklist, siis selle metafoorseks aluseks ongi tsükliliselt läbitavad eluetapid – sünd, kasvamine, õitseng, vanadus ja surm. Dokumentide ja laiemalt informatsiooni käsitlemisel on elukäigu kontseptsioon väga levinud. See viitab selle, et infot käsitletakse dünaamilisena, sarnaselt elusorganismidega: info luuakse, see läbib kindlad eluetapid ja seejärel sureb või võetakse uuel kujul taaskasutusse. Igal etapil või faasil on kindlad elemendid ja iga etapi raames tehakse kindlaid funktsionaalseid tegevusi. Tegemist on dokumendihalduse ja arhiivinduse keskse metafoorse mudeliga, mis on laialt levinud alates 20. sajandi keskpaigast (Upward 2000: 117–118). Sarnane metafoor on kasutusel ka mitmes teises valdkonnas – infokorralduses, infotehnoloogias, organisatsiooniteoorias, säilitamises, tarkvaraarenduses, tööstuses ja kaubanduses (toote elutsükkel, product life cycle), keskkonnakaitses (jäätmekäitluse olelusring, waste management life cycle). 15 16 INFORMATSIOONI ELUTSÜKKEL INFORMATSIOONI ELUTSÜKKEL Elukäigu mudeli arendamine arhiivinduses ja dokumendihalduses algas 1930. aastatel Ameerika Ühendriikides. Mudeli võttis oma tegevuse aluseks 1934. aastal asutatud Ameerika Rahvusarhiiv. Elukäigu mudel lõi sobiva raamistiku dokumendihalduse ja arhiivinduse funktsioonide eristamiseks (Yusof Chell 2000: 135). 1940. aastal avaldas Philip C. Brooks artikli „Milliseid dokumente me peame säilitama?“, milles ta esitas dokumentide elukäigu (life history of records) kontseptsiooni. Hiljem hakatigi seda kutsuma dokumentide olelus- ehk elutsükliks (life cycle of records). Brooksi väitel peavad arhivaarid dokumentide elutsüklisse sekkuma juba nende loomisel, kuna siis määratakse ära säilitatavate dokumentide hulk. Ka Theodore R. Schellenbergi 1956. aastal esitatud ja laialdase tunnustuse võitnud arhiiviteoorias on elukäigu kontseptsioon kesksel kohal. Tema kasutas küll eluea (life span) mõistet (Schellenberg 1956: 37–38). Dokumentide elukäiku võib kujutada lähtudes nende haldamise protsessist (loomine, kasutamine, säilitamine, hävitamine) või siis nende endi elutsükli etappidest (aktiivne ja passiivne etapp) (Brothman 2006: 262–263). Esimestes elukäigu mudelites toodi ära kolm üksteisele järgnevat etappi: · loomine; · kasutamine; · hävitamine. Vägagi levinud on viieetapiline elukäigu mudel: · loomine; · levitamine ja kasutamine; · säilitamine ja kasutamine; · hoid ja hävitamine; · arhiivisäilitus. 1940. aastatel haaras Ameerika ühendriikide Rahvusarhiivi ametlik elutsükli kontseptsioon järgmisi etappe: · loomine; · kasutamine; · infootsing; · hävitamine/hindamine; · vastuvõtt; · kirjeldamine; · säilitamine; · juurdepääsu tagamine. Etappide arvu võidakse suurendada vastavalt sellele, kui täpselt arhiivis tehtavaid töid peetakse tarvilikuks välja tuua. Eeltoodutele võidakse lisada näiteks registreerimine, liigitamine, indekseerimine, säilitustähtaja määramine jms. Elutsükli kontseptsiooni esitamiseks on kasutatud erinevaid mudeleid: elutsükli esitamine lineaarse protsessina (joonis 2.1), tsükliliselt sulguvana (joonis 2.2) või spiraalselt ajas kulgevana (joonis 2.3) (Brothman 2006: 262–263). LOOMINE TÖÖTLEMINE JA KASUTAMINE ARHIVEERIMINE HÄVITAMINE Joonis 2.1. Dokumentide elukäigu lineaarne mudel Dokumentide loomine Arhiivid – säilitamine ja juurdepääsu tagamine Kasutamine ja levitamine Eemaldamine, hävitamine või Hooldus ja kaitse Joonis 2.2. Dokumentide elukäigu tsükliline mudel HÄVITAMINE KASUTUS HOID KLASSIFITSEERIMINE HÕLMAMINE LOOMINE Lineaarne aeg HÕLMAMINE KLASSIFITSEERIMINE HOID KASUTUS HÄVITAMINE Joonis 2.3. Dokumentide elutsükli spiraalne mudel (Brothmann 2006: 263) 17 18 INFORMATSIOONI ELUTSÜKKEL INFORMATSIOONI ELUTSÜKKEL Elektrooniliste dokumentide haldamise näidisnõuete (MoReq2, Model Requirements for the Management of Electronic Records) raames loodud elektroonilise dokumendihalduse põhiprotsesse kajastav mudel haarab järgmisi protsesse (Elektrooniliste dokumentide 2008: 233–234): · loomine; · hõlmamine; · kasutamine; · säilitamine; · üleandmine; · haldamine; · hoid; · hävitamine. Loomine ei tähenda mitte üksnes dokumendi loomist organisatsiooni sees, vaid ka dokumendi saamist väljastpoolt organisatsiooni. Hõlmamine tähendab muu hulgas registreerimist, liigitamist ja dokumendihalduse metaandmete sisestamist. Kasutamine tähendab otsimist, leidmist, sirvimist, teisendkoopiate tegemist, hooldust, ülevaatamist jne. Säilitamine tähendab neid tegevusi, mis on vajalikud juurdepääsu tagamiseks aja jooksul. Haldamine tähendab muu hulgas juurdepääsu reguleerimist ja eraldamisvolituste kontrollimist. Kujutatud protsesside järjekord ei ole oluline, sest need võivad eri tingimustes toimuda erinevas järjekorras. Dokumentide elutsükli esimene pool kuulub dokumendihalduse (records management) alla ja teine pool arhiivinduse (archives administration) valdkonda. Eri vastutusalade piiritlemine on elutsüklimudeli üks olulisemaid ideid. Mudel ei kirjelda mitte ainult seda, mis dokumendiga erinevates etappides toimub, vaid ka seda, kes nende etappide eest vastutab. Kõik dokumendid, juhul kui nendega midagi erakorralist ei juhtu, läbivad samad elutsükli etapid. Kirjeldatust veidi erinev mudel eristab dokumentide elukäigus kolm ajajärku (ages) ehk etappi (joonis 2.4). ARHIIVID AKTIIVNE ETAPP Arhiivihoidla Arhivaar Kontor või dokumendihoidla Registreerija Hindamine ja hävitamine Hindamine ja hävitamine Teisene väärtus Esmane väärtus POOLAKTIIVNE ETAPP Asutuse arhiiv Dokumendihaldur Joonis 2.4. Dokumentide elukäigu mudel, milles eristatakse kolme etappi (The management 1999: 19) Seda tuntakse ka arhiivi kolme etapi mudelina (three ages of archives) (Derek 1984: 2). Etappide eristuse aluseks on dokumentide kasutus ja sellega seotult ka nende füüsiline asukoht. Aktiivses etapis (current stage, active stage) olevad dokumendid on jooksvas asjaajamises, neid menetletakse või neile toetutakse organisatsiooni igapäevategevuse käigus. Aktiivne etapp hõlmab dokumentide loomist või saamist, registreerimist ja toimikusse paigutamist ning asutuse jooksvate ülesannete lahendamises kasutamist. Poolaktiivne ehk väheaktiivne etapp (semi-current stage, semi-active stage) tähendab seda, et dokumentide kasutusaktiivsus on oluliselt vähenenud, kuna nendega seotud vahetute ülesannete täitmine on lõppenud. Neid võib vaja minna uute, varasematega seotud ülesannete täitmisel või teabe saamisel. Kuna igapäevane kasutus puudub, antakse dokumendid üldjuhul üle asutuse arhiivi. Üleminek aktiivsest etapist poolaktiivseks võib olla seotud ajaga, asja lahendamisega, kasutusaktiivsuse või ka mõne muu tunnusega. Paberdokumente säilitatakse eraldi dokumendihoidlates või nn vahearhiivides. Passiivne ehk mitteaktiivne etapp (non-current stage, inactive stage) on seotud sellega, et igapäevategevustes enam nendele dokumentidele ei toetuta, küll võib neid aga vaja minna mingite tegevuste tõendamiseks. Sellesse etappi jõudnud dokumendid kas hävitatakse või paigutatakse arhiivi. Selline mudel on dokumendihalduses ja arhiivinduses laialdaselt levinud (Couture Rousseau 1987: 37). Näide sellest, kuidas toimub dokumentide muutumine arhivaalideks, on toodud näitekastis 2.1. Näitekast 2.1. Kuidas saab dokumendist arhivaal? Organisatsioonide ja isikute tegevuse käigus tekib hulgaliselt mitmesuguseid dokumente. Osa neist dokumentidest on olulised riigi toimimiseks või ka ajaloo- ja kultuuriväärtusega. Dokumendid arhiiviseaduse tähenduses on mis tahes teabekandjale jäädvustatud teave, mis on loodud või saadud asutuse või isiku tegevuse käigus ning mille sisu, vorm ja struktuur on küllaldane faktide või tegevuse tõendamiseks (Arhiiviseadus: § 2 lg 1). See määratlus rõhutab dokumendi sidet asutuse ülesannete ja tegevusega, mille täitmise käigus dokument on tekkinud ja mille tõestamiseks seda alles hoitakse. Mõiste „dokument“ hõlmab seejuures ka andmekogusid ja infosüsteeme Arhivaal on dokument, millele avalik arhiiv on hindamise tulemusena andnud arhiiviväärtuse (Arhiiviseadus: § 2 lg 2). Arhivaal on osa rahvuslikust kultuuripärandist ja seda säilitatakse püsivalt (Arhiiviseadus: § 2 lg 3). Eesti kontekstis on Rahvusarhiivi üks ülesannetest selgitada välja avalikku ülesannet täitvad asutused või isikud, kelle tegevuse käigus võib tekkida arhivaale, lähtudes seejuures asutuse või isiku olulisusest ühiskonnas ning avaliku ülesande sisust. Avaliku ülesande täitmise käigus loodud või saadud arhivaal antakse üle Rahvusarhiivi või teistesse avalikesse arhiividesse. Võimaluste olemasolu korral ning kokkuleppel omanikuga kogub Rahvusarhiiv ka kultuuri- ja ajalooväärtusega eraõiguslikke dokumente, kui selleks on avalik huvi (Arhiiviseadus: § 3 lg 2). Seega ei kuulu riikliku taseme pärandi hulka kaugeltki mitte iga dokument. Ennekõike kogub Rahvusarhiiv riigi ja kohalike omavalitsusuksuste ülesannete täitmise käigus tekkinud dokumente ja nendestki ainult osa. Säilitatavad dokumendid valitakse välja hindamise käigus Hindamine on avaliku arhiivi tegevus, mille eesmärk on välja selgitada dokumentide arhiiviväärtus. Hindamisega 19 INFORMATSIOONI ELUTSÜKKEL INFORMATSIOONI ELUTSÜKKEL TÕESTUSVÄÄRTUS Mõõde 1 LOO Arhiiviväärtusega teabe hulka kuuluvad: õtte/isiklik m älu tev Et · avalike ja erainstitutsioonide, üksikisikute ja gruppide õiguslikku staatust, õigusi ja kohustusi väljendav dokumenteeritud teave, mis on oluline Eesti rahvusriigi ja Eesti ühiskonna jätkuva toimimise seisukohalt; k s u s ed Allü Org Eesmärk · teave riikliku poliitika mõjust üksikisikutele, inimkooslustele ning ühiskondlikule ja looduskeskkonnale; Dokumendikogud võivad peale arhiivide olla ka raamatukogudel, muuseumidel, teadusasutustel ja teistel teabeasutustel. TRANSAKTSIONAALSUS Do kumendid · kohalikku eripära, eriti kultuurinähtusi väljendav teave; · dokumenteeritud teave, mis oluliselt täiendab teadmisi ja arusaamist Eesti ühiskonna – inimeste ja inimkoosluste – kohta, sh ka eraisikute valduses olevad arhivaalid. (Arhiivi) Dokument Funktsioon · teave, mis kajastab riikliku poliitika väljakujunemist, otsuseid ja tegevust peamistes sotsiaalsetes, majanduslikes ja keskkonna-alastes valdkondades; Märk Tegevus IDENTSUS · teave, mis kajastab välissuhteid ja riigikaitse juhtimist; anisatsioon Tõend Äritehing · üleriikliku ja omavalitsuspoliitika kujunemist ning haldusprotsessi kajastav teave; Mõõde 2 HÕIVE ktiivne mälu Kolle Osalised otsustatakse, millised dokumendid on osa rahvuslikust kultuuripärandist ja mida seepärast säilitatakse püsivalt arhivaalidena. Kehtestatud on vastavad hindamiskriteeriumid (Arhiivieeskiri: § 10). Hindamine ehk dokumentide arhiiviväärtuse väljaselgitamine on avaliku arhiivi keskne ülesanne. Institutsioon 20 A rhi i v Arhiivid Mõõde 4 ROHKENDA Mõõde 3 ORGANISEERI DOKUMENDIHALDUSE TEHISED Allikad Arhiiviseadus https://www.riigiteataja.ee/akt/106012016006?leiaKehti (09.07.2018) Arhiivieeskiri https://www.riigiteataja.ee/akt/129122011229?leiaKehtiv (09.07.2018) Joonis 2.5. Frank Upwardi loodud dokumentide kontiinumi mudel (Upward 1996) Kirjeldatud elutsüklimudeleid on kritiseeritud, kuna need ei kajasta etappide korduvust ega ka nende võimalikku vahele jätmist, mis mõlemad on praktikas arusaadavalt üsnagi levinud. Samuti viidatakse mudelite tugevale seotusele info füüsilise kandjaga, mis digiinfo korral on jällegi küllaltki ebaoluline. Vastusena elutsüklimudelite kriitikale esitati 1990. aastatel dokumentide kontiinumi kontseptsioon, mille peamiseks väljatöötajad olid Frank Upward ja tema kaastöötajad (Upward 1996; 1997; 2000). Mudeli laialdasem levik on otseselt seotud digitaalse teabe haldamise muutumisega järjest olulisemaks. See mudel ei jaga dokumentide elutsüklit kindlateks etappideks, vaid dokumentide haldamist käsitletakse katkematu protsessina, kus üks kontiinumi osa läheb sujuvalt üle teiseks (joonis 2.5). Mudelis on neli telge, mis on seotud dokumentide konteksti oluliste aspektidega, ning neli mõõdet, mis seovad need kontekstid kokku ja näitavad, millised haldustegevused on kõige sobivamad just antud konteksti sobivatele dokumentidele. Mudelis olevad neli mõõdet ei ole mitte ajalised, vaid esitavad erinevaid vaateid dokumentide haldamisele. Dokumendihalduse telg kajastab dokumendi või arhivaali olekut selle loomisest kirjeldamise ja organiseerimiseni ning lõpuks muutumist üldise ühiskondliku infosüsteemi osaks. Identsuse telg viitab sellele, milliste organisatsioonitasemetega on dokument seotud, ja toimingute telg dokumendi kasutusele. Tõestusväärtuse telg on, nagu nimigi ütleb, seotud dokumendi kui tõestusallikaga. Esimene mõõde (loomine) on seotud dokumendi loomisega, teine (hõive) infosüsteemidega, kolmas (haldus) info organiseerimis-, otsingu- ja levitamissüsteemidega organisatsiooni sees ning neljas (rohkendamine) nendesamade süsteemidega väljaspool organisatsiooni. Tegemist on paindliku ja kõikehaarava mudeliga, mis kajastab hästi dokumentide rolli tänapäevastes organisatsioonides ja ühiskonnas laiemalt. 21 22 INFORMATSIOONI ELUTSÜKKEL INFORMATSIOONI ELUTSÜKKEL 2.2. Elutsüklimudeli laiendamine dokumentidelt teabele Elutsüklimudelit on laiendatud ka infole tervikuna, sõltumata selle sisust, esinemisviisist ja kasutusest. Infohalduse kontekstis on esitatud näiteks järgmine dokumentide ja info elutsükli mudel (joonis 2.6), mis keskendub infohalduse tegevustele ning jagab need seitsmeks etapiks. TEKKINUD ON IDEE VÕI TEADMINE INFO KASUTAMINE VIIB UUE TEADMISE TEKKELE Infohalduse kavandamine 1 Kogumine, loomine, vastuvõtmine, hõive 2 Hindamine 7 Dokumentide ja informatsiooni elutsükkel Hävitamine 6 Organiseerimine 3 INFO ON HOIUSTATUD, ET SÄILITADA SEDA ANDMETENA IDEE ON FORMULEERITUD. SELLELE ON LISATUD TÄIENDAVAT INFOT Joonis 2.7. Info elutsükli mudel pikaajalise digisäilitamise kontekstis (Runardotter Quisbert et al. 2006: fig.1) Haldus, kaitse ja säilitamine 5 Kasutamine ja levitamine 4 Joonis 2.6. Dokumentide ja informatsiooni elutsükkel (Records and Information Life Cycle Management) Kavandamisetapp aitab infohalduse vaate seostada organisatsiooni igapäevategevusega. Teine etapp (kogumine, loomine, vastuvõtmine, hõive) on seotud uute inforessursside loomisega. Kolmas etapp (organiseerimine) haarab info organiseerimise, mis on aluseks neljandale etapile (kasutamine ja levitamine). Viies etapp on seotud info haldamise, kaitse ja säilitamisega. Kuues etapp (kõrvaldamine) on seotud ebavajaliku teabe hävitamise ja vajaliku teabe pikaajalisele hoiule suunamisega. Seitsmes etapp (hindamine) hõlmab kogu infohaldusprotsessi pidevat jälgimist ja hindamist selle paremaks korraldamiseks. Pikaajalise digisäilitamise kontekstis on esitatud järgmine info elutsükli mudel (joonis 2.7) (Runardotter Quisbert et al. 2006). Ideed sünnivad inimeste teadvuses, neist moodustatakse info, millele lisatakse täiendavad tunnused, nagu kujundus, värvus jne. Seejärel hoitakse infot andmetena digiobjekti kujul, millele lisatakse konteksti säilitamiseks täiendav teave – säilituskirjelduse info. Digiobjekti kasutamisel muudetakse andmed jällegi informatsiooniks, mis omakorda viib inimese teadvuses uue informatsiooni tekkeni. Tegemist on pideva protsessiga, mida ühiskond peab käigus hoidma (Runardotter Quisbert et al. 2006: 4–5). Luciano Floridi (2009: 4–5) eristab info elutsüklis järgmiseid faase (joonis 2.8): · loomine (avastamine, kujundamine, autoriseerimine); · transmissioon (võrgustumine, jaotamine, juurdepääs, levitamine); · töötlemine ja korraldus (kogumine, õigsuse kontroll, modifitseerimine, organiseerimine, indekseerimine, klassifitseerimine, valimine, kaasajastamine, sorteerimine, säilitamine); · kasutamine (seire, modelleerimine, analüüsimine, seletamine, kavandamine, otsuste tegemine, instrueerimine); · uuesti kasutamine, kustutamine, hävitamine. 23 24 INFORMATSIOONI ELUTSÜKKEL DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU 3. DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU Loomine Taaskasutamine, hävitamine Kogumine Lugenud läbi selle peatüki, • oled kursis digisäilitamise eelajalooga; • tead, mida tähendab termin „masinloetavad andmekandjad“; • oskad kirjeldada digiandmete andmearhiivides säilitamise eripära; Info Kirjeldamine ja hoid Kasutamine Levitamine Töötlemine Joonis 2.8. Info elutsükli mudel (Floridi 2009: 5) Selliste mudelite korral vaadeldakse infoga seotud protsesse laiemalt kui dokumendihalduse ja arhiivinduse käsitluses. • tead, milles seisnes digiinfo säilitamise paradigma muutus 1980.–90. aastatel. Ühiskondlikus kommunikatsioonisüsteemis osalevad institutsioonid võib jagada: · loojateks; · levitajateks; · kogujateks ja ligipääsu võimaldajateks; · kasutajateks. Info loomisega tegelevad üksikisikud ja erinevad organisatsioonid, näiteks kirjastused, kloostrid, gildid, ülikoolid, teadusasutused, salvestusstuudiod, filmistuudiod, ringhääling, teater, internetiportaalid, statistikaorganisatsioonid jne. Tihti on info loojad samaaegselt ka selle levitajateks, kuid selleks võivad olla ka eraldi institutsioonid – kirjastused, kinosüsteem, mitmesugused meediaasutused jms. Info loomisele järgneb selle kasutamine lühema või pikema aja kestel. Osa teabest kaob seejärel kasutusest ja hävib ühel või teisel viisil, osa hävitatakse teadlikult. Teadlikult hävitatud info kohta võib jääda järele teavet, et see info on olemas olnud. Mingi osa teabest kogutakse ja säilitatakse võimalikult pika aja kestel. Selliseid asutusi (raamatukogud, arhiivid, muuseumid, kunstigaleriid, andmepangad, patendiorganisatsioonid) nimetatakse ka mäluasutusteks, viidates nende funktsioonile. Peale säilitamise tegelevad nad ka info kogumise, süstematiseerimise, kirjeldamise ja kasutamise korraldamisega. Info kogumisega tegelevad institutsioonid lähtuvad oma kogude kujundamisel valikupõhimõtetest, mis on loomulikult aja kestel muutunud. Ühiskondlikus kommunikatsioonisüsteemis on vägagi olulisel kohal ka haridussüsteem. Haridusinstitutsioonid on nii teabe kasutajad kui ka levitajad, kõrgkoolid ka väga olulised uue info loojad. Ühiskonnas toimuvates kommunikatsiooniprotsessides ei jää info muutmatuks. Muutuda võivad informatsiooni sisu ja vorm, väärtus ja tähendused, aga ka infole ligipääsevate ja seda kasutavate isikute ring. Väärtuse lisandumine infole toimub näiteks teabeasutustes kirjeldamise ja kogudeks organiseerimise ning ligipääsu võimaldamise teel. Osa informatsioonist säilib inimeste otsesest tegevusest sõltumata – nn info juhuslik säilimine. Osa informatsiooni korral pööratakse selle säilitamisele aga spetsiaalset tähelepanu. Enamikku ühiskonnas kasutatavast teabest ei säilitata. See kaob, sest selle säilitamist ei peeta vajalikuks. Kellelegi ei tule isegi pähe, et seda infot võiks kunagi vaja minna (Adams Brown 2000). Mingil hetkel konkreetse inimühiskonna käsutuses olevast teabest säilitakse ainult väga väike osa. Selle kohta on raske kindlat hinnangut anda, kuid 25 26 DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU näiteks Ameerika rahvusarhiivis säilitakse 2% valitsusasutuste dokumentatsioonist (Rosenzweig 2003: 746). Kuigi tänapäevases infoühiskonnas süveneb järjest enam soov säilitada võimalikult palju infot. Osaliselt on selle põhjuseks ilmselt ka digitaalne teave ise. Info säilitamisega tegelevad selle loojad, kasutajad või spetsiaalsed organisatsioonid. Säilitamiseks ettenähtud info kogutakse, dokumenteeritakse ja organiseeritakse nii, et seda oleks võimalik kasutada ka edaspidi. Enamik ühiskonnas käigus olevast teabest toimib sedaviisi, et seda kasutatakse üha uuesti, töödeldakse ümber. Vahel harva on vajalik pöörduda tagasi info algallika juurde. Loomulikult sõltub kõik tegevusvaldkonnast, näiteks ajaloolased eelistavad võimaluse korral alati tugineda algallikatele. Info esineb alati mingite füüsiliste objektide või nähtuste kujul, olgu nendeks siis esemed, dokumendid, raamatud, kunstiteosed, elusorganismid, ehitised, arheoloogilised mälestised, maastikud, vaimne pärand vms. Erisuguste objektidega tegelevad tänapäeval erinevad institutsioonid: · esemetega – muuseumid; · dokumentidega – arhiivid; · raamatutega – raamatukogud; · mälestistega – muinsuskaitse; · looduspärandiga – looduskaitse. Piiri tõmbamine institutsioonide vahele on muidugi suhteline, sest muuseumides võidakse säilitada dokumente ja raamatuid, raamatukogus omakorda dokumente ja esemeid jne. Samuti kattuvad osaliselt eri teabeasutuste poolt ühiskonnas täidetavad ülesanded. Info säilitamine saab olla vaid osa laiemast dünaamiliselt seotud kommunikatsiooniprotsessidest, mis määravad ära säilitamise funktsiooni. Seega on teabe säilitamine alati aktiivne protsess. Säilitamist võiks määratleda kui funktsiooni, mis annab süsteemile ajalise pidevuse. See tähendab seda, et teabe säilitamise korral on esmatähtis kogu säilitussüsteemi pidevuse tagamine ühiskonna kõikidel tasanditel. 3.1. Digitaalse infotöötlemise esiajalugu 19. sajandi lõpuks olid nii riiklikud kui ka eraettevõtete bürokraatlikud institutsioonid sel määral arenenud ja geograafiliselt laienenud, et nõudsid uusi infohaldusvahendeid ja -meetodeid. Just sel ajal võeti kasutusele hulk uusi kontoritehnoloogiaid, mis tunduvad meile igapäevaste ja isegi aegunutena, nagu kirjaklamber, kiirköitjad, arhiivikapid jms (Beniger 1986). Lisaks lihtsamatele töövahenditele töötati suurte infohulkade säilitamiseks, korraldamiseks ja analüüsimiseks välja ka märksa keerukamaid süsteeme. Tänapäevase automaatse digitaalse andmetöötluse eelkäijaks võibki pidada perfokaartidel põhinevat mehaanilist andmetöötlussüsteemi, mille lõi 1880. aastatel Hermann Hollerith (1860–1929). Paberile kantud märkidega automaatjuhtimissüsteeme tunti aga juba varsemal ajal. Perfokaartidel põhineva infotöötlusüsteemi eelkäijaks peetakse Joseph Marie Jacquardi poolt 1804. aastal kasutusele võetud automaattelgi mustrite kangale kudumiseks ning erinevaid muusikaautomaate. Ettepaneku arvutusüsteemi juhtimiseks Jacquardi perfokaartide abil tegi 1873. aastal Charles Babbage (1791–1871), kuid tema „analüütiline masin“ jäigi vaid projektiks. Sellele vaatamata loetakse Babbage’it tänapäevaste digitaalsete arvutusmasinate idee esmaseks väljapakkujaks (Ceruzzi 2012: 7–8). DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU Perfokaartidel töötavates infosüsteemides kasutati andmete säilitamiseks ja töötlemiseks perfokaarte, mis kujutasid endast standardiseeritud kujuga kartongist kaarte. Teave kanti perfokaartidele kindlate positsioonide mulgustamise teel. Hollerith leiutas mitmeid elektromehaanilisi seadmeid info kandmiseks kaartidele ja kaartide infoga töötlemiseks. Sorteerimismasina abil oli võimalik kaarte sortida perforeeritud tunnuse järgi kindlasse veergu; tabulaator võimaldas kaarte kokku lugeda ja tulemusi summeerida. Perfokaardid osutusid väga mugavaks massandmete töötlemise vahendiks erinevates valdkondades, nagu statistika, raamatupidamine, teaduslikud arvutused jms. Perfokaarte kasutati info töötlemiseks väga laialdaselt kuni 1960. aastateni. Vähemal määral ja üksikutes valdkondades olid need kasutusel kuni 1980. aastateni, Nõukogude Liidus isegi kuni 1990. aastateni. Perfokaartidel põhinevate infosüsteemide arengu võib jagada viide põlvkonda (Heide: 2009). Esiteks, 1880. aastatel Ühendriikides loodud infosüsteem rahvaloendustel tekkivate andmete statistiliseks töötlemiseks. Süsteem oli kasutusel erinevates riikides kuni 20. sajandi alguseni. Teise põlvkonna moodustavad 1894. aastaks välja arendatud erinevad süsteemid statistiliste andmete töötlemiseks, mida kasutati veel isegi peale teise maailmasõja lõppu. Kolmas põlvkond perfokaartidel põhinevate infosüsteemide arengus on seotud raamatupidamisarvestusega. Raamatupidamiseks sobivad lahendused leiti 1906. aastaks ning sellised süsteemid olid kasutusel kuni 1960. aastateni, mõnel pool hiljemgi. Neljandaks põlvkonnaks loetakse perfokaartidel põhinevaid elanikkonna registreid, mis töötati välja aastatel 1935–1937 ning mis olid erinevates riikides kasutusel kuni 1960. aastateni. Viies põlvkond perfokaardiinfosüsteeme on seotud peale teist maailmasõda kasutusele tulnud elektronarvutitega. Nimelt hakati perfokaarte kasutama andmete ja programmide sisestamiseks arvutitesse. Arhiivinduslikust seisukohast loeti perfokaardid koos kinofilmide, helisalvestiste, kaartide, plaanide jms dokumentideks juba 1939. aasta USA arhiiviseadusega (Federal Records Act, Records Disposition Act ehk An Act for the Disposition, 1939). Nende tunnistamine arhivaalideks, st dokumentideks, millel on arhiiviväärtus ja mida tuleb säilitada, ei olnud aga sugugi nii selge. USA Rahvusarhiivi nõuandva komisjoni otsusega samast aastast jäi otsustusõigus selle üle, kas perfokaartidel on ajalooline väärtus, mille tõttu tuleks neid säilitada, riigiasutustele endile. Üldiselt otsustasid asutused perfokaardid pärast andmete töötlemist hävitada. Seejuures tugineti argumendile, et perfokaarte kasutati peamiselt andmetöötluseks, säilitamisele kuuluvad aga algandmed ning nende töötlemise tulemused aruannete jms näol. Ainult mõni üksik asutus säilitas andmetega perfokaarte. Arhivaaride seas oli levinud arvamus, et perfokaardid on vaid andmete töötlemise vahend ja iseseisvalt puudub neil arhiiviväärtus, seega pole ka põhjust neid säilitada (Adams 1995). Tegemist oli üldlevinud poliitikaga perfokaartidel olevate andmete suhtes (Fishbein 1972: 36): enamasti perfokaardid hävitati pärast andmete töötlemist. Perfokaartide säilitamisega seostusid peamiselt kahte tüüpi probleemid. Esiteks kippusid kaardid pärast nelja- või viieaastast seismist pehmeks muutuma ja seetõttu paindusid tabulaatoris. Teiseks saadi üsna kiiresti aru, et mingi aja möödudes kaotavad need olulisuse, kuna info töötlemiseks kasutatavad tehnilised seadmed arenevad kiiresti ja vastavalt muutuvad ka andmete kaartidele kodeerimise standardid (Adams 1995: 193, 197, 201). Kuigi ametiasutused andsid osa perfokaarte üle keskarhiividesse (Adams 1995), moodustusid esimesed tõelised masinloetavate dokumentide kogud spetsialiseeritud andmearhiivides. 27 28 DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU 3.2. Elektronarvutite kasutuselevõtt Esimesed digitaalsed universaalarvutid, mis ehitati 1930. aastatel, põhinesid elektromehaanilistel seadmetel. USAs ehitati aastatel 1939–1944 Howard Aikeni juhtimisel programmjuhitav arvutusautomaat Harvard Mark I. See arvutusmasin põhines elektromagnetilistel releedel ja loenduritel, andmed sisestati käsitsi vastavalt paneelilt ning arvutusprogramm sisestati perfolindilt (O’Reagan 2012). Saksamaal konstrueeris insener Konrad von Zuse aastatel 1936–1944 mitu erinevat programmjuhtimisega releearvutit. Esimese elektroonilise ehk siis elektronlampidel põhineva digitaalarvuti lõid ameeriklased John Vincent Atanasoff ja Clifford Berry aastatel 1939–1942. Arvuti koosnes 270 elektronlambist ja pöörlevasse trumlisse ehitatud kondensaatoritest, mis talitlesid põhimäluna. Andmed sisestati perfokaartidel, perfokaarte kasutati ka vahepealsete arvutustulemuste hoidmiseks. Teise maailmasõja tõttu jäi arvuti siiski lõpuni valmis ehitamata (O’Reagan 2012: 37–39). Esimene tegelikult töötav digitaalne elektrooniline arvuti oli Presper Eckerti ja John Mauchly juhtimisel USAs Pennsylvania ülikoolis ehitatud ENIAC (Electronic Numerical Integrator and Computer), mis valmis 1946. aastal. Arvuti sisaldas 18 000 elektronlampi, andmed sisestati perfokaartidel. Tegemist ei olnud siiski universaalarvutiga, vaid ballistiliste trajektooride arvutamise spetsiaalarvutiga, mille jäik programm sisestati kommutatsioonitahvlilt (O’Reagan 2012: 43–45). Kõiki esimesi elektronarvuteid iseloomustas see, et tegemist oli välise programmjuhtimisega seadmetega – arvutusprogramm anti ette väljastpoolt ja ülesande lahendamise ajal ei olnud seda enam võimalik muuta. Matemaatik John von Neumann avaldas 1946. aastal artikli, kus ta sõnastas arvutite siseprogrammjuhtimise idee, millele tuginevad tänapäevani kõik elektronarvutid. Arvuti juhtimiseks kasutatakse käskudest koosnevat programmi, mis esitatakse kahendarvudena ja salvestatakse koos lähteandmetega arvuti operatiivmällu. Arvuti suudab käske, millega teostatakse operatsioone, töödelda samamoodi kui arve. See võimaldab arvutil programmi ise muuta ja kaob vajadus programmi iga samm täpselt kirja panna. Programme valides saab arvuti lahendada erinevaid ülesandeid, siit ka seda tüüpi seadmete nimetus universaalarvuti. Esimene universaalne elektronarvuti, kus seda põhimõtet rakendati, oli 1949. aastal valminud EDVAC (Electronic Discrete Variable Automatic Computer). Nagu ENIAC, ehitati ka see arvuti Presper Eckerti ja John Mauchly juhtimisel. Nende kahe mehe loodud arvutifirma Eckert-Mauchly Computer Company valmistas 1950. aastal esimese turule jõudnud elektronarvuti UNIVAC I (Universal Automatic Computer). Nõukogude Liidus valmis esimene digitaalarvuti MЭСM1 1951. aastal. Selles arvutis oli umbes 2000 elektronlampi. Sellele masinale tuginedes ehitati 1952. aastal suurarvuti БЭСM2, mis valmimise ajal oli Euroopa kiireim. Mõlema arvuti looja oli akadeemik Sergei Lebedev. NSV Liidu Teaduste Akadeemia Energeetika Instituudis juhendas samasuunalist tööd professor Isaak Bruk; algul valmis seal arvuti M-1 ning 1952. aastal M-2, mis hiljem anti seeriatootmisse ja sai populaarse Minsk-seeria esiisaks. 1953. aastal valmis Juri Bazilevski juhtimisel arvuti Strela, mis esimesena läks seeriatootmisse; 1954. aastal järgnes sellele Bašir Ramejevi 1948. aastal valminud projekti järgi konstrueeritud Ural. Kui Tartu Ülikooli juurde loodi 1958. aastal arvutuskeskus, saigi selle esimeseks arvutiks Penza arvutitehases toodetud Ural. See arvuti oli ühtlasi esimene Eestis. Esimene transistoridel põhinev arvuti jõudis NSV Liidus seeriatootmisesse 1961. aastal (Agur 1976: 190). 1 2 Mалая элeктронная счётная машина – väike elektronarvuti Быстродeйствующая элeктронная счётная машина – kiire elektronarvuti DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU Elektronarvutitesse info sisestamiseks ja programmide salvestamiseks kasutati perfokaarte ja perfolinte, viimased võisid olla nii paberist kui ka metallist. Arvutuste tulemused trükiti välja paberile või väljastati perfolintidel. Perfolinte ja perfokaarte vaadeldi seega vahepealsete andmekandjatena ning töödeldud informatsiooni säilitati enamasti kirjalike dokumentidena. 1950–60. aastatel arenes arvutustehnika kiiresti, peamiselt valmistati suurarvuteid (mainframes) ja miniarvuteid (minicomputers), mida kasutati riigiasutustes, äriettevõtetes ning teadusasutustes. Digitaalseid andmeid koguti erinevates tööstusvaldkondades (ravimitööstus, ehitus) ja lisaks sotsiaalteadustele ka teistes teadusvaldkondades (meteoroloogia, geofüüsika, tuumafüüsika). Selliseid andmeid säilitati üldjuhul samades asutustes, kus neid koguti ja töödeldi. Mõned üksikud institutsioonid kogusid eri loojate andmeid, et luua arhiiv, mida uurijad võiksid kasutada. Üks selliseid andmeid koondavaid asutusi oli näiteks Sotsiaalteaduste teadusuuringute nõukogu andmekogu (Social Science Research Council Data Bank) Inglismaal Essexi ülikooli juures (Sleemann 2004: 178). Üldjuhul kogutud andmete pikaajalist säilitamist ei kavandatud, neid hoiti ainult jooksvaks kasutamiseks. Tõsiseks probleemiks kujunes kosmoseuuringutega seotud info säilitamine. 1952. aastal esitas Rahvusvaheline teadusühingute nõukogu (International Council of Scientific Unions) idee korraldada aastatel 1957–58 rahvusvaheline geofüüsika-aasta. Selle käigus kogutavate andmete säilitamiseks ja jagamiseks loodi Ülemaailmne andmekeskus (World Data Center, WDC). Teiseks väga oluliseks kosmose ja Maa uurimisega seotud andmete kogujaks ja säilitajaks kujunes NASA. 1964. aastal alustas satelliitidelt kogutava teabe säilitamise eest vastutav Goddardi kosmosekeskus (Goddard Space Flight Center, GSFC) vastava arhiivisüsteemi väljatöötamist, kuna kogutavate telemeetriaandmete säilitamine oli muutunud tõsiseks probleemiks (Demmerle Holmes et al. 1967). Töötati välja andmearhiivi funktsionaalne skeem, kuid tööle see arhiiv tegelikult ei hakanud. NASA arendas mitmesuguste kosmoseandmete kogumiseks ja säilitamiseks välja terve infrastruktuuri. Magnetlinti kasutati digitaalsete andmete salvestamiseks esmakordselt 1951. aastal Eckert-Mauchly loodud arvutis UNIVAC I. Magnetlindina kasutati 12,7 mm laiust niklikihiga kaetud metall-linti. Ka IBM arvutitel võeti 1950. aastatel kasutusele magnetlindid, aga need olid juba raudoksiidiga kaetud atsetaattselluloosalusel. Sellest ajast alates hakkas magnetlint masinloetava info säilitamisel üha enam asendama perfokaarte ja perfolinte. Magnetlintide sobivus andmete pikaajaliseks säilitamiseks ei olnud aga samuti selge. Rõhutati vajadust esitada kogu lindi sisu ka väljatrükina paberil, et tagada info säilimise juhul, kui lindiga midagi juhtub. Magnetlintide endi säilitamist arhiivis ei peetud otstarbekaks. Magnetlinte soovitati lugeda „vahepealseks meediaks“ (interim media) ja infot säilitada endiselt paberdokumentidena (Fishbein 1972: 35–37). Võrreldes perfokaartide ja perfolintidega võimaldasid magnetlindid märksa suuremat andmetihedust ja kiiremat andmevahetust, nii asendaski magnetlint 1960. aastatel elektronarvutite sisend- ja väljundseadmetes ning andmete välissalvestistes perfokaardid ja perfolindid. Osa perfokaartidel olnud andmetest kanti üle magnetlintidele. Seda tehti nii andmearhiivides, organisatsioonides, kus neid andmeid koguti ja kasutati, kui ka arhiivides. Magnetlintidele ülekantud andmete hulk oli siiski suhteliselt väike (Adams 2007: 25). 29 30 DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU 1950. aastatel võeti kasutusele termin „masinloetavad dokumendid“ (machine-readable records) (Adams 1995: 187). Sellega rõhutati tõsiasja, et erinevalt klassikalistest infokandjatest vajavad need kasutamiseks tehnilisi seadmeid. Charles M. Dollar defineeris masinloetavaid dokumente kui dokumente, mis on loodud arvutitega töötlemiseks (Dollar 1978: 423). 1970. aastatel oli kasutusel ka terminid „arvutiloetavad andmed“ (computer-readable data), „arvutiloetav informatsioon“ (computer-readable information), „arvutiloetavad dokumendid“ (computer-readable records) ja kõiki neid termineid kasutati sünonüümidena. Esimene masinloetavaid infokandjaid käsitlev artikkel ilmus arhiivindusajakirjas 1948. aastal ja see rääkis perfokaartide kasutamisest ajalooliste uuringute läbiviimisel, nii et tegemist ei olnud otseselt arhiivindusliku artikliga (Lawson 1948). Nimetatud termineid kasutati veel 1980. aastal. USA arhiiviseadus laiendas dokumendi mõistet masinloetavatele materjalidele (machine-readable materials) küll juba 1950. aastal, kuid endiselt jätkus arutelu selle üle, kas arvutiinfo on dokument, ja kui vastus on jaatav, siis kas sellel võib olla arhiiviväärtust. Suures osas oli paljude arhivaaride kahtlev seisukoht seotud arvutiinfo enda olemusega – tegemist oli andmetega. Peamine arvutitel töödeldav info oli 1950–60. aastatel seotud kas sotsiaalteaduste ja statistikaga või raamatupidamisega. Statistiliste ja muude uuringute tulemuseks olid täidetud küsitlusvormid, millelt andmed nende hõlpsama töötlemise eesmärgil masinloetavasse vormi kanti. Raamatupidamises ja muudes ärivaldkondades kasutatava elektroonilise info näol oli tegemist peamiselt andmetega äriprotsesside kohta. Kogu varasem arvutiinfo kujutas endast valdavas enamuses andmefaile. Andmete pidamine dokumentideks ja, veegi enam, arhivaalideks oli paljude jaoks küsitav. Theodore R. Schellenberg kirjutas oma raamatus „Kaasaegsete avalike dokumentide hindamine“ (The Appraisal of Modern Public Records, 1956) perfokaartide kohta, et need ei oma arhiiviväärtust, kuna nende kasutamine sõltub mehaanilisest või elektroonilisest seadmestikust ning neid loonud asutused on kogu kogutud andmestiku juba „ära kasutanud“ ja sellel puudub teisene kasutusväärtus. Andmed on seega ajutise väärtusega ning nende põhjal loodud kokkuvõtvad dokumendid püsiva väärtusega. Andmete säilitamine suurendaks ainult andmemahtu ja raskendaks olulise info eristamist ebaolulisest (vt nt Thexton 1974: 38, 41). 3.3. Andmearhiivid ja digitaalne säilitamine Alates 1930.–40. aastatest lõid mitmesugused uurimisasutused ja -projektid üha enam masinloetavat teavet. Algselt oli see seotud valdavalt sotsiaalteadustega (Geda 1979: 158–159). Kogutud andmeid oli vaja edasisteks uurimusteks säilitada ja selleks loodi vastavad andmearhiivid, mida üldnimetusena kutsutakse sotsiaalteaduste andmearhiivideks (social science data archives). Esimesed sellised andmearhiivid loodi sõltumatult traditsioonilistest arhiiviinstitutsioonidest. Näiteks loodi 1946. aastal eraalgatuse korras Roperi keskus (The Roper Public Opinion Research Center), kus säilitati kommertslike avalike küsitluste tulemusi alates 1936. aastast (Adams 1995: 196). 1950.–60. aastatel tekkinud andmearhiivid olid seotud akadeemiliste uurimisasutustega, kus kogunes palju andmeid. Esimeste andmearhiivide hulgas võib mainida järgmiseid: Sotsiaalsüsteemide uurimisinstituut (Social Systems Research Institute) Wiskonsini ülikooli juures (1950), Praktiliste sotsiaaluuringute keskarhiiv (Zentralarchiv für Empirische Sozialforschung) Kölnis (1960), Ülikoolidevaheline poliituuringute konsortsium (Inter-University Consortium for Political Research, ICPSR), Ann Arboris Michiganis (1962) jt. Ida-Euroopas loodi esimene sotsiaalteaduste andmearhiiv 1985. aastal Ungaris. Samal aastal alustati andmearhiivi (sotsiaalteaduste andmepanga) loomisega ka NSV Liidu DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU teaduste Akadeemia Sotsioloogia Instituudi juurde (Hausstein Brislinger 1998: 80). Eesti Sotsiaalteaduslikku Andmearhiivi asuti looma 1993. aastal Tartu Ülikooli juurde. Tartu Ülikooli rahalisel toetusel alustati Eesti Raadio Arvutuskeskuses säilinud sotsiaalteaduslike uuringuandmestike konverteerimisega magnetlintidelt diskettidele. 1994. aasta suvel pöörduti andmepanga loomise projektiga Avatud Eesti Fondi poole, kus vastati taotlusele positiivselt ja aastateks 1994–1996 eraldati tegevustoetuse grant. Toetusgrandi abil õnnestus kaitsta hävimise eest üle 200 aastatel 1975–1994 tehtud uuringu andmestik, mis oli säilinud Eesti raadio arvutuskeskuses ja Tartu ülikooli arvutuskeskuses, viia see üle PC-formaati ja korrastada.3 Sotsiaalteaduste andmearhiivid olid niisiis esimesed, mis hakkasid koguma ja säilitama digitaalset teavet. Andmearhiivides säilitati andmeid esialgu perfokaartidel. Enne 1950. aastate lõppu andmete säilitamise probleemidega kuigi tõsiselt ei tegeletud. 1960. aastatel asendus perfokaart salvestusmeediumina järk-järgult magnetlindiga – andmete kasutatavuse tagamiseks kanti need üle magnetlintidele. Selline info ülekandmise vajadus seoses infokandjate ning nende kasutamiseks vajaliku riist- ja tarkvara arenguga määras ära andmearhiivide säilitusstrateegia. Nimelt leiti, et andmete säilitamise ja kasutamise tagab kõige paremini nende hoidmine riist- ja tarkvarast võimalikult sõltumatul kujul (Lievesley 1998: 256–257). Sellist lähenemist kergendas oluliselt asjaolu, et uuringute andmefailid olid üldjuhul lihtsa struktuuriga ja neid oli võimalik kergesti muuta nn flat-failideks, mis on küllaltki tarkvarasõltumatud. Andmed pandi kirja ASCII märgistikus, arhiivifailivorminguna kasutati paljudes andmearhiivides statistikapaketi OSIRIS4 failitüüpe. Samuti kasutati teiste levinumate statistikapakettide nagu SAS, SPSS5, NSD-Stat failivorminguid (Doorn 2004: 98; Marker 1998: 296–298). Andmete füüsilise kandja säilitamine oli andmearhiivide vaatenurgast seega ebaoluline probleem. Uuringute andmed kirjeldati vastavalt standardiseeritud bibliograafilisele kirjeldusele, mis suuresti tugines raamatukogunduses kasutatavale kirjeldusmeetodile (Marker 1998: 301; Doorn 1998: 313). Dokumentatsiooni (tabeli struktuur, koodiraamatud, andmete väärtused) olemasolul saab lameandmebaase lihtsalt kohandada kasutatava statistilise tarkvaraga. Seega hakati rõhutama andmete dokumenteerimise olulisust digiinfo säilitamisel (Lievesley 1998: 260). Andmete säilitamisel sotsiaalteaduste arhiivides neid muudeti sageli, näiteks parandati andmeid pärast valideerimist. Samuti uuendati andmete lihtsamaks kasutamiseks pidevalt vorminguid. Eri arhiivides kasutati erinevaid kataloogimis- ja dokumenteerimissüsteeme. 1960.–70. aastatel moodustasid enamiku digiinfost küsitluste ja uuringute arvulised andmed. Seetõttu käsitleti neid muust teabest eraldi seisva üksusena. Lisaks olid nad veel ju ka teistsugustel andmekandjatel, alguses perfokaartidel ja -lintidel, hiljem magnetlintidel. Väikese osa arvutifailidest moodustasid ka tekstidokumendid. Kuna andmearhiivid tegelesid just masinloetava teabe kogumise, töötlemise ja säilitamisega, siis kujunesidki seal välja vastavad infosüsteemid ja nende kasutusviisid. Tegemist on hea näitega sellest, kuidas uue tehnoloogia kasutuselevõtt toimub kiiremini ja ilma põhimõtteliste vastuoludeta süsteemides, kus need luuakse n-ö tühjalt kohalt. Omandatud teadmised ja kogemused ei levinud laiemalt enne 1990. aastaid. Enne seda tegutsesid erinevad digiteavet säilitavad institutsioonid suuresti üksteisest sõltumatult. 3 4 5 Vt Eesti Sotsiaalteaduslik Andmearhiiv ESTA, http://www.psych.ut.ee/esta/ IBM suurarvutitel kasutatud statistikatarkvara. Statistical Package for the Social Sciences (SPSS) on 1968. aastal loodud tarkvara statistiliste algandmete analüüsimiseks. 31 32 DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU 3.4. Digiinfo säilitamise paradigma muutus Arvuteid hakati tööstuses, panganduses ja riigiasutustes laiemalt kasutama 1960. aastate algusest. Neid kasutati palgamaksmisel, inventarinimestike, kauba transpordi nimekirjade, vara vastuvõtmise nimekirjade, arvete jms koostamisel. Ilmselt arvutite järjest ulatuslikuma kasutamise tõttu oli 1960. aastate keskpaigaks suhtumine masinloetavatesse dokumentidesse juba selgelt muutunud. Samas tuleb tõdeda, et info säilitamisega tegelevatel organisatsioonidel ja spetsialistidel ei olnud infotehnoloogia kujundamisele mingit reaalset mõju. Nii tehnoloogilised lahendused kui ka info kasutamine reaalsetes organisatsioonides kujunesid nendest sõltumatult (Hedstrom 1991: 336). 1965. aastal töötati välja juhis, millele tuginedes sai valida Ameerika Ühendriikide Rahvaloendusbüroo (USA Census Bureau) dokumentide hulgast välja püsiva (alatise) väärtusega masinloetavad dokumendid. Tegemist on esimese kavaga masinloetavate dokumentide väärtuse määratlemiseks ja säilitamiseks (Fishbein 1972: 41). 1960.–70. aastatel oli rõhuasetus endiselt masinloetavatel andmekandjatel kui füüsilistel objektidel6 ning digiinfosse suhtuti ikkagi paberdokumentide säilitamisest lähtudes. Digitaalsete andmete säilitamise probleemi lahendust nähti ennekõike võimalikult pikaealiste andmekandjate kasutuselevõtus. Põhiliseks probleemiks oli andmekandjate eluiga ja seda mõjutavad tegurid. Palju tähelepanu pöörati tolle aja peamiste andmekandjate magnetlintide seisundile, säilivusele ja hoiutingimustele (Rosenkrantz 1971; Thexton 1974: 38). Magnetlintidele oli võimalik kirjutada andmeid korduvalt. See võimaldas küll olulist kokkuhoidu, kuid ülekirjutamise käigus läksid varasemad andmed kaduma. 1969. aastal anti Ühendriikides välja esimene magnetlintide kogumise ja arhiivis säilitamise juhis (A procedure for…1969). Juhendis olid määratletud peamised tehnilised nõuded magnetlintide vastuvõtmiseks arhiivi (lindi vorming, andmete loetavus), nõuded säilitustingimustele (temperatuur ja õhuniiskus) ning hooldusnõuded. Vastuvõetavatest magnetlintidest valmistati säilitus- ja tagavarakoopiad. Koopiaid hoiti turvalisuse huvides eri hoonetes. Need põhimõtted on masinloetavate infokandjate säilitamise aluseks tänapäevani. 1973. aastal andis Ameerika Ühendriikide rahvusarhiiv välja magnetlintide säilitamise juhise (Recommended environmental…1973). Arhiivides ja raamatukogudes hakati elektronarvutitele enam tähelepanu pöörama 1960. aastatel, mil arvutid võeti kasutusele kataloogide ja elektrooniliste nimekirjade koostamiseks ning mitmesuguste administratiivsete ülesannete lahendamiseks. 1970. aastatel kasutati teabeasutustes arvuteid juba üsna laialdaselt, kuid digitaalse teabe säilitamisega tegelesid siiski vaid üksikud asutused. 1968. aastal loodi USA rahvusarhiivis esimene arvutidokumentidega (computerized records) tegelemise kava (Data Archives Staff). 1970. aastate alguses koostasid USA, Inglismaa, Rootsi ja Kanada rahvusarhiiv juhiseid masinloetavate infokandjate väärtuse määratlemiseks ja nende vastuvõtmiseks arhiividesse (Naugler 1984: 3). Esimesed digitaalsed arhivaalid võeti USA rahvusarhiivi vastu 16. aprillil 1970. Tegemist oli NASA edastatud andmetega, mis salvestati veealuse kosmosesimulatsiooni Tektite I käigus (Brown 2003:1). Raamatukogudes tulid esmalt kasutusele elektroonilised kataloogimissüsteemid, 1968. aastast hakati USA raamatukogudes kasutama masinloetavat bibliokirjete süsteemi MARC (MAchine Readable Cataloging). 1970.–80. aastatel hakati raamatukogudes arendama sidusjuurdepääsuga elektronkatalooge (online public access catalogue, OPAC), mis muutusid 1990. aastate lõpuks peamisteks kataloogisüsteemdieks. Digitaalse materjali DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU kogumisse suhtuti esialgu üsna konservatiivselt: kui selliseid objekte üldse vastu võeti, siis tihti neid ei kataloogitud. Digitaalsete dokumentide korraldamise meetodid võeti üle pabermaterjalidelt ja kohandati vastavalt uutele tehnilistele nõuetele. Olulisele kohale tõusis dokumentide kasutatavuse küsimus. Teine küsimus oli piisava dokumentatsiooni olemasolu – kas on olemas piisavalt teavet dokumentide töötlemiseks ja kasutamiseks? Kui dokumendid sisaldavad küll olulist teavet, aga neid ei ole võimalik kasutada, siis muutub nende säilitamine mõttetuks. 1970. aastatel hakati pöörama tähelepanu sellele, et infokandjate vananemise kõrval ohustab digiinfo säilimist ka seadmete ja programmide pidev muutumine (Thexton 1974: 38). Säilitatavate objektide füüsiliste omaduste kõrval muutus oluliseks nende loomise ja kasutamise kontekst. Erinevate riist- ja tarkvarasüsteemide probleemi lahendamiseks hakkas USA rahvusarhiiv alates 1976. aastast nõudma, et arhiivimoodustajad esitaksid failid riist- ja tarkvarast sõltumatus vormingus (Henry 2003:35). Lisaks erinevatele magnetkandjatele, mis olid senini olnud peamisteks infosalvestusvahenditeks, ilmusid 1970. aastate keskel mitmesugused optilised andmekandjad. Hakati arutama nende kasutusvõimalusi info säilitamisel (vt nt Kula 1977). Laiemalt tulid optilised andmekandjad kasutusele siiski märksa hiljem, 1980. aastatel. 1980. aastatel olid arvutid teabeasutustes juba laialt levinud. Algselt kasutusel olnud suurarvutid (mainframe) asendusid küllaltki kiiresti personaalarvutitega (Kesner Hurst 1981; Cook 1980). See tõi kaasa digiinfo hulga kiire suurenemise, veelgi tõsisemaks probleemiks kujunes selle info mitmekesisus. Andmete kõrval hakati tähelepanu pöörama ka tekstilistele digitaalsetele dokumentidele ning geograafilistele infosüsteemidele (GIS). Tekstidokumentide hulga suurenemine ja selle tõttu ka nendele tähelepanu pööramine on seotud personaalarvutite laialdase kasutuselevõtuga töökohtades. Probleemide hulka kerkis relatsiooniliste andmebaaside säilitamine. 1980. aastatel, kui lisaks varasematele andmetele hakati digitaalselt looma ka igasugust muud infot (tekstid, pildid, heli, filmid jms), muutus digitaalse ja muu info eristamine ebaoluliseks. Digitaalne tehnoloogia võimaldas töödelda ja säilitada igasugust infot, sõltumata selle liigist. Personaalarvutite laiem levik 1980. aastatel tähendas ka seda, et eri asutused võtsid kasutusele erinevaid andmete haldamise süsteeme. 1980. aastate lõpus oli suur osa digiteabest personaliseeritud, mittestandardsetes andmesüsteemides (Blank Rasmussen 2004: 309). Mõiste „masinloetavad dokumendid“ hakkas asenduma elektrooniliste või digitaalsete dokumentide mõistega (Fishbein 2003: xviii), mis võeti kasutusele 1990. aastate alguses. Muutus näitas seda, et senise ikkagi vaid üksikute masinloetavate dokumentide käsitlemise asemel hakati rõhutama kogu traditsioonilise meedia üha suuremat muutumist elektrooniliseks. 1980. aastate esimesel poolel levis idee, et kuna digitaalne info on füüsilise kandjate lagunemise, ebapiisava metaandmestiku ning vananeva riist- ja tarkvara tõttu hävimisohus, tuleb säilitamiseks kanda teave mikrofilmile (computer output microfilm ehk COM).7 See säilitamisidee tugines masinloetava andmekandja kui materiaalse objekti käsitlusele. Säilitamiseks valiti mikrofilm, kuna tollel ajal loeti pikaajaliseks säilitamiseks sobivateks materjalideks ainult paberit ja mikrofilmi (Mallinson 1986: 147). Selline lähenemine masinloetavate infokandjate säilitamisele lükati kohe tagasi, kuna oli selge, et masinloetavate infokandjate olulisus ja väärtus seisnebki selles, et need on masinloetavad. Kui neil säilitatav info ei ole enam masinkasutatav, siis kaotab see teave olulise osa oma väärtusest. 1980. aastate teisest poolest hakati looma infotehnoloogilisi 7 6 Kasutatakse näiteks terminit „arvuti lindifail“ (computer tape files), vt nt Dollar 1978. Kõige mõjukam selle seisukoha pooldaja oli Ameerika Ühendriikide rahvusarhiivi säilituskomitee, mis esitas 1984. aastal vastavateemalise aruande (vt (Mallinson 1986). 33 34 KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS standardeid, mille laiem kasutuselevõtt oli digitaalse teabe kogumise, säilitamise ja kasutamise aluseks. 1990. aastate alguseks olid ainult suuremates teabeasutustes, näiteks Ameerika Ühendriikide ja Kanada rahvusarhiivis, olema vastavad kavad elektrooniliste dokumentide vastuvõtmiseks ja säilitamiseks. Mujal alles töötati selliseid kavasid välja (Cook 1986: 202). Suurbritannia rahvusarhiivis alustati elektrooniliste dokumentide säilitamisega seotud programmide väljatöötamist 1990. aastate keskel (Sleemann 2004: 174). Põhjamaadest oli digitaalse info säilitamine seadusandlikult reguleeritud kõige varem Rootsis ja seda juba 1970. aastatel. Soomes ja Norras kehtisid vastavad regulatsioonid 1980. aastatest. Teistes Euroopa riikides töötati see regulatsioon välja valdavalt 1990. aastatel. Prantsusmaal oli vastav seadus olemas juba 1978. aastast, kuid tegelikkuses ei rakendunud see enne 1982. aastat, mil Prantsuse rahvusarhiivi kaasaegsete arhiivide keskusesse hakati võtma esimesi magnetlinte digitaalsete andmetega. Samas hakkas 1980. aastate algupoolel selguma tõsiasi, et andmekandjate füüsiline eluiga on digitaalse informatsiooni säilitamise seisukohalt küllaltki ebaoluline tegur. Peamiseks probleemiks hakati pidama hoopiski andmekandjate kasutamiseks ettenähtud seadmete kättesaadavuse tagamist. Lisaks tehniliste seadmete vananemisele rõhutati ka erinevate andmevormingute olemasolu ja küllaltki kiiret vaheldumist (Mallinson 1986: 148–149, 151). Tõdeti, et oluline on käsitleda infosüsteeme terviklikena ja teha kindlaks, millistes süsteemiosades tuleks digitaalset teavet koguda ja säilitada. Sellega seoses räägitakse isegi „meediumi türanniast vabanemisest“ – säilitamisel on kesksel kohal informatsioon, mitte selle füüsiline kandja (Ahlgren McDonald 1981/82: 63–64). Elektrooniliste dokumentide pikaajaline säilimine tagatakse nende pideva kopeerimisega uutele andmekandjatele (Gavrel 1986: 154). Tegemist on vägagi olulise kontseptuaalse nihkega kogu säilitamisvaldkonnas. Tunnistatakse asjaolu, et informatsioon on seotud tervete infosüsteemide tööga, ja seda, et digitaalne info on oma konkreetse füüsilise kandjaga seotud märksa vähem kui n-ö klassikaliste infokandjate – raamatute, dokumentide, fotode jms puhul. Digitaalse teabe säilitamine seda vastavalt andmekandjate või kasutussüsteemide vananemisele ümber kopeerides fikseeriti esmakordselt Briti standardis 1988. aastal (British Standard 1988). 1990. aastate alguseks oli tehnoloogiate vananemine muutunud digisäilitamise keskseks teemaks (vt nt Dollar 1993: 45; Structured glossary). Säilitamise paradigma nihkus selgelt infokandjate säilitamiselt (mis iseloomustab n-ö klassikaliste materjalide säilitamist) informatsiooni pikaajalise kättesaadavuse tagamisele. Digiinfo pikaajalise kättesaadavuse tagamine on seotud info loetavusega (readability), kasutatavusega (retrievability) ja arusaadavusega (intelligibility). Loetavus tähendab, et info on kasutatav ka teiste kui selle loomiseks ja hetkel säilitamiseks kasutatavate arvutisüsteemide poolt. Kasutatavus tähendab, et vastavaid faile on võimalik identifitseerida ja olemasoleva tarkvara abil töödelda. Arusaadavus viitab sellele, et teave on kasutajatele mõistetav. Alles mõne aja möödudes saadi aru, et digitaalne säilitamine ei seisne mitte niivõrd andmekandjate füüsilises säilitamises, vaid digitaalse info loomises ja säilitamises. Tegemist on ühelt poolt küll tehnoloogilise, aga teisalt ka sotsiaalse fenomeniga, seega peituvad ka lahendused nii tehnoloogias kui ka infokorralduses laiemalt (Hedstrom 1991: 338). Jõuti arusaamisele, et oluline on kogu säilitussüsteemi loomine. Vaja on määratleda, millised institutsioonid vastutavad digitaalse info säilitamise eest, luua vastav seadusandlik keskkond. Tehnilised probleemid on tegelikult teisejärgulised. Informatsiooni terviklikkuse ja kasutatavuse tagamine on märksa olulisem võrreldes konkreetsete andmekandjate vastupidavuse ja elueaga. Juba 1980. aastate teisel poolel hakati looma infotehnoloogilisi standardeid, mille laiem kasutuselevõtt oli aluseks digitaalse KOMMUNIKATSIOONIPROTSESSID ÜHISKONNAS teabe kogumisel, säilitamisel ja kasutamisel (vt nt Law Rosen 1989; data and Document…1987; Protocols Standards 1989 a; Protocols Standards 1989b). Oluliseks hakati pidama, et digitaalsete objektide säilitamise vajadust võetaks arvesse juba nende loomise ajal. 1996. aastal ilmus raport „Digitaalse teabe säilitamine“ (Preserving digital information), kus rõhutati asjaolu, et digitaalse säilitamise eesmärk on infoobjektide terviklikkuse (integrity) säilitamine. Selleks on vaja määratleda nende sisu (content), püsivus (fixity), seosed (reference), päritolu (provenance) ja kontekst (context) (Waters Garrett 1996). 1990. aastate alguses aduti, et digitaalse info edukaks säilitamiseks peavad säilitajad mõjutama infotehnoloogia valmistajaid ja kasutajaid, et need arvestaksid tehnoloogia loomisel ja kasutamisel digiinfo säilitamise vajadusi (Hedstrom 1991:337). Sellisel juhul saaks säilitamisega arvestada juba digiobjektide loomise ajal, mitte alles tagantjärele. 1990. aastate keskpaigast muutusid oluliseks ka digitaalse info metaandmetega seotud teemad (Lazinger 2001; Day 2004). Esimene säilitusmetaandmete süsteem loodi Austraalia rahvusraamatukogus 1990. aastate lõpus (Phillips Woodyard et al. 2001). Sellele järgnes hulk teisi metaandmete süsteeme. Digitaalsete dokumentide säilitamine jäi enamasti arhiivide ülesandeks. Mõnes riigis aga otsustati anda digitaalsed dokumendid lepingu alusel üle arvutuskeskustele. Nii näiteks sõlmis Soome rahvusarhiiv 1987. aastal lepingu Soome riikliku arvutuskeskusega, kuhu digitaalsed dokumendid võeti lühiajalisele säilitamisele. 1996. aastal võttis rahvusarhiiv avaliku sektori digitaalsete dokumentide säilitamisega seotud õigused taas endale. Soome ja Islandi rahvusarhiiv sõlmisid 1995. aastal vastavate arvutuskeskustega digitaalsete dokumentide säilitamise lepingu, aga selline lahendus ei osutunud jätkusuutlikuks, kuna arvutuskeskused vastasid küll tehnilistele, aga mitte arhiivinduslikele kriteeriumidele (Pulkinen Quinlan 1996: 49). Suurbritannias tegeleb valitsusasutuste andmekogude säilitamisega alates 1997. aastast vastavalt rahvusarhiiviga sõlmitud lepingule Londoni ülikooli arvutuskeskus, kuhu loodi 1998. aastal Andmekogude riiklik digitaalarhiiv (The National Digital Archive of Datasets, NDAD). Austraalia rahvusarhiiv otsustas 1995. aastal digitaalseid dokumente mitte arhiivi üle võtta ja jätta need asutustesse, kus nad on loodud. Selline „mitte üleandmise strateegia“ (distributed custody, non-custody practice, post-custodial) tähendas seda, et arhiiv säilitas vaid intellektuaalse kontrolli digitaalsete dokumentide üle. Pärast dokumentide hindamist ja neile säilitustähtaja määramist jäid nad edasi neid loonud asutusse ning arhiiv pakkus nende säilitamiseks ja kasutamiseks nõustamisabi. Selline praktika lõpetati 2000. aasta kevadel ja sellest ajast alates säilitatakse digitaalseid arhivaale Austraalia rahvusarhiivis. Kuni 1980. aastate lõpuni tegeleti kõikide arhiividesse vastuvõetavate failidega eraldi. Selline kogumine ja vastuvõtmine muutus üha suureneva infomahu juures küsitavaks. Samuti ilmnes, et vähe tähelepanu on pööratud digiobjektide oluliste omaduste säilitamisele. Eksisteeris oht, et vastuvõtmise ja säilitamise käigus dokumente muudetakse, mis muudab ka nende väärtust. Hakati välja töötama digitaalsete dokumentide vastuvõtmise, haldamise ja säilitamise süsteeme. USA rahvusarhiivis oli selleks arhivaalide säilitussüsteem (Archival Preservation System, APS), mida hakati välja töötama 1990. aastate alguses. 1990. aastatel teatasid paljud arhiivid ja muud asutused, et nad suudavad säilitada digitaalset teavet. See kutsus esile ka skeptitsismi ja nõude kehtestada standardid, mis võimaldaksid hinnata asutuste võimet digitaalset infot pikka aega säilitada (Ambacher 2005). Samas ei olnud 1990. aastate keskpaigakski veel selge, kas käsitleda elektroonilisi dokumente sarnaselt kõikide teiste dokumentidega või on tegemist täiesti erilaadse meediumiga. Väga sageli kirjeldati ja hallati neid sarnaselt muude „ebatraditsiooniliste objektidega“, nagu näiteks fotod ja kaardid, muuhulgas ei lisatud neid tavalistesse otsivahenditesse (kataloogidesse) (Dryden 1995: 104). 35 36 DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU Üha enam hakati erialaringkondades arutama digisäilitamise probleeme, ilmus terve rida raporteid, artikleid ja juhendeid. Rahvusvaheline Arhiivinõukogu avaldas ülevaated digitaalsetest dokumentidest maailma arhiivides, üldised soovitused arhiividele digitaalsete dokumentidega tegelemiseks ja digitaalsete dokumentide haldamist käsitleva kirjanduse ülevaate (ICA 1996; ICA 1997a; ICA 1997b), mis muutusid kohe laialt aktsepteeritud juhendmaterjalideks. 1996. aasta lõpul tuli kokku esimene DLM Forum (DLM sõnadest Donneés lisibles par machinee – prantsuskeelne akronüüm masinloetavate dokumentide tähistamiseks, 2002. aastast kannab nime Document Lifecycle Management), mis kujunes Euroopas oluliseks digitaalse infoga seotud probleemide käsitlemisel. 1997. aastal avaldas DLM Forum soovitused digitaalse teabe haldamiseks (Guidelines on best…1997). Eestis jõuti digiinfo säilitamise probleemide põhjalikuma käsitlemiseni 2000. aastatel. Koostati hulk selleteemalisi raporteid, mis kõik keskendusid digitaalsete dokumentide säilitamisele arhiivinduslikust vaatest lähtudes ( Juhendeid…2000; Ülevaade…2001). Raportite eesmärk oli anda ülevaade digisäilitamise olukorrast ja teha soovitusi valdkonna arendamiseks Eestis. Raamatukogudes seostus digitaalse teabe säilitamine esmalt elektrooniliste ajakirjadega. Paljud raamatukogud, eriti need, mis tegutsesid ülikoolide ja uurimisasutuste juures, hakkasid paberkandjatel ajakirjade asemel üha enam tellima nende elektroonilisi versioone. Neile materjalidele pikaajalise ligipääsu tagamine sõltub aga muutuvast tehnoloogiast ja välistest organisatsioonidest. Need probleemid olid aga hoopiski erinevad traditsioonilistest raamatukogu puudutavatest probleemidest. Peagi lisandusid ka muude digitaalsete ressursside säilitamise probleemid. 1980. aastatel hakati digitaliseerima ja internetis kättesaadavaks tegema üksikuid kollektsioone. 1990. aastatel algatati paljudes teabeasutustes suuremahulisi digiteerimisprojekte, mille eesmärk oli võimalikult suure hulga teabe kättesaadavaks tegemine. Euroopas seostus see näiteks e-Euroopa agendaga (e-Europe Action Plan). Projektid olid enamasti omavahel koordineerimata, kasutati erinevat tehnilist ja organisatsioonilist lähenemist. Lähenemiste ühtlustamiseks algatati rahvusvahelised projektid. 4. aprillil 2001 kohtusid Rootsis Lundis (Rootsi eesistumisajal) Euroopa Nõukogu ja Euroopa Liidu liikmesriikide esindajad ning eksperdid, et arutada, kuidas koordineerida ja väärtustada rahvuslikke digiteerimisprogramme Euroopa tasandil. Kohtumise tulemusena avaldati üldpõhimõtete kogum avalike digiteerimisettevõtmiste juhtimise ja koordineerimise kohta, mida tuntakse Lundi põhimõtetena (Lund Priciples 2001). Tänapäeval on kõige levinum internetiteenus kindlasti veeb (World Wide Web, WWW). Veeb on avatud lähtekoodiga inforuum, kus dokumendid ja muud ressursid on identifitseeritud internetiaadressidega (URL), seotud omavahel hüpertekstilinkidega ja kättesaadavad interneti kaudu. Veebi lõi inglise teadlane Tim Berners–Lee 1989. aastal Euroopa Tuumauuringute Keskuses (Conseil Européen pour la Recherche Nucléaire, CERN), kui ta hakkas eri arvutites asuvaid dokumente hüpertekstilinkidega ühendama. 1990. aastal lõi ta esimese veebilehitseja (browser), millega saab HTML–dokumente lugeda ja veebis ringi liikuda. Veebi arhiveerimine on veebis leiduva info kogumise, digiarhiivis säilitamise ja kasutajatele kättesaadavaks muutmise protsess. 1996. aastal asutas Brewster Kahle mittetulundusühingu Interneti Arhiiv (Internet Archive), mis asus koguma ja säilitama erinevaid veebilehti. Alates 1999. aastast kogub arhiiv lisaks veebilehtedele ka muid digiobjekte – tekste, filme, televisisiooni- ja raadiosaateid, fotosid, tarkvara jms. 2001. aastal loodi arhiivile otsimootor Wayback Machine ja siis muutus arhiivi sisu kättesaadavaks kõigile huvilistele. 2004. aastal loodi veebi arhiveeriv mittetulundusühing Euroopa Arhiiv (European Archive), alates 2010. aastast tegutseb see nimetuse Interneti mälu sihtasutus (The Internet DIGITAALSE TEABE SÄILITAMISE KUJUNEMISLUGU Memory Foundation) all, asukohaga Amsterdamis ja Pariisis. Veebi arhiveerimisega tegelevad ka paljud riiklikud ja regionaalsed mäluasutused. 2003. aastal asutati Rahvusvaheline Veebiarhiveerimise konsortsium (International Internet Preservation Consortium, IIPC) , mis tegeleb rahvusvahelise koostöö korraldamisega, standardite loomisega ja avatud lähtekoodiga veebiarhiveerimise tarkvara arendamisega. 1990. aastate lõpul tõusis olulisele kohale digiinfo autentsuse ja info oluliste omadustega seotu (vt nt Waters Garrett 1996). Aastatel 1999–2001 kestis selleteemaline rahvusvaheline projekt InterPARES 1 (International Research on Permanent Authentic Records in Electronic Systems) (InterPares Project). Digiobjektide autentsuse tagamisel on üks vahendeid ka digitaalallkiri. Nüüdseks nii igapäevaseks muutunud toimingul on juba päris kenake ajalugu. Esimene digiallkiri Eestis anti 7. oktoobril 2002. aastal – Tallinna ja Tartu linnapea allkirjastasid kahe linna infotehnoloogiaalase koostöölepingu. Üha enam nihkus tähelepanu bitijada säilitamiselt kontseptuaalsete objektide säilitamisele. Samuti arutati digisäilitamise peamisi strateegiaid – migratsiooni, emuleerimist ja tehnoloogia säilitamist. Käidi välja universaalse virtuaalarvuti idee: digitaalne objekt esitatakse universaalsel kujul ning seda võimalik kasutada kõikides järgnevates tarkvaraja riistvarapõlvkondades. Samale ideele tuginevad ka näiteks digiobjektide esitamine XML kujul või spetsiaalsetes tarkvarakonteinerites. Digitaalsete arhiivide standardiks kujunenud OAIS mudeli (Open Archival Information System Model – rahvusvaheline avatud arhiiviinfosüsteemi mudel) esimene versioon avaldati 1999. ja teine 2001. aastal. 2002. aastal avaldatud kolmas versioon sai 2003. aastal ametlikult ISO standardiks. Mudel pakkus välja terminoloogia ja põhimõtted, millele tuginedes oli edaspidi võimalik kooskõlaline infovahetus erialaspetsialistide vahel, ning digiarhiivi kontseptuaalse skeemi, millele tuginedes oli võimalik kujundada reaalseid arhiivimudeleid. 2003. aasta 17. oktoobril võttis UNESCO vastu „Digitaalse pärandi säilitamise harta“ (Charter on the Preservation of Digital Heritage). Harta rõhutab, et digitaalne pärand koosneb ainulaadsetest inimteadmiste ja kultuuriväljenduste ressurssidest. See hõlmab kultuurilisi, hariduslikke, teaduslikke ja haldusressursse, aga ka tehnilisi, juriidilisi, meditsiinilisi ja muid andmeid, mis on digitaalselt loodud või siis olemasolevatest analoogsel kujul esinevatest objektidest digitaalseks muudetud. Paljudel neist ressurssidest on püsiv väärtus ja olulisus ning seetõttu moodustavad need pärandi, mida tuleks praegustele ja tulevastele põlvedele kaitsta ja säilitada. See pidevalt kasvav pärand võib eksisteerida igas keeles, igas maailma piirkonnas ja igas inimteadmiste või kultuuriväljenduste valdkonnas. Harta olulisus seisneb selles, et esmakordselt rõhutati rahvusvahelises ulatuses digitaalse teabe kuulumist kultuuripärandi hulka ja selle säilitamise vajadust. 37 38 DIGIINFO SÄILITAMISE PROBLEEMID DIGIINFO SÄILITAMISE PROBLEEMID 4. DIGIINFO SÄILITAMISE PROBLEEMID Lugenud läbi selle peatüki, • oskad välja tuua digiinfo säilimise peamisi ohte; • oskad kirjeldada digiobjektide säilitamis- ja kasutussüsteemi üldiseid tunnuseid; • tead, kuidas tehnoloogia areng mõjutab digiobjektide säilitamist. Toome järgnevalt ära peamised digiinfo säilitamisega seotud probleemid, mis esinevad igasuguste digiobjektide säilitamisel. Digiinfo ohutegurid esinevad sageli kombineeritult, muutes tegeliku olukorra veelgi keerukamaks. Digiobjektide loomise ja kasutamise süsteemi komplekssus Digiobjektide loomiseks ja kasutamiseks on vajalik keerukas süsteem, mille moodustavad riist- ja tarkvara, dokumentatsioon ning vastavate teadmiste ja oskustega spetsialistid. Info säilitamise eest vastutajal puudub tavaliselt kontroll kogu selle süsteemi üle. Operatsioonisüsteemid, seadmedraiverid, võrgu- ja kommunikatsioonitarkvara, rääkimata püsi- ja riistvarast, on üldjuhul välja töötanud ja tootnud erineva erafirmad. Erandiks on üksikute suuremate projektide jaoks loodud tarkvara ja riistvara. Kogu infosüsteemi säilitamine tervikuna ei ole kindlasti ühele ega ka mitmele digiarhiivile jõukohane, rääkimata eraisikutest ja ettevõtetest. Vaja on dokumenteerida kogu objektide valmistamisega seotud riist- ja tarkvara, vähemalt seadmetüübid, tarkvara nimetused ja versioonid ning väljalaskekuupäevad. Digisäilitussüsteemi toimimine nõuab selle pidevat seiret ning vastavate vahendite eraldamist hoolduseks ja kaasajastamiseks. Mõnel juhul on vaja koos digiobjektidega säilitada ka vastavat tarkvara. Tarkvara säilitamine võib olla vajalik, kui see moodustab säilitatava digiobjektiga lahutamatu terviku. Üldjuhul on andmed ja tarkvara teineteisest lahutatud, mõnel juhul võivad aga andmed moodustada tarkvaraga lahutamatu mudeli ning nende lahutamine on võimatu. Näiteks kui andmete loomiseks on kasutatud väga spetsiifilist tarkvara, mida ei leidu ku sagil mujal ja mille kasutamine on väga piiratud. See võib puudutada näiteks teaduslikke andmemudeleid, simulatsioone vms. Tarkvara säilitamine võibki olla digiarhiivi eesmärk, näiteks kui tarkvara on mingi uurimis- või arendusprojekti tulemuseks. Samuti võidakse tarkvara säilitada näiteks ajaloolisel eesmärgil. Tehnoloogia areng ning seadmete ja tarkvara vananemine Digiinfoga seotud tehnoloogia areneb väga kiiresti ning sellest tingitult toimub ka riist- ja tarkvara kiire vananemine ja asendamine. Sellega oleme me kõik juba palju kordi kokku puutunud. Tehnoloogia eluiga on keskmiselt 2–10 aastat. Pidevalt tulevad turule uued arvutimudelid, mis on varustatud üha võimsamate protsessorite ja mahukamate kõvaketastega. Pidevalt asendatakse operatsioonisüsteeme ja rakendustarkvara, muutuvad andmekandjad ning andmete nendele kirjutamiseks ja neilt lugemiseks vajalikud seadmed (joonis 4.1). Joonis 4.1. Näide andmekandjate muutumisest – 12-, 5- ja 3-tolline flopiketas Kui uued tooted turule tulevad, lõpetatakse sageli vanade tootmine ja toetamine. Vananenud süsteemid ei sobi teistega kokku. Failivormingud muutuvad pidevalt ja uuemad süsteemid ei suuda sageli varasemaid vorminguid töödelda. Kõik digitaalse infosüsteemi osad vananevad ja asendatakse suhteliselt kiiresti. Paljude digiobjektide kasutamine sõltub spetsiifilisest riist- ja tarkvarast ning neid ei saa kasutada teiste seadmete ja tarkvaradega (vt näitekast 4.1). Mingi süsteem muutub ebarentaabliks, firma kaob turult. Järelikult ei valmistata enam seda tüüpi andmekandjaid ja seadmeid. Tehnoloogia arengut juhib majanduslik, mitte säilitusväärtus. Seega ei ole mingit põhjust eeldada, et näiteks paremal turupositsioonil olev tehnoloogia on parim ka säilitamise mõttes. Uue tehnoloogia juurutamisel on tähtis säilitada teatud inertsus. Uus tehnoloogia on sageli mugavam ja kuluefektiivsem ning pakub võimalusi, mida varem ei olnud. Kasutajaskond eelistab tavaliselt uuemat tehnoloogiat. Pidevalt võetakse kasutusele tark- ja riistvara täiustatud versioone (upgrade). Tegemist on tark- või riistvaratoote uuema, parema ja turvalisema versiooniga, mis on mõeldud sama toote vanema versiooni asendamiseks. Tavaliselt lisatakse uuele tootele täiendavaid funktsionaalsusi ja suurendatakse kasutusmugavust. Säilitamise seisukohast on tegemist küllaltki problemaatilise tegevusega, kuna säilitatavad digiobjektid on loodud omal ajal kasutusel olnud versiooniga ja kasutavad selle funktsionaalsusi. Samuti võib tekkida probleeme vana tarkvara- või riistvaraversiooniga loodud digiobjekti kasutamisel uue versiooniga. Teadmiste puudumine riist- ja tarkvara kasutamise kohta Teadmised selle kohta, kuidas vastavat riist- ja tarkvarasüsteemi kasutada, on digiobjektide säilitamiseks ja kasutamiseks hädavajalikud. Need teadmised kipuvad kaduma koos vastavate süsteemide kadumise ja teisenemisega. Teadmiste ja oskuste säilitamine on 39 40 DIGIINFO SÄILITAMISE PROBLEEMID kõige keerulisem ettevõtmine. Osaliseks lahenduseks on siin dokumenteerimine, kuid väga palju on sellist teavet, mida on raske kirja panna (nn tacit knowledge). Andmekandjate vananemine ja hävimine Digiinfo tuleb säilitada andmekandjatel, need ei ole aga igavesed ega veakindlad. Nagu kõik füüsilised objektid, vananevad ja lagunevad ka digiinfo kandjad. Andmekandjate kahjustused kipuvad sageli olema sellised, et need muutuvad mitteloetavaks, st me ei saa sealt enam andmeid kätte. Infokadu on seega järsk ja katastroofiline. Kõige erinevamatel põhjustel tekivad andmekandjatel juhuslikud bitivead (bit rot). Tehnoloogia väljakujundamisel ja andmekandjate valmistamisel ei ole üldjuhul arvestatud nende säilitamise vajadust. Väga sageli osutuvad uued materjalid vanadest vähempüsivamateks. DIGIINFO SÄILITAMISE PROBLEEMID Loodusõnnetused ja avariid Loodusõnnetusi ja kõikvõimalikke avariisid, näiteks tulekahjud, veeavariid jms, esineb ühest küljest küll suhteliselt harva, kuid samas põhjustavad nad väga ulatuslikke kahjustusi, mille likvideerimine nõuab suuri kulutusi. Juhul kui andmeid ei varundata nõuetekohaselt, võib õnnetuste ja avariidega kaasneda andmete kadu. Välised ründed Väline rünne info kahjustamiseks, muutmiseks või hävitamiseks või delikaatse info omandamiseks. Säilitatavate digiobjektide autentsuse probleem Riistvara avariid ja häired tarkvara töös Nagu kõik seadmed, lähevad ka arvutid ja välismäluseadmed aeg-ajalt rikki või lõpetavad üldse töö. Seadmetel on erinev eluiga ja seda tasub nende hankimisel silmas pidada. Digiarhiivi loomisel tuleks kasutada vastupidavamaid ja kauem kestvaid seadmeid. Samas on selge, et ükskõik kui vastupidavad seadmed ei taga info säilimist. Täiesti ilma vigadeta töötavat tarkvara ei ole olemas. Tarkvara töös esinevad häired võivad kahjustada süsteemis säilitatavat teavet. Failide sisu, andmete riknemine Andmetega töötamisel (nt failide kopeerimisel) tekkinud häired võivad esile kutsuda ka ebasoovitavaid muutusi andmete sisus ja failide struktuuris. Kuna digiinfot saab märksa kergemini kopeerida ja muuta, võivad lihtsalt tekkida tahtmatud ja tahtlikud vead, mis moonutavad teavet. Kas kasutaja saab olla kindel, et andmeid ei ole muudetud? Andmeobjektiga toimunud muutusi puudutavate metaandmete puudumine või hävimine seab kahtluse alla objekti autentsuse. Majanduslikud ja organisatsioonilised häired Infot säilitavate organisatsioonide suutmatus tagada info säilimist, kas finantsraskuste või pankroti tõttu või mõnel muul põhjusel. Organisatsiooni eesmärgid võivad muutuda ja info säilitamine ei pruugi enam olla oluline. Oluliste teabekogude korral peab olema süsteem nende üleandmiseks teistesse asutustesse. Õiguslikud probleemid Vead info asukohtade identifikaatorites Info võib olla kättesaamatu valede aadresside, muudetud kataloogiasukohtade vms tõttu. Samuti võivad osa digiobjektist moodustada lingid internetis asuvatele ressurssidele. Näiteks võib tuua veebilinkide muutumise – igaüks on kogenud seda, et mingi veebilink enam ei tööta. See võib olla tõsine probleem, kui lingid teabele moodustavad kogu olulise osa. Metaandmete puudulikkus Metaandmete puudumine või lünklikkus ei võimalda andmeid andmekandjatelt kätte saada või neid mõista. Näiteks on säilinud Exceli tabel arvudega, kuid puudub info selle kohta, milline teave on esitatud veergudes ja ridades. Andmed on küll füüsiliselt alles ja neid saab ka lugeda, aga midagi mõistetavat sealt kätte ei saa. Ebatäielikku metaandmestikku peetakse digiteabe säilitamise üheks suurimaks probleemiks, mis takistab andmete kasutamist tulevikus. Inimlikud eksimused ja hooletus Inimlikud eksimused ja vead võivad tekitada parandamatuid kahjustusi ja soovimatuid muutusi säilitatavas teabes. Väga suur osa isiklikust digiteabest ei säili seetõttu, et inimesed ei hooli selle säilitamisest. Kui paberdokumendid või fotod säilivad ka aastakümneid pööningul kastides seistes, siis digiteave vajab pidevat hoolt ja tähelepanu. Teabe säilitamist võivad takistada või isegi võimatuks muuta õiguslikud küsimused info omanduse ümber. Näiteks on suuresti illegaalne arvutimängude säilitamine, kuna mängud kuuluvad eraettevõtetele ning teistel institutsioonidel ja isikutel puudub õigus neid muuta ja töödelda, mis on aga säilitamiseks paratamatult vajalik (Pinchbeck 2014: 10). Kommertstoodete koodi lahtimuukimine (extraction) loetakse tarkvarapiraatluseks, samas ei ole mängude emulaatorite loomine ilma selleta võimalik (ROM hacking). Keeruliseks võib osutuda ka digiobjektide autoriõiguste omajate identifitseerimine. 41 42 DIGIINFO SÄILITAMISE PROBLEEMID DIGIINFO SÄILITAMISE PROBLEEMID Näitekast 4.1. Digisäilitamisega seotud probleemid Ülesanne. Millised ülalkirjeldatud probleemid esinesid järgmiste juhtumite korral? BBC Domesday projekt (BBC Domesday Project) Normandia hertsog William vallutas aastal 1066 Inglismaa. 19 aastat hiljem, siis juba Inglismaa kuninga William I Vallutajana, andis ta käsu korraldada oma uutes valdustes maarevisjon. Selleks läkitati kuninga erivolinikud üheaegselt kõigisse seitsmesse piirkonda, et kuulata üle krahvkondade esindajad ja hinnata ära riigi rikkused. Revisjoniga seadustati omandi ülevõtmine normannide poolt. Kirja pandi kõik maaomanikud, nende omand ja see, kuidas maad kasutati, kõik inimesed orjadest ülikuteni, kõik tähelepanuväärsed rajatised, sealhulgas linnad, kirikud ja veskid, ning isegi suuremad koduloomad. Maksustamise eesmärgil hinnati ümber maaomandid ja rendivaldused ühes metsa- ja rohumaadega. Rõhutud inglased võrdsustasid selle suure revisjoni otsustava kohtu ehk viimse kohtupäevaga. Nii hakatigi selle maarevisjoni protokolli kutsuma „Domesday Book“ (viimse kohtupäeva raamat). Domesday Book koosneb kahest ladinakeelsest pärgamendile kirjutatud köitest. Suuremate lehtedega Great Domesday’s on 413 lehte; väiksemate lehtedega Little Domesday’s 475 lehte. Raamatute valmistamiseks kulus 900 lambanahka. Tähistamaks „Domesday Book’i“ 900. aastapäeva, algatati BBC Domesday projekt (BBC Domesday Project), mille eesmärk oli luua raamatu täiesti uus ja tänapäevane digitaalne multimeediaversioon. Projektis osalesid Acorn Computers, Philips, Logica ja BBC. Osa kuludest kaeti Euroopa Komisjoni ESPRIT programmist. Multimeediaprogramm loodi aastatel 1984–1986. Tegemist oli Ühendkuningriigi uue „revisjoniga“, kus peamiselt koolilapsed kirjeldasid oma kodukoha geograafiat, ajalugu ja lihtsalt igapäevast elu-olu. Haaratud oli üle miljoni inimese, nendest enamik lapsed rohkem kui 9000 koolist. Kuulutati välja ülemaaline fotovõistlus. Jutustused olid seotud kaartide, fotode, statistiliste andmete, videolõikude ja virtuaalsete jalutuskäikudega. Tekstimaterjali oli 147 819 lehekülge ja fotosid 23 225. Kogu teave säilitati 12tollistel laserplaatidel LV-ROM (LaserVision Read Only Memory) vormingus. Plaadil oli nii analoogkui ka digitaalkujul andmeid. Kujutised, nii fotod kui ka videod, salvestati analoogkujul, üks kujutis igal videoreal. Digitaalse info moodustasid tekstid, statistilised andmed, kaardid ja ka rakendustarkvara. Olulise osa kogu süsteemist moodustas Domesday rakendustarkvara, mis võimaldas navigeerida, infot vaadata ja ristviidata. Laserplaadi kummalegi küljele mahtus 300 MB andmeid. Plaadid valmistati ettevõttes Philips Laservision. Plaatide kasutamiseks oli vajalik Acorn BBC Master tüüpi arvuti, mida oli laiendatud SCSI-kontrolleri ja koprotsessoriga, mis juhtis laserplaadimängijat Philips VP415 Domesday Player (joonis 4.2). Laserplaadimängija oli spetsiaalselt loodud selle projekti tarvis. Arvuti juhtimiseks kasutati klaviatuuri ja juhtkuuli. Tarkvara kirjutati BCPL (Basic Combined Programming Language) programmeerimiskeeles, mis samuti iganes üsna Joonis 4.2. BBC Domesday Book multimeediasüsteem (Regregex 2010) BBC. Domesday Reloaded. http://www.bbc.co.uk/history/domesday The National Archives. Domesday: Britain`s finest treasure http://www.nationalarchives.gov.uk/domesday/ kiiresti, vaatamata sellele, et mõjutas oluliselt C ja Java programmeerimiskeelte arengut. Kuna plaatide lugemiseks vajalik plaadimängija ja arvuti olid väga spetsiifilised ja ka kallid (koos riistvaraga oli hind 5000 naelsterlingit), siis said neist õige pea haruldused. Plaatide kasutamine muutus juba 2000. aastateks pea võimatuks. 2002. aastal hakkasid ajakirjanduses ilmuma artiklid, mis väitsid, et digitaalne info on muutunud kasutuskõlbmatuks juba 15 aastaga, samas kui originaaldokumendid on endiselt kasutatavad. See tõstis digisäilitamise probleemid laiema avalikkuse huviringi. Plaatidel oleva teabe säilitamise ja kasutatavaks tegemise lugu iseloomustab hästi digisäilitamise keerukust. Sellesse on olnud haaratud erinevad asutused ja üksikisikutest entusiastid. 1999. aastal moodustati USA Michigani ja Inglismaa Leedsi ülikooli ühiskonsortsium CAMiLEON (Creative Archiving at Michigan and Leeds: Emulating the Old on the New), mille eesmärk oli emuleerimise rakendamine multimeediateoste säilitamisel. Aastatel 2002–2003 töötati välja emuleerimisel põhinev süsteem, mis emuleeris nii mikroarvutit kui ka videoplaadi lugejat Windowsi keskkonnas. Süsteem tugines „BeebEm“ BBC Micro emulaatorile, mille olid välja töötanud David Gilbert ja Richard Gellman, sellele lisati BBC Domesday kasutamiseks vajalik täiendav tarkvara. Projekti tulemusena oli kolme videoplaadipoole vaatamiseks võimalik kasutada emulaatorit. Siiski ei olnud avalikkusel võimalik emulaatorit kasutada ja projekt lõpetati 2003. aastal. Seega oli projektil vaid teoreetiline tähtsus, kuna demonstreeriti emuleerimise võimalikkust. Programmeerija Adrian Pearce kasutas pöördprojekteerimise meetodit ja lõi selle abil 2004. aastaks versiooni, mis töötas Windows PCl ning oli kasutatav 43 44 DIGIINFO SÄILITAMISE PROBLEEMID Rahvusarhiivi terminali ja interneti kaudu. Internetiversioon võeti maha pärast Pearce’i surma 2008. aastal. 2003. aastal digitaliseeris Andy Finney Rahvusarhiivis säilitatavad originaalteabega Master 1-tollised videolindid ja säilitas info digitaalsena Digital Betacam magnetlindil. Aastatel 2003–2004 digitaliseerisid Simon Guerrero ja Eric Freeman originaalseadmeid kasutades ühel laserplaadil oleva materjali. Arvutusajaloo keskus (The Centre for Computing History) võttis samuti ette analoogse projekti. Kasutati originaalseid plaate, pleierit ja arvutit ning digitaliseeriti plaatidel olev teave. Keskuses on võimalus kasutada ka algset Domesday süsteemi. Rahvuslikus arvutimuuseumis (The National Museum of Computing) on samuti kasutusel kaks töötavat originaalset Domesday süsteemi. 2011. aastal avati internetilehekülg BBC Domesday Reloaded, kuhu on üles laetud suur osa algse Domesday projekti materjalidest. Kasutati originaalsetelt Master-videolintidelt digitaliseeritud materjali. Projekt haarab ka uut infot, mis koguti kasutajatelt 2011. aasta kestel. Rahvuslikku arvutimuuseumisse paigaldati puuteekraaniga arvutisse Domesday Reloaded projekti versioon, mis jääb püsiekspositsiooni kõrvuti originaalse Domesday Projektiga. Tehniliste probleemide kõrval on Domesday projekti materjalide avalikustamise kõige suuremad probleemid seotud aga hoopiski autoriõigustega. Materjalide autoriõigused kuuluvad vabatahtlikele osalejatele (keda on üle miljoni) ja asutustele, lisaks on autoriõigustega kaitstud ka tehnilised seadmed ning tarkvara. Kõige selle tõttu ei saa projekti materjale ilma piiranguteta kasutada enne 2090. aastat ja sedagi juhul, kui autoriõigusi ei pikendata. 2006. aastal avas Inglismaa Rahvusarhiiv internetilehekülje, kus saab tutvuda originaalse „Domesday Book’i“ ja selleaegse Inglismaaga. Allikad McKie, Robin; Thorpe, Vanessa (2002-03-03). “Digital Domesday Book lasts 15 years not 1000”. The Guardian (Guardian Media Group). https://www.theguardian.com/uk/2002/mar/03/research.elearning Domesday. The BBC Domesday Project. http://www.atsf.co.uk/dottext/domesday.html Centre for Computing History. 2011. Museum Helps BBC Domesday Reloaded Project http://www. computinghistory.org.uk/news/14450/Museum-Helps-BBC-Domesday-Reloaded-Project/ http://www.computinghistory.org.uk/news/14450/Museum-Helps-BBC-Domesday-Reloaded-Project/ Saksamaa taasühendamine ja digiinfo Pärast Saksa Demokraatliku Vabariigi (SDV) ja Saksa Föderatiivse Vabariigi taasühendamist Saksamaa Liitvabariigiks 3. oktoobril 1990 ühendati ka mõlema riigi arhiivisüsteemid. Muude probleemide hulgas oli vaja hakata kiiresti tegelema SDV andmearhiividega. Selleks moodustati 1991. aasta augustis masinloetavate arhivaalide osakond, mis hakkas tegelema mõlema riigi masinloetavate dokumentidega. Tehniliste seadmete ja personaliga komplekteerimine kestis 1993. aastani, siis saadi alustada tööd. SDV andmearhiivide olukord oli üsna hull. Mõnel juhul olid andmed kahjustunud või kadunud, andmetega kaasnev dokumentatsioon kas puudus üldse või oli ebatäielik. Elektroonilist infot töödeldi ja säilitati suurarvutitega varustatud spetsiaalsetes arvutuskeskustes. Pärast Saksamaade ühendamist osa arvutuskeskusi suleti ja osa erastati. Erastatud arvutuskeskuste omanikud hakkasid kohe andmeid müüma. Enamik endiste arvutuskeskuste töötajatest olid lahkunud mujale tööle. Polnud harvad DIGIINFO SÄILITAMISE PROBLEEMID juhtumid, kui nad võtsid endaga kaasa ka andmekeskuste dokumentatsiooni. Andmekeskustes 1980. aastate lõpul kasutatud riist- ja tarkvara moodustasid 1970. aastatel läänes kasutatud tarkvara ja arvutite kehvema kvaliteediga koopiad ja analoogid. Näiteks ESER suurarvutid olid IBM suurarvutite koopiad. Andmete salvestamiseks kasutatud 9-realiste magnetlintide (ORWO ja PYRAL) magnetkihi sideained olid ebakvaliteetsed ja kippusid lagunema ning magnetketaste pind oli nii ebaühtlane, et rikkus lugemispäid. Andmekandjate halva kvaliteedi ja ebarahuldavate hoiutingimuste tõttu oli suur hulk andmeid otseses hävimisohus. Lindid oli vaja puhastada ja kiiresti kopeerida. Programmid ja tööfailid säilitati perfolintidel ja -kaartidel ning 5,25- ja 8-tollistel flopiketastel. Teine tõsine probleem oli seotud andmetele konteksti loova dokumentatsiooni puudulikkusega. Riigiarhiivi otsustati vastu võtta digitaalsed arhivaalid, mille kohta oli olemas vähemalt järgmised dokumentatsioon: failide struktuur, andmekogumite arv, andmeväljade väärtused, koodiraamatud, pakkimisalgoritmid, iga lindi sisukirjeldus. Vaatamata sellele üldisele nõudele võeti arhiivi vastu ka selliseid dokumente, mille kohta dokumentatsioon puudus, aga mis olid eriti olulised ja suure infoväärtusega. Selliste andmearhiivide näiteks võib tuua riigi- ja parteitöötajate personaalandmete andmebaasi Kaderdatenspeicher, mis sisaldas 1989. aasta seisuga andmeid 331 980 inimese kohta. Dokumentatsioon andmebaasi kohta peaaegu puudus, kuid sellel oli arusaadavalt väga suur väärtus, muuhulgas ka selle tõttu, et see sisaldas andmeid riigijulgeoleku-, kaitse- ja siseministeeriumi töötajate kohta. Andmebaasi töödeldi assemblerprogrammide abil, algseks operatsioonisüsteemiks oli SVS 7.1 ja riistavaraksriistvaraks ESER suurarvuti, mis oli IBM-seeria 360/370 arvutite analoog. Andmebaasi kogumaht oli ligikaudu 5 gigabaiti. Kuigi andmebaasist oli mitu koopiat, jõudis riigiarhiivi vaid üks täielik koopia. Andmebaasist tehti koopia ning seejärel alustati köitemärgendite8 (volume labels), päiste (headers) ja esimeste andmeblokkide (initial data blocks) identifitseerimisega. Köitemärgendid ja päised olid kergesti loetavad, kuna selgus, et need on algses IBM-vormingus. Seda teavet kasutades sai kindlaks teha, milline info on igal konkreetsel magnetlindil. Edasi aga selgus, et nii päiste kui ka andmeelementide endi juures on kasutatud erinevaid andmetüüpe, samuti varieerusid kirjete pikkused. Puudus teave andmete ja failide struktuuri kohta. Nii näiteks saab kuupäevi esitada erinevalt vormindatuna ja selles andmebaasis oligi kasutatud mitut vormingut. Ilma vormingute täpse kirjelduseta on neid pea võimatu identifitseerida. Seega on dokumentatsiooni olemasolu kriitilise tähtsusega. Isegi juhul, kui andmed on võimalik kätte saada, ei ole ilma dokumentatsioonita võimalik neist aru saada. Failistruktuuride kirjeldused õnnestus koostada teiste elektrooniliste ja paberdokumentide abil. Loodi vastav tarkvara failistruktuuride analüüsimiseks, kuupäevavormingute muutmiseks ja bitijadade dešifreerimiseks. Sai selgeks, et ilma koodiraamatuteta ei ole võimalik andmeid rekonstrueerida. Pakkimisalgoritmide ja muude kodeeringute tuvastamiseks palgati tööle endiseid arhiivitöötajaid, kuna neid ei olnud võimalik mingil moel ilma vahetute teadmisteta interpreteerida. 8 Kõvakettale, flopiajamile, CD-ROM ajamile või muule salvestile omistatav nimi. 45 46 DIGIINFO SÄILITAMISE PROBLEEMID Kogu projektist selgus, et ilma vastava dokumentatsioonita ei ole võimalik andmeid interpreteerida, kusjuures tundmatud olid nii magnetlindivormingud, andmestruktuurid kui ka andmevormingud. Väga palju olulist teavet hoiti andmekeskuste töötajate peades või isiklikes märkmeraamatutes. Siiski õnnestus suur osa andmetest taastada. Allikas Wettengel, M. (1998), ‘German Unification and Electronic Records, The example of the ‘kaderdatenspeicher’, in Higgs, E. (ed), History and Electronic Artefacts (Oxford). 265–276. Apollo 11 originaallindid kuundumisest Apollo 11 oli kosmoselaev, mis viis esimese inimese Kuu pinnale. Ta sooritas Apollo programmi viienda mehitatud lennu, sealhulgas kolmanda mehitatud lennu Kuu orbiidile. Apollo 11 meeskonda kuulusid komandör Neil Armstrong, juhtimismooduli piloot Michael Collins ja kuumooduli piloot Edwin Aldrin. Lend toimus 16.–24. juulil 1969. Inimese astumist Kuu pinnale sai jälgida televisiooni otseülekandest. Voolupiirangute ja ülekandesignaali piiratud ribalaiuse tõttu kasutati Apollo 11-l aeglase laotusega videosüsteemi (slow-scan video), mille signaalid tuli tavalises televisioonis edastamiseks konverteerida. Süsteem edastas 10 kaadrit sekundis, lahutusvõimega 320 rida. Televisioonistandard oli 30 kaadrit sekundis ja 525 rida. Tegemist oli kitsaribalise televisioonisignaaliga, mille ribalaius oli 500 kHz. Tolleaegse kommertstelevisiooni ribalaius oli 4,5 MHz. Kuult saadetud signaalid võtsid vastu kolm Maal asuvat jälgimisjaama. Need salvestasid originaalsignaali, mis sisaldas video-, audio-, telemeetria- ja biomeditsiinilisi andmeid. Andmed salvestati 1-tollistele telemeetrilistele magnetlintidele, seejärel konverteeriti USA televisioonistandardile vastavale kujule ning saadeti satelliitide ja maaliinide kaudu lennujuhtimiskeskusesse Houstonis, kust see edastati omakorda televisioonijaamadele. Seejuures kutsus signaalide konverteerimine esile paratamatu kvaliteedilanguse, millele aitas kaasa ka signaalide pikk edastusteekond. Seda tüüpi televisioonikaamerat edaspidi enam ei kasutatud, kuna selgus, et tegelikult on võimalik Kuult edastada ka tavalist televisioonisignaali. Telemeetrilised magnetlindid keriti 14-tollistele ketastele ja asetati metallist toosidesse, mis omakorda pandi pappkarpidesse. Igaüks kolmest vastuvõtujaamast kasutas Apollo 11 info salvestamiseks 15 1-tollist magnetlindiketast. Seejärel toimetati need Goddardi lennujuhtimiskeskusesse (Goddard Space Flight Center), kus kontrolliti lintide sisu. Umbes kuu aega hiljem leiti, et lindid ei ole Apollo programmile vajalikud, ja need saadeti USA rahvusarhiivi hoidlasse (Suitland, Md.). Tänapäevast tehnoloogiat kasutades oleks võimalik need originaallindid digitaliseerida ja teha algne video kättesaadavaks ilma varasema kvaliteedikaota. Grupp entusiaste otsustaski seda teha, mis ei osutunud aga sugugi nii lihtsaks, kui alguses võis arvata. Nimelt olid originaallindid kadunud! Grupi liikmed intervjueerisid NASA töötajaid, otsisid üles ja töötasid läbi linte puudutava dokumentatsiooni, memod, teleksiteated ja andmebaasid. See ei olnud lihtne, kuna vanemaid materjale ei olnud digitaliseeritud, samuti ei DIGIINFO SÄILITAMISE PROBLEEMID olnud kõiki dokumentide üleandmise protseduure ja dokumente üksikasjaliselt dokumenteeritud. Nad külastasid kõikvõimalikke arhiive, kus lindid võisid asuda. Selgus järgmine lugu. 1969. aasta lõpul saatis NASA videolindid rahvusarhiivi, kokku anti üle 2614 karpi Apollo missiooni puudutavaid magnetlinte. Apollo 11 lindid olid tõenäoliselt nende hulgas. Aastatel 1975–1979 võttis Goddardi keskus tagasi kõik karbid peale kahe, mis jäid arhiivi. Nendes kahes karbis olid Apollo 9 lendu puudutavad telemeetrilised andmed, seega kuulusid tagastatud lintide hulka ilmselt ka Apollo 11 lindid. Originaallintide otsinguid alustati 2005. aastal ja 2009. aastal tuli tõdeda, et need ongi jäädavalt kadunud. Võib-olla kasutati neid teistkordselt andmete salvestamiseks, sest 1980. aastate alguses oli NASAl tõsine puudus sobivatest magnetlintidest. Nimelt hakati 1970. aastate keskel magnetlintide sideainena kasutama uut sünteetilist ühendit. Selgus aga, et see ei ole püsiv ja laguneb juba mõne aastaga, põhjustades nn kleepuva lindi sündroomi. Kuna uut, kvaliteedinõuetele vastavat linti ei olnud piisavalt saada, alustas NASA vanade lintide uuskasutamist. Kas ka Apollo linte selleks kasutati, ei õnnestunud kindlaks teha. Otsingud ei olnud siiski täiesti tulemusteta, nende käigus otsiti üles ja digitaliseeriti kogu lintide üleviimist puudutav dokumentatsioon. Samuti leiti senistest parema kvaliteediga televisioonivormingus lindid Apollo 11 maandumisest. Tänapäevast tehnoloogiat kasutades õnnestus kujutise kvaliteeti digitaliseerimisega veelgi parandada. Originaallintidest, sealhulgas ka Apollo 11 lendu puudutavatest videotest tehtud koopiad asuvad Houstonis NASA Johnson Space Center’s Informational Resources Directorate’i videohoidlas. Allikad NASA. The Apollo 11 Telemetry Data Recordings: A Final Report. www.nasa.gov/pdf/398311main_ Apollo_11_Report.pdf Nell Greenfieldboyce. 2009. Houston, We Erased The Apollo 11 Tapes. http://www.npr. org/2009/07/16/106637066/houston-we-erased-the-apollo-11-tapes NASA. 2006. Update: Apollo 11 Tapes. http://www.nasa.gov/mission_pages/apollo/apollo_tapes.html Apollo 11 missing tapes. https://en.wikipedia.org/wiki/Apollo_11_missing_tapes 47 48 DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME? DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME? 5. DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME? harutada. Paberil esitatud info on enam seotud meediumiga. Paberil teksti sisu ja struktuur säilivad sama kaua, kuni kestab see paber. Et sõnumit dekodeerida ja sellest aru saada, on loomulikult vajalikud ka piisav kontekstuaalne info ja taustateadmised. Kui meil on tekst keeles, mida me ei mõista, siis ei ole võimalik sõnumist aru saada. Mõnel juhul on meil isegi raske taibata, kas tegemist on üldse keelega. Digitaalsete infoobjektide korral on seos info kandja (meediumi) ja info enda vahel märksa nõrgem. Digitaalsel kujul esitatud info sõltub tervest kodeerimis- ja dekodeerimisetappide ahelast ning inimesele esitatav kuju luuakse selle taasesitamise hetkel. Lugenud läbi selle peatüki, Digitaalseid süsteeme võidakse kirjeldada erinevalt, olenevalt selle kirjelduse eesmärgist. Kirjeldusviisist sõltub ka see, mida mõeldakse digitaalse teabe või digiobjektidena. Kõige laiemalt saab digitaalses süsteemis eristada riistvara, tarkvara ja kodeeritud kujul esitatud teavet. Seejuures on tarkvara ise samuti digitaalne teave. Täpsemaks kirjeldamiseks eristatakse digiinfo erinevaid kirjeldustasandeid. Näiteks Kenneth Thioboedeau (2002) eristab kolme klassi objekte (füüsilised, loogilised ja kontseptuaalsed objektid), OAIS infomudelis eristatakse viit tasandit (meedia, voo, struktuuri, objekti ja rakenduste tasand) (vt joonis 5.1). Vastavalt vajadusele võidakse eristada ka enamat arvu kirjeldustasandeid. • oskad eristada digitaalsena sündinud ja digitaliseeritud teavet; • tead, mida tähistatakse terminiga „digitaalne objekt“; • suudad kirjeldada digitaalse objekti mitmetasandilist olemust; • tead, mis on andmetüüp; • tead, mis on digiobjekti esitused; • oskad tuua näiteid digiobjektide klassifitseerimise kohta. Digitaalse info säilitamiseks on vaja määratleda säilitamise objekt. Eelmistes peatükkides nägime, et digitaalse info korral on meil tegemist sellise infosüsteemiga, mis kasutab digitaalset signaalitöötlust. Info on aga alati esitatud mingil füüsilisel kujul, kas objekti või protsessina. Millised on siis digitaalse säilitamise korral säilitatava objekti või protsessi tunnused ja omadused? Tegemist on väga olulise küsimusega, kuna vastavalt säilitatavava objekti definitsioonile valitakse ka säilitamise strateegia ja meetodid. Järgnevalt vaatamegi lähemalt, mis on digitaalne objekt ja mille poolest see erineb n-ö klassikalistest objektidest. RAKENDUSKIHT (rakendusprogrammid) Objektikihi liidese teade Objektikiht • Andmeobjektid • Konteinerobjektid • Andmeid kirjeldavad objektid 5.1. Digitaalne objekt Digitaalse säilitamise objekti tähistamiseks on olemas hulk erinevaid termineid, mille kasutamine sõltub suuresti kontekstist. Kõige üldisemateks terminiteks on näiteks „digitaalsed ressursid“ (digital resources), „digitaalsed materjalid“ (digital materials) ja „digitaalaines“ (digital records), millega harilikult tähistatakse digiteavet sõltumata selle sisust ja vormist. Iseloomulik on see, et teave on omajatele ja kasutajatele oluline, kuna sellel on kindlad väärtused. Võidakse eristada digitaalteavet, mis tekib või saadakse kohe digitaalsel kujul, seda nimetatakse digitaalsena sündinud teabeks (born digital), ja teavet, mis saadakse objektide digitaliseerimisel – digiteeritud infot (digitized). Digitaalselt sündinud teave on näiteks digitaalse fotoaparaadiga pildistatud fotod, digiteeritud teave aga näiteks paberalbumist skannitud foto. Säilitamise aspektist on see erinevus oluline, kuna digiteeritud teabe korral on olemas n-ö klassikaline objekt, millest valmistatakse digitaalne objekt. Kui kõrvuti digitaalse objektiga säilitatakse edaspidi ka algset objekti, siis on sellest alati võimalik teha uus digitaalne objekt. Samuti võib tehnoloogia paremaks muutumisel teha objektist sobivamate omadustega digiobjekti. Nagu nägime kommunikatsioonisüsteeme käsitledes, esineb info alati füüsiliste objektidena, mis võivad olla vägagi erinevad. Näiteks paberile trükitud sõna ja sama sõna arvuti mälus – nende vahel on päris suur erinevus, mida järgnevalt püüamegi lahti Nimedega andmestruktuurid Nimega varustatud bitivoog Nimedega andmestruktuurid Struktuurikiht • Lihtsad andmetüübid • Järjendid ja massiivid • Kirjed • Nimedega andmeNimega varustatud struktuurid bitivoog Nimega varustatud bitivoog Vookiht • Piiritletud baidivood MEEDIAKIHT (kettad, lindid ja arvutivõrk) Joonis 5.1. OAIS infomudel (CCSDS 2012: 131) Digitaalsete signaalide töötlus ja salvestamine toimub mingile füüsilisele kandjale kantud märkide või signaalide abil. Seda tasandit võib nimetada füüsiliseks tasandiks, elektrooniliseks tasandiks, meediatasandiks või füüsiliste objektide tasandiks. Milliseid signaale kasutatakse ja mil viisil märke füüsilistele kandjatele kantakse, sõltub meediumist. See on arusaadavalt erinev näiteks magnetketta ja CD korral. Märkide kandmise viis võib aga erinev olla ka ühe meediumi korral. Näiteks magnetkandjale saab märke 49 50 DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME? kanda erineva tihedusega, erineva orientatsiooniga magnetlindi pikkuse/laiuse suhtes jne. Tuleb panna tähele, et objektile kantud füüsilised märgid ei ole veel bitid! Tegemist on lihtsalt mingite märkidega mingil füüsilisel objektil või füüsilises keskkonnas. Sobiv riistvara suudab neid signaale lugeda ja muudab need bitijadadeks. Ilma vastava interpreteerimiseta ei moodusta näiteks magnetkandjale jäädvustatud magnetvälja erineva suunaga piirkonnad arvutisüsteemi teistel tasanditel kasutatavaid bitijadasid. Kui vaadata kompaktplaadi pinda piisavalt võimsa mikroskoobiga, siis võib seal näha erinevate peegeldusomadustega piirkondi (joonis 5.2). Nende piirkondade erinevuste kaudu salvestataksegi plaadile loogilise taseme bitid. Bittide salvestamisel kasutatakse algoritmi, mille järgi alustatakse ja lõpetatakse plaadi pigmendikihi muutmine laseriga kokkuleppelise biti oleku 1 korral. See tähendab, et plaadil nähtav „laik“ või auk (pit) ei vasta otseselt ühele bitile ja selle olekule. Vajalik on teave kasutatud algoritmide kohta, mis selgitab, kuidas andmed on salvestatud ja kuidas neid lugeda. Antud näite korral peab olema teada, et laigu serva avastamisel lisatakse bitijadasse bitt väärtusega 1, kõikidel muudel juhtudel on väärtusteks 0. DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME? TÄISARV „21“ BITIJADA: MÄRK „U“ HELI 0101110000000001010100000000001000001111011110 REAALARV „1.3125“ KUJUTIS LOOGILINE BITTRASTER „ei, ei, ei, jah“ ei, jah, ei, jah Joonis 5.3. Bitijada võimalikud tähendused (Rothenberg 1999a: 7) Joonis 5.2. Märgid kompaktplaadi pinnal ja nende seos bittidega Füüsiline objekt muutub sellise interpreteerimise tulemusena loogiliseks objektiks. Füüsilise objekti tasand on täiesti sõltumatu bittide tähendusest, bittide interpreteerimise viis ei ole määratletud. Arvutisüsteem ei tee mingit vahet, kas tegemist on teksti, pildi või mõne muu digitaalse objektiga. Bitijadasid tuleb edasiseks kasutamiseks töödelda. Näiteks võib vajalikuks osutuda farssbittide (bit-stuffing), veaparanduskoodide (error correction codes), loogiliste aadresside (logical addressing), ploki suuruste (block sizes) vms eemaldamine. Seda taset nimetatakse vootasemeks (stream layer). Kõrgemad tasemed saavad pöörduda selle taseme bitijadade poole, mis esinevad andmeplokkidena (data block), vastava nime vahendusel. Nimi tähendab siinkohal lihtsalt kindlat unikaalset identifikaatorit, mis viitab konkreetsele andmeplokile. Sellisteks nimedeks on näiteks faili nimi või arvutitevaheliste teadete korral teate identifikaatorid (message identifiers). Selle taseme funktsionaalsust pakuvad tänapäevastes arvutites operatsioonisüsteemi failisüsteemid. Nimega bitijadad muudetakse järgmises kihis, mida tuntakse struktuurse kihi (structure layer) nime all, primitiivsete andmetüüpide adresseeritavateks struktuurideks. Struktuurses kihis identifitseeritakse bitijadad primitiivsete andmetüüpide ja nende kogumitena, mida arvutisüsteem suudab ära tunda ja esitada. Bittide järjestuse ehk bitijada käsitlemiseks peab arvuti teadma selle jada struktuuri. Kui struktuur ei ole teada, on bitijada nii riist- kui ka tarkvara jaoks tähenduseta. Bitijada tähendus võib olla mitmesugune. Näiteks võib bitijada 1000010 tähistada arvu (66), tähte (B), masinkäsku vms (joonis 5.3). Kuidas toimub bittide grupeerimine ja millised tähendused neile gruppidele antakse, sõltub nii arvuti riistvarast kui ka programmeerimiskeelest ja kompilaatorist. Bitid on tavaliselt grupeeritud ning need grupid kodeerivad ja esitavad kindlaid andmeväärtusi (data values). Loogilise objekti äratundmine rakendustarkvara poolt põhineb andmetüüpidel. Andmetüüp on näiteks ASCII-kodeering. Tegemist on lihtsa (primitive) andmetüübiga, aga andmetüüp võib olla ka liitne (composite). Tavaliselt ongi loogilised objektid liittüüpi. Andmetüüp on programmeerimiskeeles teatud tüüpi andmete klassifikatsioon või kategooria. Levinuimad lihtandmetüübid on järgmised: · täisarv (integer); · ujukomaarv (float); · märk (character); · sõne (string); · tõeväärtus (boolean). Liitsed ehk komplekssed andmetüübid on näiteks jada, massiiv, kirje, fail. Andmetüüp määrab muutuja salvestamiseks vajaliku mälupesa suuruse ja sinna salvestatud andmete tähenduse. Struktuurse kihi funktsionaalsuse tagavad vastavas programmeerimiskeeles kirjutatud kompilaatorid ja interpretaatorid. Objektikiht (object layer) muudab andmetüübid rakenduskihile arusaadavateks andmeobjektideks – tekstideks, tabeliteks, kujutisteks, kaartideks jne. Määratakse kindlaks, milliseid objekti tunnuseid kasutajad näevad ja milliseid operatsioone nad nende andmeobjektidega sooritada saavad. Näiteks tekstifail koosneb ASCII-koodist ja erikoodidest, mis määravad ära kirjatüübi, stiili jms. Loogilised objektid võivad olla liitobjektid, st et nad võivad sisaldada teisi loogilisi objekte. Loogilist objekti võidakse säilitada ühes füüsilises objektis, näiteks ühte tekstidokumenti ühes füüsilises failis. Tavaliselt see aga nii ei ole. Suur tekstidokument jagatakse alamdokumentideks ja eraldi objektiks, mis määrab ära selle, kuidas alamdokumendid tuleb kokku panna. Alamdokumente säilitatakse eraldi füüsiliste failidena. Kui tekstidokument kasutab väliseid fondikogusid, on need täiendavad digitaalsed objektid samuti vajalikud dokumendi esitamiseks. 51 52 DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME? Rakenduskiht (application layer) muudab loogilised andmeobjektid kontseptuaalseteks objektideks, mida tunneb ära ja mõistab inimene. Kontseptuaalne vorm on see, kuidas kasutaja kogeb infoobjekti, näiteks raamatut, lepingut, kaarti või fotot. Infosüsteemides võib kontseptuaalne objekt olla ka selline, mille tunneb ära vastav rakendus – tegemist ei pea tingimata olema inimesega. Kontseptuaalse objekti omadused on sellised, mis on olulised reaalses maailmas. Rakenduskihi funktsionaalsuse tagavad rakendusprogrammid ehk lõppkasutajaprogrammid, millega töötavad lõppkasutajad – andmebaasiprogrammid (MS Access), tekstitöötlusprogrammid (MS Word), tabelarvutusprogrammid (MS Excel) jt. Kontseptuaalse objekti sisu ja struktuur sisalduvad loogilises objektis või objektides. Sama kontseptuaalne sisu võib aga olla esitatud erinevate digitaalsete kodeeringute kujul. Kontseptuaalne struktuur võib olulisel määral erineda loogilise objekti struktuurist. Dokumendi sisu võib olla digitaalselt kodeeritud näiteks lehekülje kujutisena (pildifail) või tekstitöötlusdokumendina (näiteks DOC-fail). Meil võib olla sama kontseptuaalse objekti kaks erinevat loogilist esitust. Kuidas me saame öelda, kas loogiline objekt on õige dokumendi esitus? See on nii juhul, kui dokument, mis tekib loogilise objekti (digitaalse faili) töötlemisel vastava tarkvaraga, on identne originaaliga. Kui eesmärk on säilitada originaaldokumendi sisu, struktuur ja visuaalne väljanägemine, siis sobivad mõlemad loogilised objektid (Microsoft Word, Adobe PDF), lisaks veel ju ka näiteks LibreOffice, WordPad või Notepad, HTML ja dokumendi piltkujutis. Vaatame lähemalt mingit tekstifaili, näiteks Microsoft Wordiga tekitatud DOC-faili. Kõige elementaarsemal tasemel koosneb see fail binaarsetest ühikutest (bitid, 0 ja 1), mis näiteks arvuti kõvakettal on esitatud kui magnetkihi positiivse või negatiivse polaarsusega piirkonnad. Magnetkettad on jagatud tuhandeteks klastriteks (clusters). Konkreetne fail on jagatud osadeks, mis paiknevad eri klastrites. Kõvakettakontroller tugineb faili asukohatabelile (file allocation table), kus on kirjas faili iga osa asukoht klastrites. Faili osadest pannakse kokku lineaarne bittide jada. Bitijada liigub läbi kõvaketta draiveri tarkvara (input/output messaging subsystem) ja failisüsteemi draiveri tarkvara. Operatsioonisüsteem saadab bitijada edasi rakendustarkvarasse, mis on üles laetud ja töötab muutmälus (RAM, Random Access Memory). Rakendustarkvara peab ära tundma info bitijada alguses (header information), et ta suudaks bitijada dekodeerida ning esitada õiget kujundust ja vormingut kasutades. Samuti peab see ära tundma märkide kodeeringu (näiteks ASCII või Unicode UTF-8), mida kasutatakse teksti muutmisel loetavateks sümboliteks. Lõpuks saadab rakendustarkvara kuvamissignaalid operatsioonisüsteemi tarkvarasse ja sealt kuvari draiveri tarkvarasse. Sealt liiguvad signaalid läbi emaplaadi graafikakaardile, mis saadab signaalid arvutimonitorile, kus elektrilised signaalid lülitavad sisse vastavad pikslid. Nende kaudu esitatakse tekst meile nähtaval kujul. Dokument, mida me näeme, esineb Microsoft Wordi dokumendina ainult loogilisel tasandil. Kõik need füüsilised tasandid, kus digitaalne informatsioon asub ja kus seda töödeldakse, on vältimatult vajalikud, et anda infoobjektile struktuur, kuid need ei ole ise selle infoobjekti struktuuriks. Digitaalse teabe esitluskuju ei ole seega jäigalt fikseeritud, vaid see tekib iga kord tarkvarade abil bittide konkreetse tõlgendamise kaudu. Digiobjektidel on kaks olulise eripära, ms on säilitamise seisukohalt olulised. Esiteks võib ühel kontseptuaalsel objektil olla mitu digitaalset kodeeringut (loogilist objekti), mis kõik säilitavad kontseptuaalse objekti olulised tunnused. Digitaalse objekti säilitamiseks peab teadma seoseid füüsiliste, loogiliste ja kontseptuaalsete objektide vahel. Harva on see suhe üks-ühene st et ühele füüsilisele objektile vastab üks loogiline ja üks kontseptuaalne objekt. Teiseks peab digitaalse objekti säilitamiseks olema võimalik DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME? identifitseerida ja taastada kõik selle digitaalsed komponendid. Objekti digitaalsed komponendid on füüsilised ja loogilised objektid, mis on vajalikud kontseptuaalse objekti esitamiseks. Need ei pea sugugi piirduma objektidega, mis esitavad dokumendi sisu. Need võivad olla ka objektid, mis sisaldavad infot dokumendi struktuuri ja esituse kohta. Näiteks dokumendi välimuse säilitamiseks on vajalikud fonditeegid ja HTML-lehtede jaoks stiililehed. Kui me kasutame andmebaasi, siis on vajalikud aruannete ja vormide spetsifikatsioonid. Ilma nendeta me ei tea, millise aruande kujul vastavad andmed esitati. Meil võib andmebaasi sisu olemas olla erinevates tabelites, mida säilitatakse erinevates loogilistes ja füüsilistes objektides, aga pole võimalik konstrueerida kontseptuaalset objekti. Digitaalse objekti säilitamine nõuab ka seda, et me töötleme seda õigesti. Füüsilisel kujul bitijadana säilitatava dokumendi kasutamiseks on vaja see interpreteerida loogilise objektina ja esitada seejärel kontseptuaalse objektina. Digitaalne säilitamine ei seisne ainult füüsiliste objektide säilitamises, vaid tuleb säilitada võimet neid objekte esitada. Seega on digitaalne säilitamise protsess on lahutamatult seotud nende objektide kasutamisega. Mitte kuidagi ei ole võimalik tõestada, et digitaalne objekt on säilinud, enne kui see on esitatud kas inimesele või mingile arvutisüsteemile kasutataval kujul. See, et kusagil mingi kõvaketta või CD peal on kogum mingeid füüsilisi märke, ei tähenda digiobjekti seisukohalt just palju, kuigi ilma füüsiliste objektide säilitamiseta ei saa olla olemas ka loogilisi ja kontseptuaalseid objekte. Kas digitaalse objekti säilitamiseks on vajalik säilitada füüsilised ja loogilised komponendid ja nendevahelised suhted ilma igasuguste muutusteta? Tegelikult mitte. Säilitamiseks võib isegi olla vajalik muuta füüsilise ja loogilise objekti iseloomulikke tunnuseid. Näiteks võime me tekstidokumendi oluliste omaduste säilitamiseks muuta selle PDF-failiks, seda tehes muudame me aga nii füüsilist kui ka loogilist objekti. 5.2. Digiobjekti esitused Kontseptuaalse objekti eraldamine füüsilisest ja loogilisest objektist tähendab ka seda, et mitu füüsilist objekti võivad esitada ühte kontseptuaalset objekti. Digifotoaparaadiga tehtud pilti säilitatakse RAW-failivormingus. Kasutamiseks tehakse RAW-failist koopia JPG-failivormingus. Need failivormingud on füüsiliste ja loogiliste objektidena erinevad, kuid kujutavad ühte ja sedasama kontseptuaalset objekti. Tegemist on erinevate andmeobjektidega, mida mõlemat saab kasutada, et luua täiesti ühesugust kontseptuaalset infoobjekti. Seega on tegemist ühe infoobjekti manifestatsioonide (manifestations) ehk esitustega (representations). Väga oluline on eristada digiobjekti erinevaid esitusi eri versioonidest. Kui esitus on digiobjekti tehnilise muudatuse tulemus, siis versioonid on sisuliselt erinevad ja kujutavad endast uusi kontseptuaalseid objekte. Kui me RAW-failivormingus olevat pilti kuidagi muudame, näiteks pöörame seda ja seejärel teeme muudetud failist koopia JPG-vormingus, on tegemist erinevate versioonidega, kuna kujutist ennast on muudetud. Digiobjekti erinevate manifestatsioonide ja versioonide haldamine toimub metaandmete abil, mis kirjeldavad nii objekte kui ka protsesse, mille abil need on saadud. 53 54 DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME? DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME? Digiobjektide erinevus mitte-digitaalsetest artefaktidest Esitatavad ja mitte-esitatavad objektid Digiobjektid erinevad muudest objektidest järgmiste oluliste tunnuste poolest: Esitatavad (rendered) on sellised digitaalsed objektid, mida arvuti esitab inimesele ning mida inimene seejärel suudab interpreteerida neid vaadates-kuulates, varsti tõenäoliselt ka kombates ja haistes. Selliste esitatavate objektide hulka kuulub enamik igapäevaselt kasutatavaid failitüüpe – tekstidokumendid, tabelarvutusfailid, pildid, filmid jms. Leidub aga ka terve rida digitaalseid objekte, millest arusaamiseks ei piisa lihtsalt nende esitamisest, vaid on vajalik täiendav teave. Mitte sugugi kõikide digiobjektide korral ei piisa nende kuvamisest arvutiekraanile. Mitte-esitatava objekti (non-rendered) väga lihtsaks näiteks võib tuua joonisel 5.4 esitatud tabeli. · iga kontseptuaalne infoobjekt võib esineda ühe või mitme erineva andmeobjekti kujul, millest omakorda võib olla tehtud mitu identset koopiat; · sisu (infoobjekt) on eristatud kandjast (andmeobjekt); · infoobjekt tuletatakse andmeobjektist, kasutades vastavat esitusinfot (riist- ja tarkvara); · infoobjekt esineb andmeobjekti mitme esitusena; · esitused esinevad paljude füüsiliste koopiate kujul; · autentsus on seotud infoobjekti ja selle esitustega, mitte füüsiliste koopiatega; · võimalik on füüsilise taseme digiobjektide vigadeta kopeerimine; · digiobjekte on võimalik lihtsalt muuta. 5.3. Digiobjektide klassifitseerimine Digiobjekte võib, sõltuvalt eesmärgist, klassifitseerida erinevalt. Toome järgnevalt mõned näited sellest, kuidas digiobjekte on võimalik jaotada (Giaretta 2011: 31–39). Püüdmata anda ammendavat tüpoloogiat, on meie eesmärk näidata, kui erinevad võivad digiobjektid olla. Selle erinevuse tõttu tuleb nende säilitamiseks kasutada ka erinevaid meetodeid ja vahendeid. Ühel digitaalsel objektil võib loomulikult olla mitu tunnust üheaegselt. Lihtobjektid ja liit- ehk komposiitobjektid Klassifitseerimisviis tugineb sellele, kas digiobjekti käsitletakse ühe tervikuna või lihtsamate osade kollektsioonina, liitobjektina (composite object). Komposiit- ehk kompleksobjekti näiteks võib tuua FITS9-faili, mis koosneb näiteks mitmest kujutisest ja tabelist. Liitobjekti võib ette kujutada konteinerina, milles asetsevad teised liht- või ka liitobjektid. Säilitamise seisukohalt on see eristus oluline, kuna komposiitobjekte võidakse säilitamise lihtsustamiseks jagada osadeks, mida säilitatakse eraldi. Teisalt võib säilitamisega probleeme tekkida siis, kui liitobjekti käsitletakse säilitusprotsessis lihtobjektina. Eristus liht- ja liitobjektideks ei ole kindlasti absoluutne, vaid sõltub suuresti käsitlusviisist. Wordi tekstidokumenti vaadeldakse harilikult lihtobjektina, kuigi tegelikult on tegemist keeruka struktuuriga objektiga, mis sisaldab infot lisaks sisule ka stiilide, teksti kujunduse jms kohta. Proovige näiteks DOCX-vorming ZIPiks ümber nimetada ja avada ning te veendute selle komposiitsuses. Harilikult pole selle silmaspidamine aga oluline, kuna tarkvara käsitleb Wordi faili tervikuna. Kui aga Wordi dokument sisaldab arvutustabeleid või jooniseid, siis neid töödeldakse eraldi. Sellisel juhul on mõistlik Wordi faili käsitleda liitobjektina. Näiteks toodud FITS-fail on terviklik objekt, kuid tavaliselt käsitletakse seda jällegi osade kaupa – vaadatakse ja vajadusel töödeldakse joonist 1, seejärel joonist 2 jne. Üks failivorming võimaldab harilikult erinevaid võimalusi, seega digiobjekti määratlemisel liht- või liitobjektiks tuleb lähtuda sellest konkreetsest objektist, mitte ainult objekti vormingust. 9 FITS ehk Flexible Image Transport System ehk paindlik pilditranspordisüsteem on astronoomias piltide ja andmete esitamise standard. 1 2 X 4,2 7,5 Y 1,8 8,1 Joonis 5.4. Lihtne tabel Arvuti suudab seda tabelit esitada, olgu see siis tekstivormingus (tabel1.txt) või näiteks Exceli tabelina (tabel1.xls). Samas ei ole sellest tabelist võimalik sisuliselt aru saada enne, kui on teada, mida tähistavad veergude ja ridade pealkirjad ning mis mõõtühikutes on tabelis antud arvud, mis võivad tähistada mingite objektide mõõtmeid, mingite näitajate mõõtmistulemusi jne. Mitte-esitatavate digiobjektide korral on vajalik nende täiendav töötlemine, et muuta nad inimesele mõistetavaks. See võib lihtsamal juhul tähendada tabelitele vajaliku info lisamist, aga ka näiteks tabelis olevate arvude visualiseerimist või seostamist geograafiliste koordinaatidega ja kuvamist kaardile. Mitte-esitatavate digiobjektide hulka kuuluvad kõik programmifailid. Nende visuaalsel vaatamisel ei saa enamik inimesi aru, mida see info endast kujutab. Programmi kasutamiseks on tingimata vajalik see käivitada. Staatilised ja dünaamilised objektid Staatilised digitaalsed objektid on sellised, mille bitijada ei muutu, näiteks pildistatud foto, kinnitatud dokument või väljaantud raamatu PDF-fail. Dünaamilised on aga sellised digitaalsed objektid, mis muutuvad – näiteks pidevalt täiendatav andmebaas või veebilehekülg. Igal konkreetsel ajahetkel on dünaamiline digiobjekt tegelikult staatiline. Sellist hetkelist väljavõtet süsteemist saab säilitada. Näiteks tehakse andmebaasist väljavõtted (snapshots) iga päeva lõpus. Säilitades kõik väljavõtted, tekib meil ettekujutus dünaamilisest objektist. Tasub aga meelde jätta, et sellisel juhul ei ole meil tegemist dünaamilise objekti enda säilitamisega. Dünaamilise digitaalse objektina võib käsitleda ka mingit suuremat hulka digiobjekte, näiteks arhiivi ennast. Arhiiv sisaldab suurt hulka digiobjekte, mis ise võivad olla staatilised, arhiiv tervikuna on aga dünaamiline, kuna sinna tuleb pidevalt juurde uusi objekte. Aktiivsed ja passiivsed objektid Passiivne on digitaalne objekt, millega midagi tehakse. Näiteks on passiivne tekstidokument. Tekstitöötlusprogrammi abil saame me seda faili töödelda. Aktiivne on selline digitaalne objekt, mis ise teeb midagi. Tekstitöötlustarkvara ise on aktiivne digitaalne objekt ja võib samuti nõuda säilitamist. Piir aktiivsete ja passiivsete digitaalsete objektide vahel ei pruugi olla väga selge. Nii näiteks võib Access-andmebaasi käsitleda 55 56 DIGITAALNE SÄILITAMINE – MIDA ME TÄPSEMALT SÄILITAME? passiivse objektina, millega Access-tarkvara midagi teeb. Access-andmebaas võib aga ise sisaldada tarkvara (näiteks makrosid), mis muudab jällegi andmebaasi enda aktiivseks objektiks. Digitaalsed- ja hübriidobjektid (hybrid digital objects) Digitaalsed objektid on sellised, mida defineerib täielikult nende digitaalne komponent. Tekstifail on digitaalne, selle loomiseks ja kasutamiseks on küll vaja füüsilist seadet ja inimest, kuid objekti enda määratleb täielikult selle digitaalne sisu. Hübriidobjektid on sellised, milles kombineeruvad digitaalsed ja füüsilised komponendid, moodustades lahutamatu terviku. Näideteks võib tuua arheoloogiliste objektidega seotud 3D-mudelid ja visualiseeringud, aga ka mitmesugused digitaalsed kunstiobjektid, mis seovad samal ajal ka füüsilisi objekte või nähtuseid (The Preservation of Complex Objects 2012). Hübriidobjektidena võib käsitleda ka arvutimänge ja virtuaalseid maailmu (Second Life, World of Warcraft), milles osalevad ja mida seega kaasloovad miljonid inimesed paljude aastate kestel. Selliseid digiobjekte iseloomustab väga suur andmemaht, kiire muutuvus ja erinevat tüüpi digiinfo sisaldus. Lisaks moodustavad kasutajad selliste digiobjektide äärmiselt olulise komponendi. Second Life’i sisu ei moodusta mitte ainult loodud maailm ja seal toimuv, vaid ka selle maailma kasutajad ise. Seega on vaja salvestada ka kasutajate käitumist, teha antroploogilisi uuringuid ning seostada need tark- ja riistvaraga üheks tervikuks. Digitaalsed ja mittedigitaalsed objektid on lahutamatult seotud. Juba arvuti ise koosneb digitaalsetest objektidest (tarkvara ja andmed) ning neid töötlevatest mittedigitaalsetest osadest (riistvara). MIDA TÄHENDAB MÕISTE “DIGITAALNE SÄILITAMINE”? 6. MIDA TÄHENDAB MÕISTE “DIGITAALNE SÄILITAMINE”? Lugenud läbi selle peatüki, • tead, kuidas on määratletud digitaalset säilitamist; • tead, kes moodustavad määratletud kasutajaskonna; Digitaalse materjali säilitamise probleem kerkis kõigepealt teabeasutuste, ennekõike arhiivide ja raamatukogude tasandil. Nüüdseks on selgeks saanud, et digitaalse säilitamise sihtgruppe on väga palju, alates riiklikest institutsioonidest ja lõpetades eraisikutega. Eri institutsioonid tegelevad erineva digimaterjali säilitamisega, samuti on säilitamisel erinevad eesmärgid. Ja nii on ka digisäilitamise probleemid loomulikult suuremal või vähemal määral erinevad. Kui näiteks arhiivid keskenduvad dokumentide autentsuse säilitamisele, siis internetiarhiivid peavad säilitama mahukaid hüperlingitud failikogumeid. Terminile „digitaalne säilitamine“ on pakutud hulk erinevaid määratlusi. Toome järgnevalt selle kohta mõned näited. Digitaalse säilitamise koalitsiooni (Digital Preservation Coalition) määratlus on järgmine (Digital preservation handbook 2016: Glossary): digitaalne säilitamine kujutab endast juhitud tegevusi, mis on hädavajalikud tagamaks pidevat juurdepääsu digitaalsetele materjalidele nii kaua, kui see on vajalik. Eristatakse erineva kestusega säilitamist: · pikaajaline säilitamine (long-term preservation) – kestev juurdepääs digitaalsetele materjalidele või vähemalt neis sisalduvale teabele lõpmatu aja kestel; · keskpikk säilitamine (medium-term preservation) – kestev juurdepääs digitaalsetele materjalidele sõltumata tehnoloogia muutustest kindla aja kestel, kuid mitte lõpmatult. · lühiajaline säilitamine (short-term preservation) – juurdepääs digitaalsetele materjalidele kindla aja jooksul, mil neid tõenäoliselt kasutatakse, kuid mis ei ulatu kaugemale lähemast tulevikust, või kuni need tehnoloogia arengu tõttu kasutamatuteks muutuvad. OAIS mudelis määratletakse digitaalne säilitamine järgmiselt (The Consultative Committee 2012: 1–13): see on info hoidmine sõltumatult arusaadaval kujul määratletud kogukonna jaoks koos tõenditega, mis kinnitavad selle autentsust pika aja kestel. „Sõltumatult arusaadav kuju“ tähendab, et informatsioon on piisavalt täielik, et määratletud kasutajaskonnal oleks võimalik seda interpreteerida, mõista ja kasutada ilma vajaduseta tugineda kitsalt kättesaadavatele spetsiaalsetele teadmistele, sealhulgas ka inimestele. „Pika aja kestel“ tähendab ajaperioodi, mis on küllalt pikk selleks, et tekiksid probleemid, mis on seotud muutuva tehnoloogiaga, sealhulgas uute andmekandjate ja andmevormingutega, ning määratletud kasutajaskonna muutuste mõjuga digihoidlas säilitatavale teabele. See ajavahemik ulatub täpsemalt määratlemata tulevikku. Rõhutatakse vajadust tulla toime kiirete ja järskude tehnoloogiamuutustega, mis võivad tegelikult toimuda vägagi lühikese ajaga. Nagu on näha sellest definitsioonist, ei tähenda säilitamine mingi objekti, olgu see siis esitatud analoogsel või digitaalsel kujul, lihtsat allesolekut või pelgalt olemasolu. 57 58 MIDA TÄHENDAB MÕISTE “DIGITAALNE SÄILITAMINE”? MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS? Oluline on inimeste võime seda objekti interpreteerida, kasutada ja mõista. Tegemist on väga tähtsa aspektiga, mille tagamiseks ei piisa sellest, et näiteks mingit dokumenti või fotot esitatakse inimesele nähtaval kujul. Lisaks peab olema võimalik tuvastada ka selle dokumendi või foto tähendus. Informatsiooni tähenduse mõistmiseks võib olla ja enamikul juhtudel ongi vajalik täiendava selgitava teabe olemasolu. See võib puudutada näiteks dokumendi loomise aega, kohta ja loojat või siis näiteks fotol kujutatud isiku nime ning pildistamise aega ja kohta. Säilitamise muudab keerukaks asjaolu, et see peab tagama inforessursside kasutamise tulevikus. Millised on aga täpselt tulevikus esitatavad nõuded infole ja millist infot üldse tulevikus vajatakse? Nendele küsimustele on võimatu täpselt vastata, saab teha vaid võimalikult põhjendatud ja fikseeritud oletusi ning otsuseid. 7. MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS? Määratletud kasutajaskond (designated community) kujutab endast identifitseeritavat gruppi võimalikke kasutajaid, kes peavad olema võimelised mõistma mingit kindlat infokogumit. Määratletud kasutajaskond võib koosneda mitmest eri kasutajagrupist. Määratletud kasutajaskonna defineerib digiarhiiv ise ja see definitsioon võib loomulikult aja jooksul muutuda. Määratletud kasutajaskonnal on olemas teadmised ja oskused digiarhiivis säilitatava teabe mõistmiseks ja kasutamiseks. Määratletud kasutajaskonna teadmusbaas määrab ära selle, millist teavet tuleb digiarhiivis lisaks sisuobjektidele veel säilitada. Selleks on vajalik määratletud kasutajaskonna selge ja piiritletud defineerimine, mis lubaks teha põhjendatud oletusi nende teadmusbaasi ulatuse kohta. • mõistad info esitust OAIS mudelis; Määratletud kasutajaskonna kontseptsioon tähendab seda, et infot säilitav institutsioon määratleb, kellele ta seda teavet säilitab. Kasutajaskonna määratlemine teeb võimalikuks info säilitamise edukuse hindamise. Kui arhiiv teatab, et ta säilitab teavet laiale avalikkusele, siis saab seda väidet testida, vaadates, kas inimesed saavad säilitatavat teavet kasutada ning kas nad suudavad seda interpreteerida, kasutada ja mõista. Ka identset teavet säilitavad arhiivid võivad oma määratletud kasutajaskonna defineerida erinevalt, näiteks võib see erinev olla teadusraamatukogul ja rahvaraamatukogul. Digiinfo säilitamise korral võib see tähendada erinevaid metaandmeid, mida koos teabega selle interpreteerimise, kasutamise ja mõistmise tagamiseks säilitada tuleb. Ameerika Raamatukogude Assotsiatsiooni määratlus digisäilitamise kohta on järgmine: digitaalne säilitamine kombineerib poliitikaid, strateegiaid ja tegevusi, et tagada juurdepääs info uuendamise teel saadud ning digitaalsena sündinud sisule, sõltumata andmekandjate vananemisest ja tehnoloogia muutustest. Digitaalse säilitamise eesmärk on autentse sisu täpne esitamine läbi aja (Definitions of digital preservation 2007). Kokkuvõtlikult võib öelda, et digitaalse säilitamise peamine ülesanne on tagada arhiveeritud teabe · säilivus (arhiveeritud teave on füüsiliselt olemas); · kasutatavus (arhiveeritud teavet on võimalik leida ja taasesitada); · mõistetavus (arhiveeritud teavet saab esitada sihtrühmale arusaadaval kujul). Lugenud läbi selle peatüki, • mõistad, mis on digihoidla; • oskad välja tuua digihoidla funktsioonid; • tead, mis on OAIS raammudel ja mida see kirjeldab; • tead, mis on infopaketid ja milleks neid kasutatakse; • tead, millised nõuded kehtivad OAIS mudeliga vastavuses olevale digihoidlale. Kus digitaalseid objekte säilitada? Lühike vastus sellele küsimusele kõlaks nii: digihoidlas, digiarhiivis või depositooriumis. Mida see aga täpsemalt tähendab? Tegemist on ideega, mida võib realiseerida erineval viisil ja eri tasanditel. Ühe inimese digiobjektide jaoks võib olla väikesemahuline ja lihtne hoidla, rahvusarhiivil aga kompleksne, keerukas ja suuremahuline hoidla, nagu muuseumi või raamatukogugi korral. 7.1. Digihoidla kontseptsioon Digihoidla on inimeste, protsesside ja tehnoloogia kombinatsioon, mille eesmärk on koguda, säilitada ja kättesaadavaks teha digitaalseid objekte. Digihoidla põhifunktsioonid on täpselt samasugused nagu kõikidel teistel mäluasutustel: · info kogumine; · info haldamine ja säilitamine; · infole juurdepääsu tagamine. 1982. aastal asutati kosmose andmesüsteemide nõuandekomitee (Consultative Committee for Space Data Systems, CCSDS), mis ühendas kosmoseuuringute keskuseid, kes olid huvitatud kosmoseuuringute jaoks standardite loomisest. See organisatsioon töötas välja rahvusvahelise avatud arhiiviinfosüsteemi mudeli (Open Archival information System Model, OAIS) (CCSDS 2012). Mudeli esimene versioon avaldati 1999. ja teine 2001. aastal. 2002. aastal avaldatud kolmas versioon sai 2003. aastal ametlikult ISO standardiks. OAIS mudel kirjeldab digitaalset arhiivi ja selle teostamiseks vajalikke vahendeid viisil, mis ei sõltu konkreetsetest organisatsioonilisest ega tehnilisest lahendusest. Tegemist on formaalse, vägagi detailse ja põhjaliku mudeliga. Standard täidab mitut eesmärki, kuid selle peamine ülesanne on pakkuda kooskõlalist mõistete ja terminite süsteemi, mis oleks aluseks digitaalse säilitamise kavandamisele. OAIS raammudelis nimetatakse arhiiviks inimestest ja süsteemidest koosnevat organisatsiooni, mille eesmärk on info säilitamine ja selle kasutatavaks tegemine määratletud kasutajaskonnale ning mis vastab selles standardis määratletud nõuetele. Arhiiv võib olla mingi ka suurema organisatsiooni osa. Digihoidla on määratud info pikaajaliseks säilitamiseks. Pikaajaline tähendab selles kontekstis selliseid ajavahemikke, mille jooksul tuleb tegemist teha tehnoloogia, näiteks andmekandjate ja failivormingute vananemisega või kasutajate kogukonna 59 60 MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS? MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS? muutustega. Raammudel keskendub digitaalsel kujul oleva info säilitamisele. Digitaalne info võib seejuures olla nii säilitatav sisu ise, kui ka digitaalseid või füüsilisi objekte kirjeldav teave. Mudel määratleb arhiivi ja selles säilitatava informatsiooni struktuuri, samuti esitab see üldised nõuded digiarhiivi töövoogudele ning funktsioonidele. Raammudel ei määratle konkreetset arhiivi rakendust ega tehnilisi üksikasju, kuid kehtestab OAIS arhiivi miinimumnõuded. Tegemist on kontseptuaalse raamistikuga, mis rõhutab süsteemset lähenemist digisäilitamisele, käsitledes infosüsteemide arhitektuuri, standardeid, metaandmeid ja, tööriistu kõikide oluliste protsesside läbiviimiseks. Vastavalt OAIS mudelile säilitavad digitaalsed repositooriumid või hoidlad digiobjekte, võimaldavad neile ligipääsu, monitoorivad digiobjektidega toimuvaid muudatusi ja säilitavad digiobjektide autentsust. 7.2. OAIS keskkond LOOJAD OAIS KASUTAJAD HALDAJAD Joonis 7.1. OAIS keskkond OAIS mudelis kirjeldatud digihoidla keskkonda on kujutatud joonisel 7.1. Väljapoole digihoidlat jäävad info loojad, kasutajad ja haldajad. Info loojad on need isikud või kliendisüsteemid, kes varustavad digihoidlat säilitamist vajava infoga. Tasub märkida, et OAIS ei reguleeri otseselt sisendinfopaketi (SIP) loomist ega ülesehitust, seda käsitlevad info looja ja arhiivi seose spetsifikatsioon (Producer-Archive interface specification, PAIS) ja info looja ja arhiivi seose metoodika abstraktne standard (Producer-Archive Interface Methodology Abstract Standard, PAIMAS). Haldajad määratlevad üldise poliitika ja arhiivi koha suuremas organisatsioonis, nad ei tegele arhiivi igapäevase juhtimisega. Kasutajad on isikud või kliendisüsteemid, kes soovivad arhiivist saada seal säilitatavat teavet. Kasutajate erilise grupi moodustavad määratletud lõppkasutajad. Tegemist on kasutajatega, kelle jaoks teavet arhiivis säilitatakse ja kes peavad olema võimelised säilitatavat teavet mõistma. Kuna määratletud kasutajaskond ei pruugi olla ajas püsiv, siis tuleb arvestada ka sellega, et säilitatava teabe kirjeldusi tuleb muutuste korral uuendada ja täiendada, et teave oleks määratletud lõppkasutajatele alati arusaadav. 7.3. Info esitus OAIS mudelis OAIS mudeli keskne idee on tõdemus, et teabe säilitamiseks ei piisa ainult digiobjekti enda säilitamisest, vaid lisaks on vaja säilitada täiendavat teavet, nn esitusinfot (representation information) mis võimaldab kasutajal seda digiobjekti mõista. Esitusinfo iseenesest ei ole omane ainult digitaalsetele infosüsteemidele. Näiteks juhul, kui me ei oska ladina keelt väga hästi, vajame me ladinakeelse teksti mõistmiseks ladina-eesti sõnaraamatut ja ladina keele grammatikat. Üldsegi oluline ei ole see, kas ladinakeelne tekst, mida me loeme, on raamatus või arvutiekraanil. Digitaalsetes infosüsteemides on esitusinfo olemasolu teabe mõistetavuse tagamiseks aga vältimatult vajalik. Infoobjekti loogilise mudeli aluseks ongi idee, et informatsioon koosneb andmete ja kirjeldusinfo kombinatsioonist: infoobjekt (information object) koosneb andmeobjektist (data object), mis on kas füüsiline või digitaalne, ja esitusinfost, mis võimaldab andmete täielikku interpreteerimist tähenduslikuks informatsiooniks (joonis 7.2). Selline mudel kehtib igasuguse digihoidlas oleva info kohta. tõlgendatakse kasutades ANDMEOBJEKT ESITUSINFOT saadakse INFOOBJEKT Joonis 7.2. Andmeobjekti interpreteeritakse selle esitusinfo abil ja saadakse infoobjekt. Andmeobjekt võib olla kas füüsiline objekt koos esitlusinfoga või siis võib tegemist olla digitaalse objektiga ehk ühe või mitme bitijärjestusega koos esitusinfoga, mis annab sellele bitijadale tähenduse. Arvuti mälus või mõnel välisel andmekandjal on info esitatud bittidena, tegemist on andmetega. Kui need andmed kujutavad endast näiteks ASCII-kodeeringus teksti, on nende mõistmiseks vajalik ASCII kooditabeli olemasolu. Kooditabelit ei kasuta muidugi mitte inimene otseselt, vaid see asub andmeid kasutavas arvutisüsteemis. Aga üldjuhul ei tule see kooditabel ka dokumendiga iseenesest kaasa. Infoobjekt koosneb andmeobjektist, mis iseenesest võib olla nii füüsiline ese kui ka digiobjekt, ja digitaalsel või analoogsel kujul olevast esitusinfost, mis võimaldab teabe sellest andmeobjektist arusaadaval kujul kätte saada. 7.4. Esitusinfo OAIS mudelis Esitusinfo annab digitaalse infoobjekti bittidele tähenduse, seades bitid vastavusse andmetüüpidega (märk, number jne), ning näitab nende kõrgema taseme tähendusi. Näiteks kui mõõdetakse kindlates geograafilistes punktides temperatuuri, siis peab esitusinfost selguma, et tabelis olevad kolm arvu kujutavad endast geograafilisi koordinaate ja temperatuuri, mis on mõõdetud Celsiuse kraadides. Ilma sellise teabeta on need kolm arvu võimaliku kasutaja jaoks ilma tähenduseta. Digitaalse infoobjekti tähenduse säilitamiseks on kindlasti vajalik selle objekti esitusinfo säilitamine. Selle väite selgitamiseks toome näite PDF-vormingus faili kohta. PDF-vormingus faili oskab kasutada igaüks, kes teab, millega on tegemist, ehk iga kasutaja, kelle teadmusbaas sisaldab teavet PDF-failide kohta. Tänapäeval kuulub nende hulka ilmselt enamik arvutikasutajatest. Kui kasutaja, kes ei tea, mis on PDF-fail, satub internetist teavet otsides sellisele failile, siis enamikul juhul on kas dokumendis endas või seda levitaval veebilehel kirjas, et seda tüüpi failide lugemiseks on vajalik PDF-vaatur, mida on võimalik internetist tasuta alla laadida. Kui selline teave puudub, leiab infot PDF-vormingu kohta hõlpsasti internetist, näiteks Vikipeediast.10 Samas tuleb arvestada sellega, et mitmed programmid võimaldavad luua PDF/A vormingus faile, aga kui neid faile validaatoriga kontrollida, siis tuleb välja, et osa neist siiski ei vasta standardile, st standardit on mingil põhjusel pisut erinevalt tõlgendatud, ja see on digitaalse informatsiooni säilitamise seisukohast äärmiselt ohtlik. Kaugemas tulevikus ei pruugigi PDF-vormingus failide kasutamine olla lihtne. Oletame, et mingil põhjusel kaob selline failivorming kasutusest, näiteks asendatakse 10 Vt: PDF. Wikipedia. http://en.wikipedia.org/wiki/Portable_Document_Format 61 62 MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS? MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS? lihtsama ja mugavama vorminguga. Kui kasutaja teadmusbaas ei sisalda teavet PDFfaili kohta ja seda pole ka väga lihtne hankida, vajab ta vastavat esitusinfot. Selle hulka kuulub kindlasti PDF-failivormingu standard (PDF Reference 2006), mida ei ole ilmselt mõttekas säilitada PDF-failina. Kõige lihtsam on see välja printida ja paberdokumendina säilitada. Paberdokumendi säilitamise ja kasutamise kohta on teave olemas ja seda ei ole vaja esitusinfo hulka lisada. Digitaalsel kujul võiks kasutada lihtsat tekstivormingut, näiteks ASCII tekstifaili. Esitusinfo hulka kuulub sellisel juhul ka selle vormingu kirjeldus ja kasutamiseks vajalik tarkvara. Tekstifaile kasutada võimaldavaid tekstiredaktoreid on erinevaid, osa neist töötavad mingil kindlal operatsioonisüsteemil, näiteks Notepad Windowsi platvormil või TextEdit MacOs operatsioonisüsteemil. Paljud tekstiredaktorid, nagu näiteks Vim, Geany, Alphatk jt, töötavad erinevate operatsioonisüsteemidega. Kui on olemas tekstivormingu kirjeldus, siis saab sellele programmeerida vastava redaktori. Kui otsustatakse säilitada mõni olemasolevatest tekstiredaktoritest, tuleb esitusinfos säilitada ka nende kirjeldused ning vastavate operatsioonisüsteemide ja riistvara kirjeldus. Alternatiivseks võimaluseks PDF-tarkvara kasutamisele või vastava tarkvara väljatöötamisele spetsifikatsioonidele tuginedes on PDF-faili enda analüüsimine ja andmete kättesaamine. Sellise strateegia korral on vajalik dokumendi andmete kirjeldus mingis andmete kirjeldamise keeles (data description language). Esitusinfo peab sisaldama vastava keele spetsifikatsiooni ning vajalik on tarkvara, mis võimaldab säilitatud PDF-faile analüüsida. Tarkvaral omakorda on jällegi dokumentatsioon, mis tuleb samuti säilitada. Seega kokkuvõtteks võib tõdeda, et: · kõik infoobjektid koosnevad andmeobjektist ja esitusinfost (joonis 7.3); · andmeobjekt võib olla nii füüsiline ese (paberileht, raamat, foto) kui ka digiobjekt (näiteks fail); · digiobjekt koosneb ühest või mitmest bitist; · andmeobjekti interpreteerimiseks kasutatakse esitusinfot; · esitusinfo enda interpreteerimiseks kasutakse täiendavat esitusinfot. INFOOBJEKT tõlgendatakse kasutades ANDMEOBJEKT FÜÜSILINE OBJEKT tõlgendatakse kasutades DIGITAALNE OBJEKT BITT Joonis 7.3. Infoobjekt OAIS mudelis ESITUSINFOT Olukorra muudab keerukaks esitusinfo rekursiivne iseloom. Esitusinfo koosneb samuti andmetest ja nende mõistmiseks vajalikust esitusinfost. See tähendab, et esitusinfo mõistmiseks võib olla vaja täiendavat esitusinfot, moodustub esitusinfoobjektide võrgustik ehk esitusvõrgustik (representation network). Minimaalselt vajaliku esitusinfo määratlemine eeldab, et on olemas ettekujutus määratletud lõppkasutajate teadmusbaasist. Määratletud lõppkasutajad koos teadmusbaasiga ei ole staatilised, seega võib mingi aja möödudes tekkida vajadus esitusinfot täiendada. Esitusinfo ise on samuti infoobjekt ning võib esineda nii füüsilisel kujul (näiteks paberdokumendina) kui ka digitaalsena. Kui esitusinfo on digitaalne, siis on vajalik täiendav esitusinfo, mis aitaks mõista esmase esitusinfo bittide tähendust. Sellele viitab enesele suunatud nool infoobjekti skeemil (joonis 7.3, interpreteeritakse kasutades). OAISi määratluse kohaselt on esitusinfoobjektide võrgustik esitusinfo kogum, mis täielikult kirjeldab andmeobjekti tähendust. Digitaalsel kujul esitatud esitusinfo nõuab ise täiendavat esitusinfot, mis tagaks selle mõistetavuse pika aja kestel. Näiteks kirjeldab standard ISO 9660 teksti kui ASCII-kodeeringule vastavat. Kuidas ASCII-kodeeringut rakendatakse, seda ei täpsustata. Seega moodustab osa standardi 9660 esitusvõrgustikust ASCII standard, mis on vajalik selle täielikuks mõistmiseks. On väidetud, et esitusinfoobjektide võrgustik lõpeb siis, kui jõutakse mingil teisel kujul esitatud teabeni, näiteks trükitud standardi, raamatu või juhendini. Sellisel juhul loome me uuesti seose mittedigitaalse teabega ja see paneb piiri esitusinfoobjektide rekursiivsele võrgustikule (Giaretta 2011: 20). Põhimõtteliselt kestab selline rekursiivne viitamine kuni füüsilisel kujul esineva teabeni, mis on määratletud kasutajaskonnale arusaadav. Mitte nii range lähenemise korral öeldakse, et esitusinfot on piisavalt, kui määratletud kasutajaskond, tuginedes oma teadmusbaasile, saab selle abil andmeobjekti kasutada. Näiteks ASCII-kodeeringus esitusinfo nõuab täiendavat esitusinfot ASCIIkodeeringu kohta. Kui see esitusinfo kujutab endast paberkandjal ASCII-standardit, siis rohkem esitusinfot vaja ei ole. Kui see standard on aga esitatud näiteks PDF-failina, siis on vajalik ka täiendav esitusinfo PDF-standardi kohta, mis võib näiteks olla paberkandjal. PDF-failide kasutamiseks on aga vajalik vastav tarkvara, see võidakse PDF-standardile tuginedes uuesti kirjutada või siis säilitatakse vastav olemasolev tarkvara, näiteks Acrobat Reader. Kui eelistame viimast varianti, on vaja tegelda ka selle tarkvara säilitamisega. Tänapäeva määratletud kasutajaskonnale on PDF ilmselt vägagi tuntud failivorming ja selle kasutamist võimaldav tarkvara kättesaadav, kuid see ei pruugi olla samamoodi näiteks 50 aasta pärast. Vajaliku esitusinfo hulk sõltub otseselt digiobjektide kasutajatest ehk määratletud kasutajaskonnast ja selle teadmusbaasist. Kasutajaskonna teadmusbaas on pidevas muutumises, sõltudes tehnoloogia arengust, kasutajatele ligipääsetavastest vahenditest, nende vajadustest, mugavusest jms. Teavet, mis on määratletud kasutajaskonnal olemas ja millele ta vabalt ligi pääseb, ei ole vaja esitusinfos täielikult fikseerida. Näiteks ei ole tänapäeval PDF-failina säilitatava dokumendi esitusinfos vajalik märkida midagi peale selle, et see dokument on PDF-vormingus. Võib veel lisada lingi Acrobat Readeri allalaadimiseks. Teadmine, kuidas kasutada PDF-faile on tänapäeval üldlevinud. Samas pikemas perspektiivis ei pruugi see sugugi nii jätkuda. Määratletud kasutajaskonnad võivad loomulikult olla väga laiaulatuslikud ja erinevad. Ajalooarhiivi või raamatukogu kasutajateks on erinevad inimgrupid, kellel on ka väga erinevad teadmised ja oskused digiandmete kasutamise ja tõlgendamise osas. Esitusinfo koosneb seega suuresti erinevatest standarditest. Oluline on otsustada, milliseid neist on võimalik ja vajalik konkreetses digiarhiivis säilitada ja millistele saab viidata. 63 64 MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS? MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS? 7.5. Esitusinfo tüübid OAIS mudelis 7.6. Infoülekanded OAIS mudelis Esitusinfo jagatakse struktuurseks, semantiliseks ja muuks infoks (joonis 7.4). Struktuuriesitusinfo käsitleb info vormingut, semantiline on seotud ontoloogiate ja andmesõnastikega ning muu info alla võib panna kõikvõimalikku muud olulist teavet. Info esitamine loojate poolt digihoidlasse ja selle kasutamine kasutajate poolt toimub diskreetsete infoülekannetena (transmission). Nende infoülekannete käigus tervikuna edastatavat teavet määratletakse infopaketina (information package). Pakett tähendab seda, et erinevad digitaalsed objektid seotakse kokku. Sisuinfo koosneb andmeobjektist ja esitusinfost, mis peavad olema kontseptuaalselt seotud. See sidusus tagataksegi infopakettide abil. Infopakett on kontseptuaalne konteiner (conceptual container), mis sisaldab kahte tüüpi informatsiooni – sisuinfot (content information) ja säilituskirjelduse infot (preservation description information, PDI). Sisuinfo ja säilituskirjelduse info on kapseldatud ja identifitseeritav paketiinfot (packaging information) kasutades (joonis 7.5). Infokogum on leitav kirjeldusinfo (descriptive information) abil. tõlgendatakse kasutades ESITUSINFO SÄILITUSKIRJELDUSE INFO SISUINFO STRUKTUURIINFO lisab tähenduse SEMANTILINE INFO MUU ESITUSINFO Joonis 7.4. Esitusinfo objekt OAIS mudelis PAKETIINFO PAKETT 1 Struktuuriinfo (structure information) on seotud bittide vastavusseseadmisega andmetüüpidega ja andmetüüpidele kõrgema taseme tähenduste andmisega. Need struktuurid identifitseeritakse nimega või suhtelise asukohaga bitijärjestuses. Struktuuriinfole viidatakse sageli kui digiobjekti vormingule. Struktuuriinfost tavaliselt ei piisa andmeobjektist arusaamiseks. Näiteks kui digitaalne objekt koosneb kirjamärkidest ja see on esitusinfos kirja pandud, on täiendavalt vaja teada, millises keeles see tekst on. See täiendav teave on semantiline info (semantic information). Semantiline info annab tähenduse kõikidele struktuuriinfo elementidele, operatsioonidele, mida võib iga andmetüübiga sooritada, ja nendevahelistele seostele. Lisaks struktuuri- ja semantilisele infole võib esitusinfo sisaldada väga erilaadilist teavet. Sisu andmeobjektist arusaamiseks võib vaja minna tarkvara, algoritme, krüpteeringuid jne. Selline esitusinfo grupeeritakse muu esitusinfo (other representation information) alla. Kaks spetsiifilist esitusinfo tüüpi on esitusinfot esitav tarkvara (representation rendering software, RRS) ja rakendustarkvara. RRS võimaldab esitada esitusinfot arusaadaval kujul. Kui meil on tegemist ASCII-standardit kirjeldava dokumendiga, mida säilitakse PDF-failina, siis selle faili kasutamiseks vajalik tarkvara kujutabki endast RRSi. AS kujutab endast tarkvara, mis esitab infoobjekti kogu sisu või ainult osa sellest inimestele või tehnilistele süsteemidele mõistetaval kujul. See tarkvara võib pakkuda ka võimalusi infoobjekti töötlemiseks. Tüüpiliseks näiteks on tekstitöötlustarkvara. Digihoidla ülesandeks ei ole tingimata sellise tarkvara säilitamine ja kasutatavana hoidmine. Väga sageli on tegemist kommertstarkvaraga, millega tegelevad vastavad ettevõtted. Kui on aga tegemist mingi spetsiifilise tarkvaraga, mis on teatud tüüpi infoobjektide esitamiseks hädavajalik, siis võib digihoidla tegeleda ka selle säilitamisega. AS, mida kasutatakse digiobjekti esitamiseks, ei asenda esitusinfot selle digiobjekti kohta. Probleem on selles, et AS lähtekoodist võib olla raske vajalikku esitusinfot eraldada, kuna see on seal koos mitmesuguste töötlus- ja esitusalgoritmidega, samuti ei pruugi AS lähtekood sisaldada täielikku esitusinfot. KIRJELDUSINFO PAKETT 1 KOHTA Joonis 7.5. Infopakett OAIS mudelis Infopakett võib olla, kuid ei pea olema üks fail. Tegemist on loogilise konstruktsiooniga, kus erinevad infoobjektid on seotud. See sidusus tagatakse paketiinfo vahendusel. Paketiinfost on näha, kas pakett moodustub ühest failist või failide kogumist või on tegemist näiteks kogumi baitidega. Vaatame järgnevalt infopaketti kuuluvat teavet. Sisuinfo on see primaarne info, mille säilitamine on eesmärgiks. Sisuinfo koosneb füüsilisest või digitaalsest sisuandmeobjektist (content data object) ja sellega seotud esitusinfost, mis on vajalik sisuandmeobjekti mõistetavaks tegemiseks määratletud lõppkasutajatele. Säilituskirjelduse info (preservation description information, PDI) on seotud konkreetse sisuinfoga ja selle eesmärk on tagada sisuinfo säilivus. Säilituskirjelduse info võimaldab sisuinfot täpselt identifitseerida ja aitab mõista selle loomise konteksti. PDI keskendub sisuinfo varasema ja praeguse seisu kirjeldamisele, tagades selle identifitseeritavuse ja selle, et keegi ei ole autoriseerimatult sisu muutnud. Tegemist on sisuinfot kirjeldavate metaandmetega. PDI jaguneb viide tüüpi: päritoluteave, kontekstiteave, viited, püsivusteave ja juurdepääsuõigused. PDI, nagu igasugune muu säilitatav digiinfo, vajab vastavat esitusinfot, mis tagab selle mõistetavuse ja kasutatavuse. Päritoluteave ehk provenients (provenance information) on info, mis dokumenteerib sisuinfo ajaloo. See kirjeldab sisuinfo päritolu või selle allikat ning kõikvõimalikke pärastisi muutusi ja töötlusi, aga ka seda, kes on info säilitamisega tegelenud ja selle 65 66 MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS? autentsuse eest vastutanud. See võimaldab jälgida kõiki selle infoga toimunud muutusi, andes tulevikus selle info kasutajatele suurema kindluse info autentsuse suhtes. Arhiiv vastutab päritoluinfo loomise ja säilitamise eest alates sisuinfo vastuvõtmisest arhiivi, varasem päritoluteave pärineb info üleandjalt. Päritoluteabe saab jagada tehniliseks ja mittetehniliseks. Tehniline päritoluteave hangitakse ja salvestatakse üldjuhul automaatselt vastav tarkvara abil. Mittetehniline päritoluteave puudutab näiteks inimesi, kes selle sisuinfo eest vastutavad. Sisuinfo mõne osa täpsemaks kirjeldamiseks võidakse kasutada täiendavat teavet. Sellist infoobjekti mõnda tunnust täpsustavat teavet nimetatakse infotunnuse kirjelduseks (information property description). Kontekstiteave (context information) dokumenteerib sisuinfo seoseid keskkonnaga. Nende seoste hulka kuulub teave selle kohta, miks sisuinfo loodi ja kuidas on see seotud teiste (ükskõik kus asuvate) sisuinfodega. OAISi raames käsitletakse kontekstiinfot mõnevõrra kitsamalt, võrreldes konteksti tavapärase tähendusega, mille kohaselt konteksti alla kuuluks ka päritoluinfo. Viidete (reference information) all tuuakse ära nii digihoidla sisemised kui ka süsteemivälisedsüsteemivälised identifikaatorid, mis identifitseerivad unikaalselt selle sisuinfo. Sellisteks süsteemideks on bibliograafiad, kataloogid, indeksid, taksonoomiad, viitesüsteemid (reference systems), registreerimissüsteemid (registration systems). Näiteks võib tuua raamatu ISBN-numbri. Vajaduse korral kirjeldatakse ka mehhanisme, mida kasutatakse sisuinfole identifikaatorite loomiseks. Enamik sellest infost sisaldub ka paketi kirjelduses, mis võimaldab kasutajatel vajaliku sisuinfo üles leida. Viiteinfo alla kuuluvad ka püsivad identifikaatorid, mis kujutavad endast pikaajalise püsivusega viiteid digitaalsetele objektidele (Hilse Kothe 2006; Hakala 2010). MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS? Tabel 7.1. Säilituskirjelduse info näited (CCSDS 2012) Sisuinfo tüüp Viited Päritoluteave Kontekst Püsivusteave Juurdepääsuõigused Kosmose- objekti uuringute identifiinfo kaator, artikliviide, missioon, instrument, pealkiri, omaduste komplekt instrumendi kirjeldus, uurimisgrupi juht, töötlemise ajalugu, säilitamise ja käsitsemise ajalugu, sensori kirjeldus, instrument, instrumendi töörežiim, kommunikatsioonisüsteemide mudel, tarkvara, info omaduste kirjeldused kalibreerimise ajalugu, seotud andmegrupid, missioon, rahastamise ajalugu tsükkelkoodi kontroll, kontrollsumma, ReediSolomoni kodeering autoriseeritud määratletud kasutajate identifitseerimine (juurdepääsu kontroll), load andmete säilitamiseks ja levitamiseks, viidad püsivus- ja päritoluteabele (nt digiallkirjad ja õiguste omanikud) Digiraamatukogu kogud digitud kogude korral: viited seotud dokumentidele algses keskkonnas avaldamise hetkel digiallkirjad, kontrollsummad, autentsuseautentsuse identifikaator juriidiline raamistik, litsentseerimised, õiguste tagamist toetavad meetmed info levitamise etapis, säilitamise ja levitamisega seotud õigused, info digitaalsete vesimärkide kohta, mida on rakendatud objektide vastuvõtmisel ja säilitamisel, viited püsivus- ja päritoluteabele (nt digiallkirjad ja õiguste omanikud) abifail, kasutusjuhend, seotud tarkvara, keel sertifikaat, kontrollsumma, krüpteering, tsükkelkoodikontroll määratletud kasutajaskond, juriidiline raamistik, litsentseerimised, õiguste tagamist toetavad meetmed info levitamise etapis, viited püsivusja päritoluteabele (nt digiallkirjad ja õiguste omanikud) bibliograafiline kirjeldus, püsiv identifikaator algselt digimaterjali korral: Püsivus-, kinnistus- ja terviklikkusteave (fixity information) on info, mida kasutatakse sisuinfo kaitsmiseks volitamata muutmise eest. Tuuakse ära andmeterviklikkuse kontrollkoodid ja õigsuse kontrolliks kasutatavad krüpteeringud, samuti kodeerimis- ja veaavastuskoodid, näiteks sisuinfo kontrollsumma.11 Kontrollsummade leidmiseks kasutatavad algoritmid ja meetodid tuleb dokumenteerida. viide digioriginaalile; säilitusprotsessi metaandmed: viited varasematele versioonidele, muutuste ajalugu, infotunnuse kirjeldus Juurdepääsuõigused (access rights information) kujutavad endast teavet sisuinfo kasutuspiirangute kohta: õiguslikud piirangud sisuinfo kasutamisel, arhiivi õigused sisuinfo säilitamisel jms. Juurdepääsuõigused sisaldavad sisuinfo kasutus- ja levitustingimusi, nii nagu need on kokku lepitud üleandmise-vastuvõtmise lepingus (submission agreement). Mõned näited säilituskirjelduste info kohta on toodud tabelis 7.1. Tarkvarapaketid 11 Räsiväärtused (hash), nagu näiteks CRC-32, MD-5, RIPEMD-160, SHA, HAVAL kontrollivad bitijadade samasust. digimisprotsessi metaandmed, viide masterversioonile; nimi, autor/ looja, versiooni number, seeria number paranduste ajalugu, registreerimine, autoriõigus, infotunnuse kirjeldus Määratletud kasutajaskonnast lähtuv digihoidla säilituseesmärk on täidetud, kui kõik OAIS mudelis ette nähtud infoobjektid on varustatud piisava teabega. 67 MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS? MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS? Info pakendamine (packaging) tähendab infoobjektide seostamist loogilisel ja füüsilisel tasemel. Loogilise infopaketi korral ei asu seostatud infoobjektid ühes failis. Füüsilise pakendi korral asuvad failid ühes konteinerfailis, näiteks erinevad failid ühes ZIP-failis. Mõlemal juhul on vaja fikseerida failidevahelised seosed. Info pakendamiseks on olemas erinevaid süsteeme – IMS-sisu pakendamine (IMS Content Packaging), SOAP (Simple Object Access Protocol – objektipöördusprotokoll struktureeritud info veebis vahetamiseks), METS (Metadata Encoding and Transmission Standard), XFDU (XML Formatted Data Unit) jt. Paketiinfo on info, mis aktuaalselt või loogiliselt seob, identifitseerib ja suhestab sisuinfo ja PDI. Kui näiteks sisuinfo ja PDI on määratletud kui spetsiifiliste failide sisu ning failid asuvad füüsiliselt CD-ROMil, on pakendiinfo CD-ROMi failide struktuur vastavalt standardile ISO 9660 ning failide ja kataloogide nimed. Paketi kirjeldusinfo aitab kindlaks teha, millises paketis asetseb meid huvitav sisuinfo. Lisaks info säilitamisele peab digihoidla pakkuma kasutajale piisavat teavet, et ta suudaks endale vajaliku teabe üles leida, seda analüüsida ja endale vajalikku teavet tellida. See toimub spetsiaalsete infoobjektide abil, mida nimetatakse kirjeldavaks infoks. Kirjeldav info on sisendiks dokumentidele või rakendustele, mida nimetatakse otsivahenditeks või abideks (access aids) ning mida kasutatakse info asukoha kindlaksmääramisel, analüüsimisel, väljaotsimisel ja tellimisel. Kirjeldav info tuletatakse üldjuhul sisuinfost ja PDIst. Kirjeldavat infot võib käsitleda indeksina, mis võimaldab ligipääsu vajalikule infopakendile otsivahendite vahendusel. OAIS mudelis eristatakse kolme tüüpi infopakette (vt joonis 7.6): arhiivi antakse üle sisendinfopaketid (submission information package, SIP),), arhiivis säilitatakse arhiiviinfopakette (archival information package, AIP)) ja kasutamiseks antakse väljundinfopakett (dissemination information package, DIP).). AIP konkreetne rakendus sõltub arhiivist. See, milline info sisaldub SIPis ja DIPis, ning nende suhted vastavate AIPdega sõltuvad konkreetse arhiivi kokkulepetest info loojate ja kasutajatega. Kasutajale esitakse info DIPi kujul, mis ei pruugi sisaldada kogu esitusinfot või kõiki PDIsid. Üks DIP võib sisaldada ühe AIP, aga samuti ka osa AIPst või mitu AIPd. DIPs võib olla ainult osa AIP PDIst. 7.8. OAIS funktsionaalne mudel OAIS funktsionaalne mudel kuue peamise funktsionaalse üksusega on esitatud joonisel 7.7. SÄILITAMISE PLANEERIMINE Kirjeldused ANDMEHALDUS Kirjeldused päringud VASTUVÕTT SIP JUURDEPÄÄS SÄILITAMINE AIP päringuvastused tellimused AIP DIP HALDUS Haldajad INFO LOOJA Sisendinfopakett (SIP) saabunud üks või mitu SIPi muudetakse üheks või mitmeks AIPks. Ühest SIPist võidakse moodustada üks AIP, aga samuti võivad ühe AIP moodustada mitu SIPi ja vastupidi. SIP ei pruugi sisaldada piisavalt esitusinfot või PDIsid. Samuti võib digihoidlasse saabuv teave olla organiseeritud teistmoodi, kui seal säilitatav info. Kasutajad 7.7. Info pakendamine ja infopaketid OAIS mudelis Andmeallikad 68 DIGIHOIDLA Väljundinfopakett (DIP) d d gu use t rin s pä va ed gu us rin m pä lli te Arhiiviinfopakett (AIP) Joonis 7.7. OAIS funktsionaalne mudel INFO KASUTAJA Joonis 7.6. Infopaketid OAIS mudelis SIP on pakett, mille saadab digihoidlasse info looja. Selle täpsem vorm ja sisu sõltub info looja ja hoidla haldaja kokkuleppest. SIP sisaldab sisuinfot ja sellega seotud PDIsid. Samas võib sisuinfo ja sellega seotud PDIde esitamiseks vaja olla mitut SIPi. Nii sisuinfo kui ka PDId omavad esitusinfot. Kui mitmel SIPil on ühesugune esitusinfo, siis edastatakse see digihoidlasse ühekordselt. Kui ühest allikast tuleb mitu SIPi, millel on ühine PDI, siis võidakse viimane esitada eraldi SIPina, kus ei ole sisuinfot. Digihoidlasse Digitaalsed andmed SIPide kujul võetakse vastu vastuvõtuprotsessi (ingest) käigus. Vastuvõtufunktsioon hõlmab SIPide vastuvõtmist, nende kvaliteedi hindamist, AIP loomist, kirjeldava info (descriptive information) eraldamist AIPst selle lisamiseks arhiivi andmebaasi. Arhiivisäilituse (archival storage) funktsioon on tagada AIP säilitamine, haldamine ja otsingud. AIP võetakse vastuvõtust ja lisatakse püsivasse hoidu (permanent storage), tagatakse püsiva hoiu süsteem, andmete värskendamine ja säilitusmeediate vahetus, vigade kontroll, ohuplaneering ning AIP esitamine kasutamisse infonõuete täitmiseks. Andmehaldusfunktsioon (data management) tagab kirjeldava info ja arhiivi haldamiseks kasutatavate administratiivsete andmete kogumise ja hoolduse ning ligipääsu neile. See sisaldab arhiivi andmebaasi administreerimist, andmete värskendamist andmebaasis, päringute teostamist. Administreerimisfunktsioon (administration) tagab kogu arhiivisüsteemi toimimise. See hõlmab kokkulepete sõlmimist info loojatega, saabuva info auditeerimist, et see vastaks arhiivi nõuetele, arhiivi riist- ja tarkvara haldamist, samuti arhiivi süsteemide toimimise jälgimist ja täiustamist, arhiivis säilitatava teabe inventuuri ning vajadusel 69 70 MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS? migreerimist ja täiendamist. Ka arhiivi standardite ja poliitikate kehtestamine ja jälgimine on selle funktsiooni osaks. Säilitamise kavandamise funktsioon (preservation planning) tagab keskkonna jälgimise ning esitab soovitusi ja säilituskavasid tagamaks, et digihoidlas säilitatav teave oleks määratletud kasutajaskonnale kasutatav ja mõistetav ka siis, kui algne riist- ja tarkvarakeskkond iganeb. See funktsioon hõlmab arhiivis säilitatava teabe hindamist, soovitusi täiendamiseks ja migreerimiseks ning standardite ja poliitikate ajakohastamiseks, riskianalüüside teostamist, tehnoloogiliste arengute ning määratletud kasutajaskonna vajaduste ja teadmusbaasi muutuste jälgimist. Samuti koostatakse infopakettide mallid, detailsed migreerimiskavad, tarkvaraprototüübid ja testimiskavad, mis tagavad administreerimisfunktsiooni poolt määratletud migreerimiseesmärgid. Juurdepääsufunktsioon (access) toetab kasutajaid, pakkudes teavet arhiivis säilitatava teabe olemasolu, sisu, asukohtade ja kättesaadavuse kohta. Võimaldab kasutajatel esitada päringuid ja saada neile vastuseid. Juurdepääsufunktsioon hõlmab kasutajatega suhtlemist, piirab kaitstud info kasutamist, koordineerib päringutele vastamist, koostab vastused (DIP, päringuvastused, raportid) ja toimetab need kasutajateni. Lisaks eeltoodutele eeldab digiarhiivi toimimine pajude toetavate, üldkasutatavate teenuste (common services) olemasolu. Nende hulka kuuluvad tarkvarade toimimisega seotud protsesside käigushoid ja juhtimine, võrguteenuste tagamine, turvalisus. 7.9. OAIS mudeliga kooskõlas olev digihoidla OAIS mudeliga kooskõlas olev arhiiv kasutab sama infoesitusmudelit ning täidab kõik arhiivile esitatavad kohustuslikud nõuded. OAIS ei määratle ega nõua mingit kindlat tehnilise rakenduse viisi ega platvormi. Kohustuslikud nõuded OAIS kooskõlalisele digihoidlale on järgmised. · Metaandmete hankimine info loojatelt. Info loojatega peab olema kokkulepe, mille kohaselt edastavad nad arhiivi lisaks sisuinfole ka esitusinfo (representation information) ja säilituskirjelduse info (preservation description information). Ilma vajaliku metaandmestikuta, millest suur osa pärinebki info loojatelt, on teabe säilitamine võimatu. OAIS ei määratle täpsemalt selle kokkuleppe sisu ega vormi, seda käsitlevad näiteks sellised standardid nagu PAIMAS (CCSDS 2002) ja PAIS (CCSDS 2013). · Arhiivil on teabe pikaajaliseks säilitamiseks vajalik füüsiline ja õiguslik kontroll selle üle. Ilma selleta on info pikaajaline säilitamine võimatu. Füüsiline kontroll, mis tagatakse digiobjektide säilitamisega arhiivi halduses olevas digihoidlas, on vajalik näiteks bittide olemasolu tagamiseks (bitijada kopeerimine). Õiguslik kontroll, mis eeldab vastavate lepingute ja seaduste olemasolu, on vajalik selleks, et tagada digiteabe kopeerimine ja migreerimine. · Arhiiv teeb kindlaks määratletud lõppkasutajaskonna ja piiritleb tema teadmusbaasi, et oleks võimalik kindlaks teha vajaliku esitusinfo hulk. Määratletud kasutajaskonna defineerimist OAIS lähemalt ei käsitle. · Arhiiv tagab säilitatava teabe sõltumatu arusaadavuse määratletud kasutajaskonnale. Määratletud kasutajaskond peab suutma infost aru saada ilma spetsiaalsete ressurssideta, näiteks ilma info loojate või ekspertide abita. Tegemist on pideva ülesandega, kuna määratletud kasutajaskonna teadmusbaas muutub ajas. Selle kohustuse tagamiseks peab arhiivil olema vajalik esitusinfo – arhiiv peab olema võimeline seda infot MIS ON DIGIHOIDLA JA SELLE MUDEL OAIS? looma või peab tal olema juurdepääs vajalikule infole. Samuti peab arhiiv suutma määratleda, kui palju esitusinfot on vajalik. · Arhiiv järgib dokumenteeritud poliitikaid ja protseduure, mis tagavad selle, et säilitatav info on kaitstud võimalike ettenägematute asjaolude, sealhulgas arhiivi sulgemise eest. Info hävitamine on lubatud ainult strateegias ettenähtud juhtudel või asjaoludel. Kuna arhiivi ülalpidamine nõuab ressursse, on rahastamise jätkusuutlikkus vägagi oluline. Kord juba arhiivi vastuvõetud info hävitamine peab olema võimalik ainult täpselt defineeritud juhtudel. Juhuks, kui arhiiv lõpetab mingitel põhjustel tegevuse, peab olema ette nähtud süsteem teabe üleandmiseks teistesse arhiividesse. · Arhiiv teeb säilitatava teabe määratletud kasutajaskonnale kättesaadavaks ja tagab selle levitamise arhiivi vastuvõetud andmeobjektide ning nende autentsust toetavate tõendite koopiate kujul või tagab andmete jälgitavuse originaalse andmeobjektini. See nõue keskendub kasutajate edastatud teabe autentsuse tagamisele. Arhiiv säilitab kas originaalse bitijada ja saadab kasutajale sellest koopia või teostab mingeid toiminguid, näiteks saadab kasutajale vaid mingi osa originaalsest bitijadast. Samuti võib arhiiv originaalset bitijada säilitamise käigus muuta. Igal juhul peavad arhiivil olema vastavad tõendid, et näidata, kuidas originaalset digiobjekti on muudetud. 71 72 DIGITEERIMINE 8. DIGITEERIMINE Lugenud läbi selle peatüki, • tead, mis on digiteerimine; • mõistad digiteerimine tulenevat kasu; • tead digiteeritavate objektide valiku põhimõtteid; • tead digiteerimise etappe; Digikogude loomise kõige olulisemaks eesmärgiks on info laialdasema kättesaadavuse ja töötlemise võimaldamine. Suur hulk teabeasutustes, organisatsioonides ja üksikisikute valduses olevast teabest on endiselt mittedigitaalne. Tõsi on see, et juurde tulev teave on enamasti juba digitaalne. Kas mittedigitaalset teavet tuleks püüda igal juhul digiteerida, ehk siis esitada digitaalsel kujul? Mittedigitaalse teabe digiteerida mõttekus sõltub loomulikult konkreetsest kontekstist, säilitatavast teabest, säilitamise eesmärkidest jpm. Digiteerimisest saadav kasu võib olla mitmesugune: · teabele juurdepääsu suurenemine. Digitaalsel kujul esitatud teavet on võimalik kasutada sõltumata kasutaja geograafilisest asukohast. Info kasutamiseks ei ole vajalik enam füüsiliselt külastada info säilituskohta. Digiteerimine muudab paremini kasutatavaks teatud tüüpi teavikuid, näiteks mikrofilmid, suurte mõõtmetega kaardid, kustunud tekstiga dokumendid jms, mille kasutamine algsel kujul on raskendatud; · tulu teenimine. Suurt hulka säilitatavast teabest, eriti fotosid ja audiovisuaalseid teavikuid, on võimalik kasutada tulu teenimiseks. Digitaalsel kujul teavet on lihtsam korduvkasutada, reklaamida ja müüa; · organisatsiooni kuvandiloome. Digitaalne teave võimaldab asutust või kogu tutvustada väga mitmekesisele auditooriumile, teha reklaami ja olla abiks kuvandiloomel; · infotöötluse ja -otsingu lihtsustumine. Digitaalset teavet on võimalik arvutite abil töödelda ja sellest on tunduvalt lihtsam kasutajale olulist teavet otsida. Digiinfo kasutamise efektiivsus on märksa suurem; · säilitamise toetamine. Juhul kui analoogobjektid on kahjustatud või kahjustusohus, on võimalik nende kasutamist vähendada, kui suunata kasutajad esmalt digitaalsete koopiate juurde. Enamikule tavakasutajatest sellest piisab ja seega saab vähendada originaalide kasutamisest tulenevaid riske. Teisalt võib digitaliseerimine objektide tutvustamise kaudu ka suurendada nõudlust originaalide kasutamise järele; · teabe edastamine. Digitaalsel kujul olevat teavet on võimalik levitada kõige erinevamaid suhtluskanaleid pidi – sotsiaalmeedias, videoportaalides, blogides jms. Digiinfo on aluseks erinevatele meetoditele, millega haarata kasutajaskonda sisuloomesse, inforessursside kirjeldamisse, märksõnastamisse jne; · teabe integreerimine. Digiinfo korral lihtsustub teabe integreerimine erinevatesse kataloogisüsteemidesse, otsinguportaalidesse jm; · tagatiskogude loomine. Digikoopiate abil on võimalik luua tagatiskogusid, mis suurendavad teabe allesjäämise tõenäosust õnnetuste korral. DIGITEERIMINE Samas on märgata ka kriitilist suhtumist kogude digiteerimisse - see võib: · kulutada liiga palju ressursse (raha, aeg jne) võrreldes saadava kasuga; · kaotada olulisi originaali omadusi (nt allkiri paberil, pintslitõmbed maalil); · teisendada originaali tähendust ja konteksti (nt digitaliseeritud fotode hilisem esitamine ülejäänud sisust eraldi); · tegeleda ebaolulise asjaga, sest kasutajad saavad ka ilma konkreetse kogu digitaliseerimiseta hakkama – nt mõne kogu massdigitaliseerimise järele võib tegelikkuses puududa piisav nõudlus. Seda enam on objektide digiteerimisel oluline tähelepanu pöörata valiku tegemisele, et saaks ühtselt kokku leppida, kas ja mida ikkagi digitaliseerida, et saadav kasu kaaluks üles eelmainitud kahju. 8.1. Digiteeritavate objektide valik Digiteerimise korral ei ole tegemist neutraalse tegevusega. Valik, mida digitaliseerida, eeldab kriitilist otsustust ja prioriteetide määratlemist. Vähemalt esialgu tundub ebareaalne säilitada kogu tsivilisatsiooni poolt loodud ja loodav informatsioon, sõltumata selle väärtusest või esinemiskujust. Samas, digiteerimisele kuuluvate objektide valik on otsus käesolevas ajas ega pruugi tulevikust vaadates kõige õigem olla. Digitaalsete kogude loomisel valitakse olemasolevatest kogudest objektid, mis seejärel digiteeritakse. Tegemist on seega teistkordse valikuga, kuna objektid on esmase valiku käigus juba teabeasutuste kogudesse valitud. Info uuendamise projektid baseerusid esmalt mikrofilmimisel. 1980.–1990. aastatel läbiviidud mikrofilmiprojektid põhinesid kogudel (collection driven). Trükiseid käsitleti rahvusliku koguna (USAs) ja iga raamatukogu mikrofilmis sellest mingit kindlat osa. Trükiste ja perioodika prioriteetsus määrati sisu, ilmumisaja või mõlema järgi. Digiteerimisprojektide alguses, 1990. aastatel lähtuti prioriteetide kehtestamisel tegelikult samast printsiibist nagu mikrofilmimise korralgi, ainuke erinevus oli see, et keskenduti peamiselt erikogudele (special collections) – haruldastele, mingis osas erilistele materjalidele. Üldjuhul eelistati visuaalseid materjale, kuna ühelt poolt sobivad need arvutivõrkudes kasutamiseks, teiselt poolt pole vaja rakendada tekstituvastussüsteeme, mida harilikult kasutatakse tekstide kasutusväärtuse tõstmiseks. Digiteeritavate objektide valik on sageli olnud küllaltki eklektiline. Valikukriteeriumid tulenesid pikka aega pigem digiteerimisest endast, konkreetsetest projektidest, mitte mäluasutuste üldisest kogude arendamise poliitikast. Osa digiteerimisprojekte on prioriteetide määramise aluseks võtnud kasutusvajaduse (user-driven needs). Selliste objektide hulka kuulub kindlasti perioodika – ajakirjad ja ajalehed. Sellistest projektidest on tuntumad JSTOR (Teadusajakirjade Arhiiv), DIEPER (Euroopa Digitaliseeritud Perioodika), TIDEN (Põhjamaade digitaalsete ajalehtede raamatukogu), DEA (Digiteeritud eesti ajalehed). Kasutusvajadust saab hinnata ka lähtuvalt kasutussagedusest. Näiteks kui mõnda paberdokumenti kasutatakse palju, siis tasuks kaaluda selle digiteerimist.12 Samuti olukorras, kus dokument on kehvas seisukorras või lihtsalt väga väärtuslik. Eestis läbi viidud projektidest võib nimetada eesti trükiste punast raamatut, mis põhines väga selgelt määratletud valikukriteeriumidel (vt näitekast 8.1). 12 Näiteks Mark Custer (2009) on oma uuringus leidnud, et 10% kõige kasutatavamate piltide võrgus avaldamine pakub paremaid juurdepääsuvõimalusi rohkem kui 50%-le kasutajatest. 73 74 DIGITEERIMINE 2000. aastate keskel alustati laiaulatuslike digiteerimisprojektidega, mille eesmärk oli suure hulga teavikute massiline digiteerimine. Üks tuntumaid sellistest projektidest on kahtlemata Google Books, varasemate nimetustega Google Book Search ja Google Print. 2004. aastal alustatud projekti käigus on nüüdseks digiteeritud üle 25 miljoni nimetuse raamatuid, seda nii raamatukogudest kui ka kokkuleppel autorite ja kirjastajatega. Näitekast 8.1 Eesti trükise punane raamat „Eesti trükise punane raamat“ sündis vajadusest välja töötada kriteeriumid, mis võimaldaksid moodustada loetelu nendest väärtuslikest ja haruldastest trükistest, mis säilitusprioriteete silmas pidades kuuluvad eriti suure säilivusriskiga trükiste etteotsa. „Eesti trükise punane raamat“ kujutab endast Eesti ajaloo, teaduse ja kultuuriloo seisukohalt väärtuslike haruldaste trükiste andmebaasi koos teabega originaali ning tagatis- ja kasutuskoopiate leidumuse kohta ning iga nimetuse vähemalt ühe originaaleksemplari füüsilise seisundi kirjeldusega. Punase raamatu nimekirja koostamisel arvestati kriteeriumidena: · trükise kultuuriloolist väärtust; · trükise leidumust; · trükise seisundit. Trükise kultuuriloolise väärtuse määramisel järgiti järgmisi kriteeriume: · esimene eestikeelse tekstiga raamat; · esimene täielikult eestikeelne raamat; · esimene trükis Eesti territooriumil (Tallinn, Tartu, Narva, Pärnu jne); · esimene trükis omas tüübis (katekismus, aabits, kalender, ajaleht jne); · esimene trükis omas teemavaldkonnas (keel, kirjandus, ajalugu, geograafia, matemaatika jne); · Eestis kultuuriloolisi suundumusi oluliselt mõjutanud trükis (keele, kirjanduse, hariduse, teaduse, usu, teadmiste ja praktiliste oskustega seotud trükised); · raamatukujunduse ja trükitehnika arengu poolest oluline trükis (nt esimene illustreeritud trükis, omamaiste illustraatorite tööd (E. M. Jakobson, Daugell jt)). Esimeses projektis (aastatest 1535–1850) kujunes olulisemaks aspektiks raamatute säilivusriskide hindamine tulenevalt nende seisundist. Algses nimestikus, mis koostati aastatel 2001–2004, oli 413 eestikeelset raamatut. Nüüdseks on nimestikku täiendatud uute leidumusandmetega ELNET Konsortsiumi raamatukogudest ja valimist seni puudunud ainueksemplaride osas. Sellega on algne nimestik laienenud rohkem kui 500 nimetuseni. Teises etapis (aastate 1851–1917 kohta, projekti juhtis ELNET Konsortsium) oli põhirõhk trükiste rariteetsusel ja kultuuriväärtusel. Lõppnimekirja valiti 1526 kirjet (valik võib edaspidi täpsustuda ja täieneda seoses laekumistega raamatukogudesse). Raamatukogud on Eesti trükise punase raamatu nominente digitaliseerinud vastavalt oma võimalustele. Näiteks aastatel 2010–2012 digitaliseeriti Eesti DIGITEERIMINE Kirjandusmuuseumis Euroopa Liidu struktuuritoetuste toel läbi viidava projekti „Eesti trükise punase raamatu ja eesti kultuuri käsikirjaliste alliktekstide säilivuse ja kättesaadavuse tagamine“ raames 100 000 lehekülge „Eesti trükise punase raamatu“ ja muu haruldase vanaraamatu kollektsioonist (1535–1917). Halvasti säilinud eksemplarid ennistatakse ja konserveeritakse. Failid arhiveeritakse digitaalarhiivis DIGAR ning tehakse kättesaadavaks nii DIGARi kui ka e-kataloogi ESTER kaudu (vt joonis 8.1). Turvalisuse huvides säilitatakse arhiivifaile ka Eesti Kirjandusmuuseumi failirepositooriumis Kivike. „Eesti trükise punase raamatu“ digitaliseeritud nimetusi leiab ESTERis komplekssemalt kui otsida neid eressursside alt. Eraldi kogumi moodustavad „Eesti trükise punase raamatu“ nimetused ka DIGARis. „Eesti trükise punase raamatu“ nimestiku koostamise raames kooskõlastasid raamatukogud ka oma digitaliseerimisjuhised. Valmisid „Eesti trükise punase raamatu“ ja vanaraamatu digitaalsete tagatiskoopiate valmistamise juhend ning soovitused raamatukogudele digitaalsete tagatiskoopiate valmistamiseks. Joonis 8.1. „Eesti Trükise punase raamatu“ projekti raames kirjeldatud trükised leiab raamatukogukataloogist ESTER Allikad Aru, K., Konsa, K., Siiner, M. 2005. Eesti trükise punane raamat. – Keel ja Kirjandus, 1, 1−8. Eesti trükise Punane Raamat. http://www.nlib.ee/PunaneRaamat. Eesti trükise punane raamat. ELNET Konsortsium. http://www.elnet.ee/index.php/projektid/eestitruekise-punane-raamat. 75 76 DIGITEERIMINE DIGITEERIMINE 8.2. Digiteerimise mõju kogude haldamisele täiendamise võimalused. Esimeses etapis toimub digiteeritavate objektide ettevalmistamine, mis võib tähendada nende puhastamist, kataloogimist, konserveerimist jms. Digiteerimise käigus saadakse lisateavet kogu enda kohta, mida saab edaspidi kasutada kogu paremaks haldamiseks. See teave haarab nii objektide kirjeldamist kui ka näiteks andmeid nende seisundi kohta. Digiobjektide olemasolu võimaldab täiendada olemasolevaid kogusid, kasutades selleks teistes institutsioonides olevaid objekte, mida saab antud koguga seostada. Samuti on võimalik luua kogusid, mis baseeruvad hoopis teistel põhimõtetel, võrreldes olemasolevate kogudega, mille aluseks on institutsionaalsed traditsioonid. Digiteerimisprojekti teises etapis toimub digitaliseerimine ise. Lisaks hõlmab see saadud digiobjektide kvaliteedi hindamist, nende varustamist metaandmetega ning säilitus- ja kasutusfailide loomist. Selles etapis toimub ka teksti optiline tuvastus (OCR), kui seda vajalikuks peetakse. Tuleb jälgida, et digiteerimisprotsess ei kahjustaks originaale. Objektide digiteerimine võib vähendada originaalide kasutamist. Selleks on kindlasti vajalik vastav poliitika, mis sätestab selle, et digitaliseeritud objektide korral suunatakse kasutaja esmajoones digiobjekti juurde ja alles siis, kui see kasutaja vajadusi ei rahulda, pääseb ta ligi originaalile. Kuna originaalide kasutamine on piiratud, saab neile luua sobivamad hoiutingimused, näiteks hoida fotosid madalamal temperatuuril. Kõige olulisemalt mõjutab digiteerimine arusaadavalt objektide ja kogude kasutamist. Digitaalsel kujul esitatud teave on laialdaselt ja kiiresti kättesaadav, tekste ja kujutisi on võimalik töödelda ning rakendada erinevaid otsingumeetodeid ja vahendeid. Digitaalsed kogud aitavad oluliselt kaasa uute kasutajate ligitõmbamisel mäluasutustele.13 Digiteerimisprojekti tegevused võib jagada nelja etappi (Bülow Ahmon 2011: 10–13): 1. etapp: · projekti kavandamine; · objektide valik ja hindamine; · ressursside hankimine ja koostöö; · ettevalmistused digitaliseerimiseks; 2. etapp: · digiteerimine; · kvaliteedi hindamine; · metaandmete lisamine; · failihaldus; 3. etapp: · andmebaasi loomine; · kasutuskeskkonna loomine; · turundus; · kasutuse hindamine; 4. etapp: · projekti pikaajalise jätkusuutlikkuse tagamine. Esimene etapp hõlmab digitaliseeritavate materjalide valikut ja hindamist. Siinkohal tuleks arvestada nii objektide võimaliku kasutuse kui ka näiteks autoriõigusest ja andmekaitsest tulenevate piirangutega. Kuna digiteerimisprojektid on üldjuhul küllaltki ressursimahukad, võib vajalikuks osutuda partnerite ja väliste toetajate hankimine. Enne projekti lõplikku kavandamist on kindlasti vaja tutvuda digiteeritava materjaliga, sest nende koosseis ja seisund võivad oluliselt mõjutada kogu projekti maksumust, vajaminevaid seadmeid ja tööprotseduure. Projekti kavandamist mõjutab ajaraamistik, olemasolevad vahendid (tehnilised seadmed, ruumid, inimesed, teadmised) ja nende 13 Digiteerimise mõju mäluasutuse toimimisele Briti raamatukogu näitel vt Smith 2006. Kolmas etapp hõlmab digiteeritud ressursside kasutajatele kättesaadavaks tegemist ja digikogu tutvustamist. Vältimatu on võimalikult tihe koostöö kasutajatega. Kõik see nõuab samuti ressursse, mille eraldamine peab olema projekti sisse planeeritud. Neljas etapp – pikaajalise jätkusuutlikkuse tagamine – tähendab seda, et organisatsioonil peavad olema pikaajaliselt kavandatud ressursid nii digiteeritud objektide kui ka originaalide säilitamiseks. Seejuures võivad digiobjektide säilitamise kulud ületada originaalide säilituskulusid. Originaalide säilitamine on aga vältimatu, kuna seoses tehnoloogia arenguga võib tekkida vajadus neid uuesti digiteerida, et saada parema kvaliteediga või mingitele muudele nõuetele paremini vastavaid digikoopiaid. 8.3. Digiteerimiseks kasutatavad seadmed Visuaalsete kujutiste digiterimiseks kasutatakse skannereid ja digifotoaparaate, kinofilmide korral ka telecine-seadmeid. Skanner on seade, mis võimaldab optiliselt muuta pildid, tekstid või esemed digitaalseteks kujutisteks. Objektilt peegeldunud valgus suunatakse sensorile. Skannerid jagatakse erinevatesse tüüpidesse sõltuvalt nende ehitusest ja kasutuseesmärkidest. Peamised tüübid on: · tasa- ehk lauaskanner; · trummelskanner; · projektsiooniskanner; · slaidiskanner; · filmiskanner; · 3D-skanner. Kasutatavate seadmete valikul tuleb arvestada · digiteeritavate objektide iseloomu; · objektide mõõtmeid; · erinevat tüüpi objektide arvu; · objektide seisundit; · töötajate kogemusi ja oskusi; · eelarvet; · digiteerimiseks kasutatavaid ruume; · kogu projekti ajaraamistikku. Digiteerimisparameetrite ja -meetodite valiku hõlbustamiseks on kasutusel hulk kvaliteedisüsteeme. Kvaliteedisüsteem määratleb kvaliteedi erinevad tasemed ja selle alusel saab otsustada, milliseid parameetreid kasutada, et saada sobivate omadustega digiobjektid. Näiteks USA föderaalametite digitaliseerimisjuhiste algatus (Federal Agencies Digitization Guidelines Initiative, FADGI) kasutab neljatasemelist ja Hollandi 77 78 DIGITEERIMINE programm Metamorfoze14 kolmetasandilist süsteemi. Samas rõhutavad kõik juhendid seda, et kui digiteerimise eesmärk on digitaalsete säilituskoopiate saamine, tuleks kasutada võimalikult kõrgeid kvaliteediparameetreid. Skaneerimise kvaliteet sõltub paljudest teguritest: · optiline resolutsioon; · värvisügavus; · värviruum; · optiline tihedus; · valgusallika omadused; · seadme optiliste osade kvaliteet; · seadme kalibreerimine. Vaatleme mõnda tähtsamat neist veidi lähemalt. DIGITEERIMINE resolutsioon 300 dpi. Digikogus jälgitavad kasutuskoopiad võimaldavad laiendada juurdepääsu unikaalsele kultuuripärandile, tutvustada seda rahvusvahelises mastaabis ning maandada teabe kadumise riske originaaldokumentide võimaliku kahjustumise või hävimise korral. Alates 2012. aasta aprillist on kõigil huvilistel võimalus digitaliseeritud pärgamente vaadata ja lugeda Rahvusarhiivi digikogus Saaga (joonis 8.2). Allikad Pärgamendid. Rahvusarhiiv. http://www.ra.ee/pargamendid Digiteerimise näitena vaatame pärgamentdokumentide digiteerimise projekti (vt näitekast 8.2). Näitekast 8.2. Pärgamentide digitaliseerimise projekt Pärgamentalusel arhivaalid sisaldavad ainestikku nii Eesti kesk- ja varauusaegse asustus- ja agraarajaloo kui ka poliitilise, sõja- ja kultuuriajaloo uurimiseks. Peegeldades tolleaegse Eesti sidemeid Euroopaga, on need dokumendid ajalooallikatena tähtsad ka rahvusvaheliselt, eriti Euroopa keskaja ajaloo mõistmiseks. Pärgamentidel on koostatud Eestis hoitavad kõige vanemad kirjalikud ajalooallikad 13. sajandist. Eestis asuv vanim kirjalik dokument aastast 1237 on Tallinna Linnaarhiivi Tallinna magistraadi kogus säilitatav pärgamentürik, milles paavsti saadik Modena Wilhelm annab teada Saksa-Rooma keisri Friedrich II määrusest kirikule tehtavate annetuste kohta. Samasse aega kuuluvad ka Rahvusarhiivi vanim ürik kirikukümnise tasumise kohta aastast 1240 ja Eesti Ajaloomuuseumi kollektsioonis hoitav paavst Innocentius IV indulgents 1247. aastast. Meie mäluasutustes talletatavad kõige hilisemad pärgamendid on pärit 19. sajandi keskpaigast. Rahvusarhiiv, Eesti Ajaloomuuseum ja Tallinna Linnaarhiiv viisid aastatel 2010–2012 läbi digitaliseerimisprojekti, mille eesmärk oli neis mäluasutustes säilitatavate pärgamentide kõrgekvaliteediliste digitaalkujutiste valmistamine. Digitaliseeris Ennistuskoda Kanut ning projekti rahastas Majandus- ja Kommunikatsiooniministeerium infoühiskonna edendamise struktuurivahenditest. Pärgamentide digitaliseerimine hõlmas 4122 arhivaalilehe recto- ja verso-vaadetest tagatis- ja kasutuskoopiate valmistamist. Digitaalsed tagatiskoopiad on originaalidega samas suuruses (1 : 1), failid salvestati kompresseerimata vormingusse TIFF, kujutise näidud on: 24bit sRGB IEC61966-2.1 värviprofiil, 14 Hollandi pabermaterjalide rahvuslik säilituskava vt Dormolen 2012. Joonis 8.2. Pärgamentide andmebaasi veebileht 79 80 METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE 9. METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE Lugenud läbi selle peatüki, METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE infosüsteemide vahelistest seostest ning sellest, millisel eesmärgil kasutaja seda infot käsitleb (Gilliland-Swetland 2000b: 12). Sellises laias tähenduses ulatub metaandmete kasutamine tagasi esimeste raamatukogukataloogide juurde (Alexandria raamatukogu Vanas-Egiptuses). Raamatu kirjeldus raamatukogukataloogis on tüüpiline näide metaandmetest (joonis 9.1). Termin „metaandmed“ võeti kasutusele aga alles 1960. aastatel (Greenberg 2005: 19–20). 1970. aastatel kasutati seda terminit andmebaaside halduses ja alates 1990. aastate keskpaigast info- ja raamatukoguvaldkonnas (Roussopoulos Mark 1986). Tänapäeval kasutatakse terminit „metaandmed“ peamiselt seoses elektroonilisel kujul oleva infoga. • tead, mis on metaandmed ja millist tüüpi metaandmeid on olemas; • tead, milleks metaandmeid kasutatakse; • tead, mis on metaandmete skeemid ja standardid; • mõistad peamisi digiobjektide kirjeldamiseks kasutatavaid metaandmete süsteeme; • oskad kasutada Dublin Core’i metaandmete süsteemi; • tead, mis on märgistuskeeled ja milleks neid kasutatakse; • tead, mis on metaandmete registrid. 9.1. Metaandmete määratlusi Kõige lihtsama ja levinuma määratluse kohaselt on metaandmed andmed andmete kohta ehk andmed, mis kirjeldavad mingeid teisi andmeid. Samas ei ütle see määratlus midagi selle kohta, milleks üldse on vaja andmeid andmete kohta ning mille kohta täpsemalt need andmed peaksid olema. Kirjandusest võib leida ka täpsemaid metaandmete määratlusi: · metaandmed kirjeldavad ressursside erinevaid atribuute (Dempsey Heery 1997); · metaandmed kirjeldavad diskreetseid andmeobjekte (Gill 1998); · metaandmed pakuvad kasutajale kasulikku teavet dokumentide olemasolu ja tunnuste kohta (Dempsey Heery 1998); · metaandmedmetaandmed kirjeldavad mingi inforessursi sisu, vormingut ja/või tunnuseid (Haynes 2004); · metaandmed on struktureeritud informatsioon, mis kirjeldab, selgitab, näitab asukohta või aitab mõnel muul viisil inforessurssi leida, kasutada ja hallata (NISO 2001); · metaandmed on andmed, mis kirjeldavad teavikute konteksti, sisu ja struktuuristruktuuri ning nende haldusprotsessi (ISO 15489-1:2016). Kokkuvõtlikult võib öelda, et metaandmed kirjeldavad mingisuguse infoobjekti tunnuseid, mis on vajalikud infoobjektile juurdepääsuks, selle üles leidmiseks, kasutamiseks, mõistmiseks, haldamiseks ja säilitamiseks. Infoobjektiks on siinkohal diskreetse üksusena käsitletav informatsioon, mida suudab kasutada inimene või infosüsteem. Tegemist võib olla ühe objektiga, näiteks raamatu või failiga, aga ka objektide kogumi või terve arhiivi, raamatukogu või andmebaasiga. Metaandmeid kasutavad seega nii inimesed kui ka arvutiprogrammid erinevate ülesannete täitmisel. Infoobjekti ja metaandmetemetaandmete vaheline piir ei ole selge ega jäik. Ühe infoobjekti metaandmed võivad samaaegselt olla teise infoobjekti andmeteks. Suurel määral sõltub see infoobjektide ja Joonis 9.1. Tartu Ülikooli raamatukogus kasutusel olnud kataloogikaardid (Foto: Tartu ülikooli raamatukogu) Metaandmed täidavad peamiselt viit olulist funktsiooni (Duff McKemmish 2000; Haynes 2004): · ressursside kirjeldus – metaandmed võimaldavad objekte identifitseerida ja kataloogida ning nende konteksti säilitada. Konteksti säilitamine on eriti oluline selliste objektide korral, mis moodustavad ühe osa mingist kogust või kollektsioonist (arhivaalid arhiivis, raamatud raamatukogus, museaalid muuseumikogus jne); · infootsing – otsisüsteemid kasutavad metaandmeid inforessursside otsimisel. Objekti kasutamisega seotud administratiivne info (võimalikud juurdepääsupiirangud, kasutamise ajalugu jms) ja muud metaandmed aitavad kasutajal infot üles leida, kätte saada, kasutada; · inforessursside haldamine – metaandmed on üks olulisi viise, kuidas tagada infoobjektide haldamine, sealhulgas ka säilitamine. Infoobjektide säilitamise käigus toimub nende muutmine, metaandmed on vahend, mis tagab inforessursside sisu püsivuse (persistence) ning säilitab objektide sõltumatuse nende säilitamiseks ja kasutamisekskasutamiseks mõeldud tehnilisest süsteemist; · inforessurssideinforessurside omandiõiguse ja autentsuse tagamine – metaandmed sisaldavad infot objekti omandi- ja autoriõiguse, päritolu, struktuuri ja konteksti kohta ning on seega otsustava tähtsusega objekti autentsuseautentsuse, struktuurse ja funktsionaalse terviklikkuse hindamisel; 81 82 METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE · koostalitlusvõime ja infovahetuse võimaldamine – metaandmete vormingud võimaldavad andmeid erinevate süsteemide vahel vahetada ning seejuures õigesti interpreteerida ja informatsiooni tähenduse säilitada. Inforessursi kirjeldamine metaandmetega muudab selle mõistetavaks arvutisüsteemidele ja aitab sellega kaasa koostalitlusvõimele. Nagu näha, on metaandmed olulised nii info haldajale kui ka kasutajale. Info lõppkasutajal ei ole tavaliselt oluline inforessursi metaandmeid näha, need on tähtsad info organiseerimise ja haldamise seisukohast. Kuna metaandmed täidavad nii mitmekesiseid funktsioone, siis on selge, et erinevaid metaandmete süsteeme on väga palju. Samuti on erinevaid võimalusi metaandmesüsteeme kategoriseerida. Üks võimalus on jagada metaandmete standardid ja skeemid nelja gruppi (Digital preservation metadata 2010: 6). Kirjeldavad metaandmed määratlevad infoobjekti bibliograafilised tunnused. Tegemist on infoga, mis identifitseerib inforessursse, aitab neid üles leida ja dokumenteerib suhteid erinevate inforessursside vahel. Kirjeldavad metaandmed võivad lähtuda mõnest kindlast teavikutüübist, näiteks FGDC (Federal Geographic Data Committee) standardist ruumiliste digiandmete kohta või ISAD(G) (General International Standard Archival Description) standardist arhivaalide kohta. Teised metaandmete vormingud, näiteks MARC 21 või Dublin Core, on üldisemad ja sobivad erinevate teavikutüüpide kirjeldamiseks. Kirjeldavad metaandmed võivad sisaldada ka teavet ajaloolise konteksti kohta, näiteks raamatu kohta, mille digimisel digiobjekt on saadud (allika provenients). Strukturaalsed metaandmed määratlevad loogilised või füüsilised suhted infoobjekti eri osade vahel, näiteks kirjeldavad peatükkide asetust raamatus, keeruka digiobjekti erinevate failide vahelisi seoseid vms. Levinuim standard on METS. Tehnilised metaandmed määratlevad info, mis kajastab digiobjekti töötlemiseks vajalikku riist- ja tarkvara ning infot kontrollsummade ja digiallkirjade kohta, mis tagavad infoobjekti autentsuse. Vastavate standardite näiteks võib tuua fotokujutiste standardi MIX, tekstistandardi TEI, audiostandardi AUDIOMD ja videostandardi VIDEOMD. Tehnilised metaandmed võidakse paigutada ka administratiivsete metaandmete hulka (Hurley Price-Wilkin et al. 1999). Administratiivsed metaandmed määratlevad info, mis on seotud infoobjektiga tehtud toimingute, st loomise, haldamise, säilitamise ja kasutamisega, sealhulgas kõikvõimalikud muudatused ja otsustused, samuti info õiguste ja objektile juurdepääsu kohta. Näiteks intellektuaalomandi õigusi kajastavate metaandmete standard on ODRL. Alates 1990. aastatest on levinud ka metaandmete grupeerimine kolme tüüpi: kirjeldavad, struktuursed ja administratiivsed metaandmed. Anne Gilliland on pakkunud välja teistsuguse metaandmete kategoriseerimise võimaluse, mis põhineb infoobjektide omadustel. Nimelt on igal infoobjektil, sõltumata selle konkreetsest füüsilisest kujust, kolm iseloomulikku tunnust: sisu, kontekst ja struktuur. Metaandmed peavad kajastama kõiki neid infoobjekti tunnuseid (Gilliland-Swetland 2000). Metaandmete erinevad jaotused on vajalikud nende lihtsamaks käsitlemiseks, tegelikkuses metaandmete eri kategooriad suuresti kattuvad ja selged piirid nende vahel puuduvad. Eriti ilmneb see säilitusmetaandmete juures. Metaandmed võivad esineda väga erineval kujul: tegemist võib olla vabatekstiga, märksõnadega, kontrollitud terminoloogiaga või siis täpselt määratletud kategooriate süsteemiga. Järgnevalt käsitleme alguses üldisemaid kirjeldavate metaandmete standardeid ja seejärel juba lähemalt säilitusmetaandmete standardeid ja skeeme. METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE 9.2. Metaandmete skeemid ja standardid Metaandmed luuakse vastavalt kindlale eesmärgile. Ei ole olemas ühtset metaandmete skeemi või standardit, mis sobiks igasuguste eesmärkide jaoks. Universaalset metaandmete skeemi või standardit tuleb kindlasti kohandada konkreetsele kasutusele. Vastavalt sellele on nii erinevad institutsioonid (valitsused, raamatukogud, arhiividarhiivid, muuseumid, ettevõtted jne) kui ka institutsioone koondavad huvigrupid loonud endale kõige sobivamaid metaandmete skeeme ja standardeid. Metaandmete skeem on kindlal eesmärgil koostatud metaandmete elementide loetelu koos loogiliste seostega elementide vahel. Metaandmed on tavaliselt mingil viisil struktureeritud. Selleks määratletakse infoobjektide kirjeldamisel kasutatavad kategooriad (näiteks “autor”, “pealkiri”, “teema”), info esitamise viis, kategooriate omavahelised seosed jms. Metaandmete struktuur vastab kirjeldatavate infoobjektide olulisematele tunnustele. Kuna eri institutsioonid kirjeldavad erinevaid objekte, siis on ka kasutatavad metaandmete struktuurid erinevad. Metaandmete kategooriaid nimetatakse ka metaandmete elementideks või ühikuteks (units). Metaandmeelemendid (metadata element) on metaandmete eraldiseisvad ühikud. Nende elementide tähendused või määratlused moodustavad metaandmete skeemi semantika. Metaandmeelemendid väljendavad inforessursi mingisuguseid tunnuseid, näiteks „autor“, „teema“, „väljaandja“. Metaandmeelemendid on defineeritud terminid, mida kasutatakse inforessursi omaduste kirjeldamisel. Igal metaandmeelemendil on nimi ja määratletud semantika ehk väärtus. Enamasti on kindlaks määratud ka reeglid, kuidas elemendi sisu formuleeritakse ja esitatakse. Näiteks metaandmeelement „autor“ võib sisaldada väärtust „Kurmo Konsa“. Väärtused võivad olla esitatud erinevalt, näiteks „Kurmo Konsa“, „Konsa, Kurmo“, „Konsa, K.“ jne. Kindlal eesmärgil loodud metaandmeelementide kogumit nimetatakse metaandmete skeemiks (metadata scheme), andmestruktuuriks (data structure), metaandmehulgaks (metadata set), spetsifikatsiooniks (specification) või vorminguks (format). Metaandmete standard15 võib sisaldada: · metaandmeelemente koos määratlustega; · elementide sisu määratlusi, reegleid või kirjeldusi selle kohta, milliseid väärtusi andmeelement võib omandada (data content standards); · sõnastikku, tesaurust, kontrollitud sõnastikku vms, mis määratleb andmeelementide konkreetsed väärtused (data value standards). Metaandmete sisu moodustavad metaandmete elementidele antud väärtused. Metaandmesüsteem määratleb elementide nimed ja nende semantika. Lisaks võivad olla juhendid selle kohta, kuidas sisu määratleda (näiteks kuidas identifitseerida inforessursi pealkirja) ja esitada (näiteks reeglid selle kohta, milline täht pealkirjas peab olema suurtäht) ning millised on sisu lubatavad väärtused (näiteks tuleb terminid valida kontrollitud sõnastikust). Paika võib olla pandud nii elementide kui ka sisu kodeerimine. Metaandmesüsteemi, kus sellised ettekirjutatud süntaksireeglid puuduvad, nimetatakse süntakssõltumatuks süsteemiks. Metaandmete kodeerimiseks kasutatakse SGMLi (Standard Generalized Markup Language) või XMLi (Extensible Markup Language). Metaandmed võivad inforessursse kirjeldada erineval tasemel: kirjeldatakse nii kogusid tervikuna, üksikuid infoobjekte kui ka infoobjekti eri osasid, näiteks artiklit ja artiklis asuvat fotot. Keerukate infoobjektide või mitmetasandiliste kogude korral on sageli parim lahendus erinevate metaandmesüsteemide kooskasutamine. Esimesed 15 Nimetatakse ka metaandmesüsteemiks või andmestruktuuri standardiks. 83 84 METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE metaandmesüsteemid olid ette nähtud inforessursside kirjeldamiseks ja otsingute toetamiseks. Seejuures keskenduti kindlat tüüpi inforessurssideinforessursside kirjeldamisele. Üldised, eri tüüpi inforessursside kirjeldamiseks mõeldud metaandmesüsteemid ilmusid hiljem. Kindlasti kõige tuntum nende seas on Dublin Core’i metaandmesüsteem. 2.1. Raamatukogude kirje- ja kataloogimissüsteemid Raamatukogudes kasutatakse objektide kirjeldamiseks bibliokirjeid, mille koostamisel lähtutakse vastavatest kirje- ja kataloogimisreeglitest. Teavikud kirjeldatakse bibliograafilise kirjega ja kataloogitakse bibliograafilistes vormingutes. Kataloogimisreeglite aluseks on tänapäeval üldiselt ISBD (International Standard Bibliographic Description) – IFLA poolt välja töötatud standardite rühm, mis määrab eri teavikutüüpide kirjeldamisel esitatavate andmete valiku, vormi ja järjekorra, samuti kirjavahemärgid, mida kirjes kasutatakse. ISBD ei käsitle pealdisi, sisuavamiselemente ega muud täiendavat teavet, mis kataloogikirjes antakse. Lisaks ISBDdele on olulised ka angloameerika reeglid (Anglo-American Cataloguing Rules, AACR). Nende teine, uuendatud väljaanne AACR2 põhineb kirje osas ISBDl, kuid sisaldab lisaks pealdiste, st otsitunnuste moodustamise reegleid. AACR2 edasiarenduse tulemusena valmis 2010. aastal Resource Description and Access (RDA) standard.16 Tegemist on juhendite grupiga, mis määratleb raamatute ning teiste raamatukogudes, muuseumides jm säilitatavate teavikute kataloogimise reeglid. Bibliograafilistest vormingutest on kõige enam levinud MARC (Machine Readable Cataloguing) rühma kuuluvad standardid. Algne MARC loodi aastail 1965–1966 Ameerika Ühendriikides Kongressi Raamatukogus. Eri riikides võeti kasutusele sellele tuginevad, kuid kohalikku kataloogimistava ja muid asjaolusid arvestavad n-ö rahvuslikud MARC-vormingud, näiteks Kanadas CanMARC, Saksamaal MAB jpt. MARC standardid koosnevad MARC-vormingutest, mis määratlevad bibliograafilise teabe digitaalse esitamise ja vahetamise reeglid. MARC-vormingu struktuur esitati esialgu ANSI standardina Z39.2 „Information Interchange Format“. 1981. aastal avaldati selle strandardi uus versioon pealkirjaga „Documentation – Format for bibliographic information interchange on magnetic tape“. Selle standardi viimane versioon pealkirjaga „Information Interchange Format (Z39.2-1994)“ pärineb 1994. aastast. Tänapäeval kasutatakse ISO standardit ISO 2709:2008 „Information and documentation – Format for information exchange“. Standardis on määratletud kirje põhistruktuur ja mitmesuguste tehniliste andmete esitusviis. Andmesisu määratlevad MARC-välised reeglistikud ja standardid nagu ISBD ja AACR2. Kõige uuem vorming selles rühmas on MARC 21, mis tekkis kahe vormingu, USMARCi ja CANMARCi harmoniseerimise tulemusena 1999. aastal. MARC21-vorming (joonis 9.2) esitab standardid eri tüüpi andmete esitamiseks ja vahetamiseks arvutiloetaval kujul. Nende andmete hulka kuuluvad: · bibliograafilised andmed (bibliographic data); · normandmed (authority data); · liigitusandmed (classification data); · leidumusandmed (eksemplari kohta: kohaviit, eksemplari staatus ja seisukord jms) (holdings data); · kogukonna andmed (community data) – mittebibliograafilised andmed (üritused, isikud, asutused, organisatsioonid jms). Joonis 9.2. Raamatu täiskirje andmed MARC 21 vormingus raamatukogukataloogis ESTER Tänapäeval on kõige levinumad MARC 21 ja UNIMARC-vorming. MARC XML on XML-skeem, mis tugineb MARC 21 standarditele. Seda arendab USA Kongressi Raamatukogu17 eesmärgiga tagada bibliograafilise info lihtne jagatavus erinevate arvutisüsteemide vahel. Normkirjete koostamist MARC 21 raames reguleerib Metaandmete normkirjete kirjeldusstandard (Metadata Authority Description Standard, MADS)18 – MARC 21-ga ühilduv XML-vorming MARC 21 normandmetesse kantavate andmete esitamiseks. Iga MADS-kirje koosneb vähemalt ühest pea <authority> elemendist ja erinevast arvust täiendavatest peaelementidest: <authority>, <related>, <variant>. Iga peaelement sisaldab ühte või enamat järgnevatest kirjeldavatest alamelementidest: <name>, <titleInfo>, <topic>, <temporal>, <genre>, <geographic>, <hierarchical Geographic>, <occupation>. 9.2.2. Arhiivikirjelduse rahvusvaheline standard ISAD(G) Rahvusvaheline arhiivinõukogu (International Council on Archives) on välja töötanud arhiivikirjelduse rahvusvahelise standardi ISAD(G) (General International Standard Archival Description), mille esimene versioon avaldati 1994. aastal. ISAD(G) kehtestab arhivaalide kirjeldustasandid ja määrab kirjelduselementide koosseisu vastavalt kirjeldustasandile. 2000. aastal avaldati selle teine, korrigeeritud väljaanne ISAD(G)2, mis on ka praegu kehtiv arhiivikirjelduse standard (ICA 2000). 17 16 http://www.rdatoolkit.org/. 18 http://www.loc.gov/standards/marcxml/. http://www.loc.gov/standards/mads/mads-doc.html. 85 86 METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE Standard põhineb järgmistel põhimõtetel: · kirjeldus liigub üldiselt üksikule; · kirjeldusinfo peab vastama kirjeldustasandile; · eri tasandite kirjeldused peavad olema seotud, st igal hetkel peab olema selge, millise kirjeldustasandiga on tegemist; · kõrgemal kirjeldustasemel antud informatsiooni madalamal tasemel ei korrata. Standardis kasutatakse mitmetasandilist kirjeldussüsteemi (joonis 9.3): · arhiiv, kollektsioon (fonds); · sari (series); · säilik (file); · arhivaal (item)19. Arhivaalide kirjeldusinfo rahvusvahelise vahetatavuse seisukohalt loetakse kõige olulisemaks identiteediala elemente. Rahvusvaheline arhiivinõukogu on vastu võtnud ka standardi, mis käsitleb normkirjete koostamist juriidiliste ja füüsiliste isikute ja perekondade kohta (ICA 2004) ja millele vastavalt kirjeldatakse arhiivimoodustajaid. Teine seotud standard on rahvusvaheline standard, mis reguleerib juriidiliste isikute tegevuste ja funktsioonide kirjeldamist (ICA 2007). Nimede normeeritud esitamine hõlbustab oluliselt infootsingut ja teabevahetust. ARHIIV, KOLLEKTSIOON ALLARHIIVID SARJAD ALLSARJAD SÄILIKUD SARJAD SARJAD ALLSARJAD SÄILIKUD juurdepääsutingimused (conditions governing access), intellektuaalomandi reprodutseerimise tingimused (conditions governing reproduction), keel ja kirjaviis (language and scripts of material), füüsilised tunnused ja tehnilised nõuded (physical characteristics and technical requirements), täiendav otsivahend (finding aids); · seotud ainese ala (allied materials area): originaalide olemasolu ja asukoht (existence and location of originals), koopiate olemasolu ja asukoht (existence and location of copies), seonduv aines (related units of description), publikatsioonid (publication note); · märkuste ala (note area): märkus (note); · kirjelduse kontrolli ala (description control area): kirjelduse koostamise andmed (archivist’s note), põhimõtted (rules or conventions), kirjelduse koostamise aeg (date(s) of descriptions). SÄILIKUD ARHIVAALID SÄILIKUD ARHIVAALID Joonis 9.3. Arhiivikirjelduse mitmetasandiline süsteem Standard sisaldab 29 andmeelementi, mis on jagatud seitsmesse gruppi: · identiteediala (identity statement area): teatme kood või tähis (reference code), pealkiri, autor, kuupäev, kirjeldamistasand (level of description), maht: kogus ja ühik (extent and medium of the unit of description (quantity, bulk, or size)); · kontekstiala (context area): arhiivimoodustaja nimetus või nimi (name of creators), administratiivne või biograafiline ajalugu – organisatsiooni struktuur või isiku sugupuu (administrative / biographical history), hoiustamise ajalugu (archival history, immediate source of acquisition or transfer); · sisu ja struktuuri ala (content and structure area): sisu ja hõlmavus (scope and content), hindamine (appraisal, destruction and scheduling information), täienemine (accruals), korrastussüsteem (system of arrangement); · juurdepääsu- ja kasutustingimuste ala (condition of access and use area): 9.2.3. Kodeeritud arhiivikirjeldus (EAD) Kodeeritud arhiivikirjeldus (Encoded Archival Description, EAD) on metaandmete standard, mida kasutatakse peamiselt arhiivide, aga ka raamatukogude ja muuseumide kogude masinloetavate kirjelduste (inventariraamatud, registrid, indeksid, kataloogid jms) loomiseks. Standardi arendamine algas California ülikoolis 1993. aastal. Standardi töötasid välja USA Kongressi raamatukogu ja Ameerika arhivaaride ühing (Society of American Archivists). EAD tugineb SGMLile ja alates 1998. aasta versioonist EAD 1.0 on see kooskõlaline ka XMLiga. EAD toetab igati arhiivide mitmetasandilist kirjeldussüsteemi ja on laiendatav <odd> elementidega, kuhu saab mahutada sisu, mis teiste elementide alla ei mahu. EAD sisaldab 163 andmeelementi, mida saab kasutada info kodeerimiseks ja vahetamiseks. Paljud EAD-elemendid on samased ISAD(G), MARC ja Dublin Core standarditega.20 9.2.4. Dublin Core metaandmesüsteem 1995. aastal loodi Dublin Core Metadata Initiative (DCMI), mille eesmärk oli elektroonilise info kirjeldamise standardi loomine. DCMI sai alguse 1995. aastal Iowa osariigis Dublinis toimunud konverentsil. 1998. aastal avaldati 15 elemendist koosnev Dublin Core Metadata Element Set (DCMES). „Informatsioon ja dokumentatsioon Dublin Core metaandmeelemendid” on rahvusvaheline standard ISO 15836:2003, mis on üle võetud Eesti standardiks EVS-ISO 15836:2004. Dublin Core’i tunnustatakse ametlikult ka WWW Consortiumi ja ISO 23950 raames ning Dublin Core’i metaandmeelemendid on kehtestatud USA standardina ANSI/NISO Z39.85. Standard sisaldab metaandmete loetelu valdkondadevaheliseks elektroonilise informatsiooni kirjeldamiseks. Dublin Core sisaldab 15 elementi, mis jagunevad kolme üldisesse gruppi: inforessursi sisuga, 20 Elementide nimekiri on kättesaadav aadressil https://www.loc.gov/ead/EAD3taglib/index.html. 87 88 METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE inforessursi kasutamise ja intellektuaalomandi õigustega ning inforessursi loomega seotud elemendid (vt tabel 9.1). Dublin Core’i ülesehitus võimaldab seda laiendada, kombineerides sellesse teisi metaandmesüsteeme, samuti saab mahukamaid süsteeme ekspordiks või süsteemidevaheliseks otsinguks Dublin Core’i teisendada. Tabel 9.1. Dublin Core’i andmeelemendid Grupp Element Sisu (content) Pealkiri (title) Teema ja märksõnad (subject) Kirjeldus (description) Tüüp (type) Allikas (source) Seos (relation) Hõlme (coverage). Inforessursi sisu käsitlusulatus Autor (creator) Väljaandja (publisher) Kaasautor (contributor) Õigused (rights) Daatum (date) Vorming (format) Identifikaator (identifier), nt URL, URN Keel (language) Intellektuaalomand (intellectual property) Loome (instantiation) METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE näiteks kontrollitud sõnastikke välja „subjekt“ täitmisel, kohustuslik see aga ei ole. Nii näiteks kasutatakse välja „formaat“ elementidena Multipurpose Internet Mail Extensions (MIME) standardi raames defineeritud sisutüüpe (content types) ja alamtüüpe (subtypes).21 Tänu oma lihtsusele on Dublin Core metaandmesüsteem laialdaselt kasutusel vägagi erinevates valdkondades (vt näitekast 9.1). Dublin Core’i lihtsus on üheaegselt nii selle süsteemi tugev kui ka nõrk külg. Lihtsus vähendab metaandmete loomisega seotud kulutusi ja soodustab koostalitlusvõimet. Teisest küljest aga ei võimalda lihtsus sellist semantilist ega funktsionaalset mitmekülgsust, mida toetavad keerukad metaandmesüsteemid. Samas saab keerukamaid metaandmesüsteeme vajadusel Dublin Core’iga kombineerida. Dublin Core ongi mõeldud kooskasutuseks teistsuguse semantikaga metaandmestandarditega, sageli ühes ja samas inforessursikirjelduses. Näitekast 9.1. Dublin Core’i metaandmesüsteemi kasutamine Dublin Core’i metaandmete koostamiseks saab kasutada veebigeneraatorit (http://www.dublincoregenerator.com/generator.html), mis pärast andmete sisestamist loob XML-vormingus kirje. Koostame kirje Kurmo Konsa raamatule „Laulupidu ja verivorst: 21. sajandi vaade kultuuripärandile“. Dublin Core’i metaandmetele on iseloomulik, et · metaandmeid on võimalik täiendada valdkonnaspetsiifiliste elementidega; · kõik elemendid on vabalt valitavad, ükski neist ei ole kohustuslik; · kõik elemendid on korratavad; · elemendid võivad olla esitatud erinevas järjestuses · iga element on määratleja poolt muudetav. Dublin Core’i järgi on metaandmeelementide puhul oluline: · lihtsus (simplicity) – andmeelementide semantika üldine lihtsus; · semantiline koostalitlusvõime (semantic interoperability) – kirjeelemendid võimaldavad valdkondadevahelist otsingut; · rahvusvaheline ühtlustatus (international consensus) – Dublin Core’i kasutatakse rohkem kui 20 riigis Põhja-Ameerikas, Euroopas, Austraalias ja Aasias; · paindlikkus (extensibility) – Dublin Core on kohandatav ja ühildatav erinevate standarditega (nt andmevahetusvorminguga MARC); · metaandmete modulaarsus (metadata modularity on the Web) – W3C on hakanud rakendama veebis kuvatavate metaandmete arhitektuuri raamistikku (Resource Description Framework); · vastavus W3C standarditele (nt HTTP, XML ja HTML). Väljadele kantav sisu sõltub kirjeldajast, standard seda otseselt ei määratle. Nendel väljadel, kus seda on võimalik rakendada, soovitatakse kasutada kontrollitud väärtusi, <?xml version=”1.0” encoding=”UTF-8”?> <metadata xmlns:xsi=”http://www.w3.org/2001/XMLSchema-instance”> 21 http://www.iana.org/assignments/media-types/index.html. 89 90 METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE > xmlns:dcterms=”http://purl.org/dc/terms/”> <dc:title>Laulupidu ja verivorst</dc:title> <dcterms:alternative>21. sajandi vaade kultuuripärandile</dcterms:alternative> <dc:creator>Konsa, Kurmo</dc:creator> <dc:subject xsi:type=”dcterms:AAT”>cultural heritage</dc:subject> <dc:subject xsi:type=”dcterms:AAT”>heritage management</dc:subject> <dc:description>Pärandit võib käsitleda erinevate vaatenurkade alt, alates selle filosoofilisest tähendusest ja lõpetades väga tehniliste konserveerimismenetlustega. See raamat lähtub ideest, et pärand on inimeste poolt praegusel hetkel loodav nähtus. Raamatu võib paigutada interpretatiivse käsitlusviisi paradigmasse, mis tähendab seda, et pärandit vaadeldakse nähtusena, millele antakse väärtus ja tähendus kindla sotsiaalse konteksti raames toimuva interpreteerimisprotsessi käigus</dc:description> <dc:publisher>Tartu Kõrgem Kunstikool</dc:publisher> <dcterms:created xsi:type=”dcterms:W3CDTF”>2014</dcterms:created> <dc:type>book</dc:type> <dc:identifier>ISSN 1406 - 8893</dc:identifier> <dc:identifier>ISBN 978-9949-9645-0-5</dc:identifier> <dc:identifier> http://www.ester.ee/record=b4443145*est</dc:identifier> <dc:language xsi:type=”dcterms:ISO639-2”>est</dc:language> <dcterms:educationlevel>students</dcterms:educationlevel> <dcterms:rightsholder>Konsa, Kurmo</dcterms:rightsholder> <dcterms:rightsholder>Tartu Kõrgem Kunstikool</dcterms:rightsholder> </metadata> 9.2.5. Märgistus- ehk märgendkeeled Selleks, et arvutil oleks võimalik inforessursse töödelda, peab ta neist aru saama. Senini ei suuda arvutid informatsiooni mõista päris selliselt, nagu teevad seda inimesed. Kui inimene loeb dokumenti, kus on kirjas selle koostaja nimi, siis saab ta aru, kes on dokumendi teinud. Arvutile tuleb täpselt öelda, kus asub dokumendis koostaja nimi, vastasel korral ei pruugi ta seda ära tunda, võib ju see nimi esineda erinevates kohtades, olla kirjutatud erineval viisil jne. Märgistuskeeli kasutataksegi inforessursi osade märgistamiseks. Inforessursi eri osad eristatakse vastavate koodidega, mida kutsutakse lipikuteks ehk märgenditeks (tag, markup tag). Arvutiprogramm tõlgendab märgendeid kas käskudena info esitamiseks (näiteks millist tekstiosa näidata kursiivis või mingi värviga) või siis mingi osa info eraldamiseks dokumendist selle edasiseks töötlemiseks METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE või andmebaasis säilitamiseks. Nii näiteks võidakse dokumendist eraldada automaatselt kataloogi kandmiseks autor, pealkiri, ilmumisaasta jne. Märgendkeel peab määrama, · millised märgendid on lubatud; · millised märgendid on kohustuslikud; · kuidas märgendeid tekstist eraldatakse; · mida märgend tähendab. Erinevatel eesmärkidel kasutamiseks on loodud terve hulk märgendkeeli: SGML, HTML, XML, AIML, LaTeX, PS (PostScript) jt. Standardne üldistatud märgistuskeel (standard generalized markup language, SGML) on dokumentide kirjeldamise üldine märgistuskeel, millele tuginevad mitmed teised tuntud märgistuskeeled, nagu HTML, XML, AIML jt. SGML on avatud ning rakendustest ja arvutiplatvormidest sõltumatu rahvusvaheline standard, mis kirjeldab suhet dokumendi sisu ja selle struktuuri vahel. Aastast 1986 on tegemist ISO standardiga (ISO 8879). SGMLis eristatakse elemente (elements) ja tunnuseid (attributes). Elementideks on kõik dokumendi struktuurielemendid: pealkirjad, lõigud, tabelid, peatükid jne. Tunnused annavad teavet vastava elemendi kohta. Elementide eraldamiseks kasutatakse märgendeid ja eraldajaid (delimiter).22 Näiteks võidakse teksti autori eristamiseks kasutada järgmist tähistust: <author>Tarvo Kärberg</author>. Autori tähistamiseks kasutatakse märgendit <author>, kahe sellise märgendi vahel asub sisu, antud juhul autori nimi. Elemendi lõppu tähistab märgend </author>. Erinevate tekstiosade märgendamiseks kasutatakse erinevaid märgendeid. SGML-dokument koosneb kolmest osast: · SGML deklaratsioon, mis määratleb dokumendis kasutatud märgistiku, elementide nimede pikkuse ja teised olulised tunnused; · dokumenditüübi kirjeldaja (document type definition, DTD); · dokument ise. Dokumenditüübi kirjeldaja ehk dokumenditüübi määrang on dokumendi juurde kuuluv teave selle kohta, kuidas dokumenti esitav rakendusprogramm peab märgendeid tõlgendama. DTD kirjeldab dokumendi igat elementi ja määratleb seosed nende vahel. Hüperteksti märgistuskeel (HyperText Markup Language, HTML) SGML sobib hästi digitaalsete objektide märgistamiseks, kuid seejuures on tegemist küllaltki keeruka ja töömahuka keelega. Veebidokumentide loomiseks töötati välja lihtsam märgistuskeel HTML. Dokumenti lisatud HTML-märgendid määravad selle, kuidas veebileht veebilehitsejas välja näeb. Nad annavad lehitsejale teada, mida sisuga teha, mil moel seda vormindada ja kuvada. Kõik HTML-märgendid on ümbritsetud noolsulgudega < >. Paljudele elementidele saab lisada parameetreid, mis elemendi esitamisviisi lehitseja jaoks täpsustavad. Parameetrid kirjutatakse elemendi algusmärgendi juurde noolsulgude sisse. Igal parameetril on tavaliselt mitu võimalikku väärtust või väärtusvahemikku. 22 Piire, eraldaja (delimiter) – märk (vahel ka mitmest märgist koosnev märgikomplekt), mida kasutatakse lihttekstis üksteisele järgnevate sõltumatute piirkondade alguse ja lõpu tähistamiseks. 91 92 METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE HTMLi lõi koos veebiga 1990. aastal Tim Berners-Lee. Aastal 1994 asutas ta World Wide Web Consortiumi (W3C), mis on sellest ajast alates tegelenud muuhulgas ka HTMLi standardite väljatöötamisega. Praeguseks on olemas viis HTMLi redaktsiooni. 2000. aasta jaanuaris avaldas W3C laiendatava hüperteksti märgistuskeele spetsifikatsiooni XHTML 1.0 (extensible hypertext markup language) – HTML 4.01 redaktsiooni, mis on esitatud XMLis. Seega on tegemist kõikide XML-keeltega ühilduva märgistuskeelega, mis on sobilik veebilehtede kirjeldamiseks. Laiendatav märgistuskeel (extensible markup language, XML) XML on SGMLi alamosa (standardprofiili ehk kitsendatud vormiga), erinevalt HTMList, mis on SGML standardile tuginev keel. XML on platvormist sõltumatu – XML-andmeid saab lugeda ja töödelda iga XMLi kasutamiseks mõeldud programm, olenemata riistvarast ja operatsioonisüsteemist. XML on laiendatav – igal kasutajal on võimalik defineerida oma elemente. XML võimaldab koostada kuitahes keeruka struktuuriga dokumente. Kui võimalik, tuleks kasutada olemasolevaid XML rakendusi, kui neid ei ole, siis luua uus. Igal XML-dokumendil on loogiline ja füüsiline struktuur. Füüsilise struktuuri määravad andmed, mida XML-dokument sisaldab. Füüsiliselt koosneb dokument kirjetest, mida nimetatakse üksusteks (entities). Üksus võib viidata teistele üksustele, põhjustades nende kaasamise dokumenti. Üksus sisaldab kas grammatiliselt parsitud (analüüsitud) või parsimata andmeid. Parsitud andmed koosnevad märkidest (characters), kas märkandmete (character data) või märgistuse (markup) vormis. Märgistusega kodeeritakse andmete paigutus dokumendis ja dokumendi loogilise struktuuri kirjeldus. Igal üksusel on mingi sisu ja nimi. Dokument algab juur- ehk dokumendiüksusega (document entity). Eksisteerib üks ja ainult üks element, mida nimetatakse juur- ehk dokumendielemendiks ja mille ükski osa ei esine mitte üheski teise elemendi sisus (content). Kõikide teiste elementide korral, mille lähtemärgis asub mingis teises elemendis, asub lõpumärgis samas elemendis, st et lähte- ja lõpumärgisega eraldatud elemendid sisestuvad (nest) üksteises õigesti. Dokumendi loogilist struktuuri võib nimetada dokumenti kirjeldavaks raamistikuks (framework). Loogiliselt koosneb dokument deklaratsioonidest, elementidest, kommentaaridest, viitadest märkidele, töötluseeskirjadest, mis on kõik üksikasjaliku märgistusega dokumendis ära näidatud. Iga dokument sisaldab ühte või mitut elementi, mis on piiritletud kas algusmärgistega (start-tags) ja lõpumärgistega (end-tags) või tühielemendi (empty) korral tühielemendi märgisega (empty-element tag). Ka XML kasutab märgendeid, kuid erinevalt HTMList peavad kõik märgendid olema suletud. Märgendite vahel olevat sisu koos märgenditega nimetatakse XML-elemendiks. Igal elemendil on nimega identifitseeritav tüüp, mida mõnikord nimetatakse tema sootunnuseks (generic identifier, GI) ja mis võib omada kogumit atribuutide spetsifikatsioone. Atribuut võimaldab elemendile infot lisada. XML-skeemid (XML schema) on välja töötatud spetsiaalselt XML-dokumentide tarbeks ja pakuvad tunduvalt rikkamaid võimalusi võrreldes dokumendi tüübi deklaratsioonidega. XML-skeem kirjeldab mingit XML-dokumendi klassi ja tegelik XML-dokument on selle klassi realisatsioon. Skeem on XML-fail, mis sisaldab reegleid selle kohta, mis võib XML-andmefailis sisalduda ja mis mitte. Skeemifailide failinimelaiend on tavaliselt .xsd, samas kui XML-andmefailide laiend on .xml. XMLil baseeruvaid skeemi lahendusi on mitu: XML-Data – andmetüüpide lisamise võimalus (loodud SQL tüüpide eeskujul); DCD (Document Content Description); SOX (Schema for Object-oriented XML); DDML (Document Definition Markup Language); XDR (XML-Data Reduced); METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE XSD (XML Schema). Skeemid lubavad programmidel XMLide korrektsust kontrollida, annavad andmete struktureerimiseks raamistiku ja tagavad selle arusaadavuse loojale ja teistele kasutajatele. Seni, kuni XML-faili andmed vastavad skeemi reeglitele, saab iga XMLi toetav programm sealt andmeid lugeda, tõlgendada ja töödelda. XML-skeemi määratlus (XML schema definition, XSD) võimaldab XMLis kirjeldada väga keerulisi andmestruktuure. Selles saab kirjeldada · · · · elementide järjestikulist esinemist; elementide esinemiste arvu; atribuutide esinemisi elementides; atribuutide ja elementide väärtustüüpe. Lisaks on võimalik määrata andmetele tingimusi ja teha oluliseks nende esinemise järjekorra. XML-dokumente luuakse tekstiredaktorite või spetsiifiliste XML-redaktoritega. Tarkvaramoodulit XML-protsessor kasutatakse XML-dokumentide lugemiseks ning juurdepääsu tagamiseks dokumendi sisule ja struktuurile. Eeldatakse, et XML-protsessor töötab koos rakendustarkvaraga. Teksti kodeerimise algatus (Text Encoding Initiative, TEI) TEI loodi 1987. aastal eesmärgiga töötada välja humanitaar- ja sotsiaalteaduslike ning lingvistiliste tekstide kodeerimise juhendid.23 Alates 2000. aastast tegeleb TEI juhendite haldamise ja täiendamisega rahvusvaheline TEI Consortium. „TEI Guidelines for Electronic Text Encoding and Interchange“ avaldati 1994. aastal. Käesoleval ajal kehtib 2007. aastal ilmunud TEI juhendite versioon (TEIP5).24 TEI loomisel võeti eesmärgiks teha selline tekstide märgendussüsteem, mis sobiks võimalikult paljudeks eesmärkideks ning · oleks üldine, paindlik ja vajadusel laiendatav; · annaks standardse vormi, mis teeb võimalikuks teksti üleviimise ühest arvutist ja keskkonnast teise ja selle kasutamise teises keskkonnas; · esitaks ühtsed tekstide märgendamispõhimõtted; · pakuks standardse vormi erinevates tekstides esinevate erinevate nähtuste märgendamiseks. Iga TEI-dokumendi struktuuri kohustuslik osa on päis (header), mis sisaldab metaandmeid märgendatud teksti kohta. Päis koosneb neljast osast: · faili kirjeldus (file description) <fileDesc> – sisaldab faili täielikku bibliograafilist kirjeldust; · kodeeringu kirjeldus (encoding description) <encodingDesc> – kirjeldab seost elektroonilise teksti ja nende allikate vahel, kust see tekst on saadud; · teksti profiil (text profile) <profileDesc> – teksti mitte-bibliograafiliste tunnuste detailne kirjeldus, ennekõike tuuakse ära kasutatud keeled, situatsioon, kus tekst loodi, ja kes selle loomises osalesid; · korrigeerimise kirjeldus (revision description) <revisionDesc> – kirjeldab faili korrigeerimise ajalugu. 23 24 http://www.tei-c.org/index.xml. http://www.tei-c.org/release/doc/tei-p5-doc/en/html/index.html. 93 94 METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE TEI päise kirjeldav info langeb suures osas kokku teiste standardite (MARC, MODS, Dublin Core) poolt määratletud kirjeldava teabega objektide kohta. Sarnaselt teiste märgendkeeltega on TEIs määratletud hulk silte (tags) ehk XML-elemente, mida saab teksti lisada, et märgendada teksti struktuuri või muid huvipakkuvaid tunnuseid. Lisaks on olemas atribuudid (attributes), mida saab kasutada elementide muutmiseks. Kuna TEI on ette nähtud igasuguste tekstide märgendamiseks, siis on terviklik siltide hulk vägagi suur, koosnedes ligikaudu 500 sildist. Igal konkreetsel juhul kasutatakse neist muidugi ainult väikest osa. TEI sildihulga elemendid jagunevad kahte suurde gruppi. Ühed on ette nähtud märgendatava teksti metaandmete (bibliograafiline kirjeldus, päritolu, käsikirja kirjeldus jne) kirjapanekuks, teiste abil märgendatakse teksti ennast. Tekstide märgendamiseks kasutatakse näiteks järgmiseid silte: lõik <p>, lause <s>, tsiteering <q>, reavahetus <lb>, leheküljevahetus <pb>, nimekiri <list> jne. Välja on töötatud märgendusmudelid erinevate tekstitüüpide jaoks. TEId kasutatakse näiteks lingvistiliste korpuste märgendamiseks – British National Corpus,25, Eesti keele koondkorpus26. Lisaks on olemas ka TEI analoog muusika jaoks – MEI (Music Encoding Initiative)27. 9.3. Säilitusmetaandmed Pikaajalise säilitamise edukus sõltub suurel määral metaandmete olemasolust ja kvaliteedist. Säilitusmetaandmete korral on tegemist metaandmetega, mis on vajalikud inforessursside pikaajaliseks säilitamiseks. Nad aitavad digiressursside säilitamist korraldada ja dokumenteerivad säilitusprotsessi ennast. Säilitusmetaandmed on igasuguse digisäilitusstrateegia väga oluline osa (Anderson Delve et al. 2009: 16). Kitsama käsitluse kohaselt kuuluvad säilitusmetaandmed administratiivsete metaandmete hulka. Laiema käsitluse järgi kuulub säilitusmetaandmete alla nii osa administratiivseid, kui ka strukturaalseid metaandmeid. Kirjeldavaid metaandmeid otseselt säilitamisega ei seostata. Samas kui objekt ei ole leitav ega kasutatav, siis ei saa tegelikult ka tema säilitamisest rääkida. Säilitusmetaandmed peavad tagama info järgmiste oluliste valdkondade kohta (Lavoie Gartner 2005): · provenients– info objekti loomise ja edasiste omanike kohta; olulised sündmused objekti ajaloos; · autentsus – info, mis on piisav selleks, et tagada infoobjekti usaldusväärsus. Kõik infoobjektiga kas tahtlikult või tahtmatult toimunud muudatused peavad olema dokumenteeritud. Teave autentsuse tagamiseks rakendatud tehniliste meetodite (kontrollsummad digiallkirjad jms) kohta; · säilitustegevused – kõik objektiga toimunud säilitustegevused (migratsioonid, normaliseerimised, emuleerimine jms) ning nende mõju infoobjektile peavad olema dokumenteeritud; · tehniline keskkond – info, mis kirjeldab tehnilisi nõudeid nii digiobjekti kasutamiseks vajalikule riist- kui ka tarkvarale. Tegemist on üliolulise teabega, kuna enamik säilitusstrateegiaid vajab teavet laiema tehnilise keskkonna kohta; 25 26 27 http://www.natcorp.ox.ac.uk/ https://www.keeletehnoloogia.ee/et/ekktt/ekktt-projektid/eesti-keele-koondkorpus/koondkorpus http://music-encoding.org/. METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE · intellektuaalomandi õigused – info õiguslike aspektide kohta, mis võivad piirata digiobjekti säilitamist ja kasutamist. Nagu näha, hõlmavad säilitusmetaandmed vägagi suurt hulka küllaltki erilaadilist teavet. Säilitusmetaandmete süsteemide loomisel ongi kõige keerukam igal konkreetsel juhul otsustada, millist informatsiooni on täpselt vaja, et tagada infoobjektide säilitamine. See sõltub sellest, milliseid infoobjekte, kui pikalt ja millisel eesmärgil säilitatakse. Võimatu on luua ühtset metaandmete süsteemi, mis sobiks kõikidele säilitatavate digiobjektide tüüpidele ja kõikidele säilitamisega tegelevatele institutsioonidele. Teisalt on jällegi sobiv metaandmete süsteem vaja luua kohe algusest peale, kuna tagantjärele on paljude metaandmete hankimine võimatu. Säilitusprotsessi eri etappidel ja eri osalistele on olulised erinevad metaandmed. Enamik säilitusmetaandmete süsteeme tugineb kas otseselt OAISile või siis on arendatud lähtudes samadest ideedest nagu OAIS. OAIS määratleb järgmised üldised säilitusmetaandmete tüübid, mis on vajalikud digiobjektide pikaajaliseks säilitamiseks: esitlusinfo – info, mis on vajalik säilitatava bitijada esitamiseks. Siia kuulub info vormingute, märgistike, riist- ja tarkvarakeskkonna kohta jne. Näiteks kui säilitatakse andmetabelit, peab olemas olema info nii tabeli vormingu (struktuuri), kui ka arvuliste väärtuste tähenduse (semantika) kohta; säilitamise kirjeldusinfo – info, mis toetab ja dokumenteerib arhiveeritud objekti säilitamist, sealhulgas: · viiteteave – arhiveeritud objekti unikaalne identifikaator; · kontekstiteave – kirjeldab arhiveeritud objekti seoseid teiste arhiveeritud objektidega ja seoseid keskkonnaga, näiteks põhjust, miks arhiveeritud objekt on loodud; · päritoluteave – dokumenteerib arhiveeritud objekti ajalugu, selle loomist, muutmist ja haldamist; · kinnitusinfo – kinnitab arhiveeritud objekti autentsust ja terviklikkust, näiteks kontrollsumma; · paketi kirjeldus – info, mis seob kõik infopaketi komponendid üheks loogiliseks tervikuks; · kirjeldav info – info, mis aitab kasutajal arhiveeritud objekti leida ja kasutada. Pakendi tasemel metaandmed. OAIS ei määratle kindlaid metaandmete elemente, kuid selline üldine metaandmete kirjeldus on aluseks spetsiifilisemate säilitusmetaandmesüsteemide loomisel. 9.4. Metaandmesüsteemi valik Metaandmesüsteemi valikul tuleks pidada silmas järgmisi asjaolusid: · inforessursside kasutajad ja nende vajadused – millist infot nad vajavad ja eeldavad, et neile pakutakse. Lõppkasutajate infovajadusi on oluline arvestada juba metaandmete süsteemi kavandamise algstaadiumis, kuna need mõjutavad oluliselt metaandmete elementide loetelu, pakendamisepakendamise vormingut ja esitamise viisi; · kogude haldajad – milline info on vajalik digiressursside kogu haldamiseks, säilitamiseks ja kasutatavana hoidmiseks. Oluline on arvestada digiressursside pikaajalise säilitamise ja kasutamisekasutamise vajadusi; · olemasolevad standardid, mida sarnaste kogude puhul kasutatakse. Niipalju kui võimalik tuleb kasutada olemasolevaid standardeid või siis neid vastavalt vajadustele 95 96 METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE · · · · · kohandada. Ühelt poolt aitab see vahendeid kokku hoida ja teiselt poolt soodustab eri süsteemide koostalitlusvõimet; Kasutatav metaandmesüsteem – milliseid metaandmeid kasutatakse ja kuidas nad rahuldavad vajadusi; koostoime teiste olemasolevate süsteemidega – kas metaandmed peavad sobima olemasolevate süsteemide, näiteks elektronkataloogidega; ressursside olemasolu – kui palju aega ja vahendeid on võimalik eraldada metaandmete loomiseks ja haldamiseks ning kas on olemas inimesed, kes omavad kogemusi ja teadmisi metaandmetega tegelemiseks; koostöövõime – kas kogu peab töötama koos teiste kogudega; kogu arenguplaanid – millised on kavad kogu arendamiseks, milliseid uusi ressursse võidakse kogusse lülitada, kuidas võib muutuda kogu kasutajaskond. 9.5. Metaandmete loomine Metaandmeid loovad kas inimesed või automaatsed süsteemid. Metaandmete loomiseks on mõned tüüpilised ajahetked infoobjekti elutsüklis: objekti loomine, avaldamine, hoidlasse paigutamine ja taasläbivaatamine. Metaandmete loomise seisukohalt on oluline nende jaotamine sisemisteks ja välisteks. Sisemised ehk implitsiitsed metaandmed (intrinsic, implicit metadata) on vahetult ja otseselt seotud kirjeldatava objektiga. Sellisteks metaandmeteks on näiteks failivorming, faili suurus, eraldusvõime, rastrisügavus jms. Sedalaadi teave on failivormingu korral üldjuhul kirjas faili päises (header). Kontekstist tuletatud metaandmete näiteks võib tuua faili asukoha kataloogis. Suur osa sisemistest metaandmetest on tehnilised. Sisemisi metaandmeid saab infoobjektidest endist või nende kontekstist tuletada automaatselt. Välised ehk eksplitsiitsed metaandmed (extrinsic, explicit metadata) on märksa subjektiivsemad ning omistatakse infoobjektile lähtudes selle kontekstist ja suhetest teiste infoobjektidega. Nende hulka kuuluvad näiteks kirjeldavad metaandmed. Välised metaandmed loob üldjuhul inimene. Arvutid võivad tekitada näiteks märksõnade indekseid, kasutajate logisid ja kontrolljälgi,28 kuid enamiku metaandmeid loovad siiski inimesed. Käsitsi on kõikide metaandmete loomine vägagi töömahukas ülesanne. Oluline on tagada metaandmete automaatne hõive dokumendihaldussüsteemidest, olemasolevatest metaandmeid sisaldavatest andmebaasidest ja muudest allikatest. Tänapäeval põimuvadki metaandmete loomisel inimese teostatavad toimingud automaatsete protsessidega. Metaandmeid luuakse infoobjekti elutsükli eri etappidel, erinevatel eesmärkidel ja eri inimeste poolt. Me võime ette kujutada, et infoobjekt korjab oma elu jooksul enda ümber ja ka sisse pidevalt üha uusi metaandmete kihte. Võimalikult palju tuleb kasutada juba olemasolevaid metaandmeid, mida saab üle kanda raamatukogude, kirjastajate, arhiivide jne andmebaasidest. Kirjastajad kasutavad näiteks XMLil baseeruvat metaandmete standardit ONIX29, et levitada infot raamatute, jätkväljaannete ja kirjastamisega seotud litsentside kohta. 28 29 Kontrolljälje moodustavad infoüksuse töötluskäigu taastamist ja kontrolli võimaldavad andmed. Kontrolljälg annab informatsiooni äritehingu oluliste sammude toimumise kohta ja võimaldab kontrollijal kindlaks teha, et tehingu aruandesse pole tekkinud vigu. E-kommertsis aitab hea kontroll välja selgitada programmeerimisvigu ja võimalikke lahkuminekuid selles, kuidas tehingupooled on tehingu registreerinud. http://www.editeur.org/8/ONIX/. METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE Enamik institutsioone loob kirjeldavaid metaandmeid käsitsi, tehnilisi metaandmeid tuletatakse enamikul juhtudel automaatselt. Suur osa struktuurseid ja administratiivseid metaandmeid saadakse digiobjekti loojatelt. Ka kirjeldavate metaandmete kvaliteet on mõnel juhul parem, kui need esitab digiressursi looja. Eriti oluline on see selliste digiressursside korral, mille loojal on kõige parem info selle kohta, kuidas ja milleks need on loodud. Selliste digiressursside heaks näiteks on teadusprojektide käigus kogutavad andmebaasid. Samas on väga paljude digiressursside korral kirjeldavate metaandmete loojateks vastava eriala spetsialistid, kuna autoritel või loojatel puuduvad selleks teadmised ja oskused. Nii näiteks loovad raamatutele metaandmed raamatukogutöötajad, mitte autorid, kuigi nende käest võidakse nõu küsida. Metaandmete loomiseks on olemas mitmesuguseid abivahendeid, mida võib grupeerida järgmiselt (NISO 2004: 10): · mallid (templates) – kasutaja sisestab metaandmed valmis vormi. Mall esitab vormindatud metaandmetemetaandmete elementide ja vastavate väärtuste süsteemi; · märgendusvahendid – struktureerivad metaandmete elemendid ja väärtused vastavasse märgendkeelde. Enamik neist vahenditest loob XML- või SGML-dokumendi tüüpide määratlusi (document type definitions, DTD). Osa malle esitavad samuti metaandmed sellisel märgendatud kujul; · tuletusvahendid (extraction tools) – loovad automaatselt metaandmed digiressursi analüüsimise teel. Üldjuhul sobivad tekstiliste digiobjektide analüüsimiseks. Nende abil loodud metaandmed peab inimene kindlasti üle kontrollima ja toimetama. Kujutiste analüüsimisel saab infot vormingute, värvussügavuse, pakkimise jms kohta; · teisendusvahendid (conversion tools) – muudavad ühe metaandmete vormingu teiseks. Bibliograafiliste metaandmete automaatseks hankimiseks kasutatakse metaandmete kaevandamist (metadata mining), kogumist (metadata harvesting), veebiotsinguid jt meetodeid. Metaandmete loomine on pikka aega olnud teabeasutuste (raamatukogude, arhiivide, muuseumite) üks põhitegevusi. Tänapäeval eeldatakse, et digitaalsete dokumentide metaandmed tekivad peaasjalikult juba objekti loomisel ja edasise elukäigu jooksul tekib neid väga minimaalselt, pigem uuendatakse olemasolevaid metaandmeid. Metaandmete loomises osalevad tänapäeval üha enam ka kasutajad. Paljudes veebikeskkondades on kasutajatel võimalik lisada tekstidele, piltidele jms metaandmeid. Kasutajate loodud metaandmeid nimetatakse folksonoomiaks. Folksonoomia on meetod sisu märgendamiseks ja kategoriseerimiseks koostöös loodud ja hallatud märksõnade abil (tagging tools). Materjali avaldaja võib kasutada vabalt valitud märksõnu. Kasutajate loodud metaandmete hea külg on see, et teatud huvigrupid, kes vastavaid inforessursse kasutavad, loovad neile ka kõige sobivamad metaandmed. Tegemist on ka suhteliselt odava viisiga olemasolevaid metaandmeid täiendada ja laiendada. Puudusteks on kvaliteedikontrolli vajadus ja probleemid koostalitusvõimega - mõne inforessursi metaandmed võivad olla liiga spetsiifilised ja sellele ressursile ainuomased. Metaandmed võivad olla tehtud ka infoobjekti looja poolt. Tavaliselt toimub see koos infoobjekti enda loomisega. Tegemist võib olla originaalse infoobjektiga või ka näiteks digitaliseeritud variandiga mingist objektist. Näiteks võib tuua raamatu pealkirja, autori nime, maali nimetuse, digitaliseerimise tulemusena saadud faili vormingu ja nime jne. Metaandmed võidakse objektile luua aga ka hiljem, tavaliselt siis juba ka teiste inimeste poolt – näiteks raamatute bibliokirjed ja kataloogiandmed, failide URLid jms. 97 98 METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE Osa metaandmeid, näiteks paljud kirjeldavad metaandmed, on staatilised – kui nad on kord loodud, siis nad püsivad muutumatutena. Dünaamilised metaandmed muutuvad säilitamise, kasutamise ja infoobjektide töötlemise käigus. Selliste metaandmete hulka kuuluvad näiteks säilituskorralduslikud metaandmed, vorminguid ja objektide töötlemist käsitlevad metaandmed, kataloogipuud, õigusi puudutav teave. 9.6. Metaandmete sidumine infoobjektiga Metaandmed võivad olla esitatud · kirjena andmebaasis; · märgenditena inforessursis endas; · eraldi failina; · tavakeelse kirjeldusena. Ühe ja sama inforessursi metaandmed võivad olla esitatud ning infoobjektiga seotud erineval moel. Manustatud metaandmed (embedded metadata), mida võidakse nimetada ka sisemisteks metaandmeteks, on osa infoobjektist, kuhu nad lisab tavaliselt juba infoobjekti looja. Manustatud metaandmeid võivad sisaldada näiteks HTML-dokumendid, suur osa tekstidokumente, PDF-tüüpi failid, kujutisefailid jne. Liidetud ehk ühendatud metaandmeid (associated metadata) hoitakse failides, mis on tihedalt seotud ressursiga, mida nad kirjeldavad. Tihti on ressurss ja metaandmed pakendatud kokku nii, et moodustub uus fail. Selliseks konteineriks on näiteks METS-fail. Eraldiseisvad metaandmed (detached metadata), mida nimetatakse ka välisteks metaandmeteks, on metaandmed, mille kirjeid hoitakse selleks ettenähtud andmebaasides infoobjektist eraldi. Tüüpilised välised metaandmesüsteemid on näiteks arhiivskeem ja dokumendiregister. Väliseid metaandmeid säilitatakse kõige sagedamini andmebaasides ja XMLfailidena. Eraldi failidena esinevad metaandmed võivad olla kirjeldatava infoobjektiga lingitud. METAANDMED – DIGIOBJEKTIDE JA NENDE KOGUDE KIRJELDAMINE 9.7. Metaandmete koostalitlusvõime Kuna eri huvigrupid on arendanud välja endale kõige sobivamad metaandmesüsteemid ja ühtset universaalset metaandmesüsteemi ei ole võimalik luua, siis on väga oluline tagada metaandmete jagatavus eri süsteemide vahel. Tehnilisel tasemel sõltub koostalitlusvõime standardiseeritud süntaksite olemasolust ja ühiste kommunikatsiooniprotokollide kasutamisest. Standardsed süntaksid põhinevad tänapäeval XMLil ning levinumad kommunikatsiooniprotokollid on Z39.50 (ANSI/NISO Z39.50-2003) ja Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH). Märksa keerukam võrreldes tehnilise koostalitlusvõimega on tagada semantilist koostalitlusvõimet. Selleks on vajalik erinevates valdkondades kasutatava terminoloogia ja tähenduste ühtlustamine. Lihtsaim lahendus semantilise koostalitlusvõime tagamiseks on kasutada erinevate metaandmesüsteemide vastavustabeleid (mappings ehk crosswalks) kombineerituna valdkondadevaheliste metaandmestandarditega, näiteks Dublin Core’iga. Vastavuste leidmine erinevate metaandmesüsteemide vahel ei ole tavaliselt väga lihtne, kuna nad on loodud spetsiifilisi eesmärke ja konkreetset valdkonda silmas pidades (Day 2005: 17). Erinevate metaandmesüsteemide integreerimiseks saab kasutada World Wide Web Consortiumi (W3C) loodud ressursikirjeldusraamistikku (The Resource Description Framework, RDF), mis on andmemudel veebiressursside kirjeldamiseks.30 Tegemist on keelega, mis oli algselt ette nähtud veebiressursside metaandmete, nagu pealkiri, autor, veebilehe muutmise aeg, info autoriõiguste kohta jms, esitamiseks. RDF võimaldab metaandmetega seotud infot erinevate rakenduste vahel vahetada nii, et säiliks andmete tähendus. RDFi aluseks on objektide identifitseerimine ühtset ressursiidentifikaatorit (uniform resource identifiers, URI) kasutades ning resursside kirjeldamine lihtsate tunnuste (simple properties) ja tunnuste väärtuste (property values) abil. RDFi saab esitada mitme notatsiooni abil. Neist traditsioonilisem on XML-kuju, mida nimetatakse RDF/ XML. Metaandmete säilitamisel on kõige olulisem tagada side metaandmete ja infoobjekti vahel. Sellest eesmärgist lähtudes tuleb ka hinnata võimalike säilitusmeetodite häid ja halbu külgi. Metaandmete säilitamine koos selle objektiga, mida nad kirjeldavad, tagab selle, et metaandmed ei lähe kaotsi, ennetab andmete ja metaandmete seostamisel tekkida võivaid probleeme ning tagab, et andmeid ja metaandmeid muudetakse koos. Samas muudab metaandmete olemasolu failivormingu keerukamaks ning keerukamate digiobjektide säilitamisel võib tekkida rohkem vigu. Selliselt esitatud metaandmeid on keerukam keskselt töödelda, sest metaandmed asuvad ju erinevates objektides. Metaandmete säilitamine eraldi andmebaasis tagab nende lihtsama otsitavuse ja kasutamise ning metaandmete endi halduse. Samas kaob sel juhul automaatne side andmete ja metaandmete vahel. Infoobjekti võib kopeerida, ümber paigutada, muuta või kustutada, ilma et selle metaandmed muutuksid. Üha enam on levinud tava hoida sisuandmeobjekte failisüsteemis või sisuhaldamise süsteemis ning säilitada metaandmeid nii koos objektiga kui ka eraldi andmebaasis. Andmebaasis hoitavaid metaandmeid kasutavad hoidlasüsteemid, objektiga koos hoitavad metaandmed muudavad aga objekti isemääratlevaks (self-defining), näiteks väljaspool digihoidla konteksti (Anderson Delve et al. 2009: 39). Sellisel juhul on metaandmed dubleeritud ning nende säilitamiseks kulub rohkem aega ja vahendeid. Probleemseks võib osutuda nii objektis kui ka andmebaasis asuvate metaandmete sünkroniseerimine nende muutmisel. Võidakse kasutada ka sellist lahendust, et andmebaasis on metaandmed täielikul kujul ja objekti juures on ainult osa metaandmeid. 30 http://www.w3.org/RDF/. 99 100 SÄILITUSMEETODID DIGIHOIDLAS SÄILITUSMEETODID DIGIHOIDLAS 10. SÄILITUSMEETODID DIGIHOIDLAS objektist täpne koopia. Koopia valmistamise käigus bitijada ei muudeta, näiteks kui tehakse koopia kõvakettast, siis kopeeritakse ka kõik peidetud, ajutised ja rikutud failid, failifragmendid ning kustutatud failid, mida ei ole veel üle kirjutatud. Bitijada kopeerimisel on oluline, et koopia langeks täpselt kokku algallikaga. Selle tagamiseks kasutatakse kontrollsummasid või digitaalseid allkirju. Kui bitijada on natukenegi muudetud, siis kontrollsumma muutub. Lugenud läbi selle peatüki, Bitijada kopeerimine on lihtne, probleeme võib tekkida vaid väga suure andmemahu korral. Bitijada kopeerimine on tegelikult kõikide säilitusmeetodite üks osa. Aga ainuüksi seda ei loeta digiinfo pikaajaliseks säilitusmeetodiks, kuna lahendamata jääb bitijada inimesele mõistetavaks muutmise küsimus. • tead, miks on kõikide säilitusstrateegiate alus bitijada kopeerimine; • oskad faile varundada; • tead, milline meedia ei sobi pikaajaliseks digiobjektide säilitamiseks; • tead, mis on digiobjektide migreerimine; • tead, millised failivormingud sobivad digiobjektide säilitamiseks; • tead, mis on emuleerimine ja kuidas seda digiobjektide säilitamisel kasutada saab. Digitaalse info säilitamiseks on erinevaid meetodeid. Ei ole olemas üht meetodit, mis sobiks kõikidel juhtudel. Digiinfo säilitamine eeldab selle pidevat haldamist. Selline vajadus on tingitud nii tehnoloogia, andmekandjate kui ka määratletud kasutajaskonna teadmusbaasi muutustest. Säilitusstrateegiaid eristatakse peamiselt selle alusel, kas digiobjekt säilitamise käigus muutub või mitte. Kui digiobjekti ennast ei muudeta, siis on üks võimalus selle kasutamiseks vajaliku tarkvara emuleerimine. Emuleerimine tagab digiobjekti kasutamise sellisena, nagu see loodi, samas võib see jällegi vähendada info võimalikke kasutusviise. Digiobjekti muutmata jätmine tagab selle autentsuse. Teine võimalus tagada muutmata digiobjektide kasutatavus on luua nende kirjelduste alusel uus tarkvara, mis võimaldab neid objekte kasutada. Uus tarkvara võib olla identne algse tarkvaraga või siis baseeruda uuel tehnoloogial. Juhul kui kasutajatele on oluline digiobjekti väljanägemine või muud tunnetuslikud omadused, näiteks heli (look and feel), siis võivad emuleerimisel tekkida tõsised probleemid. Selleks, et hinnata, kas uuestiloodav tarkvara esitab digiobjekte autentsel kujul, tuleb lisaks tarkvara kirjeldusele säilitada ka tarkvara toimimise väljund – kujutised, videod, helid, vibratsioonid jne. Siis on võimalik võrrelda emuleeritud tarkvara pakutavat käitumist originaalse tarkvara omaga. Kasutajakogemuse formaalne kirjeldamine on esialgu vägagi raske ja korraliku lahenduseta küsimus. Teine säilitamisstrateegia on muuta säilitatavat digiobjekti nii, et see oleks kasutatav kaasaegsete programmide ja riistvaraga. Sellised säilitusstrateegiad liigitatakse üldnimetuse migratsioon alla. Migreerimisest ja emuleerimisest tuleb selles peatükis veel põhjalikumavalt juttu, aga kui alustada algusest, siis tuleb öelda, et igasugune digiinfo säilitamine eeldab piisava esitusinfo olemasolu. Tasub ka tähele panna, et see ei ole staatiline, vaid muutub pidevalt koos tehnoloogia ja kasutajate teadmusbaasi muutumisega. Kuna digiinfot on võimalik suhteliselt lihtsalt ja vigadeta kopeerida, siis on kõikide digiinfo säilitusmeetodite aluseks tegelikult bitijadast koopiate tegemine. 10.1. Bitijada kopeerimine Bitijada kopeerimine (bitstream copying) on rohkem tuntud andmete varundamise (backing data) või arhiveerimisena. Bitijada kopeerimisel valmistatakse digitaalsest Koopia võidakse teha ühest või mitmest failist või tervest andmekandjast. Failide korral nimetatakse protsessi faili kopeerimiseks ja tervete andmekandjate korral kettakujutise või tõmmise tegemiseks (disc imaging, disc cloning, disc ghosting). Ketta kopeerimine erineb lihtsalt kõikide kettal asuvate failide kopeerimisest selle poolest, et säilib ka ketta struktuur ja andmete suhteline asukoht kettal. Kui kopeerida failid ühelt kettalt teisele, siis paigutatakse need uuel kettal sinna, kus on ruumi. Kõik andmed jäävad küll samaks, aga see, kuidas andmed on kettal jaotunud, muutub. Kettast täpse koopia tegemisel kantakse aga üle iga füüsiline sektor, nii et andmete jaotus kettal jääb täpselt samaks. Kantakse täielikult üle andmekandja sisu ja struktuur, sektorite kaupa tehakse täpne koopia ilma failisüsteemile tähelepanu pööramata. Kettast tehtud koopiafaili, mis tavaliselt on ka kokku pakitud, nimetatakse kettakujutiseks (image file). Tekitatud koopia on nii füüsiliselt kui ka loogiliselt täpselt samasugune kui originaal. Ketta peegeldamine (disc mirroring) tähendab samade andmete salvestamist kahele eri kõvakettale või sama ketta kahte eri jaotusse, et tagada süsteemi tõrgeteta töö. Ketta peegeldamise puhul kasutatakse mõlema ketta juhtimiseks üht ja sama kontrollerit. 10.2. Varundamine Varundus on liiasusel põhinev käideldavuse ja tervikluse tugevdamise abinõu ning tähendab infosüsteemi varuandmete loomist nende osalise või täieliku hävimise või kasutuskõlbmatuks muutumise puhuks (Infosüsteemide turve 1998: 334). Varundamine tugineb bitijada kopeerimisele. Andmete perioodiline varundamine võimaldab järgmist: · kasutaja andmete varundamisel on võimalik taastada olukord varundushetke seisuga. Seda võib vaja olla siis, kui on toimunud tehniline rike või kasutaja on kogemata oma andmed kustutanud või muutnud neid viisil, mida tegelikult ei tahtnud; · süsteemi seadete varundamisel on tehnilise rikke puhul võimalik kiiresti taastada süsteemi algne olek; · süsteemi logide varundamine annab võimaluse pärast mõne probleemi ilmnemist kontrollida kasutajate või rakenduste tegevust. Andmete efektiivseks varundamiseks tuleb kindlasti luua varundusplaan. 10.2.1. Varundusplaan Varundusplaan on dokument, mis on loodud konkreetse asutuse konkreetsete süsteemide varundamiseks, arvestades asutuse eripära ja võimalusi. See on tegutsemisjuhis, mis sisaldab tavaliselt esmaseid tegevusi (seadmete valik, esialgne andmekoopia, rutiinide paikapanek) ning regulaarseid toiminguid (kuidas ja kui tihti varundamine toimub). 101 102 SÄILITUSMEETODID DIGIHOIDLAS Varundusplaan peab kindlasti vastama järgmistele küsimustele (vt ka näitekast 10.1): · kelle ülesanne on varukoopiate tegemine ja vajadusel nendest andmete taastamine? · milliseid andmeid varundatakse (millised andmed on olulised)? · kui tihti andmeid varundatakse? · millisel viisil andmeid varundatakse (protsessi ja varundusutiliidi kirjeldus)? · kus varukoopiaid säilitatakse, kuidas neile ligi pääseb? · millisel meedial varukoopiaid säilitatakse (peaks tagama pikaajalise säilivuse)? · mis kohas varukoopiaid säilitatakse (soovitavalt tule ja kuumuskindel lukustatav turvakapp)? · kuidas varukoopiaid indekseeritakse ja kataloogitakse (vähemalt andmekandja nimi, varundusaeg ja salvestusparameetrid)? · kuidas toimub varukoopiast taastamine? · kuidas toimub andmete kustutus enne korduskasutust? · kes vastutab jälgimise eest, eriti automaatse varundamise puhul (veateated, vaba maht andmekandjal). Eelkõige on varundusplaan mõeldud eeskirjaks inimesele, kes peab seda täitma. Esmajärjekorras tuleks kirjeldada just andmete taastamist, kuna see on primaarne. Ka varundusplaanist peaks tegema varukoopiaid. Näitekast 10.1. Varundusplaani koostamise juhend Riigi Infosüsteemi Ameti koostatud juhend varundusplaani koostamiseks. Varundusplaan sisaldab järgmist teavet: · · · · · · · · · · teenuse varundatavad komponendid; komponentide omanik; varunduse eest vastutav ametikoht; varunduse tüüp, sagedus ja aeg; suurim lubatud andmekadu; varukoopia tähtajatule säilitamisele paigutamise ajavahemik (tüüp, säilitamise kestus); varukoopiate lühiajalisele säilitamisele paigutamise ajavahemik (1 nädal, 1 kuu vms); varunduse maht GB; andmete meedialt taastamiseks kuluv aeg; varundatavad andmed. Allikad Varundamise ja arhiveerimise kord. Riigi Infosüsteemi Amet. https://www.ria.ee/public/ISKE/naidisdokumendid/LISA1.07.Varundamise_ja_arhiveerimise_kord.doc. SÄILITUSMEETODID DIGIHOIDLAS Varundusplaani koostamisel tuleks jälgida järgmist: · kolme põlvkonna printsiip (kolm eri varukoopiat) – nii on varundite kaotamine vigase mäluseadme või andmekandja tõttu vähem tõenäoline. Hoidke varundeid kahes eri kohas, sest kui ühe kohaga peaks midagi juhtuma, on teises asukohas olev varund alles; · kõik kasutatava tarkvara rakendus- ja konfiguratsiooniandmed varundada kord nädalas väliskandjale; · suure mahu korral olgu iga kolmas varundus täielik, vahepealsed diferentsiaalsed; · varundus tuleb dokumenteerida: vähemalt andmekandja nimi, varundusaeg ja salvestusparameetrid. Kindlasti pole hea mõte teha uus varukoopia olemasoleva varukoopia peale. Võib juhtuda, et rike tabab just varukoopia salvestamisel. Kui vana koopiat kirjutatakse üle ja varundatavas süsteemis toimub rike, läheb see kohe ka varukoopiasse ning andmed on mõlemast kohast kadunud. 10.2.2. Varundamise liigid Varundamine jaguneb täisvarundamiseks ja muutvarundamiseks. Täieliku ehk täisvarunduse (full backup) korral luuakse igal varunduskorral täielik koopia kõigist varundamiseks määratud andmetest. Kui kettamaht ja aeg võimaldavad, on see kõige parem variant, sest täisvarundeid on kõige lihtsam luua ja hiljem hallata. Muutvarundamise korral tehakse varukoopia ainult nendest failidest, mis on pärast varasemat varundamist muutunud. See hoiab kokku aega ja ruumi. Ei ole mõtet teha koopiat failidest, mis ei ole muutunud. Kui andmemaht on väike ning oluline on lihtsus ja odavus, maksab iga kord varundada kõik andmed. Suurte andmebaaside korral, kus enamik andmeid jääb samaks, pole aga mõtet iga varukoopiaga salvestada samu andmeid, sel puhul varundatakse vaid muutunud failid. Muutvarundamine võib olla diferentsiaalne või inkrementaalne. Diferentsiaalse varunduse (differential backup) puhul luuakse igal varundamiskorral koopia andmetest, mis on muutunud alates viimasest täielikust varundamisest. Selle meetodi eelis on andmete lühem taasteaeg võrreldes täieliku ja inkrementaalse varundusega, kuna vajalikud on ainult kaks varunduse ümbrisfaili (container fails) – viimane täieliku varunduse fail ja viimane diferentsiaalse varunduse fail. Kui diferentsiaalset varundust teha küllalt sageli ja selle aluseks võtta pidevalt üks ja sama täisvarund, siis lähteandmete muutumisel diferentsiaalse varundi suurus aina kasvab. Andmemaht võib kasvada suuremaks kui täieliku varunduse korral. Inkerementaalse ehk järk-järgulise varunduse (incremental backup) puhul luuakse igal varundamiskorral koopia andmetest, mis on muutunud alates viimasest täielikust, diferentsiaalsest või inkrementaalsest varundamisest. Tehes seda täisvarundi põhjal, on tulemus seega samane diferentsiaalse varundiga. Edaspidi võib inkrementaalset varundit teha ka teise muutvarundi põhjal. Sarnaselt diferentsiaalse varundamisega tuleb otsustada, kui tihti teha täielikku varundamist. Järk-järguline varundamine on kõige kiirem, aga kuna käsitsi on väga keeruline muudatuste üle arvestust pidada, tuleb selline varundusstrateegia kõne alla üldiselt ainult seda toetava varundustarkvara olemasolu korral. Diferentsiaalsel ja inkrementaalsel varundusel on aga ka oluline erinevus: kui inkrementaalse varunduse korral tehakse koopiad failidest, mida on muudetud alates viimasest täielikust, diferentsiaalsest või inkrementaalsest varundamisest, siis diferentsiaalne 103 104 SÄILITUSMEETODID DIGIHOIDLAS SÄILITUSMEETODID DIGIHOIDLAS varundus pakub omalaadset keskteed. Selle korral varundatakse failid, milles on toimunud muutusi alates viimasest täielikust varundusest. Tuleb otsustada, kui tihti on mõistlik teha täielik koopia kõigist andmetest. See muudab varundusprotsessi keerulisemaks, kuid säästab andmekandjate mahtu. Ainult muutuste salvestamisel võib juhtuda, et kunagi ammu tehtud täisvarunduse andmetest polegi enam suurt midagi järele jäänud, enamik ongi muutused. Muutvarunditest andmete taastamine aga on tavaliselt keerulisem. Inkrementaalse varundusega täiendatud täielik varundamine on tavaliselt kiirem võimalus ja kulutab ka vähem talletusruumi. Näiteks tehakse täielik varundus kord nädalas ja iga päev toimub inkrementaalne varundus. Sünteetiline täisvarundus (synthetic full backup) on inkrementaalse varunduse üks alaliike. Andmetest tehakse täisvarundus ning siis rida koopiaid muudetud failidest, seejärel aga loob server täisvarunduskoopiad, kombineerides olemasolevat täisvarunduskoopiat ja muudetud faile. Sellisel viisil saadakse täisvarunduskoopiast eristamatu koopia. Meetod pakub kõiki täisvarundi eeliseid väiksema ajakuluga, taastamisaeg on samuti väiksem. Hea idee on jagada failid gruppidesse, vastavalt sellele, kui sageli neid muudetakse. Esimesse kuuluksid mitte kunagi või harva muutuvad failid, näiteks pildiarhiivid, aastaaruanded, mida muudetakse kord aastas. Teine kategooria oleks regulaarselt muutuvad dokumendid, näiteks nädala- või kuuaruanded. Kolmandasse kuuluksid iga päev muutuvad failid. Faile, mis ei muutu kunagi või muutuvad väga harva, ei ole mõtet iga kuu, nädal või päev varundada. Harva muutuvate failide regulaarsest varundamisest loobudes kulub kogu protsessile vähem aega ja raha. Mida tihedamini dokumendid muutuvad, seda tihedamini tuleks neid ka varundada. See, milliseid faile on muudetud, tehakse tavaliselt kindlaks failide ja kataloogide muutmiskuupäevade põhjal. See ei ole küll päris kindel variant, kuna kuupäevi on lihtne käsitsi muuta, kuid samas on see jällegi kõige kiirem. Varundusskeem (backup rotation scheme) määrab ära selle, millistele andmekandjatele, millal ja millisel viisil varukoopiad tehakse, samuti koopiate arvu ja andmekandjate uuestikasutamise aja. Võimalikke varundusskeeme on mitu. Ringskeem (round-robin) on kõige lihtsam varundusskeem. On olemas mingisugune hulk andmekandjaid, neile tehakse mingi kindla aja tagant koopiad ja kui andmekandjad täis saavad, siis alustatakse uuesti algusest, st koopia tehakse kõige vanemale varundile. See skeem sobib siis, kui on kindel, et ei teki vajadust andmete järele, mis on vanemad kui rotatsiooniperiood. Olgu meil näiteks viis magnetlinti. Iga päev teeme varukoopia ühele lindile ning esmaspäeval võtame kõige vanema koopiaga lindi ja salvestame üle (vt tabel 10.1.). Tabel 10.1. Ringjas varundusskeem 1. nädal 2. nädal Esmaspäev 1. lint 1. lint Teisipäev 2. lint 2. lint Kolmapäev 3. lint 3. lint Neljapäev 4. lint 4. lint Reede 5. lint 5. lint salvestatakse eraldi lintidele. Seega säilitatakse kahe nädala andmed. Kokku kasutatakse kuut linti (vt tabel 10.2). Tabel 10.2. Isa-poeg-varundusskeem 1. nädal 2. nädal Esmaspäev 1. lint 1. lint Teisipäev 2. lint 2. lint Kolmapäev 3. lint 3. lint Neljapäev 4. lint 4. lint Reede 5. lint 6. lint Vanaisa-isa-poeg-skeem (grandfather-father-son, GFS). Kõige sagedamini praktikas rakendatav skeem. Kasutatavate andmekandjate arv vastab näiteks tööpäevade arvule. Iga päev tehakse varund uuele andmekandjale. Neid kulub neli. Neljal päeval tehakse koopiad uuele kandjale ja viiendal päeval (reedel) kasutatakse n-ö nädala andmekandjat. Neid kulub kolm. Neljandal nädalal võetakse kasutusele kuuandmekandja. Kuna aastas on 13 neljanädalalist tsüklit, siis on vaja 13 andmekandjat. Et päevaseid andmekandjaid kasutatakse kõige sagedamini, siis on neid vaja ka kõige tihedamini vahetada (tabel 18.3). Lihtsam näide GFS-graafikust on järgmine: kord nädalas täisvarund (isa), igal muul nädalapäeval muutvarund (poeg) ning kord kuus „ülendatakse“ nädalane täisvarund igakuiseks ja tehakse eraldi meediumile (vanaisa). Tabel 18.3. Vanaisa-isa-poeg-skeem 1. nädal 2. nädal 3. nädal 4. nädal Esmaspäev 1. lint 6. lint 11. lint 16. lint Teisipäev 2. lint 7. lint 12. lint 17. lint Kolmapäev 3. lint 8. lint 13. lint 18. lint Neljapäev 4. lint 9. lint 14. lint 19. lint Reede 5. lint 10. lint 15. lint 1. kuu lint Hanoi torn (hanoi tower). See on kõige keerukam varundusviis, mis põhineb prantsuse matemaatiku Édouard Lucas’ 1883. aastal leiutatud matemaatilisel mõistatusel Hanoi torn. Mõistatuses on kolm pulka ja mingi arv kettaid, mis tuleb neid ühekaupa ja väiksemat suurema peale tõstes esimeselt pulgalt kolmandale saada. Mängu lahenduse idee järgi varundeid tehes saavutabki andmete pikema ajaloo võimalikult väheste varundite arvuga. Hanoi torni kasutamise puuduseks on selle keerulisus ja seepärast jäetakse selle realiseerimine tavaliselt varundustarkvara hooleks. Selliseid programme aga väga palju ei ole. Tegemist on kõige parema strateegiaga andmete pikaajaliseks säilitamiseks. Näiteks viit linti kasutades saame kuuajase kindluse (25 – 1), kümne lindiga aga juba peaaegu juba kolm aastat. Igat andmekandjat kasutatakse erinev arv kordi. Vanemaid andmekandjaid kasutatakse vähem (tabel 10.4). Tabel 10.4. Hanoi torni varundusskeem kolme kandja korral Säilivuse seisukohalt ei ole see lahendus hea. Andmekandjad kuluvad sagedase korduva kasutamise tõttu, samuti ei taga see andmete pikaajalist säilimist (või siis on vaja väga palju andmekandjaid). Isa-poeg-skeem (father-son). Selle skeemi korral on igaks päevaks üks magnetlint, kuhu salvestatakse selle päeva andmed. Kahe järjestikuse nädala reede andmed Päev 1 1.lint 2 3 1. lint 4 2. lint 5 1. lint 6 7 1. lint 8 2. lint 3. lint 3. lint 105 106 SÄILITUSMEETODID DIGIHOIDLAS Varundusi tuleb kontrollida, taastades andmed reaalselt mõnda proovikohta. Selle abil saab: · tagada varunduskandjate ja varundatud andmete töökindluse; · tuvastada varundamisprotsessi võimalikke probleeme; · saavutada kindluse, mis tuleb kasuks tegeliku kriisi korral. 10.2.3. Varundamisel kasutatavad andmekandjad Varundamiseks on mitmesuguseid tehnilisi lahendusi. Milline neist valida, sõltub suuresti konkreetest olukorrast. Oluline on valida ka varukoopiate tegemiseks sobilik andmekandjatüüp. Varundusandmekandja valikul arvestatakse: · mahutavust; · maksumust; · töökindlust; · kiirust; · andmete poole pöördumise kiirust. Kõvaketaste suuruse ja hinna suhe on muutunud nii heaks, et hind pole juba ammu eriline põhjus varundamiseks mõnd teist meediumi kasutada. Kui meedium ei ole ainult arvutis paigal, vaid tuleb toimetada kuhugi eemale, muutuvad aga tähtsaks selle füüsilised omadused (raskus, vastupidavus, mõjutatavus magnetväljadest jms). Töökindlus (reliability) on oluline, sest iga seade läheb millalgi rikki ja mida keerulisem ta on, seda kergemini see tavaliselt juhtub. Töökindlust on küllaltki keeruline hinnata, kuna seda mõjutavad vägagi erinevad tegurid (Tape drive technology 2014: 13). Seetõttu ei ole selleks ka ühte ja ainsat mõõdikut. Seadmete tootjad mõõdavad töökindlust tavaliselt parameetriga MTBF (mean time between failures), mis näitab, mitu tundi peaks seade töötama ilma riketeta. Kindlasti ei tohiks seda kasutada ainsa mõõdikuna. Võimalikud näitajad, mida saab kasutada töökindluse hindamisel, on järgmised: · vigade ja rikete statistika; · andmekandjate vigadeta laadimine lugejasse ja eemaldamine lugejast (nt USB-mälupulkadel on kirjutus- ja lugemistsüklite arv piiratud); · vigadeta kirjutatud ja loetud baitide arv; · lugemis-kirjutamispeade lubatavate töötundide arv; · andmete terviklikkus (integrity), mida väljendatakse bitiveateguri (bit error rate, BER) abil. Bitiveategur näitab rikutud bittide arvu ja salvestatud bittide koguarvu suhet. Näiteks bitiveategur 10–6 tähendab, et vigane on keskmiselt 1 bitt miljonist. Eristatakse parandamata bitiveategurit (uncorrected bit error rate) ja avastamata bitiveategurit (undetected bit error rate). Parandamata bitiveategur tähendab neid vigu, mida veaparanduskood (error correction code, ECC) küll avastab, aga ei suuda parandada. Avastamata bitiveategur näitab neid vigu, mida veaparanduskood avastada ei suuda; · magnetlintide kasutamisel määrab tootja ära selle, mitu korda võib lint ilma vigadeta läbida kirjutus-lugemispesasid. Kiirus tähendab seda, kui kiiresti on andmed meediumile kirjutatavad ja sealt loetavad. Andmete poole pöördumise kiirus näitab seda, kui palju võtab aega, et jõuda andmekandjal mingis suvalises kohas olevate andmeteni. Lindiseadmetel on see näitaja suhteliselt halb, kuna lindi keskel olevate andmete kätte saamiseks on tarvis lint kõigepealt SÄILITUSMEETODID DIGIHOIDLAS lõpust algusesse ja siis algusest vajaliku kohani kerida. Andmekandja puhul on oluline, et see oleks üldiselt tunnustatud ja kasutatav ka mõne aasta pärast. Kindlasti ei tasu unustada ka andmekandja kasutamiseks mõeldud seadmeid! Varundiga ei ole midagi peale hakata, kui pole töökorras seadet, millega andmekandjat kasutada. Andmekandjatena on kasutusel olnud erinevad tehnilised süsteemid. Sarnaselt muu arvutitehnoloogiaga toimub ka selles vallas pidev areng ja kasutusele tulevad üha uued andmekandjatüübid. Peamiselt kasutatakse varundamist magnetlintidele (LTO, Linear Tape Open) ja kõvaketastele. 10.3. Andmekandjate värskendamine Andmekandjate värskendamisel (refreshing, recopying)kopeeritakse bitijada täpselt samasugusena teisele sama tüüpi andmekandjale. Näiteks on CD-ROMil säilitatava teabe bitiveategur jõudnud ohtliku piirini ja otsustatakse plaadist täpne koopia teha. Pärast koopia valmistamist kontrollitakse plaatidel oleva info identsust. Kui selgub, et info on kopeeritud identselt, asendab uus CD-ROM eelnenud plaadi. OAISi terminoloogiat kasutades ei muutu pakendusinfo, sisuinfo ega ka PDI. Andmete värskendamine kaasneb kõikide digitaalse säilitamise meetoditega. Kui seda tehakse vastavalt standarditele ja tehniliselt õigesti, on tegemist suhteliselt lihtsa ja andmeid mittekahjustava protsessiga. Andmete värskendamine toimub perioodiliselt. Oluline on seejuures kontrollida failide olukorda. Millal seda teha? Aja määratlemisel tuleks lähtuda kasutatava andmekandja teadaolevast elueast ja sellest, milline on andmete kontrollimisel ilmnenud veatase. Bitijada kopeerimise järel tuleb kindlasti kontrollida, ega ülekandmisprotsessis vigu ei tekkinud. Loomulikult tuleb andmeid värskendada ka siis, kui võetakse kasutusele uus süsteem (uued arvutid, tarkvara, andmekandjad). Kogu protsess peab kindlasti olema dokumenteeritud. Andmete värskendamine ei ole üldjuhul piisav strateegia digiobjektide pikaajaliseks säilitamiseks. Probleem seisneb digiobjektide erinevas sõltuvuses konkreetsest riist- ja tarkvarast. Andmete värskendamise abil on võimalik säilitada digiobjekti, mis on riistja tarkvarast täiesti sõltumatu. Valdava enamiku digiobjektide korral see aga nii ei ole. Andmete värskendamisega seostub pikaealise meedia kasutamine andmekandjatena. 10.4. Pikaealiste andmekandjate kasutamine Pikaealiste andmekandjate (durable media, persistent media) kasutamine võib vähendada vajadust värskendamise järele ning vältida meedia vananemisest ja kahjustumisest tulenevaid kadusid. Teisi digiobjektide säilitamisega seotud probleeme see ei lahenda. Pigem võib see tekitada vale ettekujutuse, et kui andmete säilitamiseks kasutada „arhiivisobivat andmekandjat“, siis ongi digiinfo säilitamiseks kõik oluline tehtud ja midagi muud polegi enam vaja. See on aga täiesti vale seisukoht. 10.5. Failide migreerimine Migreerimine (migration) on kõige laialdasemalt kasutatav meetod, et pidada sammu pidevalt muutuva tehnoloogiaga. See tähendab digiobjektide ülekandmist ühest riistvõi tarkvara keskkonnast teise, vajaduse korral ka digiobjekte muutes (joonis 10.1). Digitaalsed objektid migreeritakse, et nad oleksid kasutatavad ka muutunud riist- ja 107 108 SÄILITUSMEETODID DIGIHOIDLAS SÄILITUSMEETODID DIGIHOIDLAS tarkvarasüsteemides. Migratsioon on kõige kergemini mõistetav andmete säilitamise meetod. Kui kasutusele tuleb uus arvutisüsteem, siis eksisteerib see mõnda aega kõrvuti vanema süsteemiga ja failid kantakse vanast süsteemist uude üle. Kui uus süsteem mingeid vanu failiformaate ei toeta, siis konverteeritakse vanad failid uude failivormingusse. Tõenäoliselt on igaüks meist andmeid migreerinud, avades uue tarkvaraga vanu faile, ning väga sageli ei saa me täpset originaalteksti või kujutist, mõnikord on erinevused väiksemad ja teinekord suuremad. Teine valdkond, kus failide migreerimine on hädavajalik, on andmete vahetamine kasutajate vahel, kes kasutavad eri operatsioonisüsteeme või erinevat rakendustarkvara. Ka juhul kui me kasutame ühte ja sama rakendustarkvara, näiteks Microsoft Office’it eri operatsioonisüsteemidel, Windowsis ja Macintoshil, võib failivahetusel probleeme tekkida. “VANA” KESKKOND “UUS” KESKKOND ÜLEKANTUD DIGITAALNE OBJEKT DIGITAALNE OBJEKT RAKENDUSPROGRAMMID DIGITAALNE OBJEKT MIGRATSIOONI PROTSESS ÜLEKANTUD DIGITAALNE OBJEKT UUED VÕI ÜLEKANTUD RAKENDUSPROGRAMMID VANA OPERATSIOONISÜSTEEM UUS OPERATSIOONISÜSTEEM VANA RIISTVARA UUS RIISTVARA Joonis 10.1. Migreerimine digiobjektide säilitusstrateegiana Migratsioon on märksa laiem mõiste kui värskendamine, haarates terve rea tegevusi ja põhimõtteid, mille eesmärk on tagada digitaalsete objektide säilitamine nende perioodilise ülekandmisega ühest riist- või tarkvara konfiguratsioonist teise või ühest arvutipõlvkonnast teise. Migratsiooni erinevus andmete värskendamisest ongi selles, et migratsiooni käigus digiobjektid tehniliselt muutuvad. Samuti võivad nad muutuda ka kontseptuaalsel tasandil. Seega võib migratsiooniga kaasneda digiobjektide autentsuse probleem. Selle vältimiseks kasutatakse migratsiooni ainult juhtudel, kui ollakse veendunud migreerimisel oluliste omaduste püsima jäämises. Migratsiooni korral muutub andmestruktuur, kuid püütakse säilitada info sisuline terviklikkus. Kuna andmeid muudetakse, tekib loomulikult küsimus nende sisu samasuse säilitamisest. Mida lihtsam andmestruktuur, seda tõenäolisem on selle sisu samasuse säilimine migratsioonil. Keerukal viisil seotud infoobjektide, näiteks veebilehtede sisu säilitamine on võimalik ainult siis, kui on olemas üksikasjalik dokumentatsioon nende struktuuri kohta. Nii migratsioon kui ka sellega kaasnev andmete värskendamine toimub digitaalse objekti pikaajalise säilitamise kestel palju kordi. Andmete värskendamine ja migratsioon ei pruugi ajaliselt kokku langeda, mis muudab dokumentatsiooni ja kogu digitaalse säilitamise korralduse mõnevõrra keerukamaks. Iga migratsioonitsükliga kantakse üle kõik andmed, sõltumata sellest, kas neid tulevikus kasutatakse või mitte. Tegemist on küllaltki töömahuka ja kuluka ettevõtmisega. Kuna migratsiooni käigus andmeid muudetakse, siis on oluline nende migratsioonijärgne kontroll, et infoobjekti olulised omadused ei oleks liiga palju muutunud ega kahjustunud. Kuna migratsioon toimub pikaajalisel säilitamisel korduvalt, võivad andmed kumulatiivselt oluliselt muutuda. Migratsiooni reaalseks läbiviimiseks kasutatakse erinevaid meetodeid. Üksikute failide migreerimiseks sobib näiteks rakendustarkvara. Vanemas versioonis tehtud fail kantakse üle uuemasse verisooni ja salvestatakse uue versiooni failina. Suurema hulga failide migreerimiseks või selliste failide migreerimiseks, mida tarkvara enam ei ava, tuleb kasutada spetsiaalselt loodud programme. Kui rakendada migreerimisstrateegiat, peab kindlasti säilitama ka originaalfailid, mida migreeriti. Siis on vajadusel võimalik hiljem kasutada migreerimiseks ka teisi programme (näiteks kui ilmuvad täiuslikumad migreerimisprogrammid) või hoopis teisi säilitusstrateegiaid. Oht on selles, et kuna algsete failide säilitamine nõuab vahendeid ja migreeritud failid on ju olemas, tekib kiusatus kulude kokkuhoiuks algsed failid kustutada. Lihtsate failivormingute migreerimine ei ole keeruline. Samas on teadaolevaid failivorminguid palju, rohkem kui 6000, ja osa neist on väga tihedalt seotud riistvaraga, mille jaoks nad on välja töötatud. Sellistes vormingutes failide migreerimine võib osutuda küllaltki keerukaks. Migreerimine sobib üldjuhul suure hulga digiobjektide korral, mis on hästi tuntud ja eneseküllased, st ei oma väliseid seoseid. 10.6. Failivormingute valik, spetsifikatsioonid, levik ja standarditele tuginemine Avatud spetsifikatsioone kasutatakse tagamaks seda, et digiobjektid oleksid kodeeritud ja vormindatud kindlal viisil. See meetod eeldab, et kasutatud spetsifikatsioonid on püsivad ja ühilduvusega seotud probleemid lahendatakse standardi kohandamisega uuele arvutuskeskkonnale (riistvara, tarkvara, operatsioonisüsteem, rakendustarkvara). Näiteks JPG2000 on muutunud laialt kasutatavaks ja tunnustatud standardiks. Kui toimuvad mingid muutused, hoolitsetakse selle eest, et ka uues süsteemis oleks võimalik sellise failivorminguga faile kasutada, kuna kasutajaskond ja seega ka nõudmine on nii suur. Kuigi meetod vähendab otsest ohtu digiobjektidele, ei ole tegemist pikaajalise säilitusstrateegiaga. 10.7. Väljund analoogmeediale Digitaalsel kujul esitatud info esitatakse analoogsena. Kõige lihtsamal juhul tähendab see näiteks digitaalse dokumendi või foto väljaprintimist. Kasutatakse ka digitaalse info kandmist mikrofilmile (computer output to microfilm, COM). Meetod sobib hästi tekstide ja kahevärviliste kujutiste ülekandmiseks, ei sobi aga halltoonide ja värviliste kujutiste jaoks, kuna viimasel juhul läheb liiga palju infot kaotsi. Loomulikult on väga suur hulk digitaalseid objekte, mida ei saagi analoogsele kujule teisendada. Digitaalsed arhivaalid, mis sisaldavad hüperteksti viiteid, multimeediat, relatsioonilised andmebaasid, helikatked ja geoinfosüsteemid kaotaksid oma vormingust tuleneva funktsionaalsuse ja vormi, kui need kantaks paberile või mikrofilmile. Paljude digiobjektide (näiteks tekstidokumentide) korral võimaldab meetod säilitada sisu, vormi ja konteksti, kuid mittetöödeldavas vormingus. See toob kaasa suured kaotused kasutamise funktsionaalsuses võrreldes digitaalsete arhivaalidega. 109 110 SÄILITUSMEETODID DIGIHOIDLAS Meetodi eelised on järgmised: · dokumentide autentsust on suhteliselt lihtne kindlaks teha ja säilitada; · kaob tehnoloogia iganemise probleem; · puudub vajadus andmekandja uuendamise järele. Üks võimalus on säilitada dokumente paberkandjal või mikrofilmil ja kui tekib vajadus neid kasutada, siis nad uuesti digitaliseerida. See meetod sobib siis, kui mingil põhjusel ei soovita või ei saa säilitada digitaalset teavet, näiteks perekonnafotode säilitamisel. Ka äärmiselt oluliste digiobjektide korral võib olla vajalik luua neist n-ö varukoopiad analoogmeedial 10.8. Emuleerimine ALGNE DOKUMENT ALGNE TARKVARAPROGRAMM ALGNE OPERATSIOONISÜSTEEM EMULAATOR KÄESOLEV ARVUTIPLATVORM (RIIST- JA TARKVARA) MIKS ON VAJALIK DIGIINFO SÄILITAMINE? operatsioonisüsteeme ega ka rakendusi. Need säilitatakse originaalsel kujul, nagu ka kõik failid, ja nad töötavad emuleeritud riistvaraplatvormil. Mida keerukama struktuuriga on digiobjekt, seda suuremad kaod esinevad selle migreerimisel uutesse vormingutesse ning uue põlvkonna riist- ja tarkvarasse. Selliste objektide jaoks on emulatsioon/virtualiseerimine kõige parem strateegia. Kui digiobjekti olulisteks omadusteks on funktsionaalsuse erinevad aspektid, võib emulatsioonil/virtualiseerimisel olla eeliseid migreerimise ees, kuna viimase korral ei pruugi need omadused säilida. Sellisteks objektideks võivad olla näiteks veebilehed, mängud, kunstiobjektid. Emuleerimine toimub ainult siis, kui digiobjekte on vaja kasutada. See tähendab, et emulatsiooni maksumus lükkub edasi tulevikku. Kui vastavat emulaatorit olemas ei ole, siis tuleb see ise kirjutada või spetsialistidelt tellida. Emulaatorite kirjutamine on keerukas ettevõtmine, nõudes oskusi ja küllaltki palju ressursse. Kuna uued süsteemid muutuvad üha keerulisemateks, siis suureneb pidevalt uute ja vanade süsteemide erinevus. Teiselt poolt, kui on tegemist suure arvu objektidega – miljonite dokumentidega –, siis piisab sellest, kui panna püsti üks emulaator, selle asemel et kanda üle suurt arvu objekte. Kuna emulaator kasutab tänapäevast riist- ja tarkvara, on selle haldamine märksa lihtsam. Emuleerimis strateegia kasutamisel digiobjektide säilitamiseks on kõige suurem kulu seotud emulaatori tegemise või omandamisega (kui see on tasuline). Ka võib objektide kasutamiseks olla vajalik kasutuskeskkonna eelnev tundmaõppimine. Emuleeritavad rakendusprogrammid ja operatsioonisüsteemid ei pruugi tulevasele kasutajale tuttavad olla. Emulaatorid ise on samuti digitaalsed objektid ja vajavad nagu andmeobjektidki säilitamist. Samuti sõltuvad nad riistvarast, millele nad on disainitud. Kui riistvara vahetub, ei pruugi emulaator sellel enam töötada. Siis on vajalik emulaatori uuendamine või selle emuleerimine uue emulaatoriga. Viimase meetodi rakendamisele võib ette kujutada järjest tekkivaid emulaatorikihte. 10.9. Tehnoloogia säilitamine Joonis 10.2. Emulaator võimaldab kasutada olemasolevale arvutiplatvormile sobimatut tarkvara Migreerimise kõrval on emuleerimine teine suur meetodite rühm, mida kasutatakse digiobjektide säilitamisel. Emuleerimine on ühe andmetöötlussüsteemi jäljendamine teisega, nii et see võtab vastu samu andmeid ja annab töötlemise järel samu tulemusi. Emuleerimisel säilitatakse digiobjekt selle originaalsel kujul, ehk siis nii, nagu see on loodud (joonis 10.2). Emuleerimise meetod peab tagama selle digiobjekti esitamiseks vajaliku tarkvarasüsteemi olemasolu siis, kui digiobjekti soovitakse kasutada. Emuleerida on võimalik: · rakendusi – luuakse uus tarkvara, mis teeb kõiki operatsioone, mida teostas eelmine tarkvara. Emuleeritud rakendus võimaldab faile kasutada muu operatsioonisüsteemiga arvutil, kui oli originaalsel arvutil, millel algne rakendus töötas; · operatsioonisüsteeme – kõiki rakendusi, mis töötasid originaalset operatsioonisüsteemi kasutaval arvutil, on võimalik kasutada ka operatsioonisüsteemi emuleeritud versioonil. Emuleeritud operatsioonisüsteem nõuab ka vastava riistvaralise platvormi olemasolu või emuleerimist; · riistvara arhitektuuri – kõik operatsioonisüsteemid ja rakendused, mis töötasid originaalsel riistvaraplatvormil, töötavad ilma igasuguste muudatusteta ka selle emuleeritud versioonil. Riistvara arhitektuuri emuleerimisel ei ole vaja emuleerida ei See strateegia, mida tuntakse ka arvutimuuseumi-lähenemisena, põhineb kogu arvutisüsteemi tehnilise keskkonna (riistvara, operatsioonisüsteemi ja rakendustarkvara) säilitamisel. See võimaldab pikendada aegunud riist- ja tarkvara kasutusaega. Ilmselt on sellist säilitusmeetodit mõttekas kasutada mingitel üksikutel juhtudel. Tegemist ei ole otseselt digitaalse säilitamise meetodiga. Samas säilitatakse kõige täielikumal kujul digiobjekti originaalne kasutuskogemus, mis võib mõnda tüüpi objektide, näiteks mängude või digitaalsete kunstiteoste puhul olla ülioluline (LeFurgy 2013). Võimaluse korral tuleb säilitada ka töökorras riistavarasüsteemid, et oleks võimalik uurida nende toimimist. Ennekõike on see vajalik tehnoloogiaajaloolastele, kelle tähelepanu keskendub just nimelt riistvarale. Tuleb arvestada, et see säilitusstrateegia piirab digiobjektide kasutust. Kui mingi digiobjekt on kasutatav vaid väga spetsiifilisel riistvaral, mis on olemas vaid ühes asutuses, siis saab seda objekti ka ainult seal kasutada. Tegevused, mida on vaja tehnoloogia säilitamisel teha: · varuosade hankimine; · süsteemide töökindluse regulaarne kontroll; · riistvara hooldus; · töökõlbmatuks muutunud osade väljavahetamine. 111 112 MIKS ON VAJALIK DIGIINFO SÄILITAMINE? Selle strateegia kulud kasvavad pidevalt sedamööda, mida enam aega on möödunud seadmete laiema kasutamise lõpetamisest. Mõned organisatsioonid, mis tegelevad riist– ja tarkvara säilitamisega: · · · · · · Computer History Museum31; The National Museum of Computing32; The Heinz Nixdorf MuseumsForum33; Centre for Computing History34; Tartu Ülikooli arvutimuuseum35; Arvutimuuseum MTÜ36. MIKS ON VAJALIK DIGIINFO SÄILITAMINE? 11. MIKS ON VAJALIK DIGIINFO SÄILITAMINE? Lugenud läbi selle peatüki, • tead, mis on väärtus; • oskad nimetada info peamisi väärtusi; • tead, miks on oluline digiteabe säilitamine. 10.10. Digitaalne arheoloogia, andmearheoloogia Andmearheoloogia tähendab vananenud formaadis või vanadel andmekandjatel oleva digitaalse info päästmist (Ross Gow 1999). Sellised objektid võivad olla mingil põhjusel jäänud migreerimata, samuti võib andmearheoloogia olla vajalik avariide ja õnnetuste tagajärjel kahjustunud digiinfo taastamiseks. Andmeid on võimalik taastada ka tugevasti kahjustatud meedialt, eriti puudutab see magnetkandjaid. Andmete taastamisega tegelevad üldjuhul spetsialiseeritud firmad. Andmearheoloogiaks kasutatakse erinevat tehnoloogiat, tulemuste edukus sõltub paljudest konkreetsetest asjaoludest. Andmearheoloogiat on pakutud ka digitaalse säilitamise strateegiaks. Vastavalt sellele mudelile toimub regulaarne andmete värskendamine, kuid mitte nende migratsioon. Samuti ei säilitata programme nende hilisemaks emuleerimiseks. See, kuidas säilitatud digiobjektidest andmeid kätte saada ja interpreteerida, jäetakse tulevaste andmearheoloogide õlgadele. Tegemist on küll suhteliselt lihtsa ja esialgu ka vähe maksva lahendusega, aga samas on see väga kõrge riskiga ettevõtmine, sest mitte miski ei garanteeri, et tulevikus, kui neid digiobjekte oleks vaja kasutada, õnnestub neid taastada. Üks argument selle strateegia poolt on tõsiasi, et tulevikus on andmete taastamiseks kindlasti kasutada hoopis täiuslikumad digitaalsed tehnoloogiad. Esmapilgul võib see tunduda asjatu küsimusena – kuna digiinfo on olemas, siis tuleb seda ka säilitada. Ometigi on säilitamine alati seotud säilitatavate objektide ja nähtuste väärtustega, mille tundmine on kogu säilitusprotsessi haldamise aluseks. Nagu kommunikatsioongi, toimub info säilitamine ühiskonna erinevatel tasemetel Eri ühiskonnatasanditel võivad olulised olla erinevad väärtused ja seega ka põhjused teavet säilitada. 11.1. Väärtused ja info säilitamine Tänu oma väärtustele saab info täita teatud funktsioone. Ilma igasuguste, sealhulgas ka potentsiaalsete väärtusteta info on täiesti kasutu ja võib säilida ainult juhuslikult. Väärtused on selles mõttes tinglikud, et nad ei ole objektiivsed nagu eseme kaal, värvus, keemiline koostis jms. Me ei saa neid leida, fikseerida ega loota, et nad jäävad muutumatutena sellisteks ka edaspidi. Väärtused tekivad objekti, konteksti ja inimeste vastastikuse mõju tulemusena. Seega saab väärtusi käsitleda ainult kindlas kontekstis – kes, millal ja kus on neid määratlenud (Lipe 1984). Väärtussüsteemid erinevad samuti, alates isikust ja lõpetades kogu inimkonnaga. Kultuuris toimub väärtuste pidev ümberdefineerimine, mõni väärtus muutub olulisemaks, teised jällegi vähemoluliseks. Väärtused (values) on üldised ja püsivad kvaliteedid, mis on inimese seisukohast olulised ja tähenduslikud. Väärtusi tajutakse soovitavaina, nendega õigustatakse suhtumist ja käitumist. Need avalduvad normides ja ettekirjutustes ning tõekspidamistes ja eesmärkides. Väärtussüsteem on ajalooliselt kujunenud ja sõltub ühiskonnast. Seoses digiinfoga võib väärtuse mõistet kasutada kahes tähenduses: · eetilised printsiibid või ideed, mis on nii indiviididele kui ka kollektiividele käitumisjuhisteks digiinfoga ringikäimisel; · printsiibid, millega me digiinfo tunnuseid võrdleme. 31 32 33 34 35 36 http://www.computerhistory.org/ http://www.tnmoc.org/ http://www.hnf.de/start.html http://www.computinghistory.org.uk/ http://arvutimuuseum.ut.ee/ http://arvutimuuseum.ee/ Ühel ja samal digiobjektil võib harilikult välja tuua mitu erinevat väärtust. Järgnevalt käsitleme mõningaid olulisemaid digiinfo väärtusi, lähtudes ennekõike säilitamise vaatenurgast. Majanduslikud väärtused Digiinfo majanduslikud väärtused jagunevad (joonis 11.1) kasutusväärtuseks (use value) ja mittekasutusväärtuseks (nonuse value), viimane omakorda veel olemasolu-, 113 114 MIKS ON VAJALIK DIGIINFO SÄILITAMINE? MIKS ON VAJALIK DIGIINFO SÄILITAMINE? võimalus-, ja pärandiväärtuseks. Kasutusväärtus on seotud käesoleval ajal pärandist tuleneva otsese majandusliku tuluga. Olemasolu- ehk eksistentsiväärtus (existence value) viitab sellele, inimesed väärtustavad teabe olemasolu isegi siis, kui nad seda otseselt ei kasuta. Olemasoluväärtus on hüve või rahulolu, mille inimesed saavad teadmisest, et mingi oluline teave on olemas. Võimalusväärtus (option value) – inimesed tahavad säilitada võimalust, et nad ise või teised saavad teavet tulevikus kasutada. Antud hetkel säilitatakse ressurssi selleks, et kunagi tulevikus oleks seda võimalik kasutada. See võib olla seotud sellega, et me ei oska seda ressurssi praegu hinnata või puuduvad selle kasutamiseks tingimused ja võimalused. Tegemist on võimaliku tulevikus saadava kasuga. Pärandiväärtus (bequest value) – inimesed tahavad seda teavet pärandada tulevastele põlvkondadele. DIGIINFO MAJANDUSLIK VÄÄRTUS KASUTUSVÄÄRTUS MITTEKASUTUSVÄÄRTUS • eksistentsiväärtus • võimalusväärtus • pärandiväärtus Joonis 11.1. Digiinfo majanduslike väärtuste jagunemine Majanduslik väärtus sõltub suures osas säilitatava teabe kasutusest, samas ei saa tähelepanuta jätta ka mittekasutusväärtust, mis osa teabe korral on vägagi oluline. Ennekõike puudutab see kultuuripärandi hulka loetavat digiteavet. Teaduslik väärtus, informatsiooniline väärtus, teabeväärtus Teaduslik väärtus on seotud digiobjektide kasutamisega uurimisallikana. Digiobjektil või objektide kogul on teaduslik väärtus, kui tal on suur potentsiaal tulevaseks uurimistööks. Enamik tänapäeva teaduses kogutavast infost on digitaalne. Ajalooline väärtus Väga sageli säilitatakse digiinfot selle ajaloolise väärtuse tõttu. Laiemalt kajastab see kriteerium teabe seotust ajaloolise arenguga. Ajalooline väärtus võib tuleneda erinevatest aspektidest. Info ise võib olla pärit minevikust, kuid see iseenesest ei pruugi veel olla piisav ajaloolise väärtuse omistamiseks. Ajalooline väärtus kajastab teabe seotust inimeste, sündmuste, kohtade ja teemadega. Seejuures võib see tähendada seost nii kuulsate inimeste ja oluliste sündmustega kui ka tavaliste inimeste igapäevase eluga. Samuti kuulub siia kindlate tegevusalade, tööstuse või eluviiside kajastamisega seotud teave. Ajalooline väärtus on ka paljudel isikliku taseme digiobjektidel (fotod, videod, kirjad jms), mis moodustavad digitaalse isiku- ja perekonnapärandi (joonis 11.2). Joonis 11.2. Facebooki konto kuulub tänapäeva inimese isikliku pärandi hulka Sotsiaalne väärtus37 Sotsiaalne väärtus tähendab, et mingi kogukond peab säilitatavat teavet käesoleval ajal oluliseks. Sotsiaalne väärtus seisneb ennekõike tähenduses, mida info omab inimeste jaoks. Põhjuseid, miks mingi objekt, paikkond või nähtus on oluline, võib olla mitmeid. Sellel võivad olla näiteks vaimsed, poliitilised, rahvuslikud, kohatunnetusega seotud põhjused, mis igal juhul on tihedalt seotud kogukonna identiteedi ja sotsiaalse sidususega. Sotsiaalse väärtuse näiteks võib tuua virtuaalmaailmades, näiteks Second Life’is (joonis 11.3) kasutajate poolt loodavad infoobjektid (esemed, kunstiteosed, filmid jms). Lisaks sellele, et nende objektidega on võimalik koguda sotsiaalset kapitali, on neil ka selge majanduslik väärtus. Selles maailmas kehtib oma raha (linden, $L), mille eest saab osta ja müüa virtuaalseid objekte. Virtuaalsete objektide ehitamiseks on lihtne programmeerimiskeel, mille abil saab teha ükskõik mida – maju, autosid, riideid, relvi jne. Sünteetilises maailmas asuvaid digitaalseid objekte saab nii müüa kui ka osta, sünteetiliste maailmade kaubandus on sulandunud reaalse maailma äriga. Lindeneid on võimalik vahetada dollariteks ja vastupidi. Sotsiaalne väärtus on ainult tänapäevane, käesolev väärtus. Sageli kombineerub sotsiaalne väärtus ajaloolise ja sümboolse väärtusega. Teave omandab sotsiaalse väärtuse siis, kui mingi kogukond leiab, et see on tema jaoks oluline. Kui aktuaalne sotsiaalne väärtus kaob, võib see muutuda ajalooliseks väärtuseks. 37 Mõnel juhul võidakse sellele väärtusele viidata ka kui kasutusväärtusele (use value). 115 116 MIKS ON VAJALIK DIGIINFO SÄILITAMINE? MIKS ON VAJALIK DIGIINFO SÄILITAMINE? Poliitiline väärtus Tegelikult on kõik pärandiga seotud väärtused poliitilised, kuna pärand ise on oma olemuselt poliitiline nähtus (vt Konsa 2014). Kitsamalt väljendavad ja esitavad poliitilised väärtused kindat tüüpi sotsiaalset süsteemi ning sellega seotud poliitilisi vaateid. Sageli loetakse neid ka sümbolväärtuse alla kuuluvateks, kuna poliitilisi väärtusi võib omistada kõige erinevamatele digiobjektidele. Sarnaselt teiste väärtustega poliitiline väärtus ajaga muutub. Kasutusväärtus, kasutatavus Kasutusväärtus iseloomustab seda, et digiobjektide abil on võimalik interpreteerida sündmusi, kogemusi, ajaloolisi teemasid, inimesi, struktuure, piirkondi ja välja tuua nende erisuguseid aspekte. See väärtus kajastab digiobjektide ja -kogude väärtust teabeasutusele näituste, haridusprogrammide jms seisukohast, samuti seose tõttu kogutavate teemadega, kogude ajalooga ning nende interpreteerimise viisiga. Tihti tuleneb digiinfo kasutusväärtus mõnest teisest, näiteks ajaloolisest väärtusest. Kasutusväärtuse realiseerumiseks on vajalik pärandi oskuslik interpreteerimine ja esitamine. Joonis 11.3. Virtuaalne maailm Second Life Esteetiline väärtus Üks digiobjektide ilmsemaid kasutusi on seotud nende visuaalsete tunnustega. Ilu kategooria on sageli olnud väga oluliseks põhjenduseks, miks lugeda mingi objekt pärandi hulka kuuluvaks. Laiemas käsitluses on esteetiline väärtus seotud kõikvõimalike sensoorsete kogemustega, mida pärand pakub. Esteetiline väärtus võib olla säilitatavatel digikunstiobjektidel, filmidel, fotodel jms. Digiobjekt võib olla esteetiliselt väärtuslik oma kunstilise töötluse, stiili, tehnilise meisterlikkuse või ilu poolest. Kunstiväärtus Küllaltki suur osa säilitatavast kuulub kunsti valdkonda. Kunstiväärtus on olemas objektidel ja nähtustel, mida me loeme kunstiks. See, mida kunstiks loetakse, sõltub arusaadavalt kontekstist – suur osa sellest, mida me praegu käsitleme kunstina, ei olnud seda teoste loomise ajal. Kunstiväärtusega on tihedalt seotud esteetiline väärtus, aga nad ei ole lahutamatult seotud. Kõik ilusad objektid ei kuulu veel tingimata kunsti alla ja paljudel kunstiobjektidel jällegi ei ole esteetilist väärtust, vähemalt mitte iga inimese jaoks. Kunstiväärtus on tihedalt seotud ajaloolise väärtusega: sageli on kunstiväärtus seotud tuntud kunstniku või arhitekti töödega, samuti võib olla tegemist olulise mingit kunstistiili esindava tööga.38 Sümboolne väärtus Sümboolset väärtust kandvad digiobjektid sümboliseerivad midagi, kannavad ühiskonna või indiviidi jaoks olulist tähendust, talitlevad teatud märgi või tekstina. Sageli on tegemist rahvuslike, riiklike ja religioossete sümbolitega, mis tihti viitavad kuulsusrikkale minevikule. 38 Ülevaate digikunsti arengust saab järgmisest raamatust: Kelomees 2009. Sentimentaalne, tundeväärtus Tegemist on väärtusega, mis on iseloomulik isiklikule ja perekondlikule tasandile. Sentimentaalne väärtus on inimesele isiklikult olulisel digiinfol – perekonnafotodel, lemmikmuusikal, -raamatutel ja -filmidel. See väärtus säilib tavaliselt niikaua, kuni elab neid väärtustanud inimene, kuid osa objekte antakse edasi põlvest põlve. Seoseväärtus Digiobjektid on seotud väljapaistvate isikute, kohtade, sündmuste või rühmitistega. Tegemist on kaasaegset situatsiooni kajastava väärtusega. Need objektid võivad, aga ei pruugi omandada ajaloolise väärtuse. Terviklikkus, täielikkus, autentsus See väärtus kajastab seda, kas digiobjekt on terviklik, algses, originaalses või väga originaalilähedases seisundis, ilma tahtlike või juhuslike muudatusteta, mis takistaksid tema tajumist originaalina. Kui objekt koosneb osadest või on tegemist objektide komplektiga, siis peavad kõik osad ja esemed alles olema. Samuti kuuluvad selle kriteeriumi alla tervikuna säilinud kogud ning algsel kujul säilinud filmid, muusikapalad jms. Päritolu Päritolu kajastab info olemasolu digiobjekti või kogu omanike ja kasutuskonteksti kohta. See on oluline lisakriteerium ajaloolise või teadusliku väärtuse jaoks. Objekti olemasolu, kasutamise ja omanike dokumenteeritud ajalugu annab objektile ühiskonna või üksikisiku jaoks konteksti. Äärmiselt oluline on päritolu näiteks kunstiteoste, arheoloogiliste leidude ja arhiividokumentide korral. Rahaline väärtus, turuväärtus Tegemist on objekti praeguse turuväärtusega. See väärtus võib väga kiiresti muutuda. Rahaline väärtus ei ole teiste väärtustega otseselt seotud. Rahalist väärtust ei saa 117 118 MIKS ON VAJALIK DIGIINFO SÄILITAMINE? kasutada kõikide teiste väärtuste iseloomustamiseks (see, et asi on kallis, ei pruugi tähendada, et see on igas mõttes väga väärtuslik). MIKS ON VAJALIK DIGIINFO SÄILITAMINE? digikunstiobjektide jms korral. Digitaalse teabe loomine ja kasutamine sõltub tervest reast füüsilisest objektidest ja keskkondadest, mille säilitamine võib teaduslikust seisukohast vägagi oluline olla (Farr Kraus et al. 2009). Tõestusväärtus Digiinfol on väärtus selle looja päritolu, funktsioonide ja tegevuse tõendina. See võimaldab tõendada faktide ja sündmuste toimumist. Kuigi sageli seostatakse seda just arhiividokumentiga, võib tõestusväärtus olla igasugusel teabel. Juriidiline väärtus Digidokumente saab kasutada õiguslike toimingute teostamiseks või nende seaduslikkuse tõendamiseks. Selline väärtus võib olla arhiividokumentidel. Administratiivne väärtus Digiobjekt on oluline mingi organisatsiooni tegutsemiseks või toimingute tagamiseks, näiteks arhitektuurijoonised ja plaanid ehitiste parandamisel, tehnilised joonised seadmete tööshoidmisel, kaardid maastiku, ökosüsteemide ja pärandiobjektide muutuste kindlaks tegemisel jne. Omaväärtus Omaväärtus viitab digiobjekti korral nendele aspektidele, mis on seotud selle materiaalse küljega. Esmapilgul tundub, et digiobjektide korral ei ole need aspektid üldse olulised. Pole ju digiobjekti enda seisukohalt vahet, kas see on salvestatud arvuti kõvakettale või CDle. Siiski võib välja tuua mõned omaväärtusega seotud asjaolud. Kõige ilmsem omaväärtus on digiobjektide ümbristel. Muusikaalbum CDl ei ole ainult digitaalsed muusikapalad, vaid ka plaadiümbris, CDle kantud tekstid ja kujutised, sageli on kaasas veel paberil vihik tekstide ja piltidega (joonis 11.4). Joonis 11.4. Ansambli Psychoterror plaat „Streik“ – CD, plaadiümbris ja plaadiga kaasas olev buklett laulusõnadega Digiobjektide kasutuskogemus sõltub tihti mitmesugustest välistest seadmetest, nagu ekraanid, kõlarid, klaviatuurid, hiired, juhtkangid jne. Eriti kehtib see mängude, Unikaalsus See väärtus on teabel, mis on ainulaadne või mille taasloomine on väga keeruline või kulukas. Harilikult kombineerub unikaalsus mingi teise väärtusega. 11.2. Digiteabe säilitamise funktsioonid ühiskonnas Digiteabe säilitamise funktsioonid ühiskonnas on tegelikult määratud väärtustega, millega see teave on seotud. Kuna väärtusi on erinevaid, täidab ka digiinfo säilitamine ühiskonnas mitmesuguseid funktsioone. Kõige üldisemalt võib öelda, et digiteave, moodustades osa kultuurist, on ka osake kontekstist, mis üldse teeb meist inimesed. Info säilitamise majanduslik tähtsus Info ja selle säilitamise majanduslik tähtsus on pidevalt kasvanud. Info majanduslikud funktsioonid tulenevad otseselt selle majanduslikest väärtustest. Uuringufirma McKinsey tehtud analüüsi andmetel annab ainuüksi internet 21% tänapäeva arenenud riikide sisemajanduse koguprodukti kasvust, kusjuures 75% interneti mõjust tuleneb selle kasutamisest traditsioonilistes majandusharudes (Rausas Manyika et al. 2011). Teadmuspõhine majandusmudel tuginebki digitaalsele teabele, mis hoiab käigus tänapäevast infomajandust. Tasulise digiinfo kasutamisest, saavad vastavat teenust pakkuvad organisatsioonid otsest majanduslikku tulu. Tänapäeva maailmas on info muutunud üheks olulisemaks kaubaartikliks. Infole tuginedes toodetakse tervet hulka kaupu ja teenuseid, mis pakuvad inimestele nii materiaalset kui ka mittemateriaalset kasu. Äriprotsesside juhtimiseks vajalik teave on tänapäeval peamiselt digitaalsel kujul. Selle teabe haldamine ja säilitamine on ettevõtete jaoks äärmiselt tähtis. Digitaalsele asjaajamisele üleminek on võimalik vaid siis, kui tagatakse olulise teabe autentsus ja säilimine infosüsteemides. Järjest olulisemaks muutub organisatsioonide mälu (organizational memory, corporate memory) säilitamine. Organisatsiooni mälu kujutab endast teabekogumit, mis on moodustunud organisatsiooni tegevuse kestel. See teabekogum on ühelt poolt kajastatud kõikvõimalikus fikseeritud infos, aga teiselt poolt ka inimeste mälus. Organisatsiooni mälu haldamiseks luuakse organisatsioonisiseseid arhiive, andmepanku, raamatukogusid, muuseume. Suur osa sellest teabest eksisteerib tänapäeval digitaalsel kujul. Lisaks organisatsiooni ajaloo ja väärtuste säilitamisele on see teave oluline ka kogutud teadmiste, kogemuste ja oskuste säilitamise ning edasiarendamise seisukohalt. Lausa kriitilise tähtsusega on see teadmismahukas tootmises ja arenduses (näiteks infotehnoloogias, kosmosetehnoloogias, ravimitööstuses jne). Paljude valdkondade ettevõtete jaoks on väga oluline kliendiinfo kogumine, töötlemine ja säilitamine. Ka teavet varasemate tehniliste lahenduste, arvutiprogrammide jms kohta säilitakse tänapäeval digitaalselt. Säilitatavale digiteabele tuginemine võimaldab uusi ja innovaatilisi tooteid ning teenuseid luua väiksemate arenduskuludega. Tänapäeva infoühiskonnas tegeleb üha enam ettevõtteid otseselt teabe loomise, kogumise, vahendamise, töötlemise ja säilitamisega. Selliste ettevõtete jaoks on digitaalne säilitamine kriitilise olulisusega. Organisatsioonide kohustused dokumentatsiooni, sealhulgas digitaalsete dokumentide säilitamiseks on reguleeritud õigusaktidega. 119 120 MIKS ON VAJALIK DIGIINFO SÄILITAMINE? Teabe säilitamine võimaldab hoida kokku kulusid, mis tekiksid vajaminevat infot uuesti hankides. Digitaalses arhiivis säilitatav autentne info võimaldab ilma teabekao ohuta kustutada organisatsiooni infosüsteemis esinevad inforessursside koopiad. Digiinfo on ka loomemajanduse oluline osa, nii inspiratsiooniallika kui ka otsese töövahendina. Digiteabe säilitamine tekitab olulisi kulutusi, samas on see töömahukas ja pakub kõrgekvaliteedilisi töökohti ning loob teadmisi ja oskusi. Ühiskonna korraldus ja poliitika Digiinfot on võimalik kasutada infoühiskonna poliitika nutikamaks suunamiseks. See nõuab vastava teabe kogumist, säilitamist ja töötlemist. Mida olulisemale kohale tõusevad nn suurandmed, seda tähtsamaks muutub ka nende säilitamine. Säilitatav info võimaldab tõestada kõikvõimalikke õigusi ja tehinguid, näiteks autoriõiguste või patentidega seotud vaidlustes, olles seega ühiskonnaelu korraldamise seisukohast olulise tähtsusega. Teadusliku uurimistöö tagamine Tänapäevane teadmusühiskond tugineb teaduslikule uurimistööle, mis loob aluse tehnoloogilisele arengule. Seejuures on suurem osa uurimistöö käigus loodavast teabest digitaalne. Sageli on need andmekogused ülisuured, näiteks Euroopa Tuumauuringute Keskuse (Conseil Européen pour la Recherche Nucléaire, CERN) andmekeskus töötleb iga päev ühe petabaidi jagu teavet. Sellise teabekoguse säilitamiseks oleks vaja 210 000 DVDd.39 Märksa lihtsama töötlemise ja kasutamise tõttu konverteeritakse varem kogutud teave digitaalsele kujule. Olemasolevate teabekogude digitaliseerimine muudab need laialdaselt kättesaadavaks ja suurendab seeläbi oluliselt nende kasutatavust. Võimalikuks on saanud ühtsete kirjeldus- ja analüüsimeetodite kasutamine erineva institutsionaalse päritoluga teabekogude (arhiivide, raamatukogude, muuseumite, teadusandmekogude) vahel. MIKS ON VAJALIK DIGIINFO SÄILITAMINE? Säilitatud teave on olulisel kohal riikliku identiteedi kehtestamisel ja säilitamisel, mis aitab püsida riigi struktuuridel ja institutsioonidel ning toetab sotsiaalsete, poliitiliste ja kultuuriliste pingete lahendamist (Asworth Larkham 1994: 14). Riikide ametlikustatud pärand on riikliku identiteedi kujundamise väga oluline komponent. Riiklikku pärandit kasutatakse riigi määratlemiseks ja legitimeerimiseks, samuti kodanike samastumiseks riigiga. Riigi identiteedi loomine tähendab kindla ajalooversiooni esitamist ja selle seostamist valitseva ideoloogiaga. Üha suuremas ulatuses kasutatakse riiklike identiteetide kehastamiseks just digiteavet. Näite võib tuua Ühendkuningriigist – vt infokast 11.1. Näitekast 11.1. Pärand ja rahvuslikkus Mingile rahvusele omaste tunnuste ja eripärade väljatoomine oli kunagi tõsine teaduslik teema, mis tänapäevaks on muutunud meeleahtuslikuks, aga samas ka poliitiliseks ettevõtmiseks. 2000. aastate teisel poolel tõstsid Briti poliitikud esile pärandi kui rahvusliku identiteedi tugevdamise ja sotsiaalse sidususe suurendamise vahendi. Üks selle väljendusi oli võrguprojekt „ICONS of England“. Kultuuriministeeriumi algatatud projekti eesmärk oli luua virtuaalne pilt Inglismaast ja inglaslikkusest. Loodi veebileht (www.icons.org.uk, töötas aastail 2006–2011, vt joonis 11.5), kus sai esitada Inglismaad 21. sajandil kõige enam iseloomustavaid objekte ja nähtusi ning hääletada ja kommenteerida juba esitatuid. Esitatute hulgas olid ka meie jaoks Inglismaad sümboliseerivad Big Ben, tass teed, James Bond, Nelsoni mälestusmärk, punane kahekorruseline buss ja punane telefoniputka (joonis 11.6), aga ka meil vähem tuntud Põhjaingli kuju, Spitfire hävitaja, Rosetta kivi ja Domesday Book. Digitaalsete kogude loomine, haldamine ja säilitamine on kõikide teabeasutuste üks olulisemaid tegevussuundi. Kuna suur osa tänapäevaste ühiskondade teabest esineb digikujul, on selle säilitamine hädavajalik tulevaseks uurimistööks mineviku kohta. Säilitatavaid andmeid on võimalik hiljem üha uuesti analüüsida, kasutades uuemaid meetodeid ja kontseptsioone. Samuti on võimalik minevikus kogutud andmeid kombineerida kaasaegsete andmetega, avades nii uusi võimalusi uurimistööks. Digiteabe säilitamine on avanud mitu uut uurimissuunda ja -meetodit (näiteks andmekaeve). Identiteedi kujunemine ja säilitamine Alates 20. sajandi keskpaigast on teave omandanud ühiskonnakäsitlustes järjest suurema kaalu. Selle põhjus on vägagi selge: info osaleb aktiivselt sotsiaalse ja kultuurilise identiteedi kujundamisel ning esitamisel nii lokaalsel, regionaalsel, riiklikul ja rahvuslikul kui ka globaalsel tasandil. Ükski kogukond ei saa eksiteerida ilma jagatud teabeta, mis tagab ühise mineviku- ja tulevikutunnetuse. Jagatud teabe üks olulisemaid funktsioone ongi grupiidentiteedi loomine ja tugevdamine. Tänapäeval on see teave jällegi valdavalt digitaalne. Olulisele kohale on kerkinud vaimse ja suulise kultuuripärandi digitaalne dokumenteerimine. Joonis 11.5. Projekti „ICONS of England”veebileht 39 CERN. Computing. https://home.cern/about/computing 121 122 MIKS ON VAJALIK DIGIINFO SÄILITAMINE? MIKS ON VAJALIK DIGIINFO SÄILITAMINE? Kultuuriline mitmekesisus Nii nagu looduses on tähtis bioloogiline mitmekesisus, on kultuurisüsteemide püsivaks olemasoluks oluline kultuurilise mitmekesisuse säilitamine. Kultuuriline mitmekesisus moodustab lahutamatu osa sotsiaalsest sidususest ja inimeste elukvaliteedist. Mitmekesisus on kultuurilise kapitali oluline omadus, kuna see on uue kapitali loomise alus. Kõige lihtsamal kujul avaldub see selles, et minevikus loodu on aluseks uutele kultuuriväljenduse vormidele. Interkultuuriline dialoog on jätkusuutliku arengu lahutamatu komponent. Digiteave pakub selleks erakordselt suuri võimalusi. Haridus Digitaalsel teabel on väga oluline hariduslik funktsioon, ta võimaldab inimestele juurdepääsu inimkultuuri pärandile ja nüüdisaegsetele saavutustele. Digitaalne õppematerjal muudab õppimise sõltumatuks senistest piirangutest, edendades seeläbi nii formaalset kui ka mitteformaalset haridust. Teabeasutused peavad tänapäeva teabeühiskonnas toimima universaalsete elukestva õppe pakkujatena. Võimalus sellist teavet kasutada on oluline inimeste isikliku arengu seisukohalt. Säilitatud teabega tegelemine võimaldab omandada uusi teadmisi, kogemusi, oskusi, tõsta enesehinnangut ja mõjutada suhtumist minevikku, kultuuri ja loomingusse (Wavell Baxter 2002). Digiteave võimaldab õpetamisel kasutada seni raskestikasutatavaid inforessursse ja kuvamisvahendeid (3D-animatsioonid, visualiseeringud jms). Digiteave ise on muutunud inimühiskonna lahutamatuks osaks ning seega on ka selle säilitamine hädavajalik tehnoloogia, ühiskonna, inimeste endi ajaloo tundmaõppimise eesmärgil. Joonis 11.6. Punane telefoniputka on kindlasti Inglismaa üks tuntumaid sümboleid Digiteave ja sotsiaalne sidusus Sotsiaalne sidusus on ühiskonna suutlikkus kindlustada oma ühtsus ning liikmete võrdsus ja heaolu. Sidusus tugineb sotsiaalsele usaldusele, kindlustundele, vastastikusele abistamisele, jagatud väärtustele ja võrdsetele võimalustele. Ühise teabevälja olemasolu suurendab kaheldamatult sotsiaalset sidusust, kuid selleks peab info kasutatavus ja kättesaadavus olema tagatud kõikidele ühiskonna liikmetele sõltumata nende sotsiaalmajanduslikust grupist, sissetulekust, geograafilisest asukohast ja muudest tunnustest. Praegustel põlvkondadel lasub kohustus säilitada teavet tulevastele põlvedele. Seega pakub digiinfoga seotud väärtuste säilitamine laiemat perspektiivi võrreldes igapäevaste kohustustega ja loob pikema ajalise tunnetuse. Igasugune tegelemine pärandiga, igasugune osasaamine sellest on tegelikult suhtlus minevikuga, enne meid elanud inimestega. Olles minevikupärand tulevikupõlvkondadele, moodustab see osa põlvkondadevahelise võrdsuse kontseptsioonist ja suurendab põlvkondade sidusust. Digitaalse pärandi kogumine, loomine ning säilitamine seob inimesi ja kogukondi, luues ühise infovälja, mis ulatub minevikust tulevikku. Inimeste heaolu Minevikus loodud kunsti-, kirjandus-, muusika-, ja teadustööde nautimine moodustab osa inimeste heaolust ja vaimsest keskkonnast. Digitaliseerimine on suure osa mineviku kultuuripärandist muutnud väga lihtsalt kasutatavaks. Järjest suurenev osa inimkonna loomingust esineb aga ainult digitaalsel kujul. Mona Lisa maalist on olemas miljoneid veebist kättesaadavaid digitaalseid kujutisi, 3D-animatsioone ja visualiseeringuid, kuid on võimalik tutvuda ka maali füüsilise originaaliga Louvre’i muuseumis. Seevastu arvutimänge saabki kasutada ainult digitaalsel kujul. Meelelahutus Suur osa meelalahutusmaailmast on muutunud digitaalseks, ka klassikalistes valdkondades – tänapäeval naudime muusikat, filme, raamatuid jms digitaalsel kujul. Võib-olla veelgi olulisem on aga see, et koos digitaalse teabe kasutuselevõtuga on ilmunud ka hulk digispetsiifilisi meelelahutusi. Kõige tuntumad neist on kindlasti digimängud, aga meelelahutuses mängivad väga olulist osa ka sotsiaalmeediakanalid, virtuaalsed maailmad, digitaalsed simulatsioonid jms. 123 124 KASUTATUD KIRJANDUS KASUTATUD KIRJANDUS KASUTATUD KIRJANDUS Bülow, A., Ahmon, J. 2011. Preparing collections for digitization. Facet Publishing. A procedure for accepting digital and analog magnetic tape for archival storage. 1969. Washington DC: NARS, Data Archives Staff. CCSDS 2002. Producer Archive Interface Methodology Abstract Standard (PAIMAS). CCSDS 651.0-M-1. Washington: The Consultative Committee for Space Data Systems. http://pin. association-aristote.fr/lib/exe/fetch.php/public/documents/20030115_ccsds_651_r1.pdf Adams, M. O., Brown, T. E. 2000. Myths and realities about the 1960 Census. – Prologue Magazine, 32, 4. http://www.archives.gov/publications/prologue/2000/winter/1960-census. html#f5 CCSDS 2010. The data description language EAST specification. (CCSD0010). Washington: The Consultative Committee for Space Data Systems. https://public.ccsds.org/ Pubs/644x0b3.pdf Adams, M. O. 1995. Punch card records: precursors of electronic records. – American Archivist, 58, 182–201. CCSDS 2011. Audit and certification of trusthworthy digital repositories. Washington: The Consultative Committee for Space Data Systems https://public.ccsds.org/pubs/652x0m1.pdf Adams, M. O. 2007. Analyzing archives and finding facts: use and users of digital data records. – Archival Science, 7, 21–36. Agur, U. 1976. Andmetöötluse riistvara. Tallinn: Valgus. CCSDS 2012. Recommendation for Space Data System Practices. Reference model for an open archival information system (OAIS). Washington: The Consultative Committee for Space Data Systems. https://public.ccsds.org/pubs/650x0m2.pdf Ahlgren, D., McDonald. 1981/82. The archival management of a Geographic Information System. – Archivaria, 13, 59–65. CCSDS 2014a. Producer Archive Interface Specification (PAIS). Washington: The Consultative Committee for Space Data Systems. https://public.ccsds.org/Pubs/651x1b1.pdf Ambacher, B. 2005. The development of a standard for digital repository certification. https:// studylib.net/doc/13347573/the-development-of-a-standard-for-digital-repository-cert Ceruzzi, P. 2012. Computing: A Concise History. United States: Smithsonian Institution. An Act for the Disposition of Certain Records of the United States Government. 5. August 1939. (53 Stat. 1219-21). Anderson, D., Delve, J., Pinchbeck, D., Agegn Alemu, G. 2009. Preliminary document analyzing and summarizing metadata standards and issues across Europe. Report No.D3.1: KEEP Project. Portsmouth. Apollo 11 missing tapes. – Wikipedia: the free encyclopedia. https://en.wikipedia.org/wiki/ Apollo_11_missing_tapes Arhiivieeskiri. 2011. Vastu võetud 22.12.2011. https://www.riigiteataja.ee/akt/129122011229 Arhiiviseadus. 2011. Vastu võetud 17.02.2011. https://www.riigiteataja.ee/akt/106012016006 Aru, K., Konsa, K., Siiner, M. 2005. Eesti trükise punane raamat. – Keel ja Kirjandus, 1, 1−8. Asworth, G., Larkham, P. 1994. Building a new heritage: Tourism, culture and identity in the new Europe. London, New York: Routledge. Beniger, J.R. 1986. The Control Revolution. Cambridge: Harvard University Press. Blank, G., Rasmussen, K. B. 2004. The data documentation initiative: the value and significance of a worldwide standard. – Social Science Computer Review, 22, 3, 307–318. British Standard BS 4783:1988. Storage, transportation and maintenance of media for use in data processing and information storage. Recommendations for magnetic tape cartridges and cassettes. Part 2: 1988, Recommendations for magnetic tape on open spools; Part 3: 1988, Recommendations for flexible disk cartridges; Part 4: 1988, Recommendations for magnetic tape cartridges and cassettes; Part 5: 1991, Recommendations for 12.7mm magnetic tape cartridges for data interchange, recording at 1491 data bytes per millimetre on 18 tracks; Part 6: 1993, Recommendations for optical disk cartridges; Part 7: 1993, Recommendations for optical data disks (CD-ROM); Part 8: 1994, Recommendations for 4mm and 8mm helical scan tape cartridges. Brooks, P. 1940. The selection of records for preservation. – The American Archivist, 3, 4, 221–234. Brothman, B. 2006. Archives, life cycles, and death wishes: a helical model of record formation. – Archivaria, 61, 235–269. Brown, T., E. 2003. History of NARA’s...”. – Thirty years of electronic records, Ambacher, B. I. (ed.). Lanham, Md.: Scarecrow Press, 1–23. Charter on the Preservation of Digital Heritage. 2003. Paris: UNESCO. https://unesdoc. unesco.org/ark:/48223/pf0000133171.page=80 Cook, M. 1980. Archives and the computer. London, Boston: Butterworths. Cook, T. 1986. Easy to byte, harder to chew: the second generation of electronic records archives. – Archivaria, 33, 202–216. Couture, C., Rousseau, J-Y. 1987. The life of a document: a global approach to archives and records management. Montreal: Véhicule Press. Custer, M. 2009. Incorporating patron requests into archival workflows and digital repository interfaces. – Sustainable Archives. Joint Annual Meeting of the Society of American Archivists and the Council of State Archivists. http://saa.archivists.org/Scripts/4Disapi. dll/4DCGI/events/eventdetail.html?Action=Events_Detail&InvID_W=1089 Data and document interchange standards and the National Archive [Project No. 1-6465]. 1987. ttawa: Canadian Bureau of Management Consulting. Day, M. 2005. Metadata. DCC Digital Curation Manual. DCC. What is digital curation? http:// www.dcc.ac.uk/digital-curation/what-digital-curation#sthash.t79d2VYM.dpuf Definitions of digital preservation. 2007. ALA (American Library Association). Chicago: American Library Association. http://www.ala.org/ala/mgrps/divs/alcts/resources/ preserv/defdigpres0408.pdf Demmerle, A. M., Holmes, R. G., Poland, W. B. 1967. GSFC program in telemetry data archiving, discussing necessity of data accessing capability. – Wincon 67, Winter convention on aerospace and electronic systems, 8th, Los Angeles, Calif., IIID-12–IIID-17. Dempsey, L., Heery, R. 1997. A review of metadata: a survey of current resource description formats work package 3 of telematics for research project DESIRE (RE 1004). http://www. ukoln.ac.uk/metadata/desire/overview/ Dempsey, L., Heery, R. 1998. Metadata: a current view of practice and issues. – Journal of Documentation, 54, 2, 145–172. Derek, C. 1984. Records surveys and schedules: a RAMP study with guidelines. Paris: UNESCO. http:// unesdoc.unesco.org/images/0006/000635/063518eo.pdf Digital preservation handbook. 2016 (2nd edition). Digital Preservation Coalition. http:// handbook.dpconline.org/ 125 126 KASUTATUD KIRJANDUS Digital preservation metadata standards. 2010. – ISO Information Standards Quarterly, 22, 2, 5–13. Dollar, C., M. 1978. Appraising machine-readable records. – The American Archivist, 41, 4, 423–430. Dollar, C., M. 1993. Archivists and records managers in the information age. – Archivaria, 36, 37–52. Domesday: Britain’s finest treasure. The National Archives. http://www.nationalarchives.gov. uk/domesday/ Domesday. The BBC Domesday project. http://www.atsf.co.uk/dottext/domesday.html Domesday reloaded blog. BBC. http://www.bbc.co.uk/history/domesday Dormolen, H. van. 2012. Metamorfoze preservation imaging guidelines. The Hague: Koninklijke Bibliotheek. https://www.metamorfoze.nl/sites/metamorfoze.nl/files/ publicatie_documenten/Metamorfoze_Preservation_Imaging_Guidelines_1.0.pdf Doorn, P. 1998. Electronic records and historians in Netherlands. – History and electronic Artefacts, Higgs, E. (ed.). Oxford: Clarendon Press, 304–316. Doorn, P. 2004. Research data archives and public electronic record-offices: what can we learn from each other? – Archives in Cyberspace. Electronic Records in East and West, Doorn, P., Garskova, I., Tjalsma, H. (eds.). Moscow: Moscow University Press. Dryden, J. E. 1995. Archival description of electronic records: an examination of current practices. – Archivaria, 40, 99–108. Duff, W., McKemmish, S. 2000. Metadata and ISO 9000 compliance. – Information Management Journal, 34, 1. Eesti trükise Punane Raamat. http://www.nlib.ee/PunaneRaamat Eesti trükise punane raamat. ELNET Konsortsium. http://www.elnet.ee/index.php/projektid/ eesti-truekise-punane-raamat Elektrooniliste dokumentide haldamise näidisnõuded. Spetsifikatsioon MoReq 2. 2010. Tallinn: Eesti Riigikantselei. https://www.mkm.ee/sites/default/files/spetsifikatsioon_moreq2.pdf KASUTATUD KIRJANDUS Giaretta, D. 2011. Advanced digital preservation. Berlin, Heidelberg: Springer. Gill, T. 1998. Metadata and the World Wide Web. – Introduction to metadata: pathways to digital information, Baca, M. (ed.). Getty Infirmation Institute. http://www.slis.kent. edu/~mzeng/metadata/gill.pdf Gilliland-Swetland, A. 2000b. Setting the stage: defining metadata. – Introduction to metadata: pathways to digital Information, Murtha B. (ed.). Los Angeles: Getty Information Institute. http://www.getty.edu/research/publications/electronic_publications/intrometadata/ setting.html Greenberg, J. 2005. Understanding metadata and metadata schemes. – Cataloging and Classification Quarterly, 40, 3/4, 17–36. Greenfieldboyce, N. 2009. Houston, we erased the Apollo 11 tapes. http://www.npr. org/2009/07/16/106637066/houston-we-erased-the-apollo-11-tapes Guidelines on best practices for using electronic information. 1997. DLM-Forum. Brussel: European Communities. http://dlmforum.typepad.com/gdlines.pdf Hakala, J. 2010. Persistent identifiers – an overview. Technology Watch Report (TWR): Standards in Metadata and Interoperability. http://metadaten-twr.org/2010/10/13/ persistent-identifiers-an-overview/ Hausstein, B., Brislinger, E. 1998. Data and information transfer between Eastern and Western Europe. – Information dissemination and access in Russia and Eastern Europe: problems and solutions in East and West, Walker, R., Taylor, M. F. (eds.). Amsterdam: IOS Press, 77–87. Haynes, D. 2004. Metadata for information management and retrieval. Facet Publishing. Hedstrom, M. 1991. Understanding electronic incunabula: a framework for research on electronic records. – The American Archivist, 54, 3, 334–354. Heide, L. 2009. Punched-card systems and the early information explosion, 1880–1945. Baltimore: The John Hopkins University Press. Henry, L. J. 2003. Appraisal of electronic records. – Thirty years of electronic records, Ambacher, B. I. (ed.). Lanham, Md.: Scarecrow Press, 25–41. EVS-ISO 15836:2004. Informatsioon ja dokumentatsioon – Dublin Core’i metaandmeelemendid. Tallinn: Eesti Standardikeskus. Hilse, H-W., Kothe, J. 2006. Implementing persistent identifiers: overview of concepts, guidelines and recommendations. London/Amsterdam: Consortium of European Libraries and European Commission on Preservation and Access. FADGI. 2010. Technical guidelines for digitizing cultural heritage materials: creation of raster image master files. Still Image Working Group. http://www.digitizationguidelines.gov/ guidelines/FADGI_Still_Image-Tech_Guidelines_2010-08-24.pdf Hurley, B. J., Price-Wilkin, J., Proffitt, M., Besser, H. 1999. The making of America II Testbed Project: a digital library service model. Washington, D.C.: Council on Library and Information Resources. http://www.clir.org/pubs/abstract/pub87abst.html Farr, E. L., Kraus, K. M., Nelson, N., Peters, C. S., Redwine, G., Reside, D. 2009. Digital materiality: preserving access to computers as complete environments – iPRES 2009: the Sixth International Conference on Preservation of Digital Objects. Proceedings, 105–112. http://escholarship.org/uc/item/7d3465vg ICA. 1996. Electronic records programs: report on the 1994/95 survey. Fishbein, M. H. 1972. Appraising information in machine language form. – The American Archivist, 35, 1, 35–43. ICA. 2000. ISAD(G): General International Standard Archival Description (second edition). Ottawa: International Council on Archives. http://www.icacds.org.uk/eng/ISAD(G).pdf Fishbein, M. H. 2003. Recollections ... – Thirty years of electronic records, Ambacher, B. I. (ed.). Lanham, Md.: Scarecrow Press, xiii–xix. ICA. 2004. ISAAR(CPF): International Standard Archival Authority Record for Corporate Bodies, Persons and Families. International Council on Archives. http://www.icacds.org.uk/ eng/ISAAR(CPF)2ed.pdf Floridi, L. 2009. Information: a very short introduction. Oxford, New York: Oxford University Press. Gavrel, S. 1986. Preserving machine-readable archival records: a reply to John Mallinson. – Archivaria, 22, 153–155. Geda, C., L. 1979. Social science data archives. – The American Archivist, 42, 2, 158–166. ICA. 1997a. Guide for managing electronic records from an archival perspective. ICA. 1997b. Electronic records management: a literature review. ICA. 2007. ISAF: International Standard for Activities/Functions of Corporate Bodies. International Council on Archives. http://www.gobiernodecanarias.org/opencmsweb/ export/sites/cpj/dgmcs/temas/archivos/docs/isaf_ingles.pdf Infosüsteemide turve II: turbe tehnoloogia. 1998. Tallinn: Küberneetika. 127 128 KASUTATUD KIRJANDUS ISO 15489-1:2016. Information and documentation – Records management – Part 1: Concepts and principles. Jakobson, R. 1981. Linguistics and poetics. – Jakobson, R. Selected Writings III. Poetry of Grammar and Grammar of Poetry. The Hague: Mounton Publishers, 18–51. Juhendeid digitaalsete dokumentide säilitamiseks. 2000. Ruusalepp, R., Rand, J. (koost). Tallinn: Eesti Äriarhiiv. Kelomees, R. 2009. Postmateriaalsus kunstis. Indeterministlik kunstipraktika ja mittemateriaalne kunst. Tallinn: Eesti Kunstiakadeemia. Kesner, R. M., Hurst, D. 1981. Microcomputer applications in archives: a study in progress. – Archivaria, 12, 3–19. Konsa, K., Hermann, E. The logic of text and structure of books: Changing the functions. – Reading in changing society, Lauristin, M., Vihalemm, P. (eds.). Tartu: University of Tartu Press, 28–38. KASUTATUD KIRJANDUS Moore, G. 1965. Cramming more components onto integrated circuits.– Electronics Magazine, 38, 8. ftp://download.intel.com/museum/Moores_Law/Articles-Press_Releases/Gordon_ Moore_1965_Article.pdf MPEG-21 Book. 2006. John Wiley & Sons Ltd. Museum Helps BBC Domesday Reloaded Project. 2011. Centre for Computing History. http:// www.computinghistory.org.uk/news/14450/Museum-Helps-BBC-Domesday-ReloadedProject/ NASA. The Apollo 11 telemetry data recordings: a final report. www.nasa.gov/ pdf/398311main_Apollo_11_Report.pdf NASA. 2006. Update: Apollo 11 tapes. http://www.nasa.gov/mission_pages/apollo/apollo_ tapes.html Naugler, H. 1984. The archival appraisal of machine-readable records: a RAMP study with guidelines. Paris: UNESCO. Konsa, K. 2014. Laulupidu ja verivorst: 21. sajandi vaade kultuuripärandile. Tartu: Tartu Kõrgem Kunstikool. NISO. 2001. Understanding metadata. P.1. NISO Press. http://www.niso.org/publications/ press/UnderstandingMetadata.pdf Kula, S. 1977. Optical memories: archival storage system of the future, or More pie in the sky. – Archivaria, 4, 43–48. O’Reagan, G. 2012. Brief history of computing. Springer. Lazinger, S. 2001. Digital preservation and metadata: history, theory, practice. Libraries Unlimited. Lavoie, B., Gartner, R. 2005. Technology watch report: preservation metadata. Oxford University Library Services and Digital Preservation Coalition. http://www.dpconline.org/ docs/reports/dpctw05-01.pdf Law, M. H., Rosen, B. K. 1989. Framework and policy recommendations for the exchange and preservation of electronic records. Report prepared by the National Computer Science Laboratory, National Institute of Standards and Technology for the National Archives and Records Administration. PDF reference. 2006 (sixth edition). Adobe® Portable Document Format Version 1.7. http:// www.adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/pdf_reference_1-7.pdf PDF. Wikipedia. http://en.wikipedia.org/wiki/Portable_Document_Format Phillips, M., Woodyard, D., Bradley, K., Webb, C. 2001. Preservation metadata for digital collections: exposure draft. National Library of Australia. Pikaealised Voyagerid. 2008. – Tehnikamaailm. http://www.tehnikamaailm.ee/pikaealisedvoyagerid/ Protocols, standards and communications, Inc. 1989a. The application of ODA/ODIF standards. Ottawa: National Archives of Canada. Lawson, M. G. 1948. The machine age in historical research. – The American Archivist, 11, 2, 141–149. Protocols standards and communications, Inc. 1989b. Application portability. Ottawa: National Archives of Canada. LeFurgy, B. 2013. Hardware Matters. – The Signal. Library of Congress. http://blogs.loc.gov/ thesignal/2013/05/hardware-matters/ Pulkinen, M., Quinlan, T. 1996. Nordic archives and electronic records: preservation of electronic records in Nordic Countries. – For the record: data archives, electronic records, access to information and the needs of the research community, Lohan, R., Conrad, M., Hannigan, K., Jackson, J. A. (eds.). Dublin: Institute of Public Administration, 48–53. Levi, D. M. 2003. Documents and Libraries: A sociotechnical Perspective. – Digital library use: social practice in design and evaluation, Bishop, A. B., Van House, N. A., Pfeil Buttenfield, B. (eds.). Cambridge, London: The MIT Press, 26–42. Lipe, W. 1984. Value and meaning in cultural resources. – Approaches to the archaeological heritage, Cleere, H. (ed.). Cambridge: Cambridge University Press, 1–11. Lievesley, D. 1998. Increasing the value of data. – History and electronic artefacts, Higgs, E. (ed.). Oxford: Clarendon Press, 25–32. Lund Principles. 2001. https://cordis.europa.eu/ist/digicult/lund-principles.htm Pärgamendid. – Rahvusarhiiv. http://www.ra.ee/pargamendid/index.php/et Rausas, M., P. Manyika, J. du, Hazan, E., Bughin, J., Chui, M., Said, R. 2011. Internet matters: The Net’s sweeping impact on growth, jobs, and prosperity. McGinsley and Company. http://www.mckinsey.com/insights/high_tech_telecoms_internet/internet_matters Recommended environmental conditions and handling procedures for magnetic tape. 1973. Washington DC: NARS. Mallinson, J. C. 1986. Preserving machine-readable archival records for the millennia. – Archivaria, 22, 147–152. Records and Information Life Cycle Management. Library and Archives Canada. https://www. bac-lac.gc.ca/eng/services/government-information-resources/lifecycle-management/ Pages/life-cycle-management.aspx Marker, H.–J. 1998. Data conservation at a traditional data archives. – History and electronic artefacts, Higgs, E. (ed.). Oxford: Clarendon Press, 294–303. Regregex. 2010. VCF 2010 Domesday tray open.jpg. CC BY 3.0. https://commons.wikimedia. org/w/index.php?curid=10716074 McKie, R. Thorpe, V. 2002. Digital Domesday Book lasts 15 years not 1000. – The Guardian. https://www.theguardian.com/uk/2002/mar/03/research.elearning Rosenkrantz, G. J. 1971. National archives mass storage requirements – 1975 to 1980. – IEEE Transactions on Magnetics, 7, 4, 843–847. METS. 2010. Metadata encoding and transmission standard: Primer and reference manual. USA: Digital Library Federation. http://www.loc.gov/standards/mets/mets-schemadocs.html Rosenzweig, R. 2003. Scarcity or abundance? Preserving the past in a digital era. – American Historical Review, 108, 3, 735–762. 129 130 KASUTATUD KIRJANDUS KASUTATUD KIRJANDUS Ross, S., Gow, A. 1999. Digital archaeology: rescuing neglected and damaged data resources. London: Library Information Technology Centre. http://www.ukoln.ac.uk/services/elib/ papers/supporting/pdf/p2.pdf Upward, F. 1997. Structuring the records continuum. Part two: structuration theory and recordkeeping. – Archives and Manuscripts, 25, 1. http://www.infotech.monash.edu.au/ research/groups/rcrg/publications/recordscontinuum-fupp2.html Rothenberg, J. 1999a. Ensuring the longevity of digital information. http://www.clir.org/pubs/ archives/ensuring.pdf Upward, F. 2000. Modelling the continuum as paradigm shift in recordkeeping and archiving processes, and beyond a personal reflection. – Records Management Journal, 10, 3, 115–139. Roussopoulos N., Mark, L. 1986. Metadata management. – Computer, 19, 12, 26–36. Varundamise ja arhiveerimise kord. Riigi Infosüsteemi Amet. https://www.ria.ee/public/ISKE/ naidisdokumendid/LISA1.07.Varundamise_ja_arhiveerimise_kord.doc Runardotter, M., Quisbert, H., Nilsson, J., Hägerfors, A., Mirijamdotter, A. 2005. The information life cycle – Issues in long-term digital preservation. – Proceedings of IRIS28 in Kristiansand, Norway 6–9 August 2005. http://www.researchgate.net/ publication/228531497_The_information_life_cycleissues_in_long-term_digital_ preservation Shannon, C. E. 1948. A mathematical theory of communication. – The Bell System Technical Journal, 27, 379–423, 623–656. http://math.harvard.edu/~ctm/home/text/others/shannon/ entropy/entropy.pdf Schellenberg, T. R. 1956. Appraisal of modern public records. http://www.archives.gov/ research/alic/reference/archives-resources/appraisal-of-records.html Sleemann, P. 2004. It’s public knowledge: The National Digital Archive of Datasets. – Archivaria, 58, 173–200. http://data-archive.ac.uk/media/54761/ukda-40thanniversary.pdf Smith, N. 2006. Digitising documents for public access. – Digital heritage: applying digital imaging to cultural heritage, MacDonald, L. (ed.). Butterworth-Heinemann, 3–32. Structured glossary of technical terms. The impact of digital Technologies. http://www.clir. org/pubs/reports/lynn/impact.html Tape drive technology comparison. 2014. Spectra. https://edge.spectralogic.com/index. cfm?fuseaction=home.displayFile&DocID=2513 Task force on archiving of digital information. 1996. Preserving digital information. Washington, D.C.: Commission on Preservation and Access. https://www.clir.org/pubs/ reports/pub63watersgarrett.pdf Tegmark, M. 2014. Our mathematical universe: my quest for the ultimate nature of reality. London: Penquin Books. The preservation of complex objects. 2012. Volume 1: visualisations and simulations, Delve, J., Anderson, D., Dobreva, M., Baker, D., Billenness, C., Konstantelos, L. (eds.). Portsmouth: The University of Portsmouth. http://eprints.port.ac.uk/7745/1/pocos_vol_1.pdf The preservation of complex objects. 2012. Volume 2: software Art, Konstantelos, L., Delve, J., Anderson, D., Baker, D., Billenness, C., Dobreva, M. (eds.). Portsmouth: The University of Portsmouth. http://radar.gsa.ac.uk/2806/1/pocos_vol_2_final_release%5B1%5D.pdf The preservation of complex objects. 2013. Volume 3: gaming environments & virtual worlds, Anderson, D., Delve, J. (eds.). Portsmouth: The University of Portsmouth. Thexton, J. E. 1974. Archival potential of machine-readable records in business. – The American Archivist, 37, 1, 37–42. Thioboedeau, K. 2002. Overview of technological approaches to digital preservation and challenges in coming years. – The state of digital preservation: an international perspective. Conference proceedings documentation abstracts. Washington, D.C.: Institute for Information Science. http://chnm.gmu.edu/digitalhistory/links/pdf/preserving/8_37e.pdf Upward, F. 1996. Structuring the records continuum. Part one: Postcustodial principles and Properties. – Archives and Manuscripts, 24, 2. http://www.infotech.monash.edu.au/ research/groups/rcrg/publications/recordscontinuum-fupp1.html Vickery, B., Vickery, A. 1992. Information science in theory and practice. London: BowkerSaur. Voyager Golden Record. – Wikipedia: the free encyclopedia. https://en.wikipedia.org/wiki/ Voyager_Golden_Record Voyager 1. – Wikipedia: the free encyclopedia. https://et.wikipedia.org/wiki/Voyager_1 Voyager. The interstellar mission. http://voyager.jpl.nasa.gov/spacecraft/goldenrec.html Waters, D., Garrett, J. 1996. Preserving digital information: final report of the task force on archiving of digital information. The Commission on Preservation and Access and The Research Libraries Group. Wavell, C., Baxter, G., Johnson, I., Williams, D. 2002. Impact evaluation of museums, archives and libraries: available evidence project. Resource: The Council for Museums, Archives and Libraries. Wettengel, M. 1998. German unification and electronic records: the example of the ‘kaderdatenspeicher.’’ – History and electronic artefacts, Higgs, E. (ed.). Oxford: Clarendon Press, 265–276. Ülevaade Euroopa riikide rahvusarhiivide juhistest digitaalsete dokumentide haldamiseks ja säilitamiseks. 2001. Ruusalepp, R (koost). Tallinn: Eesti Äriarhiiv. Yusof, Z., Chell, R. 2000. The records life cycle: an inadequate concept for technologygenerated records. – Information Development, 16, 3, 135–141. 131