Janko Klasin: V prihodnosti bodo pomembni tako fizični kot digitalni arhivi
Janko Klasinc z Oddelka za digitalne vsebine NUK se ukvarja predvsem z arhiviranjem slovenike na spletu. V pogovoru smo med drugim izvedeli, kdaj so v NUK začeli s procesi digitalizacije, kakšne so podobnosti in razlike pri arhiviranju tiskanih in digitalnih vsebin, katera orodja uporabljajo za zajem spletnih vsebin in seveda, kakšna je uporabna vrednost spletnih arhivov.
Ste se že kot študent bibliotekarstva videli v NUK, kjer ste zdaj že skoraj dvajset let?
Za študij bibliotekarstva sem se odločil, ker me veseli upravljanje zbirk kakršnega koli gradiva, vključno z njegovim sistematičnim pridobivanjem, popisovanjem in omogočanjem njegove uporabe. Takrat se nisem videl v točno določenem tipu knjižnice, želel pa sem se ukvarjati z izgradnjo informacijskih virov, po možnosti digitalnih, tako da je bila NUK s svojimi aktivnostmi na področju digitalnih virov ena od bolj zaželenih knjižnic za moje bodoče delo.
Ampak niste kar prišli v Oddelek za digitalne vsebine?
Seveda ne, v NUK sem čisto na začetku opravljal enostavnejša dela v skladišču, garderobi in izposoji. Po slabem letu tovrstnega dela sem približno leto in pol delal na evropsko financiranem projektu EoD (E-books on demand), v okviru katerega smo vzpostavili storitev digitalizacije starejših monografskih publikacij po naročilu uporabnikov. V tem času sem pridobil veščine s področja digitalizacije, storitev pa je bila uspešno integrirana v organizacijsko strukturo NUK in deluje še danes. Potem sem se približno pet let ukvarjal s pridobivanjem obveznega izvoda spletnih publikacij, kar je zajemalo pridobivanje izvorno digitalnega gradiva od založnikov (predvsem e-knjige in e-revije) in arhiviranje slovenike na spletu v obliki spletnih mest. Po tem obdobju sem slabih osem let deloval kot vodja Oddelka za digitalne vsebine, od leta 2021 pa se ponovno ukvarjam predvsem z arhiviranjem slovenike na spletu.
Kaj so temeljne naloge vašega oddelka?
Oddelek v najširšem smislu pokriva področje upravljanja digitalnih virov v NUK. V grobem je delo na oddelku razdeljeno na tri področja. Poleg digitalizacije fizičnega gradiva NUK in objavljanja tega gradiva na portalu dLib.si v oddelku koordiniramo tudi digitalizacijo drugih slovenskih knjižnic in nekaterih dediščinskih ustanov, saj dLib.si ne služi zgolj dostopu do digitaliziranega gradiva NUK. Naša naloga je tudi pridobivanje, trajno ohranjanje in omogočanje dostopa do izvorno digitalnih publikacij. Te pridobivamo od založnikov večinoma kot obvezni izvod ali na podlagi drugih dogovorov. Tako kot digitalizirano gradivo je tudi to gradivo dostopno na portalu dLib.si. Druga skupina izvorno digitalnih publikacij, ki jih pridobivamo, so slovenska spletna mesta, ki jih kontinuirano zajemamo s pomočjo spletnih robotov. Tretje področje delovanja oddelka pa je upravljanje oddaljenih licenčnih e-virov, kar zajema sklepanje pogodb z različnimi ponudniki tovrstnih virov (baz podatkov) in zakup dostopa do njih. NUK se pri tem povezuje z drugimi knjižnicami v Sloveniji in vodi konzorcij COSEC, v okviru katerega članice na stroškovno učinkovit način skupaj nabavljajo dostop do teh bogatih virov podatkov, ki služijo predvsem podpori študijskemu in raziskovalnemu procesu. V oddelku skrbimo tudi za dostop do zakupljenih virov, predvsem prek portala Mrežnik in vzajemnega mEga iskalnika.
Kdaj in kako se je v NUK začel proces digitalizacije vsebin oziroma gradiv?
Prvi projekti digitalizacije segajo še v prejšnje stoletje. Prvi tovrsten projekt je NUK izvedla leta 1996, ko so bili digitalizirani slovanski srednjeveški kodeksi iz Kopitarjeve zbirke. Do leta 2003 je bilo izvedenih še nekaj projektov digitalizacije, vsak pa je bil predstavljen na svojem ločenem spletnem portalu. Po tem začetnem obdobju je bil leta 2005 vzpostavljen portal dLib.si, na katerem smo združili dostop do gradiva, ki je bilo digitalizirano v preteklih projektih, digitalizacija pa je od takrat dalje začela potekati bolj sistematično, kontinuirano in v večjem obsegu. Naslednji pomembnejši mejnik predstavlja leto 2008, ko smo na podlagi novega Zakona o obveznem izvodu publikacij od založnikov in drugih ustvarjalcev začeli zbirati tudi izvorno digitalne publikacije.
Kakšne so podobnosti in razlike pri arhiviranju tiskanih in digitalnih oziroma spletnih vsebin?
Med obema vrstama gradiv so določene vzporednice – pri obeh je treba poskrbeti, da je gradivo hranjeno v pogojih, ki zagotavljajo trajno ohranitev, in da je gradivo opremljeno s čim bolj popolnimi metapodatki, brez katerih kakršna koli zbirka ne more delovati. Razlike so predvsem v tem, da je zaradi razvoja različnih tehnologij digitalno gradivo manj obstojno in je pogosto podvrženo različnim namernim in nenamernim spremembam, ki jih v fizičnem okolju ne poznamo in so značilne predvsem za spletna mesta. Pri arhiviranju digitalnega gradiva je bistveno zagotavljanje ustrezne računalniške infrastrukture, zato je ključno, da pri tem področju poleg bibliotekarjev in knjižničarjev sodelujejo tudi strokovnjaki s področja informacijske tehnologije. Dotok digitalnega gradiva je vedno večji, po eni strani zaradi pospešene digitalizacije fizičnega gradiva, po drugi pa zaradi vedno večje produkcije spletnih publikacij s strani najrazličnejših ustvarjalcev. Zaposleni imamo zato opravka z vedno večjimi količinami gradiva, upravljanje tovrstnih virov pa terja čim višjo stopnjo avtomatizacije procesov pridobivanja, shranjevanja in omogočanja dostopa do gradiva uporabnikom. Po drugi strani digitalne zbirke ponujajo številne priložnosti za uporabo – dostop je veliko enostavnejši, iskanje pa ni možno zgolj po metapodatkih, kot smo tega navajeni pri klasičnih knjižničnih katalogih, pač pa tudi po celotnem besedilu gradiva. Digitalno okolje omogoča tudi številne možnosti za različne računalniške analize in vizualizacije velike količine podatkov (angl. big data), ki lahko uporabnikom ponudijo uvide v vsebino gradiva, ki jih fizično okolje ne omogoča.
Omenili ste koncept obveznega izvoda za sloveniko, kaj točno pomeni in kako ste ga iz fizičnih gradiv prenesli na digitalne?
Obvezni izvod publikacij ima v slovenskem prostoru že dolgo tradicijo. Prvič je bilo zbiranje obveznih izvodov zakonsko predpisano že leta 1807. Namen zbiranja obveznega izvoda publikacij je zagotoviti ohranjanje in dostopnost pisne nacionalne kulturne dediščine. Zavezanci za oddajo obveznega izvoda, ki so po trenutno veljavnem zakonu založniki in primerljivi subjekti, morajo NUK, ki ima funkcijo depozitarne organizacije, oddati določeno število obveznih izvodov publikacij, ki jih izdajo v fizični obliki. S pojavom novih nosilcev se je skozi čas obveznost oddaje obveznih izvodov razširila na različne nove vrste publikacij, v zadnjih desetletjih tudi na spletne publikacije. Po trenutno veljavnem Zakonu o obveznem izvodu publikacij morajo založniki NUK oddati tudi svoje digitalne publikacije, ki jih objavljajo na svetovnem spletu, ali omogočiti NUK dostop in shranitev teh publikacij.
Kako »lovite« nove spletne vsebine, v primerjavi s tiskanimi izdajami je najbrž težje?
Izhajanju spletnih publikacij v tradicionalni obliki, kot so e-knjige in e-serijske publikacije, lahko relativno dobro sledimo, saj v NUK izdelujemo mednarodne standardne številke ISBN, ISSN in ISMN, s katerimi založniki opremijo svoje publikacije. Ob dodelitvi številk so pozvani tudi k oddaji obveznega izvoda. Sledenje drugim vrstam objav na spletu je težje. Svetovni splet zaznamuje zelo velika količina relativno neobstojnih in med seboj povezanih podatkov, ki jih lahko zaradi široke dostopnosti spleta in vedno bolj uporabnikom prijaznih tehničnih rešitev ustvarja ter objavlja veliko število najrazličnejših posameznikov. Spletno okolje omogoča neprestano spreminjanje, posodabljanje in brisanje vsebin, zaradi česar splet ni stanoviten informacijski prostor, pač pa dinamičen preplet različnih informacijskih sistemov in vsebin. Podobno kot velja za spletno dediščino drugih narodov, je tudi vso sloveniko na spletu nemogoče identificirati. Spletna mesta za zajem izbiramo v skladu s Pravilnikom o vrstah in izboru elektronskih publikacij za obvezni izvod (Ur. list RS, št. 90/07). Po zgledu primerljivih ustanov v tujini uporabljamo kombinacijo treh pristopov. Vsaki dve leti izvedemo zajem vseh domen, registriranih pod vrhnjo nacionalno domeno .si, ki zajema čez 100.000 domen. Hkrati bolj pogosto zajemamo tudi manjši izbor čez 2.000 pomembnejših slovenskih spletnih mest, ki jih skušamo zajeti čim globlje in čim bolj popolno. Občasno izvajamo tudi tematske zajeme, pri katerih v krajšem časovnem obdobju z visoko frekvenco zajemamo manjše število spletnih mest in spletnih strani na določeno temo oziroma v povezavi z določenim dogodkom (npr. volitve).
Kaj torej »pade« pod obvezni izvod pri digitalnih vsebinah?
Zgoraj omenjeni pravilnik navaja, da so za obvezni izvod spletnih publikacij relevantne publikacije ali deli publikacij, objavljeni na svetovnem spletu, ki obstajajo tudi v tiskani obliki (npr. knjige, časniki, časopisi, članki), poleg teh pa tudi nove vrste publikacij in podobnih objav (npr. spletna mesta (strani) organizacij, oseb in dogodkov, portali, spletno dostopne storitve, podatkovne zbirke, spletne novice, spletne konference (forumi), spletni bilteni (newsletter) ter različne druge elektronske vsebine, kot so video in zvočni zapisi, interaktivni zemljevidi in mestni načrti, računalniški programi, računalniške igre, spletna umetnost (webart), mrežni dnevniki (blogi), hitre strani (wiki), učenje na daljavo (e-learning) in podobno.
Zelo široka definicija, kajne?
Res je, vendar pravilnik navaja tudi splošne in posebne kriterije za izbor publikacij. Po splošnih kriteriji v obvezni izvod sodijo dela slovenskih avtorjev, dela v slovenskem jeziku in dela o Sloveniji. Posebni kriteriji pa se nanašajo med drugim na vsebino, strukturo publikacij, domeno in format podatkov. Publikacije, ki pridejo v poštev za zajem, morajo ustrezati vsaj enemu splošnemu in enemu posebnemu kriteriju. V NUK smo tako v izbor najprej uvrstili spletna mesta s področja vlade in politike, znanosti in raziskovanja, visokega šolstva ter umetnosti in kulture. Kasneje smo izbor postopno širili tudi na področja narave in okolja, zdravja, prostočasnih dejavnosti, turizma, športa itd.
Za zajem spletnih mest uporabljate tako imenovane spletne robote. Za kakšna orodja gre?
Spletni roboti omogočajo avtomatizirano odkrivanje med seboj hipertekstovno povezanih vsebin in njihovo shranitev. Pri tem posnemajo delovanje običajnih uporabnikov, tako da spletnim strežnikom pošiljajo zahtevke in shranjujejo vsebino, ki jim jo strežniki dostavijo. Robot obišče vse URL povezave znotraj območja, ki mu ga določimo, in shrani njihovo vsebino v arhivskem formatu, primernim za trajno ohranjanje spletnih virov. Robot lahko v enem zajemu shrani zgolj posamezno spletno stran, celotno spletno mesto ali večja območja spleta, ki lahko vsebujejo tudi po več tisoč domen. V NUK uporabljamo odprtokodni robot Heritrix, ki je zelo razširjen tudi drugod po svetu. Za upravljanje robota, nastavljanje urnikov zajemov in pregledovanje kakovosti zajemov uporabljamo aplikacijo Web Curator Tool, ki jo razvijata nacionalni knjižnici Nizozemske in Nove Zelandije.
Ali tehnologiji zajema uspeva slediti razvoju spleta?
Svetovni splet se zelo hitro razvija in je danes precej bolj kompleksen in tehnično dovršen kot v devetdesetih letih prejšnjega stoletja, ko je nastal. Posledično je veliko spletnih vsebin, ki jih je nemogoče zajeti z uveljavljenimi postopki in je treba ves čas razvijati nove rešitve. Kljub temu tehnologije za arhiviranje spleta vedno vsaj do neke mere zaostajajo za razvojem spleta.
Ali oziroma kako so ti arhivi dostopni javnosti?
Veliko spletnih arhivov v tujini je zaradi zakonskih omejitev dostopnih le znotraj prostorov ustanov, ki jih hranijo. Spletni arhiv NUK je že od leta 2011 prosto dostopen prek spleta, kar je za uporabnika veliko bolje. Spletni arhivi so lahko potencialni vir podatkov za raziskave z različnih področij, od informatike do netehničnih disciplin s področij družboslovja in humanistike. Pregled relevantne literature nam razkrije številne raziskave, ki so bile s pomočjo spletnih arhivov opravljene s strani zgodovinarjev, sociologov, informatikov, oblikovalcev, komunikologov, digitalnih humanistov, kulturologov in raziskovalcev s področja bibliotekarstva ter informacijske znanosti. V začetnih letih obstoja spletnih arhivov so se ti bolj pogosto uporabljali za proučevanje samega spleta, kasneje pa se je uporaba razširila tudi na preučevanje različnih tematik, ki niso neposredno povezane s spletom, spletni arhivi pa se vedno bolj uporabljajo v kombinaciji z drugimi tradicionalnimi viri podatkov. Kljub temu so v primerjavi z drugimi viri podatkov spletni arhivi relativno slabo poznani, njihova uporaba pa relativno nizka.
Zakaj?
Razlogi za to so različni. Po eni strani so spletni arhivi zelo velike zbirke podatkov, ki jih je zaradi obsega nemogoče popisati in so posledično za uporabnika manj transparentni ter bolj nepredvidljivi kot drugi viri. Po drugi strani so vsebinsko nepopolni, kar je posledica narave samega spleta in omejitev orodij za zajem. Ta imajo težave pri shranjevanju različnih dinamično generiranih vsebin, ki vedno bolj pogosto sestavljajo sodobni splet, poleg tega pa ne morejo zajeti vsebin, ki se nahajajo v t. i. globokem spletu. Zaradi obsežnosti spleta in minljivosti spletnih vsebin vsak spletni arhiv vsebuje le določen izbor vsebin, ki naj bi jih vseboval glede na svoj namen, kar za uporabnika, ki je navajen uporabe tradicionalnih virov podatkov, predstavlja različne izzive. Raziskovalci zato pogosto ne vedo, kaj točno spletni arhivi vsebujejo in kako jih je možno uporabiti kot vir za raziskovanje.
Kakšna je uporabna vrednost teh arhivov?
V spletnih arhivih se zrcali bogastvo znanja in informacij o sodobnih družbenih in tehnoloških pojavih. Če si predstavljamo raziskovalca, ki bo čez 50 ali 100 let raziskoval današnji čas, bo poleg tiskanih virov potreboval tudi vsebine, ki so bile objavljene na spletu, sicer bo njegovo raziskovalno delo precej omejeno.
Spletni arhivi za razliko od tradicionalnih virov podatkov omogočajo tudi različne računalniške metode obdelave podatkov, s pomočjo katerih lahko pridobimo dodatne uvide v tematiko, ki jo proučujemo. Zaradi velike količine arhiviranih podatkov, ki jih ni možno ročno popisati oziroma opremiti z metapodatki, so tovrstni pristopi še posebej primerni za okolje spletnih arhivov. Pri tem gre za koncept t. i. oddaljenega branja, pri čemer ne proučujemo posameznih enot gradiva (npr. branje knjige ali članka), pač pa s pomočjo različnih analiz in vizualizacij podatkov odkrivamo zakonitosti, trende in vzorce v gradivu. Ta način lahko raziskovalci uporabijo na začetku raziskovalnega procesa, ko oblikujejo raziskovalne probleme in vzpostavljajo hipoteze ali raziskovalna vprašanja, na podlagi katerih lahko bolj podrobno proučijo gradivo.
Se NUK pri arhiviranju povezuje z drugimi knjižnicami?
NUK je članica mednarodnega konzorcija za ohranjanje spleta IIPC (International Internet Preservation Consortium), ki združuje 54 članic z vsega sveta, predvsem nacionalnih in univerzitetnih knjižnic ter drugih ustanov, ki se ukvarjajo z arhiviranjem spleta. V konzorciju sodelujemo predvsem pri razvoju postopkov in tehničnih rešitev za zajem in dostop do zajetih vsebin.
Poglejva v prihodnost, kaj menite, kateri arhivi, fizični ali digitalni, bodo bolj pomembni oziroma uporabni? Ali, kateri bodo bolj zanesljivo ostali zanamcem čez na primer nekaj sto ali celo tisoč let?
V prihodnosti bodo verjetno pomembni tako fizični kot digitalni arhivi, saj slednji ne morejo povsem nadomestiti prvih, oboji pa vsebujejo veliko podatkov, ki jih je možno uporabiti za ustvarjanje novega znanja. Težko je reči, kateri so bolj obstojni in se bodo ohranili dalj časa, saj noben način shranjevanja podatkov ni idealen. Nekateri fizični nosilci informacij lahko sčasoma propadejo, tudi če so hranjeni v optimalnih pogojih, zato je njihovo vsebino smiselno prenesti v digitalno obliko in z dodatno kopijo zvišati njihovo obstojnost. Digitalno okolje omogoča enostavno izdelavo varnostnih kopij, ki jih je možno hraniti na različnih lokacijah in s tem znižati tveganje izgube podatkov, vendar do teh lahko vseeno pride zaradi zastarevanja datotečnih formatov in programske opreme. Poleg tega naravne in druge nesreče, vojne ter družbeni prevrati predstavljajo nevarnost tako za fizično kot za digitalno gradivo. Dokler bomo tudi v prihodnosti živeli v stabilnih razmerah in si prizadevali za razvoj družbe, ki visoko ceni znanje, ter za varovanje dediščine v najrazličnejših oblikah namenjali zadostna sredstva, bomo lahko tako fizične kot digitalne vire ohranili tudi za zanamce, ki bodo živeli v prihodnjih stoletjih in tisočletjih.