Urmas Kõljalg: e-Eesti peaks suletud andmete kasutamise ära keelama (5)

Urmas Kõljalg
Copy
Juhime tähelepanu, et artikkel on rohkem kui viis aastat vana ning kuulub meie arhiivi. Ajakirjandusväljaanne ei uuenda arhiivide sisu, seega võib olla vajalik tutvuda ka uuemate allikatega.
TRT01: URMAS K
TRT01: URMAS K Foto: Kristjan Teedema / Tartu Postimees

Teadusmaailmas on muret tekitavalt laialt levinud komme oma andmeid vaid pooleldi kättesaadavalt avaldada. Seda harjumust tuleb muuta, kirjutab akadeemik Urmas Kõljalg.

Ütlen kohe ära, et juttu ei tule e-valitsusest, isikuandmetest ega piraatlusest. Räägin keskkonnaga seotud andmetest ja eriti elurikkuse andmetest. Ning sellest, miks riigid peavad ära keelama elurikkuse suletud andmete kasutamise.

Inimtekkelised globaalsed muutused on peamine elurikkuse ja koosluste hävitaja. Hävitustöö eestvedajad on põllumajandus, metsandus, linnastumine, tee-ehitus ja kliimamuutused. Elurikkuse mastaapset hävimist ei ole võimalik peatada, aga heal juhul saame aeglustada hävingu tempot ja loota, et meie järeltulijad suudavad selle kunagi peatada. Selleks, et hävingu ulatust näha, mõista ja leevendada vajame aga adekvaatseid andmeid.

Mitte lihtsalt andmeid või isegi avaandmeid (open data), vaid selliseid andmeid, mis oleksid masinloetavad, rahvusvaheliste standardite järgi korrastatud, analüüsiks leitavad ja kättesaadavad ainsa hiireklikiga. Selliste andmete eristamiseks avaandmetest on kasutusele võetud isegi uus termin FAIR-andmed (akronüüm sõnadest findable, accessible, interoperable, reusable ehk leitavad, kättesaadavad, rist- ja taaskasutatavad – toim.). Eesti keelde tõlgituna siis õiglased või miks mitte kaunid andmed. Võiks ju arvata, et liikide kadumist uurivad ja looduskaitse teemal aktiivselt sõna võtvad teadlased ja asutused on praeguseks võtnud õiglaste andmete publitseerimise enda südameasjaks. Sama oleks loogiline arvata ka rahastajate kohta. Tegelikult on pilt üsna halb, et mitte öelda närune.

Ligi kaks aastat tagasi ajakirjas PLOS Biology ilmunud ülevaateuuring näitas, et kõige kõrgemini hinnatud teadusajakirjades ilmunud ökoloogiaalased tööd põhimõtteliselt tüssavad andmete publitseerimisel. Leiti, et üle poole andmetest, mis on digiarhiivis küll avaandmetena talletatud, ei ole täielikud ega ole seetõttu sisuliselt taaskasutatavad. Teiselt poolt ei küsi ka rahastajad tänini õiglaste andmete publitseerimist. Kui üldse, siis piirdutakse avaandmete küsimisega.

Valdavalt tähendab see andmete faili talletamist digiarhiivis, kust kolmandad osapooled ei saa neid otse otsida ega analüüsida. Veelgi enam, masinloetavad on ainult failis olevate andmete kirjeldused, mitte aga andmed ise. Kuna arhiveeritud faili kirjeldus on tavaliselt napp, siis on huvipakkuvate failide ülesleidmine keeruline või isegi võimatu.

Kujutlege nüüd kiireloomulist looduskaitse valdkonda kuuluvat küsimust, kus vajatakse vastust kas kohe või mõne nädala jooksul. Tähtsate analüüside tegemine võib takerduda, kuna küsimusele vastamiseks vajalikud avaandmed asuvad tuhandetes failides üle maailma digiarhiivide. Isegi kui saate failid kokku kogutud, tabab teid ebameeldiv üllatus, sest suures osas on nendes sisalduvad andmed kiire analüüsi jaoks kasutud – need ei vasta rahvusvahelistele ühilduvust ja masinloetavust nõudvatele standarditele.

Seetõttu ei tohiks pahandada ka ametnike ja poliitikutega, kes on pettunud, kui teadlased ei saa neile anda kiireid ja lihtsaid vastuseid. Tuleb ausalt peeglisse vaadata ja tunnistada, et oleme ise raskesti ligipääsetavate ja kasutatavate andmete kultuuri loonud ja selle murdmine on eelkõige meie – teadlaste ja rahastajate – ülesanne. Õigupoolest ei olegi andmete niimoodi avaldamine, et nende kasutamine on takistatud, või lausa andmete varjamine, kultuur, vaid pigem kultuuritus.

Kuidas aga saavutada olukord, kus kogu eluslooduse andmestik on õiglane ja tõepoolest vaid ühe hiirekliki kaugusel – klikid ja saad arvulised näitajad, mis kirjeldavad konkreetse regiooni looduse seisukorda kindlal ajahetkel ja seega ka muutusi ajas. Üks selline keskkond on näiteks Essential Biodiversity Variables.

Oletame näiteks, et teid huvitab, mis seisus on looduskeskkond, milles elate või töötate. Kui andmed oleksid masinloetavad ja neid oleks piisavalt, siis saaksite otse küsida: milline on eluslooduse seisukord ühe kilomeetri raadiuses minu lapse lasteaiast? Milline on olukord võrreldes teiste lasteaedade ümbrusega? Ja vastus antaks viisil, mis ei nõuaks erialaseid teadmisi. Kes sooviks aga vastuse alusandmeid vaadata või enda arvutisse laadida, saaks seda samuti ühe hiireklikiga teha.

Õpetada teadlasi ja rahastajaid õiglaseid andmeid publitseerima on üks viis, kuidas probleemi lahendada, ehkki ilmselt aeglane. Kuna me räägime elurikkuse ja koosluste kiirest hävimisest – kuni 40 protsendi elurikkuse hävimisest 2050. aastaks –, siis on allakirjutanu arvates igati õigustatud märksa järsemad võtted.

Ja siin saab Eesti e-riik maailmale jälle eeskuju näidata, nõudes avaliku raha eest kogutud avaandmetele õiglust ning masinloetavust. Teisiti öeldes tuleb keelata kõik eluslooduse analüüsid, mis toetuvad mitteõiglastele andmetele – Eesti riigi poolt rahastatud teadlane ei tohi avaldada teadustööd, mis baseerub mitteõiglastel avaandmetel! Ettevõte, mittetulundusühing, eraisik, kes teeb keskkonnahinnangut, peaks samuti saama tasu ainult siis, kui andmed on õiglased. Muuseas, õiglaste andmete olemasolu on tellijal palju kergem kontrollida kui tavaliste avaandmete kasutatavust.

Testament: kui kolleegid mind pihuks ja põrmuks lasevad, siis palun kõik minu kogutud andmed avaldada õiglaselt.

Kommentaarid (5)
Copy
Tagasi üles