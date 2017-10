Viis kuud tagasi kirjutasin siinsamas vanadest teaduskogudest kui uute teadmiste kullaaugust. Nüüd ilmus ajakirjas Nature lugu vanade trükiste tähtsusest ökoloogias ja klimatoloogias. Neid võrreldakse seal kullakaevandusega ja meilgi on paslik heita pilk sellele, mida kaevandatakse ja kes kaevandavad.

Kõige suuremaks probleemiks kuni mitmesaja-aastaste trükiste puhul on sealsete andmete killustatus, kirjeldatavate isendite leiukohtade koordinaatide puudumine ja tihti ka madal kvaliteet. Seetõttu tuleb faktide digiteerimisel teha ajamahukat lisatööd nii andmete korrastamiseks kui ka kvaliteedi hindamiseks.

Teine suur probleem on vähene rahastus, sest andmekaevandamine trükistest on teadusfondide jaoks pigem teisejärguline. Sellele vaatamata on maailmas aina enam projekte, mille käigus teadlased kaevandavad ja digiteerivad trükistest teadusele sobivaid andmeid. Kuna see on väga ajamahukas, kasutatakse tihti tekstist või piltidelt vajaliku info hankimiseks harrastusuurijate ja tudengite abi.

Nii leidis näiteks Washingtoni Ülikooli teadlane Kevin Wood, et USA arhiivides hoitakse laevade logiraamatuid, mis sisaldavad ilmavaatlusi alates 1801. aastast. Koos üliõpilastega skaneeriti enam kui miljon logiraamatu lehekülge ja tehti need portaalis www.oldweather.org harrastusuurijatele kättesaadavaks. Praeguseks on nendelt lehtedelt kaevandatud juba enam kui 1,3 miljonit ilmavaatluse andmekogumit. Kevin Wood kasutab neid andmeid kliimamudelite täiendamiseks. See omakorda tagab kliimamuutuste analüüside suurema täpsuse.

Eestis on sedalaadi andmekaevandust vanadest trükistest tehtud enam kui kümme aastat. Üks näide on Eesti eElurikkuse portaal (http://elurikkus.ee). Siin saavad kokku Eesti liikide andmebaasid millest ühe olulise osa moodustavad trükistest, kartoteekidest ja uurijate välimärkmikest pärit andmed. Sajad Eesti uurijad ja harrastusuurijad on kaevandustöö tulemusena teinud avaandmetena kättesaadavaks ligi 30 000 liigi kohta käivad andmed. See töö jätkub läbi uute projektide, mida võivad algatada kõik soovijad. 19. oktoobril avati ka eElurikkuse uue portaali demoversioon, mis loob uusi võimalusi ka andmekaeveks.

Teine hea näide Eestist on väheharjasusside (Oligochaeta) globaalne andmebaas. Siia rühma kuuluvad näiteks vihmaussid, aga ka vees elavad lähisugulased. Võrtsjärve limnoloogiajaamas aastakümneid töötanud Tarmo Timm (snd 1936) on viimastel aastatel kirglikult tegelenud andmekaevandamisega. Ta on praeguseks läbi töötanud pea 1500 inglis-, vene- ja saksa-, poola-, ukraina- ja eestikeelset teadustööd väheharjasussidest, digiteerinud neis kirjeldatud liikide leiud ja seotud andmed ning peale selle teinud ka põhjaliku uurimistöö, et varustada iga liigi leiukoht täpsete koordinaatidega. Tema globaalse töö tulemust saab näha veebikeskkonnas GBIF (Global Biodiversity Information Facility – globaalse elurikkuse infoteenus) aadressil https://www.gbif.org/dataset/e1539f14-f749-4f73-8c18-3355277f94f4.

See andmebaas tehti avalikult kättesaadavaks alles juuli alguses, kuid juba on teadlased seda osaliselt või tervikuna alla laadinud 483 korda (17. oktoobri seisuga). Kas see võiks tähendada, et 81-aastane kullakaevandaja Tarmo Timm on praegu Eesti tuntuim teadlane?

Eeskujulik näide on siinkohal ka meie seast juba lahkunud akadeemik Erast Parmasto. Oma elu viimased aastad tegeles temagi andmekaevega koduarvutist, mobiliseerides suurema osa iseenda varasemates trükistes avaldatud liikide infost. Sarnaselt Tarmo Timmiga õppis ta kõrges vanuses iseseisvalt ära keerulise andmehalduse digiplatvormi PlutoF ja andis tuleviku teaduse käsutusse suure väärtusega avaandmed. Eesti uurijad, tudengid ja harrastusteadlased on teinud maailmale avaandmetena kättesaadavaks üle 2,5 miljoni andmeseti (https://www.gbif.org). Küllalt suur osa sellest on aga just kullakaevandajate töö tulemus.