Kansallisgallerian Hugo Simbergin jäljillä –verkkosovellus ja sen pohjalla olevaa metadataa csv-formaatissa.

Kokoelmatiedossa riittää työtä ihmiselle ja koneelle

Museoliiton Kokoelmatiedot talteen ja käyttöön –seminaari keräsi yhteen kokoelmatyön ajankohtaisia teemoja ja kehityssuuntia. llmassa väreili myös ikuisuuskysymyksiä. Kokoelmahallinnan amanuenssi Johanna Helin kirjoittaa seminaarin herättämistä ajatuksista kokoelmahallintajärjestelmän vaihdoksen kynnyksellä.

Museoliitto järjesti 16.-17.11.2017 Kokoelmatiedot talteen ja käyttöön -seminaarin lähes täydelle salilliselle muistiorganisaatioväkeä. Seminaari tarjoili laajan näköalan museoiden kokoelmatiedon hallintaan ja erityisesti digihankkeisiin, jotka liittyvät tai joita voisi soveltaa kokoelmatiedon valjastamisessa. Itse seurasin intensiivisimmin yhtä teemoista: Mikä merkitys kokoelmametatiedon laadulla on museon omassa toiminnassa ja toisaalta tiedon päätyessä museon seinien ja palomuurien ulkopuolelle. Ja sitten on vielä ne resurssit.

Seminaarin monissa puheenvuoroissa esiintyi big datan käsite. Huomasin miettiväni, onko tämä rinnastus kovinkaan eduksi museokokoelmille. Big data määritellään järjestelemättömäksi ja vaikeasti käsiteltäväksi metadatamassaksi, kun taas museokokoelmia pyritään räätälöidyillä kokoelmahallintajärjestelmillä ja luettelointisäännöillä nimenomaan jäsentelemään ja hallitsemaan. Täydellisessä museomaailmassa tiedon pitäisi olla yhteismitallista, mutta ajan saatossa kymmenien luetteloijien ja vapaasti tulkittujen luettelointisääntöjen myötä ”small datan” joukosta voi löytää monenlaisia ilmaisun helmiä.

Metadata on sisältöjen raaka-ainetta

Taidemuseokontekstissa metatiedoilla tarkoitetaan teokseen liitettyä luettelointitietoa, kuten tekijä, teosnimi, teoksen tekniikka ja mittatiedot. Metatietoihin kuuluvat myös sisällönkuvailu eli teoksen aihe ja teokseen liittyvät asiasanat sekä käsitteiden välisiä suhteita kuvaavat ontologiat. Lisäksi puhutaan puhtaasti teknisestä metadatasta, jota ovat esimerkiksi tiedostomuoto, luontiajankohta ja tiedoston koko.

Metatiedoilla on keskeinen rooli tiedon saavutettavuuden ja käytettävyyden kannalta: metadatan laatu ratkaisee, kuinka hyvin objekti on löydettävissä hakukyselyillä ja miten sitä voidaan käyttää kokoelman ulkopuolella. Esimerkiksi tekijä- ja omistustiedoilla on juridinen ja siten käyttöoikeuksiin vaikuttava merkitys. Kansallisgalleriassa metatietojen moninaisuus on todettu kouriintuntuvasti esimerkiksi verkkonäkyvyyshankkeessa 2014, jonka tavoite – kokoelmia hyödyntävät verkkosovellukset – alkoi saada muotoaan vasta, kun kokoelmatietokannassa lymyilevää dataa oli louhittu, parsittu ja oiottu vähän joka suunnalta.

Tällä hetkellä moniulotteisemmat metadatasta ammentavat web-tuotannot edellyttävät vielä suuria satsauksia. On eri asia, että teknologia on olemassa, kuin että se saadaan integroitua käytössä oleviin järjestelmiin. Sovellusten kehittyessä versio versiolta kinkkinen kysymys on, koska investoida, ja kuinka pienissä osissa. Tämä puhutti myös Museoliiton seminaarissa. Henkilöstöresurssien rajallisuus ja yleisön odotuksiin vastaaminen kannustavat joka tapauksessa olemaan kuulolla arkipäiväistyvän teknologian mahdollisuuksista. Mutta jos esimerkiksi krediittitiedot puuttuvat siksi, että ihmistyöstä on nipistetty, tai emeritusasiantuntijan päänsisäinen tieto ei tule tallennetuksi, siihen ei teknologia tarjoa ratkaisua.

Sotasampo on talvi- ja jatkosotaan liittyvä linkitetyn avoimen datan verkkopalvelu, jossa voi tutkia esim. visualisointeja eri tiedontuottajien tietokannoista.

Professori Eero Hyvönen esitteli Aalto-yliopiston ja Helsingin yliopiston toteuttamaa Sotasampo-hanketta, jossa kuvataan talvi- ja jatkosodan tapahtumia eri organisaatioiden hallinnoimia tietokantoja yhdistelemällä. Sotasampo perustuu semanttisen webin uusimmille periaatteille. Isoja datamassoja voidaan automaattisesti ontologisoida ja linkittää niin, että linkkien muodostumisessa huomioidaan merkityssisällöt. Näin voidaan erottaa esimerkiksi kaksi C. G. Mannerheim –nimistä henkilöä, joista vain myöhäisempi on oleellinen sotahistorian kannalta.

Monet kädet luettelointiapuna

Vajavaisen sisällönkuvailun ongelmaa on yleisesti ratkottu hyödyntämällä koneoppimista ja joukkoistamista tai niitä yhdistelemällä. Automatisoitu puheen-, kuvan- ja tekstintunnistus perustuvat siihen, että tietokoneen analysoitavaksi syötetään monipuolista raaka-aineistoa, kuten käsiala- ja fonttinäytteitä tai valokuvia erilaisista ympäristöistä. Algoritmit opetetaan yrityksen ja erehdyksen kautta tunnistamaan massan joukosta toistuvia muotoja ja niiden variaatiota. Oppinut kone saattaa pystyä kertomaan, että kuvassa on rakennus, puu ja auto, mistä on varmasti kasvavaa hyötyä ainakin digitaalisille kuva-arkistoille. Tekstiksi puretusta aineistosta kone voi myös poimia esiintyvyyden perusteella avainsanoja. Laadullisesti koneäly ei kuitenkaan vielä pärjää ihmiselle.

Kuvailutiedon digitaalista joukkoistamista voi toteuttaa muutenkin, esimerkiksi tarjoamalla käyttäjille alustan, jonka kautta voi syöttää kokoelmaobjekteihin liittyvää täydentävää tietoa, jota ei vielä ole tietokannassa. Tieto voi olla tageja, aihesisällön kuvailua ja hiljaista tai kokemuksellista muistitietoa. Ja tietenkin käyttökokemuksen voi rakentaa pelilliseksi tai sosiaaliseksi, mutta se on kokonaan toinen tarina

Amsterdamin kaupunginarkistojen portaalin nimi Vele Handen tarkoittaa monia käsiä. Verkkofoorumin kautta käyttäjät voivat auttaa aineistojen dokumentoinnissa.

Seminaarissa kuultu esitys Amsterdamin kaupunginarkistojen portaalista Vele Handen (Many Hands) on hyvä esimerkki käyttäjiä monipuolisesti osallistavasta palvelusta. Verkkopalveluun rekisteröityneet jäsenet ovat täydentäneet eri projekteissa satoja tuhansia tietueita esimerkiksi litteroimalla ja indeksoimalla asiakirjoja, tallentamalla niistä tarvittavia tietoja lomakepohjiin tai georeferoimalla historiallisia karttoja. Myös Vele Handeniin liittyy some-funktio: käyttäjät voivat viestiä ja jakaa kokemuksia keskenään.

Kokoelmatiedon käytettävyyden kannalta hyödyt kertautuvat, kun rikastettu tieto tallennetaan tietokantaan ja metadata tarjotaan eheämpänä uudelleen käyttäjille. Joukkoistamiseen liittyvä jaettu asiantuntijuus edellyttää museoilta uudenlaista auktoriteetin höllentämistä ja vuorovaikutusta yleisöyhteisöjen kanssa, mikä myös sitoo henkilökuntaa. Samalla museo voi kuitenkin sitouttaa uusia kohderyhmiä ja pysyä kartalla käyttäjien tarpeista.

Tämä horisontti on Kansallisgalleriassakin askelta lähempänä nyt, kun olemme sinnikkään uurastuksen (mm. metadatan yhtenäistämistyön) jälkeen saamassa käyttöön uuden kokoelmahallintajärjestelmän. Kunhan kaikki säädöt on viritetty kohdilleen, Kansallisgallerian teosten avoimena datana jaettava metadata tulee kulkeutumaan rajapinnan kautta Finnaan tai muihin ulkoisiin kanaviin. Samoin kokoelmatiedot siirtyvät parilla näpäytyksellä Kansallisgallerian tulevalle verkkosivustolle, jonka suunnittelu on myös käynnistynyt. Tarkoituksena on saattaa Ateneumin, Kiasman ja Sinebrychoffin taidemuseoiden kokoelmat sekä Kansallisgallerian kuva- ja arkistokokoelmat entistä innostavammalla ja lähestyttävämmällä tavalla verkkoyleisön käyttöön.

Riippumatta tavoista, joilla esimerkiksi asiasanatagit tulevaisuudessa tuotetaan, monipuolisella sisällönkuvailutiedolla on ratkaiseva merkitys myös näyttelysuunnittelun, kaiken yleisötyön ja tutkija-asiakaspalvelun sujuvuudelle. Kun tietoa avataan tulevaisuudessa lisää avoimilla lisensseillä, riittävän rikas kokoelmatieto auttaa löytämään ja hahmottamaan aineistoja ja houkuttelemaan esim. ohjelmoijia koodaamaan niistä uusia luomuksia. Tähänkään ei siis kone pysty yksin. Robotti ei myöskään koskaan opi tunnistamaan abstraktista installaatiosta jotain ihmissilmälle selvää, mutta monimutkaista merkitystä. Ehkä on parasta valmistautua entistä tiiviimpään yhteistyöhön ihmis-, parvi- ja tekoälyn kesken.

 

‹ Takaisin artikkeleihin