”Mihin haluamme mennä ja kuka maksaa?” – Paula Eerola ja Tuuli Toivonen keskustelevat tutkimusdatasta (osa 2/2)

Dialogihaastattelun toisessa osassa vararehtori Paula Eerola ja geoinformatiikan apulaisprofessori Tuuli Toivonen keskustelevat tutkimusdatasta, yritysyhteistyöstä ja tutkimusinfrastruktuureista.

(The abstract of this post is also available in English.)

Helsingin yliopiston uusi vararehtori Paula Eerola ja geoinformatiikan apulaisprofessori Tuuli Toivonen jatkavat tässä blogihaastattelussa keskustelua, jonka ensimmäinen osa julkaistiin toissapäivänä.

Dialogihaastattelun idea on yksinkertainen: dialogikumppanit nostavat esiin tärkeiksi kokemiaan aiheita, joiden pohjalta käydään vapaamuotoinen keskustelu. Tämän toisen osan teemat liittyvät laajasti ottaen tutkimusdataan – sen säilyttämiseen, hallintaan, yritysyhteistyöhön ja yhteiskunnalliseen problematiikkaan.

Datan hallinnassa ja säilyttämisessä monta vajetta

Paula Eerola virittää keskustelun tutkimusdatan pitkäaikaissäilytykseen ja avaamiseen liittyen. Ja kuten aina, kun käydään keskustelua näistä teemoista, huomio kääntyy väistämättä myös tutkimusprosessin aikaiseen datan käsittelyyn ja säilyttämiseen. Tutkimusprosessin aikaisen työn ratkaiseva merkitys datan säilyttämisessä ja avaamisessa tuli ilmi Helsingin yliopistossa viime vuonna tehdyssä selvityksessä, jonka mukaan nykyinen tutkimuskulttuuri ei kaikilta osin tue datan avaamista. Datan säilyttäminen on siis monisäikeinen kysymys, jota pohditaan myös opetus- ja kulttuuriministeriön Fairdata-PAS-palvelun kehittämisessä.

Paula Eerola
  • Fyysikko ja Helsingin yliopiston tutkimuksesta ja tutkimusinfrastruktuureista vastaava vararehtori (viisivuotinen kausi alkoi 1.8.2018)
  • Toiminut kokeellisen hiukkasfysiikan professorina Helsingin yliopistossa, työskennellyt pitkään CERNissä ja Lundin yliopistossa, johtanut suomalaista työryhmää CERNin Compact Muon Solenoid -kokeessa
  • Suomalaisen Tiedeakatemian, Suomen Tiedeseuran ja Teknillisten Tieteiden Akatemian jäsen vuodesta 2012
  • Vasta perustetun, TSV:n yhteydessä toimivan kansallisen avoimen tieteen strategiaryhmän jäsen
  • Paula Eerola TUHAT-tietokannassa /
    ORCID: 0000-0002-3244-0591
Tuuli Toivonen
  • Maantieteilijä ja geoinformatiikan apulaisprofessori
  • Johtaa monitieteellistä Digital Geography Labia
  • Tutkii ihmisten liikkuvuutta kaupunki- ja luontoympäristöissä ja tämän yhteyttä kestävään kaupunkisuunnitteluun ja luonnonsuojeluun
  • Avoimen tieteen menetelmien hyödyntäjä opetuksessa, tutkimuksessa ja yhteiskunnallisessa toiminnassa
  • Tuuli Toivonen TUHAT-tietokannassa /
    ORCID: 0000-0002-6625-4922

PE: ”Pelkästään datan säilöminen ei riitä, vaan tarvitaan myös työkalut datan avaamiseen. Tämä on ihan yleinen ongelma. Mittausdata on yleensä digitaalisessa muodossa, ja on oltava analyysityökalut, joilla sen saa konvertoitua johonkin ymmärrettävään muotoon. Tämä on myös resurssikysymys. Jos haet tutkimusrahoitusta, siinä ajatellaan vain tutkimuksen suoria kuluja. Datan hallintapuolella meillä on CSC (Tieteen tietotekniikan keskus), mutta se ei pysty kaikkea tekemään eikä sillä ole datan uudelleenavaamiseen resursseja. Pitäisikö meillä olla jonkinlainen digitaalinen kansallisarkisto?”

TT: ”Ilman muuta. Olisikohan se CSC:n palvelu, vai kuka sellaista voisi ylläpitää? Kun olemme laittaneet aineistoja kansallisiin palveluihin: minua on mietityttänyt löytävätkö muut ne sieltä? Onko se aina julkaisun kautta vai löytyvätkö ne muuten? Ja mikä ylipätään olisi oikea säilytyspaikka – kansainvälinen, kansallinen vai esimerkiksi Helsingin yliopiston arkisto? Oikeastaan mikään palvelu ei ihan ongelmitta salli työkalujen tallentamista aineistojen kanssa. Ne palvelut, jotka sallivat, ovat yrityksiä. Ja ainakin minulla on huoli, että jossain vaiheessa alun perin maksuttomat avoimet palvelut kaupallistetaan. Sitten olemme samassa tilanteessa kuin nyt kaupallisten kustantajien kanssa: tutkimusyhteisön pitkän ajan kuluessa tuottama tutkimuskirjallisuus on pääosin yksityisten kustantajien käsissä, jotka ovat vapaita määrittämään sen hinnan. Jos hankintasopimuksia ei voida hintojen noustessa tehdä, tutkijat ja yliopistot menettävät pääsyn myös omiin vanhoihin julkaisuihinsa. Se tuntuu ihan kohtuuttomalta.”

PE: ”Tässä pitäisi enemmän miettiä kansallisen politiikan kannalta, mihin haluamme mennä ja kuka maksaa kustannukset.”

TT: ”Tutkijat ovat liikkuvia. Meillä on pysyvä henkilökunta, joka pyrkii noudattamaan yliopiston strategiaa. Mutta sitten on iso joukko esimerkiksi post-doc-tutkijoita, jotka ovat maailman yliopistojen kansalaisia. He vaihtavat paikkaa eivätkä he voi joka kerta adaptoitua uusiin sääntöihin ja käytänteisiin. Kyllä meillä täytyy olla aika kansainvälisiä käytäntöjä. Suurin ongelma tällä hetkellä on se, että ihmiset eivät tiedä, miten toimia. Meillä on infrastruktuurin, datan ja työkalujen arkistoinnin osalta aikamoinen osaamisvaje. Joillakin aloilla, kuten tietojenkäsittelytieteessä ja fysiikassa, käytännöt ovat varmaan aika vakiintuneita. Aloilla, joilla aineistot ovat hajanaisempia ja joilla vakiintuneet käytännöt puuttuvat, ihmiset eivät osaa systemaattisesti tallentaa aineistojaan. Se on myös resurssikysymys. Onko yliopistolla resursseja palveluiden tarjoamiseen? Ja tutkijatasolla: kuinka paljon on mahdollista laittaa resursseja aineiston hyvään pitkäaikaishallintaan, jos se tulee uutena asiana? Kuorma uusien käytäntöjen omaksumiseen on yllättävän suuri.”

Avoimuuden periaate mukaan neuvotteluihin yritysten kanssa?

Avoimeen tieteeseen sisältyy ajatus, että yliopistoissa tuotettu tieto olisi mahdollisimman laajasti yhteiskunnan – myös yritysten – käytössä. Helsingin yliopiston toiminnassa yritykset ovat jo tällä hetkellä monin eri tavoin mukana. Tutkijan näkökulmasta lisääntyvässä yritysyhteistyössä on omat haasteensa, jotka Tuuli Toivosen mukaan liittyvät etenkin yhteistyön pelisäännöistä neuvottelemiseen.

TT: ”Omalla alallani maantieteessä käytämme paljon paikkatietoaineistoja. Paikkatiedot ovat olleet Euroopassa pioneeriaineistotyyppi julkishallinnon tuottamissa aineistoissa, jotka vapautuivat INSPIRE-direktiivin myötä. Nyt, kun tutkimusta tehdään, huomaamme kuitenkin, että kaikkein kiinnostavin aineisto alkaa olla yritysten omistamaa. Tutkimme ihmisten ja tavaroiden liikkumista, ja sosiaalisen median ja matkapuhelinaineistoilla pääsee sille tarkkuudelle, joka on tarpeen. Ja ne ovat kaikki yksityisten ihmisten toimintaan perustuvaa, mutta yksityisten firmojen omistamaa aineistoja. Aineistoneuvotteluissa olen huomannut, että meiltä puuttuu hyviä malleja yritysten kanssa toimimiseen. Tuntuu, että olemme taas siinä 10–15 vuoden takaisessa tilanteessa, jossa aineistoneuvotteluihin meni paljon aikaa. Usein on epämukava olo, että tekee yrityksen kanssa epäedullisen sopimuksen ja että käyttää paljon aikaa sellaiseen, mikä ei ole lainkaan omaa ekspertiisiä.”

PE: ”Millaisia nämä sopimukset ovat olleet?”

TT: ”Olemme saaneet hyvin rajalliseen käyttöön aineistoja, joissa on tietynlaiset sanktiot siltä varalta, että teemme virheitä käytössä. Mallisopimuksissa ja siinä, miten yksittäisten tutkimusryhmien kannattaisi toimia yritysyhteistyössä olemme mielestäni vielä alussa. Yliopiston juristeilta saa tukea Datatuen kautta, mutta hyvät mallit puuttuvat vielä. Tai sitten tämä on henkilökohtainen asia – ryhmässämme ei ole tarvinnut miettiä näitä asioita pitkään aikaan, koska olemme nojanneet avoimeen dataan. Mutta nyt joudumme miettimään kenen kanssa voimme tehdä yhteistyötä ja miten voimme julkaista lopputuotteita, työkaluja ja datavisualisointeja. Yhtäkkiä onkin kyseltävä lupia.”

PE: ”Tuo on todella tärkeä asia. Luulen, että asiat ovat muuttuneet nopeasti. Tietojenkäsittelytieteissä on käytetty paljonkin mobiilidataa ja sovelluksia, joilla esimerkiksi optimoidaan sähkönkulutusta. Ne ovat luultavasti jonkinlaisia yhteistutkimusprojekteja, joissa yritys on ollut mukana. Epäilen, ettei näihin löydy mitään yhtä mallia, koska yritykset ovat erilaisia ja niillä on erilaisia intressejä datan käyttöön.”

TT: ”Varmaan tämä helpottuu, kun esimerkkejä tulee enemmän. Jos avoimuus olisi läpileikkaava periaate yliopistossa, se antaisi selkänojaa neuvotteluja varten. Samalla se olisi esimerkkinä muille, uusille instituuteille, kuten HELSUS:lle (Kestävyystieteen instituutti), joissa halutaan edistää sekä avoimuutta että yritysyhteistyötä. Haasteena näissä tilanteissa on, että yritykset ovat saattavat viherpesun nimissä haluta tuottaa tietynlaista kestävyystutkimusta. Miten säilyttää tutkimuksen integriteetti niin, ettei se edes näytä siltä, että yritysyhteistyössä ohjataan tutkimusta? Pitäisi olla julkilausuttuna, millä periaatteella toimitaan.”

Tuuli Toivosen ja Paula Eerolan mukaan yritysten omistaman datan merkitys on yhä keskeisempi myös yliopistoissa tehtävän tutkimuksen kannalta. Kuvat: Juuso Ala-Kyyny

Yritysten hallussa aineistoja, joilla muutetaan maailmaa

Yritysyhteistyö nostaa myös toisen kysymyksen tutkimusdataan liittyen: kenen hallussa ovat relevanteimmat tutkimusaineistot ja sitä kautta parhaat edellytykset tieteelliseen tutkimukseen? Ja miten avoimia nämä aineistot ovat? Eerolan ja Toivosen keskustelu yritysten omistamasta tutkimusdatasta avaa näkymiä myös yhteiskunnalliseen vaikuttamiseen.

PE: ”Yritykset tekevät paljon myös itse tutkimusta. Tietojenkäsittelytieteessä törmää monesti siihen, että alan huiput ovat Googlella ja Amazonilla, isojen firmojen tutkimusosastoilla.”

TT: ”Käytämme sosiaalisen median dataa monessa tutkimushankkeessa ryhmässämme. On vähän hassuakin tehdä töitä tietäen, että sosiaalisen median taloilla on käytössään paremmat menetelmät, joita he eivät ole julkaisseet. He pystyvät analysoimaan kaiken sen, mihin me yritämme löytää keinoja. Se tuntuu tutkimuksen ja maailman eteenpäin menemisen kannalta vähän turhauttavalta. Mutta sille ei voi tietenkään mitään.”

PE: ”Tämä yritysten tekemä tutkimus on tavallaan paralleeli sille, kun joskus ennen vanhaan eri maiden puolustusvoimilla oli salaisia tutkimuslaitoksia, joissa tehtiin innovaatioita, joista muualla ei tiedetty. Yritykset ovat nousseet vähän vastaavaan asemaan tämän asian suhteen.”

TT: ”Yksi puoli asiaa on se, että yritykset luovat innovaatioita ja tekevät sisäistä tutkimusta, joka menee eri vauhdilla kuin julkinen tutkimus. Toinen puoli on yhteiskunnan kehitys, ja se on tässä kaikkein hurjinta. Ajatellaan vaikkapa kaupunkikehitystä ja sitä, mihin suuntaan esimerkiksi Suomessa pääkaupunkiseutu kehittyy. Keskolla, Osuuskaupalla tai vaikkapa Amazonilla on suuret datamassat ihmisten käyttäytymisestä. Aineistoa analysoimalla heidän on mahdollista muodostaa huomattavasti kattavampi ymmärrys ihmisten toiminnasta kaupungissa verrattuna niihin, jotka suunnittelevat tätä kaupunkia tai pyrkivät ymmärtämään sitä yleisen hyvän nimissä. Yrityksillä on tällä hetkellä työkaluja ymmärtää tulevaisuutta paremmin kuin julkisilla toimijoilla.”

Yrityksillä on tällä hetkellä työkaluja ymmärtää tulevaisuutta paremmin kuin julkisilla toimijoilla.

PE: ”Jos ajattelee yritysten ja yliopiston roolia, onko mahdollista, että joillain aloilla tutkimusjohtajuus on yrityksissä? Monilla yrityksillä on tosi hyviä tutkimuskeskuksia, kuten IBM:llä. Data tuo tähän mielenkiintoisen lisätwistin. On mielenkiintoinen kehityskulku, että yliopistoilla ei ole edes lähtökohtaisesti mahdollisuuksia tehdä huippututkimusta, edes rahalla.”

TT: ”Ei ole sitä aineistoa, eikä menetelmiä, koska ei ole aineistoa. Ja pahimmillaan, jos tehtävänä on ymmärtää yhteiskunnan kehitystä ja suhtautua siihen kriittisesti, meillä ei ole edes sitä ikkunaa tutkimukseen kuin yrityksillä. On se hurja kehityskulku. Toivon, ettei asia ole aivan näin yksioikoinen. Jos toimittajien rooli on ollut toimia perinteisesti poliitikkojen vahtikoirana, ovatko yliopistot yritysten vahtikoiria? Sekään ei ole sellainen rooli, jonka haluaisi, vaan mieluummin tietysti haluaisi viedä maailmaa yhdessä eteenpäin. Yritystoiminnan innovaatiopuoli on myös askarruttava asia. Miten avoimesta tutkimuksesta voidaan tuottaa innovaatioita, ja onko siinä jotain ristiriitaa? Meidän tutkimusryhmästä on spin-offina syntynyt startup-yritys, joka nimenomaan nojaa avoimeen koodiin ja avoimeen aineistoon. Prosessi on ollut kiinnostava testi siitä, miten tämä voi onnistua ja miten säilytämme avoimuuden periaatteet, vaikka osa tutkijoista tuottaa sillä myös yritystoimintaa. Jonkinlainen malli on löytymässä, mutta näitä esimerkkejä toivoisi lisää.”

PE: ”Lähtökohtanahan on se, että pohjalla on avoin data, mutta startupit tuovat siihen jonkin lisäpalikan päälle. Mutta siinä ei voida mennä taaksepäin niin, että tämä tekisi datasta vähemmän avointa.”

Paula Eerolan ja Tuuli Toivosen mukaan tutkijoiden datanhallintaan on löydyttävä riittävästi tukea.

Tutkimusinfrastruktuuriin kuuluvat myös ihmiset

Lopuksi Paula Eerola kääntää katseen datakysymyksiin laajemmassa kontekstissa. Hän nostaa esiin tutkimusinfrastruktuurit – välineet, palvelut tai vaikka data itsessään –, joilla mahdollistetaan tutkimus eri vaiheissa. Infrastruktuureissa on siis kyse siitä, millä edellytyksillä tutkimusta tehdään. Suomen Akatemia on kartoittanut kansallisesti merkittäviä tutkimusinfrastruktuureja Suomen tutkimusinfrastruktuurien tiekartta -hankkeessa ja tutkimusinfrastruktuurien kehittäminen on myös Euroopan tutkimuspolitiikan keskeisiä asioita (ks. tutkimusinfrastruktuurit ja niiden rahoitus Suomen Akatemian verkkosivuilla).

PE: ”Tutkimusinfrastruktuureihin liittyy yhä enemmän datapuoli, ja on infrastruktuureja, jotka ovat lähinnä dataa, erilaisia tietokantoja. Erilaiset tutkimusinfrastruktuurit hakevat Suomen Akatemialta infrastruktuurirahoitusta ja statusta, että ne pääsevät tiekartalle. Akatemia on ollut itse asiassa aika etukenossa tämän datapuolen suhteen. Nykyään vaaditaan datanhallintasuunnitelmat kaikista Akatemia-hankkeista. Infrahauissa täytyy olla aika selkeät kuvaukset siitä, missä se data on, onko se avointa, miten muut tutkijat pääsevät siihen käsiksi. Meidän tutkijakunnassa tämä ei ole mennyt yhtään läpi. Yllättävän moni kompastuu juuri tähän datapuoleen. Selvitys on yleensä se, että eihän tässä [datan saamisessa] mitään ongelmaa ole – soittaa vain minulle.”

Yllättävän moni kompastuu juuri tähän datapuoleen. Selvitys on yleensä se, että eihän tässä [datan saamisessa] mitään ongelmaa ole – soittaa vain minulle.

TT: ”Minusta datanhallintasuunnitelman lisääminen Akatemian hakukriteereihin oli vähän epäonninen asia, vaikka ymmärrän Akatemian hyvän tarkoituksen. Datanhallintasuunnitelma palvelee hyvin avoimen tieteen pohdintoja ja sitä, että datanhallinta on oikea asia, jota pitää tosissaan miettiä. Detaljitaso suunnitelmapohjassa on kuitenkin ollut aika korkea, mikä on turhauttanut monia ja saanut datanhallintasuunnitelman tuntumaan performanssilta todellisen pohtimisen sijaan. Ymmärtääkseni Akatemian tarkoitus on ollut tuoda asia edes keskusteluun ja kannustaa yliopistoja tarjoamaan tukea tutkijoille näissä kysymyksissä. Ja sehän on tosi tärkeä asia. Mutta tutkijoiden näkökulmasta aineistojen avoimuus ei saa näyttäytyä vain ylimääräiseltä kuormalta. Kyllähän hyvin hallittu aineisto hyödyttää myös omaa tutkimusta myöhemmin. Tätä ei ehkä ole vielä mielletty laajasti tutkijoiden keskuudessa. Toki myös tutkimusinfrastruktuurit voivat tukea tässä. Omien tutkimusalojeni näkökulmasta datainfrastruktuuri ei olekaan laite datan hankkimiseen vaan vaan se on myös ihmisten verkosto.”

PE: ”Se on ollut aina niin. Ihmiset ovat vain helpommin mieltäneet, että infrastruktuuri on joku laite.”

TT: ”Meidän alalla infrastruktuurin toiminnan kannalta on tärkeää, että siinä on ihmisiä. Ei välttämättä vaadita valtavan suurta laitepanostusta, vaan riittävän suuri ihmispanostus. Aineiston tallentamiseen, avaamiseen ja pitkäaikaissäilyttämiseen tarvitaan tutkijoiden lisäksi datanhallinnan ammattilaisia. Roolijaot eivät kuitenkaan ole vielä selvillä. Tutkijalla on rajallinen työaika. On pohdittava, kuinka paljon itse käyttää aikaa arkistointiin ja miten paljon siihen saa apua. Kuinka paljon meillä on infrastruktuuripalveluja, jotka tukevat tutkijaa aineiston tallentamisessa? Sellainen palikka on osittain vielä puuttunut. Sitäkin on pohdittava, tarvitseeko tutkijan hallita kaikkia tallennukseen liittyviä yksityiskohtia. Jos palvelut saadaan oikein helposti toimiviksi, ehkä sitten. Samalla tavalla kuin tieteellisen tiedon popularisointiin tarvitaan välittäjiä, tiedon tallentamisessa ja hallinnoinnissa tarvitaan toimijoita, jotka tekevät sitä ammattimaisesti.”

PE: ”Olen ihan samaa mieltä, että siinä on oltava riittävä tekninen tuki. Ja se on myös tärkeää, ettei opiskelijoita käytetä väärin. Ettei kaikkea teknistä tukea tuupata opiskelijoille. Tietysti jokaisen täytyy oppia riittävässä määrin teknisiä työkaluja, mutta se ei voi olla päivien sisältö.”


Helsingin yliopisto osallistuu kansainväliseen avoimen julkaisemisen ja avoimen tieteen teemaviikkoon, Open Access Weekiin, 22.–26. lokakuuta. Teemaviikon päätapahtuma järjestetään Tiedekulmassa keskiviikkona 24. lokakuuta klo 12–14. Viikon ohjelmaan voit tutustua täällä: Open Access Week 2018: Designing Equitable Foundations for Open Knowledge