Kuinka järjestät datasi, evoluutiobiologi Jonna Kulmuni?

Data Cleaning Day järjestetään ensimmäistä kertaa Helsingin yliopistossa tänään torstaina 23. toukokuuta. Siivouspäivän tarkoitus on, että tutkijat tarkistaisivat kansioidensa sisällön ja datanhallintansa laadun. Kysyimme evoluutiobiologian tutkijalta Jonna Kulmunilta, miten hän pitää datansa järjestyksessä.

(This article is also available in English.)

Tutkija, evoluutiobiologian dosentti Jonna Kulmuni (Tutkimusportaali, ORCID) tutkii ryhmineen muurahaisten lajiutumista käyttäen mallilajina Formica rufa -ryhmän muurahaisia. Ryhmä pyrkii ymmärtämään luonnonvalintaa geenien ja genomien tasolla.

Luonnontieteilijöille tuttujen fyysisten näytteiden lisäksi tutkimus tuottaa suuren määrän genomidataa ja niiden analyysejä, ja tutkimusdatan hallinta on keskeinen osa Kulmunin työtä.

Data Cleaning Dayn merkeissä tiedustelimme, miten evoluutiobiologi pitää datansa järjestyksessä.

Miten usein siivoat datoja?

”Liian harvoin. En ole ikinä heittänyt näytteitä pois ja tällä mentaliteetilla olen suhtautunut tiedostoihin. Nyt, kun olen tehnyt tutkimusta viisitoista vuotta, niitä tiedostoja jo alkaa olla aika paljon”, Kulmuni kertoo.

”Olen pyrkinyt alusta alkaen järjestämään ja sijoittamaan tiedostot hyvin, mutta mitä enemmän esimerkiksi opiskelijoita tai yhteistyökumppaneita tulee, sitä tärkeämpää tämä on. Tammikuussa järjestin kaikki tiedostot uudelleen hierarkiseen rakenteeseen.”

”Tammikuussa järjestin kaikki tiedostot uudelleen hierarkiseen rakenteeseen”, Jonna Kulmuni kertoo.

Miten siivoat?

”Lähinnä järjestelemällä tiedostoja. Olisi mielenkiintoista saada jonkun toisen näkemys siitä millaisiin kategorioihin tiedostot kannattaa järjestää.”

(Lisävinkkejä siivoukseen löytyy Data Cleaning Dayn wikisivulta, jonne on koottu viiden vaiheen siivousohjeet: lajttele, järjestä, loista, standardisoi ja pidä yllä. Vinkkejä aineiston dokumentaatioon ja järjestämiseen löytyy myös Guide for data documentation -oppaasta.)

Millaista hyötyä siivouksesta on ollut?

”Työskentely nopeutuu kun jutut löytää nopeammin!”

Lue lisää Data Cleaning Daystä Think Open -blogista!