Nu bliver det nemmere at finde vej i big data-junglen
Hvert eneste sekund akkumuleres billioner af data i registre, forskningsprojekter, osv. Disse data giver ingen mening, hvis man ikke kan navigere i dem. Nu præsenterer SDU-forskere et værktøj, der hjælper forskere til at finde ny og meningsfuld viden i data-junglen. Værktøjet præsenteres i tidsskriftet Nature Methods.
Forestil dig, at du er fedmeforsker og har tusind milliarder stykker data om overvægtige liggende på en server: Hvad spiser de? Hvordan sover de? Hvad tid på døgnet spiser de?
Du har en formodning om, at patienternes livsstil kan have indflydelse på deres vægt, og du kan derfor f. eks. bede din computer om at sammenligne vægtforandringer og antallet af spiste ostemadder. Bagefter kan du så bede om en anden sammenligning. Og endnu en. Og sådan kan du fortsætte i meget lang tid og hente en lang række af sammenligninger hjem.
Eller du kan angribe dine data på en måde, der ikke alene er meget hurtigere, men som også opdager sammenhænge, du måske ikke engang selv har overvejet.
Man kan opdage helt uventede sammenhænge
Så vil du ikke alene få tjekket dine egne mistanker om sammenhænge mellem vægt og livsstil - måske opdager du helt uventede sammenhænge ; f. eks., at patienter, der taber sig, oftere spiser ost med kommen end ost uden kommen.
At lede efter skjulte mønstre, som man ikke selv kan få øje på, i sine data hedder clustering. Clustering er at bede et computerprogram om at samle data i grupper (kaldet clusters) med fællestræk, uanset hvad de måtte være. I princippet er det fuldstændigt ligegyldigt hvilken slags data, man arbejder med: Det kan være patienter, proteiner eller det kan være planeter i fjerne galakser.
På SDU bruger adjunkt og leder af forskningsgruppen Practical Computer Science & Bioinformatics, Richard Röttger og hans kolleger fra Institut for Matematik og Datalogi clustering til at lede efter og gruppere særlige træk i sygdomsfremkaldende organismer. Dette giver en fundamental indsigt i disse organismer, uden at forskerne behøver kaste sig ud i dyrebare og potentielt farlige laboratorie-forsøg.
Det skal ikke kun være let for dataloger
”Der findes hundredevis af forskellige clustering-redskaber i dag. Men hver især kræver yderst specifikke indstillinger, og ofte er der også brug for en omfattende forståelse af de underliggende algoritmer, som kun datalogi-uddannede forskere har”, forklarer Richard Röttger.
Derfor har han og kollegerne, ph.d.-studerende Christian Wiwie og lektor Jan Baumbach, nu skabt et værktøj, der kan give en objektiv oversigt over alle tilgængelige cluster-redskaber, så den enkelte forsker kan få forslag til valg og ikke mindst indstilling af de specifikke cluster-redskaber. Værktøjet hedder ClustEval, og det er netop præsenteret i en videnskabelig artikel i tidsskriftet Nature Methods.
Ref: Comparing the performance of biomedical clustering methods. Christian Wiwie, Jan Baumbach & Richard Röttger. Nature Methods (2015).
Kontakt Lektor Richard Röttgen, tlf: 2887 6883, e-mail: roettger@imada.sdu.dk