Met big data voorspellen welke virussen tot een pandemie kunnen leiden

By Petra Wiesmayer

De snelle verspreiding van het coronavirus beheerst momenteel het nieuws. Sinds de eerste gevallen in China eind december 2019 bekend werden in de miljoenenstad Wuhan, zijn er bijna elk uur berichten over nieuwe ziektegevallen in de wereld. Hoewel het onderzoek naar een effectieve remedie in volle gang is, is een oplossing nog ver weg. Duidelijk is dat het snel kunnen herkennen van zo’n gevaarlijk virus van groot belang is. Dankzij big datatechnieken is het Duitse wetenschappers gelukt te voorspellen welke ziekteverwekkers kunnen leiden tot de ontwikkeling van bijzonder besmettelijke stammen.

Na de SARS-pandemie in 2002/2003 en de steeds nieuwe influenzavirussen, die in de winter van 2017/2018 alleen al in Duitsland meer dan 25.000 levens hebben gekost, toont het voorbeeld van het coronavirus aan hoe belangrijk het is om snel de specifieke kenmerken van nieuwe virus- en bacteriestammen te identificeren.

Het nieuwe, internationale project “Pangaia” (Pan-genome Graph Algorithms and Data Integration), waaraan de Universiteit Bielefeld deelneemt, kan daarbij een rol spelen. Met behulp van big-datatechnologie vergelijken wetenschappers het genoom van één enkel organisme met het genoom van alle stammen van een soort en onderzoeken hoe de massa’s gebruikte gegevens zo gerangschikt en geanalyseerd kunnen worden dat ze gebruikt kunnen worden voor de biogeneeskunde.

Virussen vergelijken met referentiegenetica

De bepaling of het genoom bepaalde variaties vertoont, is gebaseerd op een referentiegenoom waarin verschillende genomen zodanig zijn gecombineerd dat ze de typische kenmerken van een hele soort vertonen. In het geval van influenzavirussen betekent dit dat het virus wordt vergeleken met een referentiegenoom dat alle typische kenmerken van de eerder bekende virusstammen combineert.

Speciale grafieken geven verbindingen tussen genomen als knooppunten weer. Als individuele genen van een enkel organisme sterk afwijken van de typische genen van zijn soort, worden ze voorgesteld als opvallende krommen en lijnen. Dit is bijvoorbeeld het geval met genen die erfelijke ziekten veroorzaken. Foto: Universiteit van Bielefeld/R. Wittler

“In deze gevallen vergelijken we slechts twee genomen met elkaar. Verschillen en overeenkomsten zijn relatief eenvoudig te herkennen op de computer”, zegt professor Dr. Jens Stoye van de Technische Faculteit van de Universiteit van Bielefeld. Hij is betrokken bij Pangaia met zijn genoom informaticagroep. “De nieuwe aanpak kan het aantal vergelijkende genomen tot duizend keer verhogen”. Onderzoekers noemen dit onderzoek van het genetisch repertoire van een populatie “pan-genomics”. “Het probleem met computerondersteunde pan-genomics was tot nu toe de verwarring die werd veroorzaakt door de massa aan gegevens”, legt professor Dr. Alexander Schönhuth uit, die het Bielefeld-subproject van Pangaia coördineert.

Steun ons!

De nucleotiden, de bouwstenen van het genetisch materiaal, worden weergegeven door de letters A, C, G en T. Aangezien genomen soms uit miljarden van deze informatie-eenheden bestaan, worden ze echter traditioneel als “letterkettingen” naast elkaar weergegeven om ze beter te kunnen vergelijken. “Maar met honderden vergelijkende genomen kost het veel tijd om stap voor stap te analyseren hoe het onderzochte genoom verschilt van elk van de vergelijkende genomen”, aldus Schönhuth.

Gelijktijdige vergelijking van vele stammen

De nieuwe technologie maakt het nu mogelijk om vele stammen van hetzelfde organisme tegelijkertijd te analyseren. Of het nu gaat om virussen, bacteriën of nog hogere organismen, legt Jens Stoye uit. Op deze manier kunnen de overeenkomsten en verschillen tussen de individuele leden worden benadrukt. In het geval van ziekteverwekkers was het vaak zelfs mogelijk om de processen te begrijpen en te voorspellen die leidden tot de ontwikkeling van bijzonder besmettelijke stammen.

Om computerondersteunde pan-genomics sneller en toepassingsvriendelijker te maken, willen de onderzoekers de komende jaren nieuwe algoritmen en datastructuren ontwikkelen. Bijvoorbeeld om algoritmen voor variatiegrafieken uit te werken. Met deze variatiegrafieken zoeken de computers naar overeenkomsten en verschillen tussen de vergelijkende genomen. De resultaten worden vervolgens grafisch weergegeven.

“Variatiegrafieken maken een snelle en hoge-resolutie differentiatie van pathogene en onschadelijke varianten van een virus mogelijk”, aldus Schönhuth. “Met name maken ze ook de identificatie mogelijk van volledig nieuwe mutaties, zoals die welke zich vermoedelijk hebben voorgedaan in de variant van het coronavirus die momenteel in China is uitgebroken en die hebben geleid tot resistentie tegen de gebruikelijke medicijnen”.

Volgens de wetenschappers kan deze nieuwe methode ook worden gebruikt voor het opsporen van erfelijke ziekten bij de mens. Daarnaast kan het ook helpen om te bepalen welke mutaties in een tumor tot een sterke, pathologische groei hebben geleid.

By Petra Wiesmayer

Virussen vergelijken met referentiegenetica

Steun ons!

Gelijktijdige vergelijking van vele stammen

Als je dit artikel leuk vindt, lees dan ook: