In deze hectische tijden waarin de breaking news-berichten elkaar in een moordend tempo opvolgen was er dagelijks een vrij voorspelbare update. De publicatie van de nieuwste cijfers van het RIVM rond de klok van twee met de nieuwste kaartjes, cijfers en databestanden rond de klok van twee. Tot afgelopen maandag dan. Toen het RIVM alleen nog maar cijfers over ziekenhuisopnames besloot wereldkundig te maken.
Fundamentele bouwstenen van brondata
Al vanaf dag twee – op 28 februari – werd er op dat moment doorgegeven hoeveel positieve diagnoses met het coronavirus er per Nederlandse gemeente bij waren gekomen. In de maand maart bouwden journalisten, data-analisten en onderzoekers hiermee een fors databestand op waarmee de verspreiding van de epidemie letterlijk in kaart kon worden gebracht.
Hier kwam op dinsdag 31 maart ineens verandering in. Het RIVM heeft namelijk besloten voortaan alleen nog maar data vrij te geven van het aantal ziekenhuisopnames per woonplaats van de patiënt. Dit lijkt voor een leek niet heel groot nieuws, maar was voor data-analisten en journalisten die de crisis in cijfers volgen een forse domper.
De kater wordt nog groter gemaakt omdat dat het aantal ziekenhuisopnames niet met terugwerkende kracht is vrijgegeven. De zorgvuldig opgevulde brondata van non-profit Coronadataprojecten als Coronawatch, NL- COVID 19 Hub, Allecijfers en die van mijzelf zijn vanwege deze beslissing abrupt onderbroken en dus eigenlijk terug bij af. Dit is niet alleen vervelend voor de initiators, maar ook voor iedereen die deze openbaar toegankelijke data gebruikt voor eigen onderzoek, innovatieve ideeën of puur uit interesse.
Waan van de dag versus langetermijnpatronen
Al sinds dag 1 publiceer ik dagelijks een Coronakaart van Nederland. Deze kaart wordt samengesteld met de brondata van het RIVM met een eigen draai aan het ontwerp. Het resultaat is een visueel aantrekkelijke kaart die elke dag gebaseerd is op dezelfde brondata waar een hoop positieve reacties op binnen zijn gekomen: van fanatieke nieuwsvolgers tot onderzoekers aan universiteiten. Al sinds het begin is deze gebaseerd op het totale aantal positieve diagnoses per gemeente en het aantal diagnoses per 100.000 inwoners. Als je deze kaarten allemaal naast elkaar legt, worden er interessante patronen en trends zichtbaar.
De cijfers van een pandemie lijken in dat opzicht wel een beetje op die van de aandelenmarkt. Een dagscore is op zichzelf vrij weinig waard en behoorlijk gevoelig voor pieken, dalen en andere incidenten. Ontwikkeling over een termijn van weken of maanden is voor analytici een stuk interessanter. Omdat het coronavirus nieuw is, moeten er een volledig nieuwe databases worden opgebouwd. En des te langer de periode is dat deze data consistent wordt bijgehouden, des te bruikbaarder zoiets wordt. Het heden kan worden verklaard met de dagstanden uit het verleden, het heden en verleden vormen de bakermat voor de toekomst en de toekomst bestaat niet zonder het heden en het verleden. Deze Nederlandse database begon zich redelijk te vullen maar daar kwam met alleen de opnamecijfers een einde aan.
Wat precies de reden is van deze wijziging van totale aantal per gemeente naar ziekenhuisopnames per gemeente, is niet helemaal duidelijk. Als reden werd de geringe testcapaciteit aangegeven. Volgens het RIVM zou het aantal ziekenhuisopnames daarom een betere weergave van de realiteit geven. Toch laten de cijfers in het dagelijkse epidemiologisch verslag niet zien dat er minder getest wordt dan twee weken geleden; op 23 maart waren dit 2822 personen en op 31 maart waren dit er 3100. Het aantal positieve tests fluctueert tussen de 26,5 en 33,5 procent. Dit is allemaal vrij constant. Sterker nog; woensdagmiddag werd door minister Hugo de Jonge juist benadrukt dat de testcapaciteit in Nederland in de komende week drastisch wordt opgeschaald naar 17.500 en daarna naar bijna 30.000.
In een tijd van digitalisering, big data, AI met stormachtige ontwikkelingen op het gebied van software, techniek en health tot gevolg. Deze initiatieven zijn echter wel afhankelijk van transparantie en consistentie. Open data is een essentieel fundament voor wie de samenleving op zijn manier een stukje vooruit wil helpen. Nu is er met het aantal opnames bekendmaken op zichzelf weinig aan de hand. Dit is een absoluut een interessant en relevant gegeven, maar niet meer dan een dagstand. De recente opnamecijfers in combinatie met die van 1 t/m 29 maart zouden een veel natuurgetrouwer beeld weergeven. Deze zijn echter niet vrijgegeven.
Kleine moeite, groot resultaat
Of het veel moeite kost om de data te delen? Niet bepaald. Sterker nog; ze houden de ontwikkelingen per gemeente nog steeds bij zoals te zien is in het dagelijkse Epidemiologische Situatie-verslag. Hoewel het ‘oude’ per 100.000-kaartje hierin nog steeds is terug te vinden, is de brondata nergens meer te terug te vinden. En dat terwijl we in de grootste crisis van de 21ste eeuw zitten.
Datavisualisaties, kaarten of duiding hoeven er ook helemaal niet bij gepubliceerd te worden. Het enige bestand dat onderzoekers, journalisten, analytici, start-ups en algoritmes nodig hebben om door te kunnen met hun projecten is een Excelletje van het aantal vastgestelde diagnoses per gemeente van die ene dag. Bied dit bestand aan op een open platform als Github waardoor iedereen het kan gebruiken voor zijn eigen doeleinden en projecten. Met alleen nieuwe opnamecijfers duurt het opnieuw een maand voor er zulke bruikbare databestanden zijn opgebouwd. Niet handig in onzekere tijden waarin iedere dag telt en innovatieve ideeën het verschil kunnen maken. Consistentie en transparantie zijn hierin echter van fundamenteel belang.
De overheid heeft de sleutel om een kettingreactie van innovatieve corona-oplossingen te veroorzaken. Transparantie vormt de sleutel naar innovatie. Steek hem in het slot en er gaat een futuristische wereld open voor ons allemaal. Daarvoor is slecht één rijtje met 355 gemeentes een komma en een getal en een klein beetje bereidwilligheid per dag voor nodig.