In het wielrennen proberen ploegen elkaar constant de loef af te steken. Niet alleen met het meest geavanceerde materiaalgebruik, maar ook door te verbeteren op voeding, trainingsmethodes en allerlei andere gebieden. Daarom kijkt Innovation Origins in de aanloop naar de Tour de France naar innovaties uit het peloton.
Het voorspellen van de winnaar in een etappe in de Tour is voor veel mensen een manier om de lange zit voor de tv draaglijk te maken. Wie pakt de sprinterstrui? Hebben de klimmers een beetje goede benen? En – misschien wel het belangrijkste – staat jouw kopman in Parijs met het geel om zijn schouders? Ieder jaar komen deze vragen weer terug, daags voor de tour speur je het internet af naar renners die nog weleens zouden kunnen verrassen. En na heel wat wikken en wegen, neem je toch weer de topfavorieten op in je virtuele wielerteam.
Maar wat nu als je al dit werk door een computer kunt laten doen? Arjan Zoer ontwikkelde een voorspellend algoritme waarmee hij de uitslagen van wielerkoersen voorspelt. Samen met hem vul ik mijn tourpoultje in – in de hoop dat ik dit jaar wel een keer bovenaan eindig.
Wie is de beste?
Het begon voor Zoer met het spelen van Cycling Manager, een simulatiespel met een enorme database met alle renners en hun statistieken. “Het leuke hieraan was dat je de database kon aanpassen. Dit leverde discussies op met fanatieke spelers over heel de wereld”, vertelt Zoer. “De Spanjaarden vonden Contador de beste klimmer, de Italianen Nibali en ik als Nederlander vond dat Robert Gesink veel potentie had. Toen dacht ik: dit moet toch ook te berekenen zijn? Via verschillende sites ben ik toen resultaten gaan binnentrekken en met wat wiskundige slimmigheidjes zette ik dit om naar eigenschappen voor de renners die je in het spel kon gebruiken.”
Daar bleef het voor Zoer niet bij: “Als ik die eigenschappen en statistieken van renners toch heb, kan ik net zo goed naar echte wedstrijden kijken om te voorspellen wie de meeste waarschijnlijkhied heeft om een goede uitslag te rijden.” Waar Zoer eerst alleen statistieken invoerde, vulde hij de database aan met ploegentacktieken, helpers en hij paste de berekeningen op tijdritten aan. “Ik ben hier zo’n vijf-zes jaar al mee bezig, iedere vakantie zeker zo’n 30 uur per week. En doordeweeks minimaal een uurtje per dag. Het is een uit de hand gelopen hobby, maar ik krijg er energie van. Het geeft me voldoening om met mijn berekeningen zo dicht mogelijk bij de weg te zitten. Gelukkig heb ik een hele lieve vrouw die me die ruimte geeft”, lacht Zoer aan de telefoon.
Rekening houden met deelnemersveld
Toen Zoer net bezig was rolde er nog weleens een vrij onbekende naam uit de computer. Zoer loste dit op door niet alleen de uitslagen van de wedstrijden in te voeren, maar hij liet het rekenmodel ook rekening houden met het profiel van de race en het deelnemersveld dat aan de start staat: “Twee jaar geleden verzamelde waren er sprinters die in China net zoveel punten als Marcel Kittel en Mark Cavendisch kregen. Volgens het model dan. Maar – zeker in die periode – waren Kittel en Cavendisch niet te kloppen. Daar laat ik het algoritme nu rekening mee houden.”
In de eerste twee weken van de afgelopen Giro voorspelde het algoritme van Zoer drie ritwinaars. “Maar de winnaars zaten altijd in de top-5 die uit de computer kwamen, er zit een stijgende lijn in de voorspellingen. Dat is mooi. Maar ik heb wel een grote misser gemaakt. Carapaz kwam als vijftiende uit het model, maar hij won.” Zoer legt uit dat dit komt omdat Carapaz nog een jonge renner is. Via internet zette Zoer een groep vrijwilligers aan het werk die uitslagen en statistieken van jeugdwedstrijden opzochten. “Zo kon ik al in een vroeg stadium rekening houden met een jonge renner als Carapaz. Dat ontbrak nog een beetje in het model. Het voorspellen van jeugdwedstrijden is sowieso totaal anders, deze wedstrijden verlopen veel grilliger. Na de Giro heb ik het model steeds laten herdraaien met andere correlaties. Toen kwam ik erachter dat als ik de uitslagen van de laatste drie koersen zwaarder mee laat wegen, dat de uitslag dicht op de werkelijkheid zit.”
Zoer voorspelt ook alle wedstrijden in het vrouwenwielrennen: “Eigenlijk is dat veel leuker. Er zijn minder statistieken beschikbaar en ik weet er zelf minder vanaf. Als de computer dan met een juiste voorspelling komt, leer ik er weer van.”
#GiroRosa?? #Algorithm #Prediction #UCIWWT
⭐️⭐️⭐️A. van Vleuten, A. van der Breggen, E. Longo Borghini
⭐️⭐️K. Niewiadoma, L. Kirchmann, A. Moolman
⭐️C. Uttrup Ludwig, A. Spratt, A. Santesteban Gonzalez, A. Pieters
This has a better sorting@AvVleuten to win the #GC pic.twitter.com/fJPyAcbNGR— Arjan (@ZoerCyclingStat) 3 juli 2019
“Dat is het leuke eraan, voor mij is het een grote puzzel. Ik wil die oplossen en zoek steeds naar verbanden. Kijk, als ik een massasprint voorspel en het wordt een ontsnapping, dan zij het zo. Maar als de uitslag in een bergrit compleet anders is dan ik voorspel, dan wordt het een lange avond. Ik ga dan net zo lang door tot ik iets vind en kan de tijd dan behoorlijk uit het oog verliezen”, geeft Zoer toe. Wat moet er anders? Waarom klopt het nu niet? Waar moet het model rekening mee houden? “Ik heb Excel al moeten archiveren omdat ik meer dan een miljoen regels had. Nu heb ik al anderhalf miljoen records aan uitslagen alleen. Ik heb zoveel al, uitslagen, profielen, vorm van afgelopen zes weken. Ga zo maar door.”
Geo-locaties en weersomstandigheden
Maar Zoer zou nog graag met Strava werken, niet om wattages van profs te bemachtigen – “zodra ik dat gebruik maakt niemand dat meer openbaar.” – nee, Zoer wil dit koppelen aan weersomstandigheden en luchtomstandigheden. “In deze tour zitten relatief veel aankomsten bergop boven de 2000m. Als ik geo-locaties en weersomstandigheden via Strava geautomatiseerd binnen kan halen, kan ik daarin ook correlaties vinden. Er wordt van Valverde gezegd dat hij slechter wordt in ijlere lucht. Het zou mooi zijn om daar een statistiek bij te kunnen maken.”
Kunnen ploegen nog iets hebben aan zijn algoritme? “Kijk naar Moneyball, daar wordt ook puur naar statistiek gekeken. Ik ben nu aan het kijken of we er een doorzoekbare database van kunnen maken. Maar ik heb er zo ontzettend veel werk ingestoken dat ik niet alles van het algoritme prijs wil geven. Alleen een database waar mensen zelf kunnen aangeven wat voor soort renner ze zoeken, lijkt me tof om te maken. Bovendien kunnen ploegen daar ook iets aan hebben.”
Een niet zo’n verrassende winnaar
En wie mogen dit jaar niet ontbreken in de tourpoule? “Het is heel saai, maar Geraint Thomas gaat de Tour winnen. En Kruijswijk wordt derde. Maar er zitten ook verrassingen in: Thibaut Pinot wordt 25e volgens de voorspelling. Maar hij zou veel beter moeten kunnen. En ook van Kruijswijk hoop ik oprecht dat hij de tour gaat winnen. Het is echt niet zo dat ik heilig achter het model sta. Ik ben het lang niet altijd met de computer eens hoor.”
Deze renners mogen niet ontbreken in je poultje volgens Zoer:
1 Geraint Thomas
2. Nairo Quintana
3. Steven Kruijswijk
4. Romain Bardet
5. Adam Yates
6. Dan Martin