“Om ongeveer één uur ‘s middags wees mijn moeder op een wolk met een vreemde grootte en verschijning die zich net had gevormd. Vanaf die afstand was het onduidelijk van welke berg de wolk opsteeg, maar later bleek het de Vesuvius te zijn.” Zo beschreef de historicus Plinius de Jongere – in een brief aan de Romeinse historicus Tacitus – de opbouw van de uitbarsting van de Vesuvius in 79 na Christus. De uitbarsting bedekte de omgeving van Pompeii, Stabiae en Herculaneum met meters as en lava. Ook een villa met een uitgebreide bibliotheek van papyrusrollen – eigendom van de schoonvader van de Romeinse generaal Julius Caesar – werd bedekt.
- Het doel van de Vesuvius Challenge is het ontcijferen van de inhoud van twee millennia oude rollen;
- Deze rollen zijn bewaard gebleven in een villa die bedekt werd door de uitbarsting van de Vesuvius in 79 na Christus;
- Met behulp van geavanceerde technologieën hebben deelnemers tot eind 2023 de tijd om vier passages uit de rollen te lezen.
De Vesuvius Challenge werd gelanceerd door de voormalige GitHub CEO Nat Friedman en daagt zijn deelnemers uit om de inhoud van enkele van de twee millennia oude rollen die in de villa zijn gevonden te ontcijferen met behulp van de nieuwste technologieën. Ondanks dat er bijna tweeduizend jaar voorbij zijn gegaan, zijn de papyri nog steeds intact. Door de hitte van het vulkanisch puin verkoolden ze, maar ze bleven ondergronds bewaard. “Het is heel spannend, want aan de ene kant zijn deze papyri bewaard gebleven, maar aan de andere kant kunnen we ze nog niet lezen,” zegt JP Posma, projectleider van de Vesuvius Challenge. Deelnemers hebben tot eind 2023 de tijd om vier passages te lezen en een hoofdprijs van $700.000 te winnen.
Dit is een artikel uit IO Next: The Year Of… Of het nu een indrukwekkend interview, een belangrijke boodschap of juist iets grappigs was: voor het laatste magazine van dit jaar hebben we de verhalen geselecteerd die ons het meest zijn bijgebleven.
Waarom Mauro ervoor koos om een follow-up van dit verhaal te maken:
Meer ontdekken over ons verleden is niet de use case die meteen in je opkomt als je aan AI denkt. Maar AI is een horizontale technologie die toepassingen vindt in alle domeinen, inclusief historisch onderzoek. AI blijkt goed te zijn om meer te weten te komen over onze voorouders, zoals deelnemers aan de Vesuvius-uitdaging begonnen met het ontcijferen van twee duizenden jaren oude papyri met behulp van machine learning-algoritmen.
De eerste woorden lezen
De uitdaging bouwt voort op een reeks ontdekkingen door het laboratorium van Dr. Brent Seales aan de Universiteit van Kentucky. Begin 2023 herkende hun machine-learning model inkt van röntgenscans van de papyri. Stukje bij beetje beginnen we de inhoud van de manuscripten te lezen. Luke Farritor, een student computerwetenschappen, was de eerste deelnemer die een heel woord – precies πορφύραc, het oude Griekse woord voor paars – van de boekrol las en daarmee de eerste prijs van $40.000 won. Kort daarna ontdekte Youssef Nader, een promovendus aan de Vrije Universiteit van Berlijn, hetzelfde woord met nog nauwkeurigere resultaten en won daarmee de tweede prijs.
“Ik was opgewonden en opgewonden tot op het punt van nerveus zijn. Het is ook een wedstrijd, dus ik kon dit niet met veel mensen delen. Ik probeerde ook nog steeds sceptisch te zijn om het niet te overschatten. Ik heb de experimenten een paar keer opnieuw gedaan om mijn methode te valideren, toen heb ik contact opgenomen met JP en hij drong er bij me op aan om het resultaat zo snel mogelijk in te dienen,” vertelde Innovation Origins Nader.
Flashback
De papyrusvilla werd voor het eerst ontdekt in 1750 toen een boer een put groef en op het marmeren plaveisel stuitte. Archeologisch onderzoek volgde en in de loop der decennia werden vele rollen teruggevonden. In 2015 vond de eerste doorbraak plaats in het laboratorium van Seales. De wetenschappers lazen de En Gedi-rol – een oud Hebreeuws perkament gevonden in de Dode Zee – door röntgenscans – via computertomografie, CT – en computervisietechnologieën te combineren. Daarom ontstond de wens om dezelfde techniek ook toe te passen op de Herculaneum Papyri.
Vier jaar later gebruikten de Amerikaanse onderzoekers een deeltjesversneller om twee van de rollen te scannen die in de villa waren teruggevonden. Dankzij dit experiment leidden ze af dat modellen voor machinaal leren oppervlaktepatronen konden herkennen die duidden op de aanwezigheid van inkt. En dat werd begin 2023 werkelijkheid toen hun model inkt detecteerde op de scans. De uitdaging volgde.
Een 3D-reproductie van de rol
Net als bij CT-scans in ziekenhuizen worden er röntgenstralen door het object – de rol in dit geval – gestuurd om een beeld te krijgen aan de andere kant. “Maar vervolgens kan men het object draaien om veel foto’s vanuit verschillende hoeken te krijgen. Door middel van tomografie kan uit al die foto’s een 3D-beeld worden gereconstrueerd,” legt Posma uit.
Deeltjesversnellers kunnen helpen om beelden met een hoge resolutie te krijgen, omdat ze een energiebron van hoge kwaliteit en specifieke lichtinvallen kunnen leveren. Op dit punt verschijnt de scroll-inhoud in een conglomeraat van voxels, de naam voor de gegevenspunten in een 3D-raster. Van daaruit is het makkelijker voor AI om karakters te identificeren en te lezen. Het idee is om neurale netwerken te ontwikkelen die getraind zijn op kleine stukjes van de rol met en zonder inkt. “Dan gaat het erom patronen af te leiden en uiteindelijk enkele karakters te laten zien,” benadrukt Posma.
Datamodellen worden leraren
Dat is wat Nader deed. Hij zag de uitdaging als een kans om te experimenteren met zelfondersteund leren, een van de nieuwste trends in AI-technologie, die hij combineerde met zijn idee om een datamodel leraar te maken voor een ander datamodel.
Met andere woorden, deze methode traint modellen op basis van de informatie die door een vorig model is opgehaald. De eerste letter die werd gedetecteerd door een van Nader’s modellen was een ‘pi’ (Π), die vervolgens werd doorgegeven aan het volgende model, dat verbeterde op basis van de vooraf verworven kennis. “Nadat de volgende modellen zijn getraind, worden ze leraren. En het is als een voortdurende cyclus totdat je een goede hoeveelheid gegevens hebt uit de rollen inktsignalen, allemaal,” verduidelijkt Nader.
“Het model neemt een klein deel van het beeld en probeert te voorspellen of er inkt is of niet. Het traint verder met de gegevens die je hebt en doet voorspellingen op de nieuwe segmenten van de rollen,” legt de promovendus verder uit.
Samenwerking
Met een achtergrond in computertechniek en een master in datawetenschappen begint Nader aan zijn promotieonderzoek. Met een sterke passie voor machinaal leren is de Vesuvius Challenge niet de eerste waar hij aan meedoet. “Het historische aspect ervan is spannend en het prijzengeld doet ook geen afbreuk aan de interesse. Het is een moeilijk probleem dat een mooie speeltuin vormt voor het testen van ideeën en het uitproberen van dingen,” zegt hij.
Ondanks alle inspanningen van het team van de Universiteit van Kentucky was de gezamenlijke kracht van velen nodig om de rollen te ontcijferen, zoals Posma zei. De Vesuvius Challenge is een wedstrijd, maar het creëerde ook een gemeenschap waar deelnemers samenkomen – op een server van de berichtenapp Discord – om manieren te bespreken om de puzzel op te lossen. Bovendien werden de codes die Farritor en Nader hadden ontwikkeld openbaar gemaakt aan de andere deelnemers. Na een periode zonder relevante vooruitgang, brachten de twee inzendingen de gemoederen in de gemeenschap weer op gang, waardoor het onderzoek vooruit werd gestuwd.
De uitdaging voltooien
Met nog ongeveer een maand te gaan tot het einde van de wedstrijd, zijn er nog steeds kansen om de vier tweets uit het verleden te lezen – elke passage is ongeveer 140 tekens lang. “Ik denk dat het tot de mogelijkheden behoort. Het is nog onduidelijk of er genoeg tekst is om te herstellen of misschien is het te beschadigd. Dit is nog steeds een punt van discussie, en het zal het werk van de komende weken zijn om te proberen of er een mogelijkheid is,” vat Nader samen.