Onderzoekers van de Universiteit van Amsterdam (UvA) werken aan een nieuwe methode om AI-modellen begrijpelijk en uitlegbaar te maken voor mensen. Hoewel AI-modellen veel taken kunnen oplossen, worden ze ook steeds complexer. Het vakgebied Explainable AI (XAI) houdt zich bezig met het uitpakken van het complexe gedrag van deze modellen op een manier die mensen kunnen begrijpen. In een nieuw project, HUE: bridging AI Representations to Human-Understandable Explanations, ontwikkelen onderzoekers Giovanni Cinà en Sandro Pezzelle een methode die het mogelijk maakt om AI-modellen te ‘röntgenen’ en transparanter te maken.
Confirmation bias
“Veel AI-modellen zijn black boxes,” legt Pezzelle uit. “We kunnen ze voeden met een heleboel data en ze kunnen een voorspelling doen – die al dan niet correct kan zijn – maar we weten niet wat er intern gebeurt.’ Dat is problematisch, want we zijn geneigd de output te interpreteren volgens onze eigen verwachtingen. Die neiging noemen we ook wel ‘confirmation bias.”
Cinà: “We zijn eerder geneigd verklaringen te geloven die overeenkomen met onze eerdere overtuigingen. We geloven makkelijker dingen die ons logisch lijken, en dat kan ertoe leiden dat we modellen vertrouwen die niet betrouwbaar zijn. Dat is een groot probleem, bijvoorbeeld wanneer we AI-modellen gebruiken om medische gegevens te interpreteren en zo ziektes op te sporen. Onbetrouwbare modellen kunnen artsen gaan beïnvloeden, en dat kan ertoe leiden dat zij verkeerde diagnoses stellen.”
Verklaringen onderzoeken
De onderzoekers ontwikkelen een methode om deze confirmation bias te beperken. “We proberen ervoor te zorgen dat wat we denken dat het model doet, overeenkomt met wat het daadwerkelijk doet,” vertelt Cinà. “Om een model transparanter te maken, moeten we een aantal verklaringen onderzoeken voor waarom het met bepaalde voorspellingen komt.” Daarvoor ontwikkelen de onderzoekers een kader waarmee ze voor mensen begrijpelijke hypotheses kunnen formuleren over wat het model heeft geleerd, en deze nauwkeuriger kunnen testen.
Pezzelle: “Onze methode kan worden toegepast op elk machine learning- of deep learning-model, zolang we het maar kunnen onderzoeken. Om die reden is een model als ChatGPT geen goede kandidaat: we hebben er geen inzage in, we krijgen alleen de uiteindelijke output. Onze methode werkt alleen met modellen die open source zijn.”
Geïntegreerde aanpak
Cinà en Pezzelle, die verschillende academische achtergronden hebben – respectievelijk medische AI en Natural Language Processing (NLP) – hebben hun krachten gebundeld om een methode te ontwikkelen die in verschillende vakgebieden kan worden toegepast. Pezzelle: “Oplossingen die in een van deze disciplines worden voorgesteld, bereiken op dit moment niet altijd ook andere vakgebieden. Ons doel is dus om een meer geïntegreerde aanpak te creëren.”