In een tijdperk waarin data steeds meer de drijvende kracht is achter innovatie, speelt Demcon data driven solutions (DDS) een cruciale rol. Door het gebruik van geavanceerde algoritmen en synthetische data helpt Demcon verschillende sectoren om efficiënter en effectiever te werken. Marnix Zoutenbier en Vincent Bos lichten de toegevoegde waarde van synthetische data toe en gaan dieper in op de innovatieve aanpak van Demcon DDS. “Als je het idee hebt dat je meer kunt met data, is het tijd voor een kop koffie met ons”, zegt Zoutenbier met een verwijzing naar Demcons missie om bedrijven te helpen hun data effectiever te benutten.
Een groot deel van de moderne economie is gebaseerd op data, niet voor niets vaak “het nieuwe goud” genoemd. Hoe meer data, des te beter het begrip van onderliggende processen en des te groter de mogelijkheden om als organisatie de juiste besluiten voor de toekomst te nemen. “De absolute hoeveelheid is daarbij niet eens het belangrijkste”, zegt Zoutenbier, “maar vooral de mate van overlap en representativiteit tussen de data die je gebruikt om een model te ontwikkelen en de volle breedte van het toepassingsgebied. Dat je dus alle variatie die je in de het gebruik tegenkomt ook in je trainingsdata hebt. Het gevolg daarvan is inderdaad dat je veel datapunten nodig hebt maar hoeveelheid is minder wezenlijk dan variatie.”
Aardbeienteler en longarts
Dat principe geldt zowel voor grote data-first bedrijven zoals Google en Amazon als voor een aardbeienteler of een longarts in de operatiekamer. De uitdaging voor al die datagebruikers is dus steeds om nóg gevarieerdere data te vergaren. Maar ergens houdt het op: je kunt nog zoveel sensoren, camera’s of lidar-apparatuur installeren, deze kunnen vanzelfsprekend alleen detecteren wat zich daadwerkelijk voordoet. Ziedaar het belang van synthetische data: kunstmatig gegenereerde gegevens die de statistische kenmerken en patronen van data uit de echte wereld nabootsen.
Demcon Data Driven Solutions, een zelfstandige onderneming binnen de Demcon holding, is precies daarin gespecialiseerd. Demcon DDS heeft twee hoofdtakken: algoritmiek ontwikkeling en synthetische data. Om de kracht van synthetische data op waarde te kunnen schatten legt Zoutenbier, een ervaren statisticus en datascientist, eerst uit waar algoritmiek zich op richt. Demcon onderscheidt binnen de algoritmiek drie toepassingen: vision, tijdreeksen en procesoptimalisatie. Toepassingen variëren van automatische inspectie van het waterleidingnetwerk tot het verbeteren van medische diagnoses en het halveren van de doorlooptijden van een productieproces. “En samen met mijn collega’s dekken we het hele spectrum af van klassieke methoden tot reinforcement learning en deep learning. Tenslotte heeft iedere vraag zijn unieke aanpak nodig.”
Vier grote voordelen van synthetische data
1. De mogelijkheid om specifieke data te genereren op een schaal en met een variatie die anders niet haalbaar zouden zijn.
2. De mogelijkheid om data te genereren voordat een systeem operationeel is. Dit kan de training van visionsystemen voor productielijnen mogelijk maken voordat deze operationeel zijn.
3. Rijke labeling: elk gegenereerd kenmerk kan naar believen en zeer consistent geannoteerd worden.
4. Volledige controle over datasets. Als er ‘bias’ of onvolledigheid is in de echte data, als bepaalde randgevallen ondervertegenwoordigd zijn, kunnen synthetische data dit oplossen.
Bekijk hier hoe Demcon te werk gaat: https://vimeo.com/810084583/7847b90c9e
Synthetische data
Die algoritmiek is voor elk dataproject van essentieel belang, maar zeker wanneer synthetische data in het spel zijn. Vincent Bos, een wiskundige met een achtergrond in wetenschappelijke visualisatie, leidt het team dat zich richt op synthetische data. Deze data worden gebruikt om AI-modellen te trainen zonder afhankelijk te zijn van echte gegevens, wat diverse voordelen biedt.
“We maken synthetische data door het bouwen van realistische 3D-objecten in een omgeving en simuleren het resulterende sensor signaal, bijvoorbeeld een lichtbron en een camera” legt Bos uit. Demcon DDS maakt gebruik van geavanceerde 3D-animaties en simulaties om bijvoorbeeld beelden van aardbeien te genereren die in verschillende stadia van rijpheid of rot kunnen zijn. Deze synthetische aardbeien worden vervolgens gebruikt om AI-modellen te trainen die robuust en consistent zijn. “Het grote voordeel dat wij hebben is dat wij precies weten wat wat is. De 3D-modellen zijn zelf gegenereerd, dus wij weten van elke pixel wat die betekent,” voegt Bos toe. De gegenereerde beelden komen precies overeen met de beelden die ‘normale’ camera’s, of andere sensoren zoals radar, lidar, en CT-scans ook zouden leveren; gebruikers hoeven er hun werkwijze niet voor aan te passen.
Medische toepassingen
Een van de meest aansprekende toepassingen van synthetische data bij Demcon DDS is in de medische sector. Demcon DDS ontwikkelt bijvoorbeeld realistische anatomische modellen van longen met verschillende defecten, zoals vochtophoping, klaplongen en tumoren. Deze synthetische longmodellen worden gebruikt om AI-systemen te trainen die kwaadaardige van goedaardige knobbeltjes kunnen onderscheiden, zelfs in gevallen die in de praktijk zeldzaam zijn. “We kunnen longmassa’s – lung nodules – maken die nog nooit eerder zijn gezien,” zegt Bos trots. Dit stelt artsen en AI-systemen in staat om zich voor te bereiden op zeldzame gevallen die niet in bestaande databases voorkomen.
Een ander groot voordeel van synthetische data is dat deze ongewenste bias kunnen voorkomen. Bos: “In de praktijk weet je dat systemen vaak goed werken op blanke mensen en niet op Aziatische of Afrikaanse mensen, puur omdat de data waarmee ze initieel getraind zijn, beperkt is. Met synthetische data kunnen we ervoor zorgen dat deze systemen robuuster en inclusiever worden.” DDS werkt nu aan projecten waarbij ze data genereren voor verschillende huidtypen om zo de training van AI-modellen te verbeteren.
Defensie
Demcon DDS werkt ook samen met Defensie aan projecten zoals het detecteren van militaire voertuigen in verschillende omgevingen, enkel met synthetische data. Deze aanpak heeft, juist vanwege de bijna onbeperkte diversiteit geleid tot betere resultaten dan met traditionele algoritmen op basis van echte data. Dit toont volgens Bos aan hoe krachtig en veelzijdig synthetische data kunnen zijn. “Voor Defensie maken we bijvoorbeeld plaatjes van een tank die ergens verdekt staat opgesteld, met daarnaast een personenauto. Zo leert een model dat een auto geen militair object is. Deze variëteit aan situaties kun je met echte data vaak niet simuleren.”
Een praktijkvoorbeeld illustreert de kracht van synthetische data goed, zo vult Zoutenbier aan: “Een tijdje terug meldde iemand op LinkedIn dat hij een boete van 385 euro had gekregen voor bellen met een telefoon terwijl het geen telefoon was. De man was gewoon aan zijn oor aan het krabben. Aan de hand van de foto kon die persoon dat uiteindelijk wel aantonen, maar dat was helemaal niet nodig geweest. Met synthetische data kun je een algoritme leren om deze situaties – en duizend andere – beter te herkennen en dergelijke fouten te voorkomen.”
Strategie vóór data
Er zijn tegenwoordig weinig bedrijven waarvoor data niet belangrijk zijn. Toch mag de vraag “ik heb hier een bak met data, wat kan ik daar eigenlijk mee doen?” nooit het startpunt van de discussie zijn, benadrukt Zoutenbier. “Het begint voor elk bedrijf altijd met de eigen strategie in de fysieke werkelijkheid. Als je vanuit die strategie denkt dat het mogelijk is om data beter te gebruiken, komen wij graag in beeld. Samen kunnen we dan bekijken hoe data zo’n bedrijf verder kan helpen om hun data effectief en doelgericht in te zetten en dus ook als de data beperkt is want dan kunnen we die synthetisch maken.”