Nieuwe textmining-software maakt wetteksten beter inzichtelijk

(c) Inaki del Olmo on Unsplash <a style="background-color:black;color:white;text-decoration:none;padding:4px 6px;font-family:-apple-system, BlinkMacSystemFont, "San Francisco", "Helvetica Neue", Helvetica, Ubuntu, Roboto, Noto, "Segoe UI", Arial, sans-serif;font-size:12px;font-weight:bold;line-height:1.2;display:inline-block;border-radius:3px" href="https://unsplash.com/@inakihxz?utm_medium=referral&utm_campaign=photographer-credit&utm_content=creditBadge" target="_blank" rel="noopener noreferrer" title="Download free do whatever you want high-resolution photos from Iñaki del Olmo"><span style="display:inline-block;padding:2px 3px"><svg xmlns="http://www.w3.org/2000/svg" style="height:12px;width:auto;position:relative;vertical-align:middle;top:-2px;fill:white" viewBox="0 0 32 32"><title>unsplash-logo</title><path d="M10 9V0h12v9H10zm12 5h10v18H0V14h10v9h12v-9z"></path></svg></span><span style="display:inline-block;padding:2px 3px">Iñaki del Olmo</span></a>

By Hildegard Suntinger

Informatici aan de Universiteit van Wenen hebben nieuwe textmining-software ontwikkeld die gebruikers een snel overzicht geeft van wetteksten. De software is ontworpen om bedrijven te helpen bij de implementatie van nieuwe regelgeving.

De invoering van de Algemene verordening gegevensbescherming (AVG) in 2018 heeft laten zien hoe veeleisend de naleving van wettelijke regelgeving kan zijn. Iedereen werd hierdoor getroffen – verenigingen, bedrijven en particulieren – en allen hadden dezelfde omvangrijke hoeveelheid informatie waaruit ze met veel moeite de relevante informatie moesten filteren.

VEREENVOUDIGING

Het is een veel voorkomende situatie binnen bedrijven. Het doornemen van juridische documenten kost tijd en middelen die eigenlijk niet voorhanden zijn. Informatica Stefanie Rinderle-Ma is al jaren bezig met dit onderwerp. Zij doet onderzoek aan de faculteit Informatica op het grensgebied tussen wetenschap en bedrijfskunde. Ze legt de nadruk op de ondersteuning en vereenvoudiging van werkzaamheden.

“Vooral in het begin, als er een nieuwe regeling op tafel komt, is het vaak onduidelijk wat er precies moet gebeuren. Iedereen is bezig zich in te inlezen en te interpreteren”, zegt Rinderle-Ma.

NIEUWE AANPAK

Vanuit haar onderzoeksteam, Workflow Systems and Technology, ontwikkelde en implementeerde ze samen met de jonge onderzoeker Karolin Winter een nieuwe textmining-methode. Deze stelt gebruikers in staat om automatisch relevante informatie uit teksten te halen. “Gebruikers willen snel een overzicht krijgen of – als de regelgeving verandert – verschillende tekstdocumenten op een eenvoudige manier met elkaar vergelijken”, aldus de wetenschappers.

Nieuw aan de methode is de manier waarop documenten verwerkt worden. De oorspronkelijke opbouw van de documenten die in het systeem worden ingevoerd wordt zodanig geminimaliseerd dat wetten en tekstgedeelten kunnen worden vergeleken. Dit was voorheen niet mogelijk. Daarnaast kan textmining nu voor het eerst worden toegepast op afzonderlijke, complex opgebouwde documenten.

Als een zoekmachine

Het programma filtert, net als een zoekmachine, de teksten op basis van onderwerp of op basis van de personen en organisaties in kwestie. Voor een bedrijf, bijvoorbeeld, is informatie die betrekking heeft op de staat niet van belang. De aan bedrijven gerichte informatie is echter verspreid over het hele document en is daarom moeilijk in te zien. Het textmining-proces maakt het mogelijk om een structuur aan te brengen die irrelevante inhoud verbergt en zo de leesinspanning aanzienlijk vermindert.

Zelfs degenen die willen lezen over de context waarin een bepaalde wet is beschreven, hoeven niet in het document te zoeken. Het programma markeert alle relevante zinnen en linkt deze naar de corresponderende tekstpassages in het document.

Als een gebruiker zich in een onderwerp wil verdiepen, kunnen tekstgedeelten gecategoriseerd worden en zo snel een overzicht bieden. Zelfs tekstpassages uit verschillende teksten kunnen op deze manier gelijktijdig worden bewerkt.

TEKSTPASSAGES VERGELIJKEN

Daarnaast biedt de nieuwe methode ook de mogelijkheid tot vergelijken: documenten bevatten vaak overeenkomende passages. Deze worden door het programma herkend en samengevat. Gebruikers kunnen ze naast elkaar bekijken en met elkaar vergelijken. Tegenstrijdigheden worden hierbij tevens weergegeven. Hierdoor kunnen conflicterende wetten makkelijker herkend worden, net als verschillen tussen eerdere en latere versies van hetzelfde document.

Na de succesvolle afronding van het project doen de informatici nu onderzoek naar verdere toepassingsmogelijkheden binnen het bedrijfsleven en de wetenschap. De methode zal voortdurend worden uitgebreid om ook op andere gebieden de dagelijkse stroom aan informatie te kunnen indammen. Een voorbeeld hiervan is het papierwerk dat zich in de gezondheidszorg opstapelt. Volgens Rinderle-Ma is er mogelijk sprake van een tijdsbesparing van ongeveer zestig procent – en dat in combinatie met een verhoging van de kwaliteit, aangezien het aantal taken altijd constant is. Zij verwacht ook dat de leesinspanning voor wetgevingsdocumenten op dezelfde manier wordt verminderd, omdat de teksten thematisch kunnen worden gestructureerd.

Het project, getiteld CRISP, is gefinancierd door het Wiener Wissenschafts-, Forschungs- und Technologiefonds (WWTF) en loopt tot het einde van dit jaar.