VUB-modellen leren AI onderliggende structuur van tabellen begrijpen

In zijn doctoraatsonderzoek ontwikkelde Willy Carlos Tchuitcheu een nieuwe methode die computers beter leert omgaan met tabellen, die veel informatie bevatten, maar hebben vaak een voor AI moeilijk te interpreteren structuur binnen documenten.

Trefwoorden: #AI, #artificiële intelligentie, #begrijpen, #taal, #tabel, #VUB

Lees verder

research

( Foto: peshkova - 123RF )

ENGINEERINGNET.BE - Zijn bevindingen vormen een belangrijke troef voor toepassingen in artificiële intelligentie en automatische documentverwerking.

De kerndata van een document zijn dikwijls samengevat in tabellen. Die vormen voor huidige AI-systemen niet zelden een probleem. Veel Large Language Models zetten tabellen om in lineaire tekst, waardoor de tweedimensionale structuur, de koppen en de relaties tussen cellen verloren gaan.

Dat leidt tot fouten en onnauwkeurigheden. "We ontdekten dat veel AI-taalmodellen moeite hebben met iets dat “volgorde-onafhankelijkheid” heet", zegt Tchuitcheu.

Het betekent dat, wanneer je de rijen van een tabel van plaats verwisselt, de AI die tabel ziet als een compleet nieuwe tabel. Dat toont eigenlijk aan dat AI de onderliggende structuur van een tabel niet altijd echt begrijpt. Daardoor kan de informatie verkeerd worden geïnterpreteerd. ​

AI ziet minder goed dat twee tabellen met van plaats verwisselde kolommen eigenlijk dezelfde informatie bevatten. Hierdoor kunnen AI-systemen minder nauwkeurige antwoorden geven wanneer ze vragen over die tabellen moeten beantwoorden.

Tchuitcheu introduceerde daarom het zogenaamde Table Understanding principle, een theoretisch kader dat beschrijft hoe mensen tabellen interpreteren door elke cel automatisch te verbinden met de juiste rij- en kolomkop.

Vanuit dat principe ontwikkelde hij een structuurbewuste methode die tabellen niet langer reduceert tot platte tekst.

Tchuitcheu: "We willen dat modellen verder gaan dan het simpelweg nabootsen van een principe dat is bepaald door hun training met tekstuele data, en in plaats daarvan de onderliggende structuur begrijpen, net als mensen. Dat zorgt voor betrouwbaardere analyses en sneller bruikbare inzichten, met name in sectoren waar tabeldata een strategische rol spelen."

Zijn doctoraatsonderzoek (uitgevoerd in de VUB-Onderzoeksgroep Wiskunde & Data Science) kreeg de titel Representation Learning for Table Understanding in Intelligent Document Processing.