Nieuw wiskundig model voor transfer learning in neurale netwerken

Een Nederlands-Italiaans onderzoeksteam heeft een nieuwe wiskundige methode ontwikkeld die het mogelijk maakt om de effectiviteit van transfer learning in neurale netwerken te voorspellen.

Trefwoorden: #model, #netwerk, #neurale, #wetenschapper, #wiskunde

Lees verder

research

( Foto: Radboud Universiteit )

ENGINEERINGNET.BE - Een neuraal netwerk is bijvoorbeeld een beeldherkenningssysteem dat getraind is om een afbeelding van een hond te herkennen.

Door het trainen van dit netwerk met grote hoeveelheden hondenfoto’s, leert het netwerk om met een hoge nauwkeurigheid een hond aan te wijzen op nieuw beeldmateriaal.

Voor sommige toepassingen is er echter niet voldoende trainingsdata beschikbaar. "In de medische sector, bijvoorbeeld bij het diagnosticeren van kanker via echografie, zijn er niet genoeg voorbeelden beschikbaar om een neuraal netwerk goed te trainen," aldus onderzoeker Alessandro Ingrosso van de Nederlandse Radboud Universiteit.

"Dit leidt tot 'overfitting', waarbij het netwerk faalt in het generaliseren naar nieuwe, ongeziene gevallen. Het aantal vals-positieven en vals-negatieven kan dan erg groot worden."

Om dit probleem op te lossen, richtten de onderzoekers zich op 'transfer learning', een techniek waarbij kennis van een netwerk dat getraind is op een grote dataset wordt overgedragen naar een nieuw netwerk dat getraind wordt op beperkte data.

"We hebben het eenvoudigste model voor deze transfer learning-benadering bestudeerd en een wiskundige theorie ontwikkeld voor netwerken met één verborgen laag," vertelt Ingrosso.

In deze theorie combineerden de onderzoekers twee verschillende analytische methoden: de recent ontwikkelde 'Kernel Renormalization'-benadering en het klassieke 'Franz-Parisi'-formalisme uit de theorie van Spinglazen.

Het samenvoegen van dergelijke tools maakt het mogelijk om met specifieke, echte datasets te werken in plaats van statistische modellen of benaderingen.

Ingrosso: "Onze nieuwe methode kan daardoor direct nauwkeurig voorspellen hoe effectief het doelnetwerk zal zijn in het generaliseren van data wanneer het de kennis van het bronnetwerk overneemt.”

Dit onderzoek biedt belangrijke nieuwe inzichten voor het effectief trainen van AI-systemen in domeinen waar gegevens schaars zijn, zoals medische diagnostiek en andere gespecialiseerde toepassingen.