Onderzoekers ontwikkelen nieuw algoritme voor doorzoeken Big Data

De Nederlandse Rijksuniversiteit Groningen ontwikkelde een nieuw selectief algoritme volgens het boosting principe dat binnen Big Data relevante kenmerken kan vinden met een hoge voorspellende waarde.

Trefwoorden: #algoritme, #big data, #universiteit

Lees verder

research

( Foto: Rijksuniversiteit Groningen )

ENGINEERINGNET.BE - Het vermogen om de kleinste en beste subset van kenmerken waarmee een algoritme een specifieke naald kan vinden in een hooiberg van data is om allerlei reden wenselijk.

Dit maakt snellere en daarmee ook beter schaalbare analyse mogelijk. Het drukt de kosten van dataverzameling en -opslag. En zorgt ervoor dat de verwerking van kenmerken door het algoritme beter te begrijpen is.

‘Het is een misverstand dat je door meer kenmerken toe te voegen ook meer informatie hebt om een betere beoordeling te maken’, zegt George Azzopardi, assistent professor Computerwetenschappen aan de RUG. ‘Er zijn situaties waarin kenmerken totaal irrelevant blijken, of overbodig zijn.’

‘Kenmerk selectie is wijdverbreid, en er zijn allerlei methoden voor bedacht’, zegt Ahmad Alsahaf, postdoc aan het Universitair Medisch Centrum Groningen. De eenvoudigste manier om de beste subset te vinden is om alle mogelijke combinaties van kenmerken door te rekenen.

‘Maar die aanpak werkt niet meer als je veel kenmerken hebt’, zegt Alsahaf. Andere manieren gebruiken bijvoorbeeld statistische methoden om het belang van individuele kenmerken op een bepaalde variabele te bepalen.

Azzopardi: ‘Die houden geen rekening met mogelijke interacties tussen variabelen. Het kan bijvoorbeeld zo zijn dat twee onafhankelijke variabelen elk een lage voorspellende waarde hebben, maar een veel sterkere wanneer je ze samen weegt.’

Alsahaf vult aan: ‘Een bekend voorbeeld is de interactie tussen verschillende genen, waar de aanwezigheid van het ene gen de activiteit van het andere gen beïnvloedt. Algoritmes voor kenmerk selectie moeten dat kunnen oppikken.’

De onderzoekers ontwierpen daarom een nieuw selectie algoritme voor kenmerken dat werkt volgens het zogeheten “boosting” principe. Alsahaf: ‘We gebruiken een model gebaseerd op beslisbomen om de meest relevante kenmerken te selecteren. Daarna maken en evalueren we een classificatiemodel op basis van deze kenmerken.'

'De gegevens die hiermee onjuist worden geclassificeerd krijgen meer gewicht bij het bepalen van de volgende set met relevante kenmerken. Deze stappen herhalen we totdat de prestaties van het model niet verder verbeteren.’

Hun algoritme presteert beter met minder kenmerken op de meeste datasets die zijn gebruikt om het te testen. Het werkt ook beter dan bekende methoden voor kenmerk-selectie, zoals Boruta en ReliefF.