Synthetische data versnellen onderzoek naar gistcellen

De Nederlandse Rijksuniversiteit Groningen kan met synthetische data in slechts enkele dagen een AI systeem trainen om daarmee de groei en celdeling van gistcellen te volgen via time-lapse microscopie.

Trefwoorden: #cellen, #data, #gist, #netwerk, #neuraal

Lees verder

research

( Foto: Rijksuniversiteit Groningen )

ENGINEERINGNET.BE - Gistcellen dienen als model voor fundamentele processen in complexe cellen, zoals die van mensen. Toch is er nog veel dat we niet over gistcellen weten. Bijvoorbeeld hoe gistcellen hun groei controleren tijdens de celcyclus.

Assistent hoogleraar computationele biologie Andreas Milias-Argeitis van Rijksuniversiteit Groningen: ‘‘We observeren daarom hoe cellen groeien en delen gedurende vele generaties, en kijken naar specifieke processen.’

Dit soort experimenten produceert veel data, dus is er geautomatiseerde beeldanalyse nodig. Convolutionele neurale netwerken (CNN’s) zijn daar geschikt voor, maar deze systemen moeten worden getraind om cellen te herkennen.

‘Dat gebeurt door een CNN microscopische beelden aan te bieden waarin iemand de omtrek van duizenden cellen perfect heeft gemarkeerd’, aldus Milias-Argeitis. Een tijdrovende klus. En als de onderzoeksvraag verandert, moet het trainingsprogramma weer opnieuw beginnen.

Samen met datawetenschapper Herbert Kruitbosch van het Centrum voor Informatietechnologie werkte Milias-Argeitis dus aan een trainingsmethode gebaseerd op synthetische data, om dit proces te versnellen.

Kruitbosch produceerde een dataset met op gist lijkende vormen en speelde daarna met instellingen, zoals voor vervorming van cellen, hun grootte en de ruis in het beeld. Deze synthetische dataset is vervolgens gebruikt om een CNN te trainen voor beeldverwerking.

Het getrainde systeem is getest op echte data van gistcellen. De prestaties van het nieuwe systeem zijn vergeleken met die van een van de beste CNN’s die was getraind met echte data. Beiden bleken even goed te presteren.

Het voordeel van synthetische data is dat een set voor de training in een dag is te produceren. Ook kost het slechts een paar dagen om het systeem nieuwe taken te leren. Verder kost het maar een paar uur om met het systeem om te leren gaan.

‘Nu kunnen wij onze experimenten veel sneller ontwerpen en uitvoeren’, zegt Milias-Argeitis. ‘Het getrainde CNN is ook in te zetten voor real-time dataverwerking, gericht op veranderingen in celgedrag tijdens een experiment.'

"We kunnen daardoor bijvoorbeeld onder de microscoop de locatie van individuele cellen bepalen en hun reactie volgen op een optogenetische verstoring, om daarna op basis van de reactie de optogenetische input per cel af te stemmen.’

Alle software en algoritmes zijn beschikbaar gesteld in een vrij toegankelijke database. ‘We werken nu aan de verdere ontwikkeling van ons AI systeem, bijvoorbeeld om het te leren hoe het specifieke gebeurtenissen tijdens de celdeling kan herkennen, of mutante cellen met een afwijkende vorm.’