ENGINEERINGNET.BE - Waar originele data worden verzameld in interacties met reële personen en processen, worden synthetische data gegenereerd door computers. Het gaat om nieuwe, kunstmatige data, zonder een-op-een relaties met de originele data.
Daardoor is het gebruik ervan niet onderworpen aan de wetgeving op privacy. Integendeel, softwareontwikkelaars kunnen deze gegevens net gebruiken om producten te creëren die precies de bescherming van privégegevens versterken.
Het Amerikaanse adviesbureau Gartner voorspelde dat tegen 2024 60% van de data die gebruikt wordt voor de ontwikkeling van AI- en analysetoepassingen synthetisch zal zijn gegenereerd.
Privacy waarborgen
“Synthetische data worden gecreëerd om een functioneel alternatief te voorzien voor gevoelige data”, stelt Joachim Ganseman, IT-consultant bij Smals Research (Brussel). “Denk daarbij bijvoorbeeld aan de klantengegevens van banken en zorginstellingen of aan de persoonsgebonden gegevens van de overheidsdiensten voor sociale zekerheid. Het is niet wenselijk en ook niet wettelijk dat medewerkers van softwarebedrijven daar volledige toegangsrechten toe hebben. Hetzelfde geldt voor economisch gevoelige informatie, zoals de planningsgegevens van al dan niet multimodale transportbedrijven.”
Smals zelf werkt uitsluitend voor overheidsinstellingen. Om onvolkomenheden en bugs in de nieuw ontwikkelde software voor het beheer van gegevens te herkennen en eruit te halen, moet je die software kunnen testen met realistische data. In realistische omgevingen kunnen eenvoudige zaken tot lastige problemen leiden.
Zo kunnen twee personen dezelfde naam dragen, terwijl een rijksregisternummer een specifieke structuur moet hebben, waarin onder meer de geboortedatum is verwerkt. Zo is het ook de verwachting dat iemands leeftijd elk jaar met exact één jaar toeneemt.
“Gelukkig hebben we alles voorhanden om niet alleen de originele gegevens te vervangen door nieuwe, maar ook om ervoor te zorgen dat wat in de plaats komt, realistisch oogt. Met AI-gegenereerde synthetische data hebben we een oplossing om eenvoudig en snel over veel representatieve data te beschikken.”
Scramblen
“Het is wel veel meer dan zomaar een druk op de knop. Veel hangt af van allerlei randvoorwaarden en aannames over de inhoud en structuur van de gegevens. Afhankelijk van de beoogde toepassing of het doel, kan het nodig zijn om extra beperkingen en filters op te leggen.” Een eerste aanzet is het scramblen van bestaande gegevens. Daarbij wordt wel gestart met een bestaande databank, maar de inhoud ervan wordt door elkaar gegooid, terwijl de structuur blijft.
“Zo verliezen de gegevens hun privékarakter. De artificiële intelligentie leert approximatief de structuur van de gegevens aan. Daarna kan je volgens dezelfde structuur willekeurig veel nieuwe gegevens aanmaken, in combinatie met generatoren voor totaal fictieve gegevens.”
Een mogelijke probleemsituatie bij gebruik van reële gegevens, zeker in een kleine maatschappij zoals Vlaanderen, kan de aanwezigheid van één enkele persoon met een uiterst zeldzame ziekte zijn.
“Die kan door de zeldzaamheid zijn anonimiteit verliezen. Door het scramblen kan die persoon in de synthetische databank een andere leeftijd en/of geslacht krijgen of elders wonen. De gegevens blijven voor de ontwikkelaars wel bruikbaar om bijvoorbeeld na te gaan of en in hoeverre een zeldzame situatie de statistieken beïnvloedt.”
Meer toepassingen
Synthetische data komen ook van pas bij toepassingen zonder privacyproblemen. “Ik denk daarbij aan het ontwikkelen van games”, zegt Ganseman. “Om te debuggen of gewoon om te evalueren of een nieuw computerspel wel boeiend is, kunnen de ontwikkelaars met synthetische data diverse scenario's evalueren. Een ander voorbeeld zijn vluchtsimulatoren.
En in de industriële wereld kunnen synthetische data veel kosten en schroot besparen. Autoconstructeurs hoeven geen massa's prototypes te vernielen om de crashbestendigheid van hun nieuwe modellen te evalueren. Op basis van één, opzettelijk veroorzaakte crash kunnen ze met synthetische data massa's varianten simuleren.”
Kwaliteitscontrole
Siemens implementeerde al diverse AI-oplossingen met synthetische data bij verschillende klanten. De meeste van deze praktische toepassingen hebben te maken met visuele kwaliteitscontrole. “Deze klanten hebben wel basisbeelden, maar geen grote aantallen. Wij creëren op basis daarvan bijkomende beelden, waarop de software dan kan trainen”, legt Bart Demaegdt uit, digitalization technology manager bij Siemens België.
“Zo leerden de machines van de firma Cloostermans (nu onderdeel van Amazon Robotics) hoe ze pakjes met een wisselende inhoud optimaal kunnen vullen. Een ander voorbeeld is de slimme recyclage van vaten. Die zijn tijdens hun eerste gebruik gelabeld met allerlei etiketten en stickers, maar op telkens andere plaatsen en met telkens andere formaten.
Soms is de coating beschadigd. De software leert op basis van synthetische data de etikettering identificeren en dan bepalen in hoeverre zandstralen, verven, lakken … noodzakelijk is. Een manuele controle per vat zou erg tijdrovend zijn.”
Vis
Bij een Italiaanse fabrikant van remschijven leidde de kwaliteitscontrole via AI tot een vermindering van de manuele inspectie-inspanningen met 80%. “De meest ongewone realisatie vond plaats in een Chileense kweekvijver voor vissen”, aldus Demaegdt.
“Het kwam erop aan de optimale timing en volume van voederen te bepalen. Te weinig voederen heeft een negatieve impact op de vis, maar te veel voeding is ook niet gezond, kost meer in voeding en vervuilt het water. Op basis van talrijke parameters ziet de AI via gewone camerabeelden of de vissen honger hebben of net niet. Deze toepassing resulteerde er al in 5% minder voedselverbruik, 6% minder kosten voor waterzuivering.”
Elders kon de hoeveelheid dure XR-opnamen voor kwaliteitscontrole gevoelig verminderd worden.
Soorten synthetische data
Synthetische data worden doorgaans ingedeeld in drie types. ‘Dummy-data’ zijn willekeurig gegenereerde data. Omdat ze kenmerken, relaties of statistische patronen bevatten die wel in de originele data voorkomen, is hun representativiteit erg beperkt. Ze worden dan ook vooral gebruikt wanneer er nog geen tijd of mogelijkheden waren of specifieke regels op te stellen waaraan de gegevens moeten voldoen.
Een tweede type is gegenereerd op basis van een vooraf gedefinieerde set regels. Dat kunnen bijvoorbeeld bepaalde minimum- of maximumwaarden, gemiddelden of medianen zijn. Elk kenmerk, elke relatie of patroon moet daarbij afzonderlijk worden gedefinieerd. Dit impliceert het risico dat regels elkaar overlappen of elkaar tegenspreken.
Een volledige regelset vergt veel praktische kennis over de aard van de gegevens. Dit type wordt in essentie gebruikt wanneer er nog helemaal geen echte gegevens beschikbaar zijn.
Synthetische data op basis van AI, ten slotte, zijn gegenereerd door een algoritme. Het AI-model wordt getraind op originele data om de kenmerken, relaties en patronen ervan te leren kennen. Daarna kan het zelf extra data creëren en deze zo modelleren dat de kenmerken, relaties en statistische patronen uit de oorspronkelijke dataset terugkeren. Zo komt een veel groter volume tot stand om mee verder te werken.
Die volumevergroting komt onder meer van pas om algoritmen te trainen in het herkennen van handschriften, wanneer hiervoor slechts weinig reëel basismateriaal voorhanden is.
Op de foto boven: De machines van de firma Cloostermans (nu onderdeel van Amazon Robotics) leerden hoe ze pakjes met een wisselende inhoud optimaal kunnen vullen op basis van synthetische data.