ENGINEERINGNET.BE - Si les données originelles sont collectées lors d'interactions avec des personnes et des processus réels, les données synthétiques elles, sont générées par des ordinateurs. Il s'agit de données nouvelles, artificielles, sans relation univoque avec les données d'origine.
Par conséquent, leur utilisation n'est pas soumise à la législation sur la protection de la vie privée. Au contraire, les développeurs de logiciels peuvent justement utiliser ces données pour créer des produits qui renforcent la protection des données privées.
Le cabinet de conseil américain Gartner a prédit que d'ici 2024, 60% des données utilisées pour le développement d'applications d'IA et d'analyse seront générées de manière synthétique.
Garantie de confidentialité
« Les données synthétiques sont créées pour fournir une alternative fonctionnelle aux données sensibles », explique Joachim Ganseman, consultant TIC chez Smals Research (Bruxelles).
« Imaginons, par exemple, les données clients des banques et des établissements de soins de santé ou les données personnelles de l’administration publique de la sécurité sociale. Il n'est ni souhaitable ni légal pour les employés des sociétés de logiciels d'avoir des droits d'accès complets à ces entités. Il en va de même pour les informations économiquement sensibles, telles que les données de planification des entreprises de transport, qu'elles soient multimodales ou non. »
Smals travaille exclusivement pour l'administration publique. Afin de reconnaître et d'éliminer les imperfections et les bogues dans le logiciel de gestion de données nouvellement développé, il faut être en mesure de tester ce logiciel avec des données réalistes. Dans les environnements réalistes, des choses simples peuvent mener à des problèmes complexes.
Par exemple, deux personnes peuvent porter le même nom, alors qu'un numéro de registre national doit avoir une structure spécifique, y compris la date de naissance. De même, on s'attend à ce que l'âge d'une personne augmente d'exactement d’un an chaque année.
« Heureusement, nous avons tout en place non seulement pour remplacer les données d'origine par de nouvelles, mais aussi pour nous assurer que ce qui les remplace semble réaliste. Avec les données synthétiques générées par l'IA, nous disposons d'une solution pour accéder facilement et rapidement à de nombreuses données significatives. »
Brouillage
« Il s'agit bien plus que d'appuyer sur un bouton. Beaucoup dépend de toutes sortes de conditions connexes et d'hypothèses concernant le contenu et la structure des données. Selon l'application ou le but visé, il peut s'avérer nécessaire d'imposer des restrictions et des filtres supplémentaires. » Une première étape consiste à brouiller les données existantes. Dans ce cas, l'on commence bien par une telle base de données, mais son contenu est brouillé, tandis que la structure reste.
« De cette manière, les données perdent leur caractère privé. L'intelligence artificielle apprend approximativement la structure de ces données. Après cela, il est possible de créer n'importe quelle quantité de nouvelles données selon une structure identique, en combinaison avec des générateurs de données complètement fictives. » Une situation problématique possible lors de l'utilisation de données réelles, en particulier dans une petite société comme la Flandre, pourrait être la présence d'une seule personne atteinte d'une maladie extrêmement rare.
« Elle peut perdre son anonymat en raison de cette rareté. En brouillant, cette personne dans la base de données synthétique, elle peut avoir un âge et/ou un sexe différent ou vivre ailleurs. Les données restent cependant utiles pour les développeurs, par exemple pour vérifier si et dans quelle mesure une situation rare affecte les statistiques. »
Autres types d'applications
Les données synthétiques sont également utiles pour les applications sans souci de confidentialité. « Je pense à ce sujet au développement des jeux vidéo », déclare Ganseman.
« Pour déboguer ou simplement pour évaluer si un nouveau jeu vidéo est intéressant, les développeurs peuvent utiliser des données synthétiques pour évaluer divers scénarios. Un autre exemple est celui des simulateurs de vol. Et dans le monde industriel, les données synthétiques peuvent économiser beaucoup de coûts et de déchets. Les constructeurs automobiles n'ont pas à détruire des masses de prototypes pour évaluer la résistance aux chocs de leurs nouveaux modèles. Sur la base d'un crash délibérément provoqué, ils peuvent simuler des masses de variantes avec les données synthétiques. »
Contrôle qualité
Siemens a déjà mis en œuvre diverses solutions d'IA avec des données synthétiques chez divers clients. La majorité de ces applications pratiques concernent le contrôle visuel de la qualité. « Ces clients ont des images de base, mais pas en quantité.
Sur cette fondation, nous créons des images supplémentaires, sur lesquelles le logiciel peut s'entraîner », explique Bart Demaegdt, digitalization technology manager chez Siemens Belgique.
« Par exemple, les machines de la société Cloostermans (qui fait actuellement partie d'Amazon Robotics) ont appris à remplir de manière optimale des emballages avec des contenus variés. Autre exemple, le recyclage intelligent des fûts. Lors de leur première utilisation, ils sont étiquetés avec toutes sortes d'étiquettes et d'autocollants, mais à des endroits divers et avec des formats différents. Parfois, le coating est endommagé. Le logiciel apprend à identifier l'étiquetage sur la base de données synthétiques et détermine ensuite dans quelle mesure un sablage, une peinture, un vernissage ... est requis. Un contrôle manuel par fût serait chronophage. »
Poisson
Chez un fabricant italien de disques de frein, le contrôle qualité via l'IA a permis de réduire de 80% les efforts d'inspection manuelle. « La réalisation la plus inusuelle a eu lieu dans un étang piscicole chilien », explique Demaegdt.
« Il s'agissait de déterminer le moment optimal et le volume d'alimentation. Nourrir trop peu a un impact négatif sur les poissons, mais trop de nourriture est malsain, coûte plus cher en nourriture et pollue l'eau. Sur la base de nombreux paramètres, l'IA voit via des images de caméra standards si les poissons ont faim ou non.
Cette application a déjà permis de réduire de 5% la consommation alimentaire et de 6% les coûts de purification de l'eau. » Par ailleurs, la quantité d'images XR coûteuses pour le contrôle de la qualité pouvaient être considérablement réduite.
Types de données synthétiques
Les données synthétiques sont généralement classées en trois types. Les données factices ou ‘dummy-data’ sont des données générées de manière aléatoire. Étant donné qu'elles contiennent des caractéristiques, des relations ou des modèles statistiques qui se présentent dans les données d'origine, leur représentativité est très limitée.
Elles sont donc principalement utilisées lorsqu'il n'y a pas eu le temps ni des possibilités ou de règles spécifiques à élaborer auxquelles les données doivent se conformer. Un deuxième type est généré sur la base d'un ensemble prédéfini de règles. Il peut s'agir par exemple de certaines valeurs minimales ou maximales, de moyennes ou de médianes. Chaque caractéristique, chaque relation ou modèle doivent être dans ce cas définis séparément. Cela implique le risque que les règles se chevauchent ou se contrecarrent.
Un jeu de règles complet nécessite beaucoup de connaissances pratiques sur la nature des données. Ce type est essentiellement utilisé lorsque aucune donnée réelle n'est encore disponible. Finalement, les données synthétiques basées sur l'IA sont générées par un algorithme. Le modèle d'IA est entraîné sur des données originelles pour apprendre leurs caractéristiques, leurs relations et leurs modèles.
Il peut ensuite créer lui-même des données supplémentaires ; il les modélisent de manière à ce que les caractéristiques, les relations et les modèles statistiques soient en corrélation avec l'ensemble des données d'origine. Un volume beaucoup plus important est ainsi créé pour continuer à travailler.
Cette accroissement de volume est utile, entre autres, pour entraîner des algorithmes à la reconnaissance de l'écriture manuscrite, alors que peu de matériel de base réel est disponible à cet effet.
Sur la photo en haut: Les machines de la société Cloostermans (qui fait actuellement partie d'Amazon Robotics) ont appris sur la base de données synthétiques à remplir de manière optimale des emballages avec des contenus variés.