ChatGPT n’est pas encore capable de remplacer le diagnostic médical humain

Tel est le constat d’une des premières études mondiales qui évalue la performance de ChatGPT dans la prise en charge de cas cliniques réels. Cette étude a été menée par l'UMons, en collaboration avec les hôpitaux EpiCURA, Saint-Pierre et Foch de Paris.

Mots clés: #artificielle, #ChatGPT, #intelligence

Lire plus

Formations

( Photo: UMons )

ENGINEERINGNET.BE - C’est un fait, le développement de l'IA est fulgurant: ChatGPT semble en effet capable de passer des examens universitaires, tout en présente de surprenantes connaissances théoriques en médecine.

Toutefois, de nombreuses questions se posent quant aux limites des systèmes d’IA actuels, et notamment leur capacité à proposer des prises en charge médicales pour les humains.

Les Professeurs Jérôme Lechien (UMONS) et Stéphane Hans viennent de publier les résultats d’une étude internationale menée sur 45 patients présentant des pathologies fréquentes en médecine générale ou oto-rhino-laryngologie et dont le tableau clinique a été présenté à l’IA ChatGPT.

Dans cette étude, le médecin a soumis à l’IA les symptômes, antécédents, médicaments et données de l’examen clinique des patients, et celle-ci a été interrogée sur les potentiels diagnostics différentiels, diagnostic principal, examens complémentaires et traitements.

Deux médecins ont ensuite analysé les résultats de performance de l’IA à l’aide d’un nouvel outil clinique, l’Artificial Intelligence Performance Instrument (AIPI).

Globalement, ChatGPT a proposé un diagnostic plausible et correct dans 63.5% des cas et des diagnostics différentiels (alternatifs) plausibles dans 28.5% des cas.

Les examens complémentaires proposés par l’IA étaient pertinents dans 29% des cas. Quant aux traitements, ils étaient pertinents et nécessaires dans 22% des cas, et pertinents mais incomplets dans 16% des cas.

Dans le reste des cas, les procédures thérapeutiques proposées étaient une association de traitements pertinents, nécessaires, inadéquats et inutiles.

En conclusion, si l’IA fournit une liste de possibilités telle une encyclopédie virtuelle très performante, elle ne serait pas (encore) capable de discerner et classer les diagnostics et examens complémentaires selon leur pertinence.

En clair, si l’IA ne peut pas encore se substituer au discernement humain du praticien.