De nouvelles études montrent que ChatGPT 4 surpasse les experts

LE ChatGPTdéveloppé par OpenAIest devenu une référence en matière d'innovation en intelligence artificielle générative (IA), à travers son modèle récent, le GPT-4. Actuellement, notamment dans le domaine de la médecine, des recherches approfondies sont menées dans divers domaines de connaissances, notamment les maladies cardiovasculaires et la neurochirurgie, en utilisant avec succès cette quatrième version de l'outil.

En Turquie, par exemple, une recherche du service des urgences de l'université Hitit a évalué la précision du diagnostic du GPT-4 par rapport aux informations de l'électrocardiogramme (ECG), en comparant ses performances avec celles des spécialistes de médecine d'urgence et des cardiologues. Dans l'étude, un total de 40 cas ECG ont été préparés sous forme de questions à choix multiples, comprenant 20 questions quotidiennes et 20 questions plus difficiles.

Le groupe de participants comprenait 12 spécialistes en médecine d'urgence et 12 spécialistes en cardiologie. Dans les questions ECG quotidiennes, GPT-4 a démontré des performances supérieures à celles des experts en médecine d'urgence et des experts en cardiologie. Dans les approches les plus difficiles, même si ChatGPT a surpassé les experts en médecine d'urgence, aucune différence statistiquement significative n'a été trouvée entre ChatGPT et les experts en cardiologie. Lors de l'examen de l'exactitude des questions ECG totales, ChatGPT s'est avéré plus efficace que les spécialistes de médecine d'urgence et les cardiologues.

Dans un autre travail, auquel ont participé plusieurs institutions, dont l'Université de Californie du Sud, l'outil a montré des performances exceptionnelles en matière d'examens standardisés. La recherche a examiné la compétence de GPT-4 sur des questions de type conseil neurochirurgical, en comparant ses performances à celles des étudiants en médecine et des résidents, afin d'explorer son potentiel dans la formation médicale et la prise de décision clinique. Les performances du GPT-4 ont été observées sur 643 questions, couvrant plusieurs sous-spécialités et utilisant l'examen d'auto-évaluation en neurochirurgie (SANS). Parmi ceux-ci, 477 étaient basés sur du texte et 166 contenaient des images. GPT-4 a refusé de répondre à 52 questions sans texte. Les 591 questions restantes ont été saisies dans GPT-4 et leurs performances ont été analysées pour la première fois sur la base des réponses.

GPT-4 a répondu à 91,9 % des questions SANS et a atteint une précision de 76,6 %. La précision du modèle est passée à 79 % lorsqu'il s'agissait de questions contenant uniquement du texte. Il a surpassé les étudiants en médecine (26,3 %), les résidents en neurochirurgie (61,5 %) et la moyenne nationale des utilisateurs du SANS (69,3 %) dans toutes les catégories.

Pour le professeur de l'Université de Brasilia (UnB) et chercheur dans le domaine de l'innovation technologique, le Dr Paulo Henrique de Souza Bermejo, auparavant sujet de science-fiction, l'IA fait désormais partie de notre vie quotidienne, souvent sans que nous y réfléchissions. « Tous les professionnels, y compris ceux du secteur de la santé, gagnent grandement à comprendre les capacités des outils avancés d'IA et d'autres innovations, car c'est cette compréhension qui leur permettra de reconnaître les opportunités et les menaces que les technologies émergentes peuvent apporter », a-t-il déclaré.

Selon le professeur, aujourd'hui l'IA est déjà présente dans les dossiers médicaux, les programmes de prévention, les consultations, le dépistage et l'intervention, entre autres domaines du secteur, et on s'attend à ce qu'ils atteignent un niveau de maturité qui aura bientôt un impact sur la médecine dans son ensemble. , améliorant presque complètement la fourniture de soins de santé. Il convient toutefois de mentionner, comme le souligne le professeur Bermejo, que les aspects humains des soins, tels que l'empathie, la compassion et la pensée critique, restent fondamentaux, et que la prise de décision complexe est intrinsèquement liée aux professionnels. « Une telle technologie présente de nombreuses limites et ne peut remplacer le contact direct entre un médecin expérimenté et un patient, même pour des consultations apparemment simples, sans parler des aspects éthiques et juridiques de la responsabilité du diagnostic. Il s'agit d'un outil d'assistance et non d'une solution complète, c'est pourquoi le travail et les informations qu'il fournit doivent être vérifiés », a-t-il expliqué.

Des questions essentielles ou une relation complexe

Les applications de l’IA dans l’éducation, la recherche et la santé peuvent en effet être très prometteuses si les enjeux sont explorés et traités de manière proactive, comme l’explique le professeur. Il a souligné que peu de secteurs sont aussi riches en données et en textes que les soins de santé. À ces caractéristiques s’ajoute un besoin de connaissance des deux côtés : les patients souhaitent être mieux informés sur leur état, et les équipes cliniques cherchent à être plus à jour, notamment pour mieux les informer sur l’aide qu’elles leur apportent. Dans ce contexte, l’IA peut fournir un contenu complet permettant d’obtenir des conseils médicaux, ainsi que des informations provenant de sources multiples pour mieux servir et informer les patients sur leur pathologie ou leurs symptômes.

Le chercheur a ajouté que l’introduction de l’intelligence artificielle conduit à une relation complexe entre le médecin, le patient et l’IA. Il est donc essentiel de réfléchir à la mise en œuvre éthique et sûre de ces outils progressivement intelligents. Les sujets les plus pertinents pour la santé, tels qu'approuvés par le professeur, concernent la vie privée et la sécurité. « Lorsqu'ils utilisent ChatGPT, les utilisateurs fournissent des données, ce qui a des implications en matière de confidentialité. Il est important de garantir la confidentialité de ces informations avant que ChatGPT puisse être largement utilisé. De plus, sa mise en œuvre doit être judicieuse, avec des décisions consolidées par l'expertise des professionnels de santé », a-t-il souligné.

Essentiellement, l’IA promet d’améliorer considérablement la prestation de services dans ce domaine et devrait encourager des changements véritablement transformateurs, similaires à l’impact apporté par Internet sur l’industrie. D'un autre point de vue, le professeur Bermejo a déclaré que même GPT-4 pourrait bientôt être éclipsé par des entités d'IA plus spécialisées dans des secteurs spécifiques. Dans le domaine de la santé, par exemple, il existe un grand nombre de modèles spécialisés, comme MedPaLM, fabriqué par Google DeepMind, qui vise à répondre à des questions médicales et à effectuer des tâches cliniques telles que le diagnostic assisté et l'assistance par télémédecine ; BioGPT, de Microsoft, dans le but de comprendre et d'analyser la littérature scientifique biomédicale, y compris le résumé d'articles et le soutien à la recherche ; PubMedGPT, formé sur les données PubMed, utilisé pour analyser des articles scientifiques dans le domaine de la biomédecine et de la santé, axé sur la recherche et l'extraction d'informations ; ClinicalBERT, fabriqué par Google Research, dans le but d'analyser les dossiers de santé électroniques (DSE), de prédire les diagnostics et de résumer les dossiers cliniques ; GatorTron, développé par University of Florida Health, qui traite et analyse les textes médicaux et les informations cliniques provenant des dossiers médicaux ; CODEx, d'IBM Research, avec pour principe d'extraire et de classer des données cliniques et médicales à travers les dossiers de santé ; et nSpaCy (Clinical NLP Pipeline), de l'équipe SpaCy, qui traite le langage naturel dans les textes médicaux, tels que les dossiers médicaux et les rapports cliniques, en mettant l'accent sur le résumé et la classification.