Erreurs d'IA en radiologie : comment bien l'utiliser sans créer de risques

Par Osvaldo Landi

L'intelligence artificielle (IA) a progressé de manière constante et significative dans le diagnostic par imagerie et a déjà démontré un impact positif sur le flux des soins, en particulier dans les scénarios d'urgence. Des outils capables d’identifier les constatations critiques en quelques secondes permettent de prioriser les cas graves et offrent un soutien pertinent aux professionnels qui doivent prendre des décisions rapides.

Cette avancée nécessite cependant une réflexion approfondie. Il est essentiel de reconnaître que les technologies sophistiquées ne sont pas exemptes de limites. Comprendre où et comment l’IA peut échouer est une condition essentielle pour que son utilisation soit sûre, responsable et, en fait, bénéfique pour le patient, qui dépend de la précision des traitements.

La plupart des solutions disponibles dans le commerce fonctionnent aujourd’hui comme une IA étroite. Il s’agit de modèles d’apprentissage profond entraînés pour effectuer des tâches très spécifiques, comme, par exemple, l’identification d’hémorragies intracrâniennes lors d’examens de tomographie. Dans ce domaine, les performances sont généralement élevées. En dehors de cela, l’outil n’identifiera pas d’autres résultats d’imagerie pouvant être importants pour la prise en charge clinique.

Cela signifie que, lors de l'analyse d'un examen à la recherche d'un accident vasculaire cérébral, comme dans l'exemple mentionné, l'IA peut ne pas reconnaître une tumeur, des signes de démence, une atrophie ou d'autres changements pertinents. C’est un point central : bon nombre des solutions basées sur l’IA disponibles dans le commerce n’ont toujours pas de vision clinique globale, car elles répondent à des problématiques définies par ceux qui développent et gèrent l’outil, et ne remplacent pas une analyse médicale globale.

La question n’est donc jamais de savoir si l’IA fera des erreurs, mais quand et comment cette erreur se produira et si le système et les professionnels seront prêts à l’identifier. Même les systèmes avec une précision de 98 % produisent des échecs absolus importants lorsqu'ils sont appliqués à des milliers d'examens par mois. Bien que l’impact clinique de ces cas soit limité, ils illustrent quelque chose d’inévitable : l’erreur existe et doit être surveillée.

Un autre point critique est la capacité de généralisation des algorithmes. Une solution développée et validée dans des centres d'excellence internationaux peut présenter une perte de performance lorsqu'elle est appliquée à différentes populations, avec d'autres protocoles ou équipements. Dans certains contextes, le modèle cesse tout simplement de fonctionner comme prévu. En effet, l’IA apprend des modèles à partir des données qu’elle reçoit, et ces modèles ne se répètent pas toujours dans de nouveaux environnements.

Pour cette raison, une adoption sûre nécessite nécessairement une validation locale. Il est nécessaire de tester le système auprès de la population réelle qui sera desservie, en s'assurant que les résultats observés en pratique correspondent aux données présentées dans les études.

Il existe également un risque connu sous le nom de biais d’automatisation : la tendance humaine à s’appuyer excessivement sur la technologie. Dans l’environnement clinique, cela peut amener les professionnels à supposer que la recommandation de l’IA est toujours correcte, réduisant ainsi la pensée critique et laissant place à des décisions erronées. Une formation adéquate du personnel clinique est essentielle, et l’IA devrait soutenir le jugement médical, et non le remplacer.

La littérature récente souligne également que les performances des systèmes d’IA médicale peuvent varier en fonction des caractéristiques des populations analysées. Des études indiquent que les algorithmes formés avec des bases de données moins diversifiées ont tendance à présenter une précision moindre lorsqu'ils sont appliqués à des contextes cliniques différents de ceux utilisés dans leur développement. Ces limitations peuvent survenir à différentes étapes du cycle technologique, depuis la collecte et l’étiquetage des données jusqu’à la validation et la mise en œuvre dans la pratique des soins.

Des variations de performance liées à des caractéristiques physiques, démographiques ou cliniques spécifiques ont été signalées, ainsi que des modèles de risque utilisant des données historiques comme indicateur de gravité. Ces résultats renforcent l’importance des bases de données représentatives, de la validation continue et du suivi systématique des résultats, afin de garantir une plus grande cohérence, sécurité et équité dans l’utilisation de l’IA dans les soins de santé.

Lorsque ces variations ne sont pas identifiées et corrigées, des diagnostics incorrects, un dépistage inégal, des recommandations inadéquates et une perte de confiance peuvent être quelques-unes des conséquences subies par le personnel clinique et les patients. Par conséquent, des solutions de gouvernance robustes, un audit continu et des mesures d’équité spécifiques sont des exigences fondamentales pour une utilisation responsable de l’IA dans les soins de santé.

L’intégration de l’intelligence artificielle en radiologie apporte des gains importants, mais elle expose également des risques qui ne peuvent être ignorés. Les erreurs associées à des bases de données non représentatives, au manque de validation continue et aux échecs d'intégration dans le flux clinique peuvent générer des biais, des faux positifs ou des omissions diagnostiques. Ainsi, l’utilisation sûre de l’IA dépend moins des performances isolées de l’algorithme que de la gouvernance, de l’interopérabilité, de la formation des équipes et du suivi permanent des résultats dans la pratique des soins.

Les progrès de l’IA en radiologie sont irréversibles, mais ses effets seront définis par la manière dont la technologie sera utilisée. Reconnaître les limites, comprendre comment et pourquoi les algorithmes font des erreurs et maintenir une supervision médicale sont des conditions essentielles pour que l’innovation renforce la pratique clinique, sans accroître les risques ni les inégalités.

Dans ce contexte d’avancée technologique, l’intelligence artificielle constitue un outil d’aide au diagnostic par imagerie pertinent, contribuant aux gains d’efficacité, de standardisation et d’agilité dans l’analyse des examens. Cependant, l’interprétation clinique reste irremplaçable. L'évaluation du radiologue est essentielle pour confirmer les constatations, corréler les résultats avec l'histoire et l'état clinique du patient et guider une conduite appropriée, un niveau de jugement, de contextualisation et de responsabilité que, à ce jour, les algorithmes ne sont pas en mesure d'offrir.

*Osvaldo Landi est responsable médical de l'innovation et des données à la Fondation Institut de recherche et d'étude en imagerie diagnostique (FIDI).