Évaluer les chatbots d’IA pour des conseils de santé fondés sur les preuves : perspective 2025

À mesure que l’intelligence artificielle s’invite dans tous les secteurs, son application en santé suscite une attention particulière. Une étude récente publiée dans Frontiers in Digital Health a évalué la précision de plusieurs chatbots d’IA — ChatGPT‑3.5, ChatGPT‑4o, Microsoft Copilot, Google Gemini, Claude et Perplexity — pour fournir des conseils de santé fondés sur les preuves, avec un focus spécifique sur la douleur radiculaire lombo‑sacrée.

Aperçu de l’étude

L’étude a consisté à soumettre neuf questions cliniques liées à la douleur radiculaire lombo‑sacrée aux dernières versions des chatbots mentionnés. Ces questions étaient élaborées à partir de recommandations de pratique clinique (RPC) reconnues. Les réponses de chaque modèle ont été évaluées selon la cohérence, la fiabilité et l’alignement avec les RPC. Le protocole d’évaluation comprenait l’analyse de la cohérence textuelle, la fidélité intra‑juge et inter‑juge, ainsi que le taux de correspondance avec les RPC.

Principaux résultats

Perplexity a montré la meilleure adhésion aux RPC, avec un taux de correspondance de 67 %.
Google Gemini suit de près avec 63 %.
Microsoft Copilot atteint 44 %.
ChatGPT‑3.5, ChatGPT‑4o et Claude affichent chacun 33 %, révélant un écart important vis‑à‑vis des lignes directrices établies.

L’étude met aussi en évidence une variabilité de la cohérence interne des réponses générées par l’IA, allant de 26 % à 68 %. La fidélité intra‑juge était globalement élevée, avec des niveaux allant d’« presque parfaite » à « substantielle ». La fidélité inter‑juge variait de « presque parfaite » à « modérée ».

Implications pour les professionnels de santé

Ces résultats rappellent la nécessité de la prudence lorsqu’on considère des conseils de santé générés par l’IA. Les chatbots peuvent servir d’outils complémentaires, mais ils ne doivent pas se substituer au jugement clinique. La variabilité de l’exactitude et de l’adhésion aux lignes directrices indique que les recommandations générées par l’IA ne sont pas toujours fiables.
Pour les professionnels des disciplines apparentées — orthophonistes, ergothérapeutes, physiothérapeutes/kinésithérapeutes, entre autres — les chatbots d’IA peuvent fournir des informations utiles. Il reste toutefois essentiel d’évaluer de manière critique ces contenus et de les recouper avec les recommandations cliniques à jour et l’expertise personnelle.

Conclusion

Si les chatbots d’IA peuvent améliorer l’accès rapide à l’information et potentiellement renforcer la prise en charge, leurs limites actuelles en matière d’alignement sur les recommandations fondées sur les preuves imposent une approche prudente. Les professionnels de santé devraient utiliser ces outils pour augmenter leur pratique, en veillant à ce que les conseils générés par l’IA soient mobilisés de façon responsable et toujours en complément de l’expertise clinique.

Leave a Comment Cancel Reply