Évaluer les chatbots d’IA pour des conseils de santé fondés sur les preuves : perspective 2025

À mesurer que l'intelligence artificielle invite dans tous les secteurs, son application en santé Suscite une attention particulière. Une étude récente publiée dans Les frontières de la santé numérique a évalué la précision de plusieurs chatbots — ChatGPT-3.5, ChatGPT-4o, Microsoft Copilot, Google Gemini, Claude et Perplexity — pour quatre des conseils de santé fondés sur les préuves, avec un focus spécifique sur la doubleur radiculaire lombo‐sacré.

Aperçu de l'étude

L'étude a consisté à soumettre neuf questions cliniques liées à la douche radiculaire lombo-sacrée aux dernières versions des chatbots mentionnés. Ces questions étaient élaborées à partir de recommandations de pratique clinique (RPC) reconnues. Les réponses de chaque modèle ont été évaluées selon la cohérence, la fiabilité et l'alignement avec les RPC. Le protocole d'évaluation comptable l'analyse de la cohérence textuelle, la fidélité intra‐juge et inter‐juge, ainsi que le lien de correspondance avec les RPC.

Principes fondamentaux

Perplexité a montré la meilleure adhésion aux RPC, avec un trait de correspondance de 67 %.
Google Gemini costume de près avec 63 %.
Copilote Microsoft Atteint 44 %.
ChatGPT-3.5, ChatGPT-4o et Claude Affichent chaque 33 %, présentant un événement important vis-à-vis des lignes directes établies.

L'étude met aussi en évidence une variabilité de la cohérence interne des réponses générales par l'IA, allant de 26 % à 68 %. La fidélité intra‐juge était globalement élevée, avec des niveaux allant d (en milliers de dollars)« parfaite presque » à « substance ». La fidélité interjuge variait de « parfaite presque » à « modéré ».

Implications pour les professionnels de santé

Ces résultats correspondent à la nécessité de la prudence lors de l'examen des conseils de santé généraux par l'IA. Les chatbots peuvent servir d'outils complémentaires, mais ils ne doivent pas se substituer au jugement clinique. La variabilité de l'exactitude et de l'adhésion aux lignes directes Indique que les recommandations générales par l'IA ne sont pas toujours fiables.
Pour les professionnels des disciplines apparentes — orthophonistes, ergotérapeutes, physiothérapeutes/kinésithérapeutes, entre autres — les chatbots d.IA peu fournir des informations utiles. Il reste tout sauf nécessaire d'évaluer de gestion critique ces contenus et de les récupérer avec les recommandations cliniques à jour et l'expertise personnelle.

Conclusion

Si les chatbots d'IA peuvent améliorer l'accès rapide à l'information et pouvoir renforcer la prise en charge, les limites actuelles en matière d'information d'information sur les recommandations fondées sur les premières imposées une approche prudente. Les professionnels de santé doivent utiliser ces outils pour augmenter leur pratique, en voilant à ce que les conseils généraux par l'IA sont mobiles de fait responsable et toujours en complément de l'expertise clinique.

Évaluer les chatbots de l'IA pour des conseils de santé fondés sur les premières : perspective 2025

Laissez un commentaire Annuler la réponse