Evaluating AI Chatbots in Evidence-Based Health Advice: A 2025 Perspective

À mesure que l'intelligence artificielle continue d'imprégner divers secteurs, son application dans les soins de santé a suscité une attention considérable. Une étude récente publiée dans Les frontières de la santé numérique évalué la précision de plusieurs chatbots AI—ChatGPT-3.5, ChatGPT-4o, Microsoft Copilot, Google Gemini, Claude et Perplexité—en fournissant des conseils de santé fondés sur des données probantes, axés plus particulièrement sur la douleur radiculaire lombosacrale.

Aperçu de l'étude

L'étude comprenait la pose de neuf questions cliniques liées à la douleur radiculaire lombosacrale aux dernières versions des chatbots anti-IA susmentionnés. Ces questions ont été conçues en fonction des lignes directrices établies en matière de pratique clinique (GPC). On a évalué la cohérence, la fiabilité et l'alignement de chaque réponse de chatbot avec les recommandations du CPG. Le processus d'évaluation comprenait l'évaluation de la cohérence du texte, de la fiabilité intra- et inter-évaluateurs et du taux de correspondance avec les CPG.

Principales constatations

Perplexité a démontré l'adhésion la plus élevée aux CPG, avec un taux de correspondance de 67%.
Google Gemini suivi de près avec un taux de correspondance de 63%.
Copilote Microsoft a atteint un taux de correspondance de 44%.
ChatGPT-3.5, ChatGPT-4oet Claude Chacun d'eux avait un taux de correspondance de 33 %, ce qui indique un écart important dans l'alignement sur les lignes directrices établies.

L'étude a également mis en évidence la variabilité de la cohérence interne des réponses générées par l'IA, allant de 26 % à 68 %. La fiabilité intra-rater était généralement élevée, les cotes variant de « presque parfaite » à « substantielle ». La fiabilité entre les taux a également montré une variabilité allant de « presque parfaite » à « modérée ».

Conséquences pour les professionnels de la santé

Les résultats soulignent la nécessité pour les professionnels de la santé de faire preuve de prudence lorsqu'ils envisagent des conseils de santé générés par l'IA. Bien que les chatbots AI puissent servir d'outils supplémentaires, ils ne devraient pas remplacer le jugement professionnel. La variabilité de l'exactitude et du respect des lignes directrices cliniques suggère que les recommandations générées par l'IA ne sont pas toujours fiables.

Pour les professionnels de la santé alliés, y compris les orthophonistes, les ergothérapeutes et les physiothérapeutes, les chatbots de l'IA peuvent fournir des renseignements précieux. Cependant, il est crucial d'évaluer de façon critique le contenu généré par l'IA et de le recouper avec les lignes directrices cliniques actuelles et l'expertise personnelle.

Conclusion

Bien que les chatbots de l'IA aient le potentiel d'améliorer la prestation des soins de santé en offrant un accès rapide à l'information, leurs limites actuelles à l'alignement sur les lignes directrices fondées sur des données probantes nécessitent une approche prudente. Les professionnels de la santé devraient tirer parti des outils d'IA pour accroître leur pratique, en veillant à ce que les conseils générés par l'IA soient utilisés de façon responsable et en collaboration avec l'expertise clinique.

Évaluation des chats d'IA dans les conseils de santé fondés sur des données probantes : une perspective 2025

Laissez un commentaire Annuler la réponse