Journal Francais d'Ophtalmologie, cilt.49, sa.1, 2026 (SCI-Expanded, Scopus)
Purpose: To compare the diagnostic reasoning and case-based problem-solving abilities of ChatGPT o3-mini-high and DeepSeek-R1 in ophthalmological cases with text-based questions. Methods: Fifty-five consecutive text-based case-solving questions from nine ophthalmology subspecialties were posed to two reasoning-capable LLMs, ChatGPT o3-mini-high and DeepSeek-R1. For each case, the multi-component diagnostic reasoning approach described by Elstein was applied. Overall diagnostic accuracy, diagnostic agreement between the models, reasoning competence, subspecialty-specific performance, and the tendency to request additional prompts were recorded. Two expert ophthalmologists then independently rated each model's diagnostic reasoning ability for all questions, using the Global Quality Score, a five-point scale (1 = poor; 5 = excellent). Results: ChatGPT o3-mini-high correctly answered 80% of the questions, whereas DeepSeek-R1 achieved a correct response rate of 54.5% (P < 0.001), and Cohen's kappa coefficient was 0.462. ChatGPT o3-mini-high tended to request additional prompts for responses to fewer questions (2 vs. 12; P: 0.013). For both LLMs, the highest accuracy was observed in the retina/vitreous-related cases, while the lowest accuracy was noted in glaucoma-related cases. When Elstein's medical reasoning components were evaluated with the GQS, ChatGPT o3-mini-high achieved a median score of 4.5 (IQR 2.5–5.0), whereas DeepSeek-R1 achieved 2.5 (IQR 1.0–4.5) (P < 0.001). The weighted kappa was 0.407, indicating moderate agreement between the two models. Conclusion: This study provides evidence that ChatGPT o3-mini-high demonstrates superior diagnostic accuracy and reasoning capabilities in the analysis of ophthalmologic cases compared to DeepSeek-R1. Objectif: Comparer les capacités de raisonnement diagnostique et de résolution de problèmes basées sur des cas cliniques de ChatGPT o3-mini-high et DeepSeek-R1 dans des cas ophtalmologiques à l'aide de questions textuelles. Méthodes: Cinquante-cinq questions consécutives de résolution de cas, issues de neuf sous-spécialités en ophtalmologie, ont été soumises à deux modèles de langage de grande envergure dotés de capacités de raisonnement, ChatGPT o3-mini-high et DeepSeek-R1. Pour chaque cas, une approche de raisonnement diagnostique multi-composante, telle que décrite par Elstein, a été appliquée. L'exactitude diagnostique globale, le degré d'accord entre les modèles, la compétence en raisonnement, les performances spécifiques à chaque sous-spécialité, ainsi que la tendance à solliciter des compléments d'information ont été enregistrés. Deux ophtalmologistes experts ont ensuite évalué indépendamment les capacités de raisonnement diagnostique de chaque modèle pour l'ensemble des questions, en utilisant le Global Quality Score, une échelle en cinq points (1 = médiocre ; 5 = excellent). Résultats: ChatGPT o3-mini-high a correctement répondu à 80 % des questions, contre 54,5 % pour DeepSeek-R1 (p < 0,001), avec un coefficient kappa de Cohen de 0,462. ChatGPT o3-mini-high a demandé moins souvent des indications supplémentaires pour formuler une réponse (2 contre 12 ; p = 0,013). Pour les deux modèles, la précision la plus élevée a été observée dans les cas liés à la rétine/vitré, tandis que la plus faible concernait les cas de glaucome. Lorsque les composantes du raisonnement médical selon Elstein ont été évaluées à l'aide du Global Quality Score (GQS), ChatGPT o3-mini-high a obtenu un score médian de 4,5 (IQR 2,5–5,0), tandis que DeepSeek-R1 a obtenu un score médian de 2,5 (IQR 1,0–4,5) (p < 0,001). Le kappa pondéré était de 0,407, indiquant un accord modéré entre les deux modèles. Conclusion: Cette étude fournit des preuves que ChatGPT o3-mini-high présente une précision diagnostique et des capacités de raisonnement supérieures dans l'analyse de cas ophtalmologiques par rapport à DeepSeek-R1.