2024年4月19日,南方医科大学研究团队在《医学互联网研究杂志》(Journal Of Medical Internet Research,IF=7.4)发表题为"Multimodal ChatGPT-4V for ECG Interpretation: Promise and Limitations"论文,探讨了多模态ChatGPT-4V在心电图解读方面的前景及局限性。
心电图(ECG)解读作为心血管医学的核心技能,其准确性与效率至关重要。近年来,人工智能(AI)技术的迅猛发展,为心电图解读的自动化提供了可能性。作为生成式AI技术的杰出代表,ChatGPT在心血管医学领域的应用前景备受瞩目。
尽管ChatGPT在诸多领域展现出了卓越的性能,但由于早期版本无法处理图形信息,其在心电图解读方面的能力一直未能得到有效评估。然而,随着新发布的ChatGPT-4V(Vision)模型增加了视觉识别能力,直接读取和解释心电图波形已成为可能。因此,本研究旨在全面评估ChatGPT-4V在心电图波形分析中的表现。
本研究精心挑选了一系列与心电图波形解读相关的多项选择题,这些题目涵盖了美国心脏协会的高级心血管生命支持(ACLS)考试、USMLE样本题、AMBOSS的USMLE练习题以及认证心电图技术员(CET)练习考试等多个方面。为确保研究的准确性和可靠性,我们共收集了62个问题,包括诊断类问题、治疗建议类问题以及计算类问题。针对每个问题,我们均收集了ChatGPT的三次回答,并采用了严格的评估标准来衡量其准确性。
研究结果表明,ChatGPT-4V在心电图波形分析中的表现总体良好。具体而言,在至少获得一个正确答案的评估标准下,其总体准确率为83.87%;而在要求至少获得两个正确答案的情况下,准确率为70.97%;当要求三次回答均正确时,准确率为53.23%。这一结果充分展示了ChatGPT-4V在心电图波形分析方面的潜力。
此外,本研究还通过Fisher精确检验对ChatGPT在回答不同类型问题时的准确性进行了比较。结果显示,在获得一个或两个正确答案的情况下,问题类型之间存在显著的准确率差异;然而,当要求三次回答均正确时,这种差异则不再显著。这一发现为我们进一步了解ChatGPT在不同类型问题上的表现提供了重要线索。
值得注意的是,本研究还发现ChatGPT-4V在不依赖选项的情况下进行心电图诊断的能力有限。当将诊断类问题转换为开放式问题时,ChatGPT的表现并不理想,仅在少数情况下能够正确诊断心电图。这一结果提示我们,当前版本的ChatGPT在心电图诊断方面的能力仍受限于有限的选项范围。
同时,本研究还发现ChatGPT-4V在精确定量测量方面存在局限性。例如,其在处理涉及PR间期等参数的计数问题时表现出明显的不足。此外,ChatGPT-4V在整合心电图参数以进行具体诊断方面也存在一定的挑战。这些发现为我们指出了ChatGPT-4V在心电图解读方面的不足之处,并为我们未来的研究提供了方向。
综上所述,本研究首次全面评估了ChatGPT-4V模型在心电图解读方面的能力。尽管早期结果令人鼓舞,但我们也必须清醒地认识到该模型在稳定性和可靠性方面仍有待提高。展望未来,随着数据和训练的积累以及技术的不断进步,我们有理由相信ChatGPT-4V在心电图解读和心血管护理领域的应用将会更加广泛和深入。同时,我们也期待未来更多的研究能够进一步挖掘和发挥ChatGPT等生成式AI技术在医疗领域的潜力。
文献:
Multimodal ChatGPT-4V for ECG Interpretation: Promise and Limitations. J Med Internet Res. 2024 Apr 19. doi: 10.2196/54607. Epub ahead of print. PMID: 38764297.
|