2024-08-07 09:14:34来源:香港理工大学眼科视光学院阅读:95次
在眼科领域,眼底荧光素血管造影(Fundus Fluorescein Angiography, FFA)检查是诊断和评估多数视网膜疾病的重要诊断工具,但其解读难度大且流程复杂,这使得FFA检查仅能在有丰富临床经验的眼底专科医生的医疗机构开展。以往人工智能技术已经研发了很多工具来辅助FFA图像解读,但这些工具局限在简单分类且缺乏眼科医生的专业验证。
近日,香港理工大学眼科视光学院何明光, 施丹莉团队在Nature子刊《npj Digital Medicine》(IF=15.2)上发表了题为“FFA-GPT: an automated pipeline for fundus fluorescein angiography interpretation and question-answer”的研究论文,构建了全球首个眼科图像解读的视觉-大语言模型多模态集成智能系统——FFA-GPT。
FFA-GPT系统有效结合了深度学习技术和大语言模型的优势,实现了眼科影像自动化报告生成与互动问答功能,有望实现眼科图像的智能辅助诊疗,提高眼科医护人员服务质量并改善眼病患者的就诊体验。
图1 本文于2024年5月在《npj Digital Medicine》杂志在线发表
视网膜作为评估眼部健康的窗口,FFA检查是诊断和评估大多数眼底疾病的金标准。然而,FFA图像的解读高度依赖于经验丰富的眼底病专科医生,且耗费大量时间和精力。面对眼科成像数据的激增,传统医疗工具已难以满足日益增长的需求。
当前,人工智能辅助工具在医学报告生成方面虽提供了一些帮助,但在交互性和全面专业评估方面仍存在不足。更重要的是,这些系统往往忽视了在FFA报告生成后,为患者提供深入解释的重要性。这一环节,不仅是提升患者对临床信息的理解,更是为医生节省宝贵时间的核心步骤。由于报告的专业性,患者往往难以全面理解,不得不寻求额外的专家咨询。
在此背景下,全球范围内以ChatGPT为代表的大语言模型(Large Language Models, LLM)的飞速发展为眼科领域带来了新的机遇。我们迫切需要整合先进的人工智能技术,打造一款更高效、准确且具备交互性的FFA解读系统,以适应现代智能医疗服务的需求。
图2 FFA-GPT系统概览
针对上述技术空白与临床需求,研究团队开发了全球首个眼科图像的视觉-大语言模型集成系统FFA-GPT(图2)。FFA-GPT系统由多模态视觉语言模块和GPT模块构成,研究团队采用Bootstrapping Language-Image Pre-training模型实现将眼科图像转化为专业的医学报告,大幅提升了报告生成的效率与准确性,减轻了对眼科专家的依赖。同时,系统引入的GPT模块(Llama 2)通过优化交互式问答,显著提高了医患沟通的质量。基于超过65.4万张涵盖30余种眼科疾病的FFA图像及其对应报告数据和知识,FFA-GPT系统完成了高效优化训练,提供了一站式的眼科报告生成及个性化互动问答功能。
图3 FFA-GPT系统眼科医生专业评估结果
在完成FFA-GPT系统构建后,研究团队对其进行了全面评估,包括准确性、完整性、安全性和用户满意度等多个维度。在自动生成报告的测试中,FFA-GPT的表现与原始报告高度一致,展现了其卓越的医学语言生成能力。在疾病识别方面,系统在微血管瘤、糖尿病视网膜病变和眼底激光斑等病变上的识别准确率超过90%。更为重要的是,FFA-GPT生成的报告和问答得到了眼科医生的专业认可(见图3)。评估结果显示,大多数报告和问答符合眼科医生的标准,准确度达70.7%,完整度为84.0%,安全性达93.7%,满意度为65.3%。
图4 FFA-GPT系统应用实例
FFA-GPT系统不仅具备眼科影像的自动分析能力,还能进行开放式互动问答(图4),为FFA图像的解读提供了一站式的自动化解决方案。例如,在为FFA图像撰写专业报告的环节,FFA-GPT系统可以自动化生成初步报告,眼科医生参考初步报告进行核对、修正、确认,将大大减少医生的工作量并有望避免疲劳导致的诊断误差,从而提升诊疗效率和准确率。同时,在与患者沟通FFA报告环节,FFA-GPT系统能以更加通俗易懂的方式,协助医生解释医学概念和指导建议,有助于提高患者依从性和就诊体验。未来,该系统将集成到应用程序中,通过移动界面供用户便捷访问。我们期待,随着系统的不断验证与完善,这项创新技术将广泛应用于临床实践,全面提升全球眼病患者的生活质量。
香港理工大学一年级博士生陈晓兰、张葳沂(导师为何明光教授)为本文共同第一作者。香港理工大学研究助理教授施丹莉为本文通讯作者, 何明光教授为最后作者。