中国之声 | 何明光、施丹莉团队在Nature子刊发表全球首个眼科图像解读的视觉-大语言模型多模态集成智能系统——FFA-GPT

2024-08-07 09:14:34来源：香港理工大学眼科视光学院阅读：310次

引言

在眼科领域，眼底荧光素血管造影（Fundus Fluorescein Angiography, FFA）检查是诊断和评估多数视网膜疾病的重要诊断工具，但其解读难度大且流程复杂，这使得FFA检查仅能在有丰富临床经验的眼底专科医生的医疗机构开展。以往人工智能技术已经研发了很多工具来辅助FFA图像解读，但这些工具局限在简单分类且缺乏眼科医生的专业验证。

近日，香港理工大学眼科视光学院何明光, 施丹莉团队在Nature子刊《npj Digital Medicine》（IF=15.2）上发表了题为“FFA-GPT: an automated pipeline for fundus fluorescein angiography interpretation and question-answer”的研究论文，构建了全球首个眼科图像解读的视觉-大语言模型多模态集成智能系统——FFA-GPT。

FFA-GPT系统有效结合了深度学习技术和大语言模型的优势，实现了眼科影像自动化报告生成与互动问答功能，有望实现眼科图像的智能辅助诊疗，提高眼科医护人员服务质量并改善眼病患者的就诊体验。

图1 本文于2024年5月在《npj Digital Medicine》杂志在线发表

研究背景

视网膜作为评估眼部健康的窗口，FFA检查是诊断和评估大多数眼底疾病的金标准。然而，FFA图像的解读高度依赖于经验丰富的眼底病专科医生，且耗费大量时间和精力。面对眼科成像数据的激增，传统医疗工具已难以满足日益增长的需求。

当前，人工智能辅助工具在医学报告生成方面虽提供了一些帮助，但在交互性和全面专业评估方面仍存在不足。更重要的是，这些系统往往忽视了在FFA报告生成后，为患者提供深入解释的重要性。这一环节，不仅是提升患者对临床信息的理解，更是为医生节省宝贵时间的核心步骤。由于报告的专业性，患者往往难以全面理解，不得不寻求额外的专家咨询。

在此背景下，全球范围内以ChatGPT为代表的大语言模型（Large Language Models, LLM）的飞速发展为眼科领域带来了新的机遇。我们迫切需要整合先进的人工智能技术，打造一款更高效、准确且具备交互性的FFA解读系统，以适应现代智能医疗服务的需求。

创新概述

图2 FFA-GPT系统概览

针对上述技术空白与临床需求，研究团队开发了全球首个眼科图像的视觉-大语言模型集成系统FFA-GPT（图2）。FFA-GPT系统由多模态视觉语言模块和GPT模块构成，研究团队采用Bootstrapping Language-Image Pre-training模型实现将眼科图像转化为专业的医学报告，大幅提升了报告生成的效率与准确性，减轻了对眼科专家的依赖。同时，系统引入的GPT模块（Llama 2）通过优化交互式问答，显著提高了医患沟通的质量。基于超过65.4万张涵盖30余种眼科疾病的FFA图像及其对应报告数据和知识，FFA-GPT系统完成了高效优化训练，提供了一站式的眼科报告生成及个性化互动问答功能。

图3 FFA-GPT系统眼科医生专业评估结果

在完成FFA-GPT系统构建后，研究团队对其进行了全面评估，包括准确性、完整性、安全性和用户满意度等多个维度。在自动生成报告的测试中，FFA-GPT的表现与原始报告高度一致，展现了其卓越的医学语言生成能力。在疾病识别方面，系统在微血管瘤、糖尿病视网膜病变和眼底激光斑等病变上的识别准确率超过90%。更为重要的是，FFA-GPT生成的报告和问答得到了眼科医生的专业认可（见图3）。评估结果显示，大多数报告和问答符合眼科医生的标准，准确度达70.7%，完整度为84.0%，安全性达93.7%，满意度为65.3%。

研究意义

图4 FFA-GPT系统应用实例

FFA-GPT系统不仅具备眼科影像的自动分析能力，还能进行开放式互动问答（图4），为FFA图像的解读提供了一站式的自动化解决方案。例如，在为FFA图像撰写专业报告的环节，FFA-GPT系统可以自动化生成初步报告，眼科医生参考初步报告进行核对、修正、确认，将大大减少医生的工作量并有望避免疲劳导致的诊断误差，从而提升诊疗效率和准确率。同时，在与患者沟通FFA报告环节，FFA-GPT系统能以更加通俗易懂的方式，协助医生解释医学概念和指导建议，有助于提高患者依从性和就诊体验。未来，该系统将集成到应用程序中，通过移动界面供用户便捷访问。我们期待，随着系统的不断验证与完善，这项创新技术将广泛应用于临床实践，全面提升全球眼病患者的生活质量。

作者信息

香港理工大学一年级博士生陈晓兰、张葳沂（导师为何明光教授）为本文共同第一作者。香港理工大学研究助理教授施丹莉为本文通讯作者，何明光教授为最后作者。