ProgEmu 模型是由复旦大学团队研发的一款具有突破性的AI模型,于MICCAI 2025(国际医学图像计算和计算机辅助干预会议)上展示了其革命性进展,核心聚焦于医疗领域的疾病进展分析与模拟,为个性化治疗方案设计提供了重要技术支撑。
该模型的核心定位是通过统一处理医学影像与病理描述两大关键医疗数据,实现疾病进展的可视化模拟,打破了传统医疗模型中影像与病理信息分离处理的局限,让医护人员能够更直观、精准地预判疾病发展轨迹,进而优化治疗决策。
一、模型技术架构
ProgEmu 模型的技术优势源于其独特的三层技术架构,各模块协同作用,确保多模态数据的高效融合与精准处理,具体架构如下:
1.多模态符元化处理
作为模型的数据输入核心模块,该模块负责将非结构化的医学影像(如CT、MRI影像)和文本类病理描述,转化为模型可识别、可计算的统一符元格式,是实现跨模态融合的基础前提。具体而言,针对医学影像,先通过轻量化卷积神经网络(CNN)提取病灶区域的空间特征、灰度特征,再经过特征量化处理,将连续型影像特征映射为离散化符元;针对病理文本,采用医疗领域预训练语言模型(如BioBERT)进行分词、实体识别(提取病灶类型、病变程度、临床指标等关键信息),并将文本语义特征编码为与影像符元同维度的离散符元。同时,模块内置数据预处理单元,对影像进行去噪、归一化处理,对病理文本进行错别字修正、标准化表述统一(如“肺结节”与“肺部结节”统一编码),进一步消除数据异质性,确保影像中的病灶特征与病理描述中的疾病细节能够被全面、精准捕捉,为后续跨模态融合分析提供高质量数据支撑。
2.自回归生成机制
该机制是实现疾病进展模拟的核心,基于条件概率链式法则构建,能够基于历史医疗数据(包括患者过往的影像、病理记录),按照时间序列逐步生成疾病后续发展的模拟结果,核心逻辑是“基于过去预测未来”,且生成当前时间节点的结果时,仅依赖此前的历史数据,无法获取后续信息(通过因果掩码技术实现)。其具体实现中,采用改进型Transformer解码器作为核心架构,引入时序注意力掩码,重点关注近期医疗数据的变化趋势,同时通过残差连接与层归一化技术,缓解长时序建模中的梯度消失问题,提升模型训练稳定性。该机制支持动态调整模拟步长(可细化至每周、每月),能够精准模拟不同时间节点下病灶的体积变化、形态演变、浸润范围扩展,以及病理指标(如肿瘤标志物浓度)的波动规律,生成的疾病发展路径严格贴合患者个体的基础病情、治疗反应等差异,避免了通用化预测结果的局限性,为个性化治疗评估提供精准的时序参考。此外,通过温度参数调节生成结果的多样性与确定性,兼顾模拟的灵活性与准确性。
3.跨模态注意力机制
负责实现医学影像与病理描述之间的深度关联与交互,本质是让影像模态与文本模态相互“关注”对方的关键信息,实现语义与特征的精准对齐,其核心采用双分支交叉注意力结构,区别于自注意力机制(同一模态内的关联捕捉),专门用于建模两种不同模态之间的依赖关系。具体计算流程如下:首先,将多模态符元化处理后的影像符元作为查询(Query),病理文本符元作为键(Key)与值(Value),通过线性变换将两类符元映射至同一特征维度,确保关联计算的可行性;随后,通过点积运算计算影像符元与每个病理文本符元的关联强度,再除以缩放因子(键向量维度的平方根),避免数值过大导致softmax梯度消失;接着,通过softmax函数对关联强度进行归一化处理,得到注意力权重,权重越高代表对应文本符元与当前影像符元的关联越紧密;最后,将归一化后的注意力权重与值(Value)矩阵相乘,得到融合了病理文本关键信息的影像特征,同时引入模态融合门控单元,动态调节影像与文本特征的融合比例。该机制能够自动过滤无关信息(如影像中的正常组织区域、病理文本中的冗余描述),例如当模型分析肺部疾病时,会自动提升CT影像中结节形态特征与病理报告中“炎症浸润程度”“结节恶性倾向”等关键文本的注意力权重,精准挖掘二者之间的潜在关联,显著提升疾病进展模拟的准确性。
二、模型应用场景
目前,ProgEmu 模型的核心应用场景集中于医疗领域的个性化治疗方案设计,其可视化的疾病进展模拟能力,能够帮助医护人员对比不同治疗方案下的疾病模拟结果,直观判断每种方案的潜在疗效,进而为患者制定更具针对性、更优的治疗策略,有望降低治疗试错成本,提升医疗服务效率与质量。基于其独特的技术优势,该模型还拓展出多个实用医疗应用场景,覆盖治疗全流程与医学研究领域:一是临床疗效动态监测,通过定期输入患者的影像、病理数据,模型可实时更新疾病进展模拟结果,对比治疗前后的病情变化轨迹,精准评估治疗效果,及时发现治疗无效或病情恶化的迹象,帮助医护人员及时调整治疗方案,避免延误治疗;二是医学教学与培训,借助模型可视化的疾病进展模拟功能,可向医学生直观展示不同疾病(如肿瘤、慢性炎症)的演变过程,将抽象的病理变化转化为可观察的动态轨迹,辅助学生理解疾病发展规律,提升临床判断能力;三是高风险疾病筛查与预警,针对肺癌、肝癌等病程长、进展隐匿的疾病,模型可基于早期影像和病理线索,模拟疾病未来发展趋势,识别出高风险进展人群,为医护人员提供预警提示,助力实现疾病的早干预、早治疗;四是医学科研辅助,科研人员可利用模型批量模拟不同干预条件下的疾病进展情况,替代部分耗时耗力的动物实验,缩短科研周期,同时为新型治疗方法、药物的研发提供数据支撑,推动医疗科研成果的快速转化。
三、其他模型
为进一步明确ProgEmu模型的技术定位与核心竞争力,结合当前医疗AI领域同类研究成果,选取3款聚焦疾病预测与进展分析的相似模型(UNAGI、DT-GPT、MUSK)。
从各对比维度来看,四款模型的具体差异与共性如下:在研发团队方面,ProgEmu模型由复旦大学团队研发,UNAGI模型由麦吉尔大学丁俊教授、耶鲁大学Kaminski教授领衔团队打造,DT-GPT模型由澳大利亚墨尔本大学参与的研究团队研发,MUSK模型则由斯坦福大学医学院癌症研究所主导、中国学者领衔团队研发。核心定位上,四款模型均聚焦医疗领域的疾病预测与进展分析,助力精准医疗发展,但各有侧重:ProgEmu主打医疗领域疾病进展可视化模拟,核心聚焦影像与病理多模态融合以辅助个性化治疗;UNAGI侧重捕捉疾病进程中细胞动力学变化,构建虚拟疾病模型并模拟药物扰动效果;DT-GPT以生成患者“数字孪生体”为核心,综合分析健康数据以预测患者健康状况变化;MUSK则专注于病理图像与病历文本的深度融合,聚焦癌症预后及治疗反应预测。
核心技术架构层面,ProgEmu采用独特的三层架构,即多模态符元化处理、自回归生成机制与跨模态注意力机制相结合,搭配改进型Transformer解码器;UNAGI采用迭代变分自动编码器-生成对抗网络(iterative VAE-GAN)的无监督深度学习架构;DT-GPT基于现有大型语言模型优化,依托电子健康记录开展训练;MUSK则采用多模态融合架构,实现病理图像与临床文本的深度整合学习。数据处理方式上,四款模型差异显著:ProgEmu主要处理非结构化医学影像(如CT、MRI)与病理文本,通过统一转化为符元格式消除数据异质性;UNAGI专注处理时间序列单细胞转录组数据,将其压缩为疾病特异性低维隐空间表征以构建“虚拟细胞”;DT-GPT处理患者电子健康记录(包括病史、化验结果、诊断报告等),无需特殊格式转化;MUSK则聚焦处理海量病理图片(5000万张)与临床文本(100万份),实现双模态深度融合。
核心应用场景上,ProgEmu应用场景最为广泛,涵盖个性化治疗方案设计、临床疗效监测、医学教学、高风险疾病预警及科研辅助等领域;UNAGI主要应用于复杂疾病细胞动力学解析、虚拟药物扰动模拟、潜在治疗药物筛选(如肺纤维化相关筛选);DT-GPT侧重重症监护患者健康预测、阿尔茨海默病与肺癌预后评估及药物副作用预测;MUSK则集中应用于癌症预后评估、免疫治疗反应预测及癌症复发风险评估。核心优势与局限方面,ProgEmu的优势在于影像与病理多模态精准融合,疾病进展可视化、时序模拟精准且贴合个体差异,局限是目前成果仅在MICCAI 2025展示,尚未大规模临床验证,暂未拓展至罕见病领域;UNAGI的优势是细胞动力学捕捉准确性高,无需标注样本且虚拟药物扰动模拟可靠性强,局限是仅聚焦单细胞转录组数据,不支持医学影像与病理文本的跨模态融合处理;DT-GPT的优势是健康状况预测准确性优于同类模型,可预测多类健康指标变化且临床适配性广,局限是不涉及医学影像与病理数据的深度融合,对病灶形态变化的捕捉能力较弱;MUSK的优势是病理与文本融合深度高,癌症场景针对性强且预后评估精度突出,局限是无疾病进展可视化模拟功能,仅聚焦癌症领域,应用场景相对单一。
综上,ProgEmu与同类模型的核心共性的是均聚焦医疗领域的疾病预测与进展分析,助力精准医疗发展;核心差异在于ProgEmu以“影像+病理”双模态融合为核心,主打疾病进展的可视化、时序化模拟,更侧重为全流程治疗提供辅助,而其他模型各有侧重(如UNAGI侧重药物筛选、MUSK侧重癌症预后)。
四、模型潜力与展望
截至目前,ProgEmu 模型在MICCAI 2025上展示的成果已体现出其在医疗领域的巨大应用潜力,后续随着数据积累与模型优化,有望拓展至更多疾病类型的分析,进一步推动医疗AI从辅助诊断向精准预后预测、个性化治疗指导的深度延伸。