登录
主页
结合召回和生成的KBQA模型(FiD)
2025-08-24
  
1153
深数据
FiD(Fusion-in-Decoder)是Facebook AI Research(FAIR)提出的检索-生成一体化知识密集型问答模型,通过动态融合外部知识库与生成式语言模型,实现高效准确的多跳推理。其核心设计突破传统检索-阅读流水线的局限性,在解码器阶段直接整合多段落信息,尤其适用于开放域问答(OpenQA)和复杂事实推理任务。FiD(Fusion-in-Decoder)结合召回和生成的KBQA模型,利用外部知识库增强问答。通过检索相关文本并与问题拼接,解码器融合多源信息生成答案。
项目地址:https://github.com/facebookresearch/FiD
一、技术架构
FiD的架构围绕动态检索-生成闭环展开,通过以下模块实现知识融合:
1. 双塔式检索器(Dual-Encoder Retriever)
检索单元:采用BM25或DPR(Dense Passage Retrieval)从维基百科等开放知识库中召回与问题相关的段落。例如,在回答“爱因斯坦获得诺贝尔奖的原因”时,检索器会返回“光电效应”“相对论验证争议”等段落。
动态阈值过滤:通过计算段落与问题的语义相似度(如余弦距离),仅保留前K个高置信度段落(通常K=10-20),显著减少冗余信息。
2. 解码器融合机制(Decoder Fusion)
并行编码:将检索到的多段落文本与问题拼接为独立输入序列,通过预训练语言模型(如T5或BART)生成上下文向量\\( \\mathbf{H}_1, \\mathbf{H}_2, \\dots, \\mathbf{H}_K \\)。
交叉注意力机制:解码器在生成答案时,动态关注不同段落的关键信息。例如,在回答“图灵奖首位女性得主”时,模型会同时聚焦“Frances E. Allen的贡献”和“IBM编译器优化项目”的关联段落。
3. 联合训练框架
端到端优化:检索器与阅读器共享部分参数,通过交叉熵损失联合优化检索准确性与生成质量。例如,在训练中通过对比学习(Contrastive Learning)增强段落语义表示的区分度。
二、核心技术突破
1. 多段落信息的动态聚合
传统模型(如BERT-QA)仅能处理单一段落,而FiD通过解码器层的多头注意力实现多段落信息的高效整合。这种设计使模型能捕捉跨段落的逻辑关系(如因果、时间顺序),例如从“相对论提出”→“验证实验争议”→“诺贝尔奖最终颁奖依据”的推理链。
2. 检索-生成的协同优化
硬负例挖掘:在训练中随机替换正确段落为无关段落,迫使模型学习区分有效信息与噪声。例如,在回答“光合作用产物”时,将“叶绿体结构”替换为“线粒体功能”作为负样本。
软检索增强:通过可微分检索器(Differentiable Retriever)将检索概率分布作为隐变量融入生成过程,实现端到端的检索-生成联合优化。
3. 可解释性增强
FiD通过注意力权重可视化展示生成答案时对不同段落的依赖程度。例如,在回答“蒙娜丽莎创作者国籍”时,模型会高亮“达芬奇”→“佛罗伦萨”→“意大利”的推理路径,与CogQA的认知图谱解释形成互补。
三、性能表现与应用场景
1. 基准测试结果
开放域问答:在NaturalQuestions(NQ)和TriviaQA数据集上,FiD的Exact Match(EM)得分分别达到58.3%和74.5%,显著优于传统检索-阅读模型(如DrQA的43.2%和61.1%)。
多跳推理:在HotpotQA-Hard数据集上,FiD通过动态融合多段落信息,F1分数达67.8%,超越基于知识图谱的模型(如MHGRN的62.3%)。
2. 典型应用场景
事实核查:在处理“疫苗副作用”等争议性问题时,FiD可同时检索权威医学文献与社交媒体讨论,生成平衡的解释性答案。
多语言问答:通过跨语言预训练(如mT5),FiD在XQuAD等多语言数据集上实现跨语言迁移,西班牙语问答的EM得分提升12%。
垂直领域深度问答:在医疗领域,FiD结合临床指南与病例数据,生成个性化治疗建议,例如从“症状-检验结果”推理出“糖尿病分型→用药方案”的完整路径。
四、与其他模型的对比
| 维度 | FiD | 传统检索-阅读模型(如DrQA) | 知识图谱问答(如MHGRN) |
|------------------|----------------------------------|-------------------------------|---------------------------|
| 推理深度 | 支持多跳(3-5跳) | 单跳或简单多跳 | 依赖预定义关系路径 |
| 数据适应性 | 百万级非结构化文本处理 | 千级文档 | 结构化知识图谱 |
| 可解释性 | 注意力权重可视化 | 句子级证据标注 | 规则链解释 |
| 计算效率 | 动态过滤减少60%冗余计算 | 全量段落处理 | 需预构建图谱 |
五、结言
FiD通过动态检索-生成闭环与多段落深度融合,重新定义了知识密集型问答的技术范式。其核心价值不仅在于性能提升,更在于为复杂推理提供了可解释、可验证的框架。随着知识图谱增强、因果推理建模及多模态扩展,FiD有望在智能客服、科研辅助等场景中实现更广泛的应用,推动可信AI的发展。
点赞数:8
© 2021 - 现在 杭州极深数据有限公司 版权所有 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号