Transformer 是 2017 年由 Google 团队在《Attention Is All You Need》论文中提出的深度学习模型架构,它彻底摒弃了传统循环神经网络(RNN)、长短期记忆网络(LSTM)的“序列式计算”逻辑,采用全并行的自注意力机制(Self-Attention)作为核心,成为当前自然语言处理(NLP)、计算机视觉(CV)等领域的基础架构。其核心思想是以“注意力机制”为核心,让模型在处理每一个输入单元时,能同时关注到序列中所有其他单元的信息,打破了RNN类模型“按顺序处理、无法并行”的限制,关键组件包含编码器(Encoder)和解码器(Decoder)两大模块,以及自注意力机制、多头注意力、前馈神经网络和层归一化,核心优势是能更高效地捕捉输入序列中的长距离语义依赖,且计算过程可全并行,大幅提升了训练速度和模型性能。
记忆检索 vs 逻辑推理 vs 关联推理是人类/AI获取答案、分析问题的三种核心方式,核心差异在于「是否创造新信息」「是否依赖严谨规则」「是否存在必然关联」。一、记忆检索(Retrieval)“调取已知,不做加工”。本质:相当于查字典、翻存档文件,核心是「匹配已知信息并提取」,不进行任何推导、联想或创造,本质是“回忆并调出”。