在I3D(Inflated 3D Convolution)模型出现之前,视频理解领域已经历了多轮技术探索与实践,其中LSTM、3D ConvNets和Two-StreamNetworks(双流网络)三种技术路线最具代表性。LSTM(长短期记忆网络)尝试在模型末端引入特殊设计的记忆单元,试图捕捉视频中的时间序列结构。这种网络结构通过门控机制,一定程度上缓解了传统循环神经网络(RNN)的梯度消失和梯度爆炸问题,能够处理较长的时间依赖。然而,LSTM在建模复杂时空关系时存在天然缺陷,其对空间特征的提取能力有限,且在处理大规模视频数据时,计算效率较低,难以精准刻画视频中物体在空间中的动态变化与相互关系。