Mamba:具有选择性状态空间的线性时间序列模型
为了提高Transformer处理长序列的效率,研究人员们提出了线性注意力、门控卷积、循环模型、以及SSMs。其中,SSMs模型虽然能够高效的处理长序列数据,但是性能却没有基于注意力的优越。Mamba作者们发现这种模型性能不足的主要原因是无法执行基于内容的推理
为了提高Transformer处理长序列的效率,研究人员们提出了线性注意力、门控卷积、循环模型、以及SSMs。其中,SSMs模型虽然能够高效的处理长序列数据,但是性能却没有基于注意力的优越。Mamba作者们发现这种模型性能不足的主要原因是无法执行基于内容的推理
状态空间模型是一个描绘系统随时间变化的动态行为,被广泛应用在控制理论、机器人、以及经济学。状态空间模型通过一系列隐藏变量,被称为“状态”,高效的捕获时序数据的依赖关系,从而具象化形态的行为。确切的说,状态空间模型由两种方程构成,分别是:状态方程和观测方程,从而构建时刻$t$输入$x(t)\in\mathbb{R}$和输出$y(t)\in\mathbb{R}$的关系。其中,隐藏状态$h(t)\in\mathbb{R}^N$的维度为$N$。