. 对偶形式 上面介绍的并行化是必要的但对于“实际运行时间”(-k )的效率来说还不够。 然而现实中是无法对单个来计算所有的。相反需要个外积来对其进行一一计算。更糟糕的是对于每个 是这会比大产生更大的内存占用和成本。 为了解决这两个问题研究人员观察到:我们实际上并不需要具体化, . . . , 只要要我们可以在-结束时计算并且输出k , . . . , (如上图所示)。 现在就可以用上面简化的-情况来演示这些计算表示 = [, . . . , ]: 所以可以用方便地计算出来。为了计算 = [, . . . , ]我们知道: 表示 和矩阵 可以得出: 如上过程研究人员将其称为「对偶形式」。
. 理论等价 前面已经提到可 乌克兰电话号码表 以是线性模型也可以是神经网络。还有更新规则的三种变体: 、 和- 。 如下图所示在这些组合中每一种都会引起层的不同实例化。 研究中作者分别从个定理证明了在这些诱导实例中具有线性模型和 的层等同于线性注意力——一个广为人知的层。 图总结了所有序列建模层的更广泛范围内层的一般定义。 . 两种变体 研究中作者提出了层的两种变体-和-仅在的实例化方面有所不同。 对于- 其中是平方。对于-有两层类似于的。 具体来说隐藏维度是输入维度然后是激活。为了在期间获得更好的稳定性始终包含层归一化 和残差连接。
即 其中可以是或。 实验 通过与两个基线和(现代)比较研究人员评估了-和-。 数据集 继续论文之后研究人员在上执行了k和k上下文长度的标准实验是一个用于训练开源的流行文档数据集。 主架构 和使用不同的除非另有说明-和-始终使用架构。 . 短上下文: 在k上下文中-、和具有相当的性能线条大部分重叠。 -在较大的预算下表现稍差。尽管-在每个模型大小上都比-具有更好的复杂度但的额外成本抵消了这种优势。 在k上下文中-和-的表现均明显优于。即使是具有架构的-性能也比略好。 另外研究人员还观察到了一个非常明显的现象:随着上下文长度变长层相对于的优势就更大了。