图用代码说明了这种区别其中θK和θ被

rifattry7 · Post by **rifattry7** » Sat Dec 28, 2024 4:11 am

. 对偶形式上面介绍的并行化是必要的但对于“实际运行时间”（-k ）的效率来说还不够。然而现实中是无法对单个来计算所有的。相反需要个外积来对其进行一一计算。更糟糕的是对于每个是这会比大产生更大的内存占用和成本。为了解决这两个问题研究人员观察到：我们实际上并不需要具体化, . . . , 只要要我们可以在-结束时计算并且输出k , . . . , （如上图所示）。现在就可以用上面简化的-情况来演示这些计算表示 = [, . . . , ]：所以可以用方便地计算出来。为了计算 = [, . . . , ]我们知道：表示和矩阵可以得出：如上过程研究人员将其称为「对偶形式」。

. 理论等价前面已经提到可乌克兰电话号码表以是线性模型也可以是神经网络。还有更新规则的三种变体：、和- 。如下图所示在这些组合中每一种都会引起层的不同实例化。研究中作者分别从个定理证明了在这些诱导实例中具有线性模型和的层等同于线性注意力——一个广为人知的层。图总结了所有序列建模层的更广泛范围内层的一般定义。 . 两种变体研究中作者提出了层的两种变体-和-仅在的实例化方面有所不同。对于- 其中是平方。对于-有两层类似于的。具体来说隐藏维度是输入维度然后是激活。为了在期间获得更好的稳定性始终包含层归一化和残差连接。

即其中可以是或。实验通过与两个基线和（现代）比较研究人员评估了-和-。数据集继续论文之后研究人员在上执行了k和k上下文长度的标准实验是一个用于训练开源的流行文档数据集。主架构和使用不同的除非另有说明-和-始终使用架构。 . 短上下文：在k上下文中-、和具有相当的性能线条大部分重叠。 -在较大的预算下表现稍差。尽管-在每个模型大小上都比-具有更好的复杂度但的额外成本抵消了这种优势。在k上下文中-和-的表现均明显优于。即使是具有架构的-性能也比略好。另外研究人员还观察到了一个非常明显的现象：随着上下文长度变长层相对于的优势就更大了。