在训练 Deepseek R1 时,研究人员会奖励 LLM 生成正确的思路链。也就是说,只要模型的推理正确,即使答案错误,它也会获得奖励。
这使得模型在很多情况下都能给出准确的结果。此外,还存在一些突发行为,即模型会在解决特定问题的过程中改变其推理逻辑。
当您了解到 Deepseek R1 中的 GRPO 学习可以提炼为更小的模型时,这种性能变得更加重要。
预订演示横幅
当然,Deepseek 可能拥有 GPU 集群来支持 70 亿个参数模型 伊朗电报号码数据 的训练。然而,大多数开源研究人员和学者无法获得这些资源。
因此,Deepseek R1 也开创了一种蒸馏模型。该模型的学习和能力可以被提炼到另一个模型中,以便更好地利用。
这分两个步骤进行:
1. 知识提炼的第一步是为规模较小的 LLM 创建训练数据。为此,他们使用 DeepSeek-R1 生成 80 万条响应,并使用即时数据集创建 DeepSeek R1 模型。
Deepseek R1 模型使用这些独特的方法来创建具有极高质量和思路链的响应。(因为它的架构/参数能够找到良好的响应结构/模式)。
2. 第二步是采用较小的开源基础模型(Qwen 或 Llama),然后使用 Deepseek R1 生成的 800k 数据集进行重新训练,Deepseek R1 就像一位“非常高质量的老师”。