显然,如果o走MCTS搜索技术的道路,然后将COT分成更薄的部分(增加搜索树的深度)或者建议更多可能的选择(增加节点分支,即树的宽度),则搜索空间越大,找到好的COT路径的可能性越高,效果越好,训练和推理需要更多的计算能力。这种效果似乎随着计算能力的增加而增加,这就是所谓的强化学习缩放定律。这其实就是树搜索的本意,我觉得称这个RL缩放定律有点名不副实。 。假设腾讯科技周晓安、郝博昂:PRM只有在答案不可接受或者使用更经济的Beam搜索时才进行MCTS式搜索。
关于响应时间和令牌消耗,根据Hackernews上使用该API的开 秘鲁电话号码表 发者的计算,o用于思考的token比响应token大数倍,而响应token是GPT-o mini不思考时使用的token。链接6次。如果您使用可以查看三个步骤并在每个步骤中形成 5 个候选的前瞻,则单深度前瞻搜索将消耗 5 倍的标记。但如果推理链每一步都需要向前搜索,那将远远超过 token 次数。另外,由于MCTS计算量较大,目前o的反馈时间还远远不够。
但如果只用思维链,即使是非常复杂的问题,代币消耗也会高达5倍。它的消耗量大了6倍。 。假设北大对齐团队:o使用的技术关键是强化学习的搜索和学习引擎。让模型学习推理,然后在训练后阶段使用足够强大的计算来实现缩放。类似于 -a 的扩展版本。模型学习产生合理推理的过程,而MCTS的作用是诱导合理推理过程的生成或构造适当的偏序对以形成细粒度的奖励信号,而不是直接寻求过程和最终答案。为了优化这个过程,已经开发了多种方法,包括在令牌或条款级别提供奖励信号,以帮助模型调整生成的响应。