不能确保这些细节的一致性就没法让保持标注者保持评分的一致性。
扩展标注
最初团队中的每个人都参与了讨论产品、工程、设计等但我们知道我们需要一个更加有原则的方法拥有一致且多样化的标注者。我们内部的语言学家团队建立了工具和流程使我们能够每天评估多达次对话并获得以下方面的指标:整体质量分数、幻觉率、负责任的人工智能违规情况、连贯性、风格等。
这成为我们了解趋势、迭代提示词并确保我们准备好上线 波斯尼亚和黑塞哥维那电话号码列表 的主要参考点。 自动评估是终极目标但仍在进行中:没有它工程师只能依靠主观判断和对有限示例的测试并且需要天以上的时间才能获得反馈。我们正在构建基于模型的评估器来估算上述指标并允许更快的实验我们在幻觉检测方面取得了一些成功但这并不容易!。
智能体产品案例深度思考和分享全球顶级公司实践细节做智能体必读 图:我们执行的评估步骤。 工程师进行快速、粗略的评估以获得方向性度量和判断。标注者提供更详细的反馈但大约需要天的时间。测试成员是最终的评判者并为我们提供规模性的反馈但单个更改的某些度量可能需要天以上的时间。