这些挑战大致来自个方面

Showcase, discuss, and inspire with creative America Data Set.
Post Reply
sami
Posts: 441
Joined: Wed Dec 25, 2024 1:00 pm

这些挑战大致来自个方面

Post by sami »

因为UI在服务端那就需要有个在服务端生成UI的框架很麻烦的一个东西 2多个“纵向”工程小组各自对其智能体拥有自主权例如: 个性化帖子摘要 岗位匹配度评估 面试技巧 3那些东西对我们有用: 分而治之但限制智能体的数量 建立一个中心化的通过多轮对话支撑的评估过程 共享提示词模板如“身份”定义、UX模板、工具及指令 3. 评价输出好坏 评估我们回答的质量比预期的要困难得多。

这些挑战大致来自个方面:制定指南、扩展标注和自动评估。 制定指南:以岗位评估为例:点击“评估我是否适合这份工作”却得到“你非常不适合”的结果其实没啥用。我们希望它既具有事实性又充满同理心。有些 坦桑尼亚电话号码列表 用户可能正在考虑转行到他们目前并不十分适合的领域并需要帮助了解差距和下一步行动。

不能确保这些细节的一致性就没法让保持标注者保持评分的一致性。 扩展标注:最初团队中的每个人都参与了讨论产品、工程、设计等但我们知道我们需要一个更加有原则的方法拥有一致且多样化的标注者。我们内部的语言学家团队建立了工具和流程使我们能够每天评估多达500次对话并获得以下方面的指标:整体质量分数、幻觉率、负责任的人工智能违规情况、连贯性、风格等。

这成为我们了解趋势、迭代提示词并确保我们准备好上线的主要参考点。 自动评估是终极目标但仍在进行中:没有它工程师只能依靠主观判断和对有限示例的测试并且需要1天以上的时间才能获得反馈。我们正在构建基于模型的评估器来估算上述指标并允许更快的实验我们在幻觉检测方面取得了一些成功但这并不容易!。
Post Reply