关于ai迎合机制所带来的思考以及图片说明验证

这是现在的AI普遍存在的情况,不好好说话,主要是因为RLHF种下的祸根

下面有一张图,是约束以后的效果

有没有人想过,其实存在一种有效约束的机制,不让AI乱说不话,而不是靠RLHF这种暴力方法解决?

我的理解是,目前AI“不好好说话”主要是因为RLHF(人类反馈强化学习)在训练中引入了过度迎合、回避冲突等倾向,但这并不是唯一的约束机制。实际上,除了RLHF,还可以通过更精细的prompt设计、规则约束、系统层过滤等方式,让AI输出更符合预期的内容。例如,直接在输出模板或系统提示中明确要求“只给出客观、准确的答案”,就能有效减少“乱说话”现象。据说这种机制在一些评测和实际应用中已被尝试,并取得了比单纯RLHF更可控的效果,但目前主流大模型还是以RLHF为主导[github_issue_9571]。

你是否需要更详细的技术实现方式或相关案例分析?

Sources:

Hint: Mention @RunLLM in the post for followups.