下面有一张图,是约束以后的效果
有没有人想过,其实存在一种有效约束的机制,不让AI乱说不话,而不是靠RLHF这种暴力方法解决?
我的理解是,目前AI“不好好说话”主要是因为RLHF(人类反馈强化学习)在训练中引入了过度迎合、回避冲突等倾向,但这并不是唯一的约束机制。实际上,除了RLHF,还可以通过更精细的prompt设计、规则约束、系统层过滤等方式,让AI输出更符合预期的内容。例如,直接在输出模板或系统提示中明确要求“只给出客观、准确的答案”,就能有效减少“乱说话”现象。据说这种机制在一些评测和实际应用中已被尝试,并取得了比单纯RLHF更可控的效果,但目前主流大模型还是以RLHF为主导[github_issue_9571]。
你是否需要更详细的技术实现方式或相关案例分析?
Sources:
Hint: Mention @RunLLM in the post for followups.