🎯 RLHF与对齐：让AI符合人类价值观的技术

让语言模型「听话」不是简单的事。RLHF（人类反馈强化学习）是目前最成功的对齐方法，但它也有深刻的局限。理解它的原理、成本和替代方案。