OpenAI发布大模型安全对齐奖励方法——RBR

内容摘要随着ChatGPT等产品的广泛应用,确保其输出的安全性成为场景化落地的关键。传统方法是使用RLHF(人类反馈强化学习)来进行安全对齐,但有两大局限性难以持续使用。1)收集和维护人类反馈数据不仅成本高昂,并且随着大模型能力的提高以及用户行为的

随着ChatGPT等产品的广泛应用,确保其输出的安全性成为场景化落地的关键。传统方法是使用RLHF(人类反馈强化学习)来进行安全对齐,但有两大局限性难以持续使用。1)收集和维护人类反馈数据不仅成本高昂,并且随着大模型能力的提高以及用户行为的变化,现有的数据很快就会过时失效

......

本文由站长之家合作伙伴自媒体作者“​ AIGC开放社区公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

即将跳转到外部网站 安全性未知,是否继续 继续前往
 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备2021030705号-9