乐于分享
好东西不私藏

强化学习笔记|从grpo源码解释loss计算

本文最后更新于2025-07-28,某些文章具有时效性,若有错误或已失效,请在下方留言或联系老夜

强化学习笔记|从grpo源码解释loss计算

强化学习笔记|从grpo源码解释loss计算

强化学习笔记|从grpo源码解释loss计算

强化学习笔记|从grpo源码解释loss计算

强化学习笔记|从grpo源码解释loss计算

强化学习笔记|从grpo源码解释loss计算

假期用claude辅助看了一遍grpo的loss实现,kl散度使用了特殊的估计形式,还有clip的一些计算方法都看懂了\n此外有一个小问题是如何获得old_policy和new_policy的logp,我看代码的实现直接使用了per_token_logps.detach(),想请问一下各位老师,这里的detach为啥能代表更新前模型的logp,我看之前trl的代码里面是直接比的,更新的版本中,好像会存储?这个的计算是咋保存下来的,或者这个模型是保存在哪里的emmm这里有点懵….求解答\n#大模型 #面经 #互联网大厂 #深度学习 #算法 #人工智能就业 #大厂 #面试题
本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 强化学习笔记|从grpo源码解释loss计算
×
订阅图标按钮