本文最后更新于
2025-07-28
,某些文章具有时效性,若有错误或已失效,请在下方
留言或联系
老夜。
强化学习笔记|从grpo源码解释loss计算





假期用claude辅助看了一遍grpo的loss实现,kl散度使用了特殊的估计形式,还有clip的一些计算方法都看懂了\n此外有一个小问题是如何获得old_policy和new_policy的logp,我看代码的实现直接使用了per_token_logps.detach(),想请问一下各位老师,这里的detach为啥能代表更新前模型的logp,我看之前trl的代码里面是直接比的,更新的版本中,好像会存储?这个的计算是咋保存下来的,或者这个模型是保存在哪里的emmm这里有点懵….求解答\n#大模型 #面经 #互联网大厂 #深度学习 #算法 #人工智能就业 #大厂 #面试题