当前位置：夜雨聆风 > 技术教程 > 软件教程 > 强化学习笔记｜从grpo源码解释loss计算

强化学习笔记｜从grpo源码解释loss计算

2025-07-28 分类：软件教程评论(0)

本文最后更新于2025-07-28，某些文章具有时效性，若有错误或已失效，请在下方留言或联系老夜。

假期用claude辅助看了一遍grpo的loss实现，kl散度使用了特殊的估计形式，还有clip的一些计算方法都看懂了\n此外有一个小问题是如何获得old_policy和new_policy的logp，我看代码的实现直接使用了per_token_logps.detach()，想请问一下各位老师，这里的detach为啥能代表更新前模型的logp，我看之前trl的代码里面是直接比的，更新的版本中，好像会存储？这个的计算是咋保存下来的，或者这个模型是保存在哪里的emmm这里有点懵….求解答\n#大模型 #面经 #互联网大厂 #深度学习 #算法 #人工智能就业 #大厂 #面试题

本站文章均为手工撰写未经允许谢绝转载：夜雨聆风 » 强化学习笔记｜从grpo源码解释loss计算

强化学习笔记｜从grpo源码解释loss计算

wang

猜你喜欢