腾讯广告算法大赛核心上分点详解
鉴于较多小伙伴私信我infonce loss怎么写,这边给个源码解析,详见图2。
首先,无论是infonce还是sampled softmax,本质就是让正样本的相似度比负样本高,这里函数的输入包括seq_embs,pos_embs,neg_embs和loss_mask,与baseline中一致。
1. 计算正样本相似度,seq_embs和pos_embs的余弦相似度
2. 负样本选择in batch negative,这里选择了batch内所有neg_embs,但基于曝光偏差问题不包括其他sample的pos(可能是false negative),整体neg全为随机负样本
3. 对padding item 做mask,不计算loss
4. 正样本位置在拼接后为0,即交叉熵label为0
5. 温度系数可根据经验值设置,这里为0.07
6. 注意推理和训练保持一致
代码给出的是示例版本,仅供参考,该版本应该有不错的收益,但同时需要注意code share问题(p6)。
最后附官方提醒(p5)比赛主张自主创新,大家不用太过拘泥于某一块的实现/trick,可以多探索fancy一点的方法
,祝大家上分顺利! #2025腾讯广告算法大赛 #腾讯广告算法大赛 #生成式推荐 #生成式广告 #我的学习进化论