仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
百度暑期算法grpo缺点是啥
advantage本质上是sequencelevel的,没有ppo的pertokencritic
无法有效利用同一个group全对全错的样本(无梯度)
同一group不同样本存在lengthbias,不过ppo也会有(可以参考字节dapo论文)
注:这个是本人的一些想法,欢迎大佬们评论区回答!!!
星球旨在分享AI算法岗&开发岗的秋招准备攻略、心得体会、内推机会等。涉及深度学习,机器学习,计算机视觉,自然语言处理,SLAM,大数据,数据分析,自动驾驶,C/C++,Java等方向。群主和嘉宾既有往届参加校招拿到Offer(含BAT/独角兽等大厂Offer),也有已经毕业工作的算法研究员/工程师和软开工程师。…
星球非免费。定价50元/年,0.136元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱AI的人。
欢迎你的加入!