News
可以看到completions/mean_length等长度相关的几个指标远远达不到512,但是截断比率长期为1.0,这让我非常费解,而且整个训练中的奖励并没有出现过上升的趋势,这表明似乎真的没有训练(因为所有的回答都因为超长被舍弃了)。
🥤 COLA v5 COLA 是 Clean Object-Oriented and Layered Architecture的缩写,代表“整洁面向对象分层架构”。 目前COLA已经发展到 COLA v5。 想了解更多COLA信息,请关注微信公众号: 想了解更多COLA背后的故事,请支持我的新书 《程序员的底层思维》 ...
Some results have been hidden because they may be inaccessible to you
Show inaccessible results