标签:spans - 今日霍州

4月前

论文提出的方法名为 RL4HS，它使用了片段级奖励（span-level rewards）和类别感知的 GRPO（Class-AwareGroup Relative Policy Optimization…

标签:"spans"相关文章