T-Rex Label

GRPO(基于梯度的智能体优化强化学习)

GRPO(基于梯度的策略优化强化学习)是一种算法,通过调整奖励函数和策略梯度来优化智能体的决策过程。它能减少令牌消耗并提高任务成功率。