返回
GRPO(基于梯度的智能体优化强化学习)
交互式 AI 标注
还在为复杂场景标注头疼? 选中即标!T-Rex2 秒懂你的视觉提示。
GRPO(基于梯度的策略优化强化学习)是一种算法,通过调整奖励函数和策略梯度来优化智能体的决策过程。它能减少令牌消耗并提高任务成功率。
AI 预标注
体验 DINO-X 全自动标注 ——指定目标,剩下的交给 AI。