提交历史

作者 SHA1 备注 提交日期
  Tobi Lütke 189916d6fb Move GRPO training out of default finetune pipeline 3 月之前