Историја ревизија

Аутор SHA1 Порука Датум
  Tobi Lutke 2ad507a86e Add chat template leakage detection to reward function пре 4 месеци
  Tobi Lutke 6062dc769f Add named entity extraction to GRPO reward function пре 4 месеци
  Tobi Lutke 32706a720f Refactor finetune folder: train/rl scripts with YAML configs пре 4 месеци