Историја ревизија

Аутор SHA1 Порука Датум
  Tobi Lutke 891f3262cf Fix GRPO reward function to handle think blocks and end tokens пре 4 месеци
  Tobi Lutke 8a1c4cdab0 Add 1.7B and 4B GRPO training and GGUF conversion scripts пре 4 месеци