This website works better with JavaScript
Sākums
Izpētīt
Palīdzība
Reģistrēties
Pierakstīties
suby
/
qmd
Vērot
1
Pievienot zvaigznīti
0
Atdalīts
0
Faili
Problēmas
0
Izmaiņu pieprasījumi
0
Vikivietne
Koks:
9b3a209a97
Atzari
Tagi
main
oivo
v2.1.0-upstream
v2.1.0
v2.0.1
v2.0.0
v1.1.6
v1.1.5
v1.1.2
v1.1.1
v1.0.7
v1.0.6
v1.0.5
v1.0.0
v0.9.0
Revīziju vēsture
Meklēt
Autors
SHA1
Ziņojums
Datums
Tobi Lutke
9b3a209a97
Fix GRPO training: apply chat template to prompts
4 mēneši atpakaļ
Tobi Lutke
891f3262cf
Fix GRPO reward function to handle think blocks and end tokens
4 mēneši atpakaļ
Tobi Lutke
8a1c4cdab0
Add 1.7B and 4B GRPO training and GGUF conversion scripts
4 mēneši atpakaļ