suby
/
qmd


			
				
					
						
						
							1234567891011121314151617181920212223242526272829303132333435363738
							# SFT Training Config for QMD Query Expansion v4
# Uses Qwen3-0.6B with LoRA, trained with key term preservation

model:
  base: "Qwen/Qwen3-0.6B"
  output: "tobil/qmd-query-expansion-0.6B-v4"

dataset:
  name: "tobil/qmd-query-expansion-train-v2"
  text_field: "text"
  split: "train"
  eval_split: 0.1

training:
  epochs: 3
  batch_size: 4
  gradient_accumulation_steps: 4
  learning_rate: 2e-4
  max_length: 512
  warmup_ratio: 0.03
  lr_scheduler: "cosine"

lora:
  rank: 16
  alpha: 32
  dropout: 0.0
  target_modules:
    - "q_proj"
    - "k_proj"
    - "v_proj"
    - "o_proj"
    - "gate_proj"
    - "up_proj"
    - "down_proj"

tracking:
  project: "qmd-query-expansion"
  run_name: "sft-v4-key-term-preservation"