Update learning rate for #116 (#117)

johnml1135 · web-flow · commit 7eeea956e6e1 · 2024-11-26T15:07:17.000-05:00
diff --git a/machine/jobs/settings.yaml b/machine/jobs/settings.yaml
@@ -8,15 +8,17 @@ default:
     train_params:
       do_train: true
       optim: adamw_torch
-      warmup_steps: 4000
+      warmup_steps: 1000
       per_device_train_batch_size: 16
       gradient_accumulation_steps: 4
       label_smoothing_factor: 0.2
       group_by_length: true
       gradient_checkpointing: true
+      lr_scheduler_type: cosine
+      learning_rate: 0.0002
       fp16: true
       save_strategy: no
-      max_steps: 20000
+      max_steps: 5000
     generate_params:
       device: 0
       num_beams: 2