blackcode1 · blackcode1 · Nov 19, 2025
diff --git a/roll/configs/base_config.py b/roll/configs/base_config.py
@@ -309,6 +309,11 @@ class PPOConfig(BaseConfig):
         default_factory=WorkerConfig, metadata={"help": "Configuration for the reference role."}
     )
 
+    use_reference: bool = field(
+        default=True, 
+        metadata={"help": "Whether to use reference model for KL divergence computation. If False, reference model will not be initialized."}
+    )
+
     async_generation_ratio: float = field(
         default=0,
         metadata={
@@ -389,11 +394,12 @@ def __post_init__(self):
         if (
             self.actor_train.model_args.model_name_or_path is None
             or self.actor_infer.model_args.model_name_or_path is None
-            or self.reference.model_args.model_name_or_path is None
+            or (self.use_reference and self.reference.model_args.model_name_or_path is None)
         ):
             self.actor_train.model_args.model_name_or_path = self.pretrain
             self.actor_infer.model_args.model_name_or_path = self.pretrain
-            self.reference.model_args.model_name_or_path = self.pretrain
+            if self.use_reference:
+                self.reference.model_args.model_name_or_path = self.pretrain
 
         if self.critic.model_args.model_name_or_path is None:
             self.critic.model_args.model_name_or_path = self.reward_pretrain

diff --git a/roll/pipeline/rlvr/rlvr_math_vlm_pipeline.py b/roll/pipeline/rlvr/rlvr_math_vlm_pipeline.py
@@ -222,7 +222,7 @@ def __init__(self, pipeline_config: RLVRConfig):
             worker_config=self.pipeline_config.actor_infer,
         )
         # use unwrapped model as reference for lora training
-        if not self.is_lora:
+        if not self.is_lora and self.pipeline_config.use_reference:
             self.reference: Any = Cluster(
                 name=self.pipeline_config.reference.name,
                 worker_cls=self.pipeline_config.reference.worker_cls,
@@ -361,15 +361,19 @@ def run(self):
 
                     with Timer(name="cal_ref_log_probs_reward", logger=None) as cal_timer:
                         if self.is_lora:
-                            batch.meta_info["disable_adapter"] = True
-                            batch.meta_info["is_offload_states"] = False
                             ref_log_probs_refs: List[ray.ObjectRef] = self.actor_train.compute_log_probs(
                                 batch, blocking=False
                             )
                         else:
-                            ref_log_probs_refs: List[ray.ObjectRef] = self.reference.compute_log_probs(
-                                batch, blocking=False
-                            )
+                            if self.pipeline_config.use_reference:
+                                ref_log_probs_refs: List[ray.ObjectRef] = self.reference.compute_log_probs(
+                                    batch, blocking=False
+                                )
+                            else:
+                                # When reference model is disabled, use actor's own log probabilities as reference
+                                ref_log_probs_refs: List[ray.ObjectRef] = self.actor_infer.compute_log_probs(
+                                    batch, blocking=False
+                                )
                         rewards_refs: List[ray.ObjectRef] = self.reward.compute_rewards(batch, blocking=False)
 
                         ref_log_probs = DataProto.materialize_concat(data_refs=ref_log_probs_refs)

diff --git a/roll/pipeline/rlvr/rlvr_pipeline.py b/roll/pipeline/rlvr/rlvr_pipeline.py
@@ -216,7 +216,7 @@ def __init__(self, pipeline_config: RLVRConfig):
         )
         download_clusters = [self.actor_train, self.actor_infer]
         # use unwrapped model as reference for lora training
-        if not self.is_lora:
+        if not self.is_lora and self.pipeline_config.use_reference:
             self.reference: Any = Cluster(
                 name=self.pipeline_config.reference.name,
                 worker_cls=self.pipeline_config.reference.worker_cls,
@@ -544,16 +544,20 @@ def run(self):
                         batch.meta_info["is_offload_states"] = False
                         ref_log_probs = self.actor_train.compute_log_probs(batch, blocking=True)
                     else:
-                        if self.pipeline_config.reference.use_dynamic_batching_in_infer:
-                            batch, dynamic_batching_metrics = dynamic_batching_shard(
-                                batch, 
-                                self.reference.dp_size,
-                                self.pipeline_config.reference.max_tokens_per_microbatch_in_infer,
-                                self.pipeline_config.reference.sequence_length_round_in_infer,
-                                "reference/compute_log_probs",
-                            )
-                            metrics_mgr.add_metrics(dynamic_batching_metrics)
-                        ref_log_probs = self.reference.compute_log_probs(batch, blocking=True)
+                        if self.pipeline_config.use_reference:
+                            if self.pipeline_config.reference.use_dynamic_batching_in_infer:
+                                batch, dynamic_batching_metrics = dynamic_batching_shard(
+                                    batch, 
+                                    self.reference.dp_size,
+                                    self.pipeline_config.reference.max_tokens_per_microbatch_in_infer,
+                                    self.pipeline_config.reference.sequence_length_round_in_infer,
+                                    "reference/compute_log_probs",
+                                )
+                                metrics_mgr.add_metrics(dynamic_batching_metrics)
+                            ref_log_probs = self.reference.compute_log_probs(batch, blocking=True)
+                        else:
+                            # When reference model is disabled, use actor's own log probabilities as reference
+                            ref_log_probs = self.actor_infer.compute_log_probs(batch, blocking=True)
                     metrics_mgr.add_reduced_metrics(ref_log_probs.meta_info.pop("metrics", {}))
                     ref_log_probs.rename(old_keys="log_probs", new_keys="ref_log_probs")
                     batch = batch.union(ref_log_probs)

diff --git a/roll/pipeline/rlvr/rlvr_vlm_pipeline.py b/roll/pipeline/rlvr/rlvr_vlm_pipeline.py
@@ -313,13 +313,16 @@ def __init__(self, pipeline_config: RLVRConfig):
             resource_manager=self.resource_manager,
             worker_config=self.pipeline_config.actor_infer,
         )
-        self.reference: Any = Cluster(
-            name=self.pipeline_config.reference.name,
-            worker_cls=self.pipeline_config.reference.worker_cls,
-            resource_manager=self.resource_manager,
-            worker_config=self.pipeline_config.reference,
-        )
-        download_clusters = [self.actor_train, self.actor_infer, self.reference]
+        if self.pipeline_config.use_reference:
+            self.reference: Any = Cluster(
+                name=self.pipeline_config.reference.name,
+                worker_cls=self.pipeline_config.reference.worker_cls,
+                resource_manager=self.resource_manager,
+                worker_config=self.pipeline_config.reference,
+            )
+            download_clusters = [self.actor_train, self.actor_infer, self.reference]
+        else:
+            download_clusters = [self.actor_train, self.actor_infer]
         if self.pipeline_config.adv_estimator == "gae":
             self.critic: Any = Cluster(
                 name=self.pipeline_config.critic.name,
@@ -542,7 +545,11 @@ def run(self):
                 batch.meta_info["_broadcast_non_tensor_batch"]= True
 
                 with Timer(name="cal_ref_log_probs", logger=None) as cal_ref_log_probs_timer:
-                    ref_log_probs = self.reference.compute_log_probs(batch, blocking=True)
+                    if self.pipeline_config.use_reference:
+                        ref_log_probs = self.reference.compute_log_probs(batch, blocking=True)
+                    else:
+                        # When reference model is disabled, use actor's own log probabilities as reference
+                        ref_log_probs = self.actor_infer.compute_log_probs(batch, blocking=True)
                     metrics_mgr.add_reduced_metrics(ref_log_probs.meta_info.pop("metrics", {}))
                     ref_log_probs.rename(old_keys="log_probs", new_keys="ref_log_probs")
                     batch = batch.union(ref_log_probs)