Sync mtmd: add mtmd_context_params::warmup option

JamePeng · JamePeng · commit 6ee17c06556a · 2025-12-02T08:37:52.000+08:00
diff --git a/llama_cpp/llama_chat_format.py b/llama_cpp/llama_chat_format.py
@@ -2828,6 +2828,7 @@ def _init_mtmd_context(self, llama_model: llama.Llama):
             mctx_params.print_timings = self.verbose
             mctx_params.n_threads = llama_model.n_threads
             mctx_params.flash_attn_type  = self._mtmd_cpp.clip_flash_attn_type.CLIP_FLASH_ATTN_TYPE_AUTO
+            mctx_params.warmup = True
             if self.image_min_tokens > 0:
                 mctx_params.image_min_tokens = self.image_min_tokens
             if self.image_max_tokens > 0:
diff --git a/llama_cpp/mtmd_cpp.py b/llama_cpp/mtmd_cpp.py
@@ -127,13 +127,15 @@ class clip_flash_attn_type (enum.IntEnum):
 #     enum clip_flash_attn_type flash_attn_type;
 #     int image_min_tokens;
 #     int image_max_tokens;
+#     bool warmup;
 # };
 class clip_context_params(Structure):
     _fields_ = [
         ("use_gpu", c_bool),
         ("flash_attn_type", c_int),
         ("image_min_tokens", c_int),
         ("image_max_tokens", c_int),
+        ("warmup", c_bool),
     ]
 
 # struct mtmd_context_params {
@@ -143,6 +145,7 @@ class clip_context_params(Structure):
 #     const char * image_marker; // deprecated, use media_marker instead
 #     const char * media_marker;
 #     enum llama_flash_attn_type flash_attn_type;
+#     bool warmup; // whether to run a warmup encode pass after initialization
 
 #     // limit number of image tokens, only for vision models with dynamic resolution
 #     int image_min_tokens; // minimum number of tokens for image input (default: read from metadata)
@@ -156,6 +159,7 @@ class mtmd_context_params(Structure):
         ("image_marker", c_char_p),
         ("media_marker", c_char_p),
         ("flash_attn_type", c_int),
+        ("warmup", c_bool),
         ("image_min_tokens", c_int),
         ("image_max_tokens", c_int),
     ]