fix false timeout llm chunk

okaris · okaris · commit 4db148a6892c · 2025-09-28T14:18:55.000Z
diff --git a/src/inferencesh/models/llm.py b/src/inferencesh/models/llm.py
@@ -650,6 +650,7 @@ def _generate_worker():
         last_activity = time.time()
         init_timeout = 30.0  # 30 seconds for initial response
         chunk_timeout = 10.0  # 10 seconds between chunks
+        chunks_begun = False
         
         try:
             # Wait for initial setup
@@ -680,7 +681,7 @@ def _generate_worker():
                     pass
                 
                 # Check for timeout
-                if time.time() - last_activity > chunk_timeout:
+                if chunks_begun and time.time() - last_activity > chunk_timeout:
                     raise RuntimeError(f"No response from model for {chunk_timeout} seconds")
                 
                 # Get next chunk
@@ -705,6 +706,8 @@ def _generate_worker():
                 if not timing.first_token_time:
                     timing.mark_first_token()
                 
+                chunks_begun = True
+                
                 # Update response state from chunk
                 response.update_from_chunk(chunk, timing)