Fixed langchain4j/langchain4j#3523

dliubarskyi · dliubarskyi · commit c624c9e5a195 · 2025-08-13T11:27:28.000+02:00
diff --git a/langchain4j-http-client-spring-restclient/src/main/java/dev/langchain4j/http/client/spring/restclient/SpringRestClient.java b/langchain4j-http-client-spring-restclient/src/main/java/dev/langchain4j/http/client/spring/restclient/SpringRestClient.java
@@ -55,6 +55,7 @@ public SpringRestClient(SpringRestClientBuilder builder) {
 
     private static AsyncTaskExecutor createDefaultStreamingRequestExecutor() {
         ThreadPoolTaskExecutor taskExecutor = new ThreadPoolTaskExecutor();
+        taskExecutor.setQueueCapacity(0);
         taskExecutor.initialize();
         return taskExecutor;
     }
diff --git a/langchain4j-ollama-spring-boot-starter/src/main/java/dev/langchain4j/ollama/spring/AutoConfig.java b/langchain4j-ollama-spring-boot-starter/src/main/java/dev/langchain4j/ollama/spring/AutoConfig.java
@@ -139,6 +139,7 @@ HttpClientBuilder ollamaStreamingChatModelHttpClientBuilder(
     @ConditionalOnClass(name = "io.micrometer.context.ContextSnapshotFactory")
     AsyncTaskExecutor ollamaStreamingChatModelTaskExecutorWithContextPropagation() {
         ThreadPoolTaskExecutor taskExecutor = new ThreadPoolTaskExecutor();
+        taskExecutor.setQueueCapacity(0);
         taskExecutor.setThreadNamePrefix(TASK_EXECUTOR_THREAD_NAME_PREFIX);
         taskExecutor.setTaskDecorator(new ContextPropagatingTaskDecorator());
         return taskExecutor;
@@ -150,6 +151,7 @@ AsyncTaskExecutor ollamaStreamingChatModelTaskExecutorWithContextPropagation() {
     @ConditionalOnMissingClass("io.micrometer.context.ContextSnapshotFactory")
     AsyncTaskExecutor ollamaStreamingChatModelTaskExecutor() {
         ThreadPoolTaskExecutor taskExecutor = new ThreadPoolTaskExecutor();
+        taskExecutor.setQueueCapacity(0);
         taskExecutor.setThreadNamePrefix(TASK_EXECUTOR_THREAD_NAME_PREFIX);
         return taskExecutor;
     }
@@ -233,6 +235,7 @@ HttpClientBuilder ollamaStreamingLanguageModelHttpClientBuilder(
     @ConditionalOnClass(name = "io.micrometer.context.ContextSnapshotFactory")
     AsyncTaskExecutor ollamaStreamingLanguageModelTaskExecutorWithContextPropagation() {
         ThreadPoolTaskExecutor taskExecutor = new ThreadPoolTaskExecutor();
+        taskExecutor.setQueueCapacity(0);
         taskExecutor.setThreadNamePrefix(TASK_EXECUTOR_THREAD_NAME_PREFIX);
         taskExecutor.setTaskDecorator(new ContextPropagatingTaskDecorator());
         return taskExecutor;
@@ -244,6 +247,7 @@ AsyncTaskExecutor ollamaStreamingLanguageModelTaskExecutorWithContextPropagation
     @ConditionalOnMissingClass("io.micrometer.context.ContextSnapshotFactory")
     AsyncTaskExecutor ollamaStreamingLanguageModelTaskExecutor() {
         ThreadPoolTaskExecutor taskExecutor = new ThreadPoolTaskExecutor();
+        taskExecutor.setQueueCapacity(0);
         taskExecutor.setThreadNamePrefix(TASK_EXECUTOR_THREAD_NAME_PREFIX);
         return taskExecutor;
     }
diff --git a/langchain4j-open-ai-spring-boot-starter/src/main/java/dev/langchain4j/openai/spring/AutoConfig.java b/langchain4j-open-ai-spring-boot-starter/src/main/java/dev/langchain4j/openai/spring/AutoConfig.java
@@ -159,6 +159,7 @@ HttpClientBuilder openAiStreamingChatModelHttpClientBuilder(
     @ConditionalOnClass(name = "io.micrometer.context.ContextSnapshotFactory")
     AsyncTaskExecutor openAiStreamingChatModelTaskExecutorWithContextPropagation() {
         ThreadPoolTaskExecutor taskExecutor = new ThreadPoolTaskExecutor();
+        taskExecutor.setQueueCapacity(0);
         taskExecutor.setThreadNamePrefix(TASK_EXECUTOR_THREAD_NAME_PREFIX);
         taskExecutor.setTaskDecorator(new ContextPropagatingTaskDecorator());
         return taskExecutor;
@@ -170,6 +171,7 @@ AsyncTaskExecutor openAiStreamingChatModelTaskExecutorWithContextPropagation() {
     @ConditionalOnMissingClass("io.micrometer.context.ContextSnapshotFactory")
     AsyncTaskExecutor openAiStreamingChatModelTaskExecutor() {
         ThreadPoolTaskExecutor taskExecutor = new ThreadPoolTaskExecutor();
+        taskExecutor.setQueueCapacity(0);
         taskExecutor.setThreadNamePrefix(TASK_EXECUTOR_THREAD_NAME_PREFIX);
         return taskExecutor;
     }
@@ -247,6 +249,7 @@ HttpClientBuilder openAiStreamingLanguageModelHttpClientBuilder(
     @ConditionalOnClass(name = "io.micrometer.context.ContextSnapshotFactory")
     AsyncTaskExecutor openAiStreamingLanguageModelTaskExecutorWithContextPropagation() {
         ThreadPoolTaskExecutor taskExecutor = new ThreadPoolTaskExecutor();
+        taskExecutor.setQueueCapacity(0);
         taskExecutor.setThreadNamePrefix(TASK_EXECUTOR_THREAD_NAME_PREFIX);
         taskExecutor.setTaskDecorator(new ContextPropagatingTaskDecorator());
         return taskExecutor;
@@ -258,6 +261,7 @@ AsyncTaskExecutor openAiStreamingLanguageModelTaskExecutorWithContextPropagation
     @ConditionalOnMissingClass("io.micrometer.context.ContextSnapshotFactory")
     AsyncTaskExecutor openAiStreamingLanguageModelTaskExecutor() {
         ThreadPoolTaskExecutor taskExecutor = new ThreadPoolTaskExecutor();
+        taskExecutor.setQueueCapacity(0);
         taskExecutor.setThreadNamePrefix(TASK_EXECUTOR_THREAD_NAME_PREFIX);
         return taskExecutor;
     }
diff --git a/langchain4j-open-ai-spring-boot-starter/src/test/java/dev/langchain4j/openai/spring/AutoConfigIT.java b/langchain4j-open-ai-spring-boot-starter/src/test/java/dev/langchain4j/openai/spring/AutoConfigIT.java
@@ -24,7 +24,9 @@
 import org.springframework.core.annotation.Order;
 import org.springframework.scheduling.concurrent.ThreadPoolTaskExecutor;
 
+import java.time.LocalDateTime;
 import java.util.concurrent.CompletableFuture;
+import java.util.concurrent.atomic.AtomicReference;
 
 import static java.util.concurrent.TimeUnit.SECONDS;
 import static org.assertj.core.api.Assertions.assertThat;
@@ -106,36 +108,73 @@ void should_create_chat_model_with_default_http_client() {
     void should_provide_streaming_chat_model() {
         contextRunner
                 .withPropertyValues(
-                        "langchain4j.open-ai.streaming-chat-model.base-url=" + BASE_URL,
+                        // not setting base URL to use OpenAI API without caching proxy (proxy responds way faster)
                         "langchain4j.open-ai.streaming-chat-model.api-key=" + API_KEY,
                         "langchain4j.open-ai.streaming-chat-model.model-name=gpt-4o-mini",
-                        "langchain4j.open-ai.streaming-chat-model.max-tokens=20"
+                        "langchain4j.open-ai.streaming-chat-model.max-tokens=50"
                 )
                 .run(context -> {
 
                     StreamingChatModel model = context.getBean(StreamingChatModel.class);
                     assertThat(model).isInstanceOf(OpenAiStreamingChatModel.class);
                     assertThat(context.getBean(OpenAiStreamingChatModel.class)).isSameAs(model);
 
-                    CompletableFuture<ChatResponse> future = new CompletableFuture<>();
-                    model.chat("What is the capital of Germany?", new StreamingChatResponseHandler() {
+                    CompletableFuture<ChatResponse> future1 = new CompletableFuture<>();
+                    AtomicReference<LocalDateTime> streamingStarted1 = new AtomicReference<>();
+                    AtomicReference<LocalDateTime> streamingFinished1 = new AtomicReference<>();
+                    model.chat("Tell me a story exactly 50 words long", new StreamingChatResponseHandler() {
 
                         @Override
                         public void onPartialResponse(String partialResponse) {
+                            if (streamingStarted1.get() == null) {
+                                streamingStarted1.set(LocalDateTime.now());
+                            }
                         }
 
                         @Override
                         public void onCompleteResponse(ChatResponse completeResponse) {
-                            future.complete(completeResponse);
+                            streamingFinished1.set(LocalDateTime.now());
+                            future1.complete(completeResponse);
                         }
 
                         @Override
                         public void onError(Throwable error) {
-                            future.completeExceptionally(error);
+                            future1.completeExceptionally(error);
                         }
                     });
-                    ChatResponse chatResponse = future.get(15, SECONDS);
-                    assertThat(chatResponse.aiMessage().text()).contains("Berlin");
+
+                    CompletableFuture<ChatResponse> future2 = new CompletableFuture<>();
+                    AtomicReference<LocalDateTime> streamingStarted2 = new AtomicReference<>();
+                    AtomicReference<LocalDateTime> streamingFinished2 = new AtomicReference<>();
+                    model.chat("Tell me a story exactly 50 words long", new StreamingChatResponseHandler() {
+
+                        @Override
+                        public void onPartialResponse(String partialResponse) {
+                            if (streamingStarted2.get() == null) {
+                                streamingStarted2.set(LocalDateTime.now());
+                            }
+                        }
+
+                        @Override
+                        public void onCompleteResponse(ChatResponse completeResponse) {
+                            streamingFinished2.set(LocalDateTime.now());
+                            future2.complete(completeResponse);
+                        }
+
+                        @Override
+                        public void onError(Throwable error) {
+                            future2.completeExceptionally(error);
+                        }
+                    });
+
+                    ChatResponse chatResponse1 = future1.get(15, SECONDS);
+                    assertThat(chatResponse1.aiMessage().text()).isNotBlank();
+
+                    ChatResponse chatResponse2 = future2.get(15, SECONDS);
+                    assertThat(chatResponse2.aiMessage().text()).isNotBlank();
+
+                    assertThat(streamingStarted1.get()).isBefore(streamingFinished2.get());
+                    assertThat(streamingStarted2.get()).isBefore(streamingFinished1.get());
                 });
     }
 
@@ -232,32 +271,69 @@ public void onError(Throwable error) {
     void should_create_streaming_chat_model_with_default_http_client() throws Exception {
 
         OpenAiStreamingChatModel model = OpenAiStreamingChatModel.builder()
-                .baseUrl(BASE_URL)
+                // not setting base URL to use OpenAI API without caching proxy (proxy responds way faster)
                 .apiKey(API_KEY)
                 .modelName("gpt-4o-mini")
                 .temperature(0.0)
-                .maxTokens(20)
+                .maxTokens(50)
                 .build();
 
-        CompletableFuture<ChatResponse> future = new CompletableFuture<>();
-        model.chat("What is the capital of Germany?", new StreamingChatResponseHandler() {
+        CompletableFuture<ChatResponse> future1 = new CompletableFuture<>();
+        AtomicReference<LocalDateTime> streamingStarted1 = new AtomicReference<>();
+        AtomicReference<LocalDateTime> streamingFinished1 = new AtomicReference<>();
+        model.chat("Tell me a story exactly 50 words long", new StreamingChatResponseHandler() {
 
             @Override
             public void onPartialResponse(String partialResponse) {
+                if (streamingStarted1.get() == null) {
+                    streamingStarted1.set(LocalDateTime.now());
+                }
             }
 
             @Override
             public void onCompleteResponse(ChatResponse completeResponse) {
-                future.complete(completeResponse);
+                streamingFinished1.set(LocalDateTime.now());
+                future1.complete(completeResponse);
             }
 
             @Override
             public void onError(Throwable error) {
-                future.completeExceptionally(error);
+                future1.completeExceptionally(error);
+            }
+        });
+
+        CompletableFuture<ChatResponse> future2 = new CompletableFuture<>();
+        AtomicReference<LocalDateTime> streamingStarted2 = new AtomicReference<>();
+        AtomicReference<LocalDateTime> streamingFinished2 = new AtomicReference<>();
+        model.chat("Tell me a story exactly 50 words long", new StreamingChatResponseHandler() {
+
+            @Override
+            public void onPartialResponse(String partialResponse) {
+                if (streamingStarted2.get() == null) {
+                    streamingStarted2.set(LocalDateTime.now());
+                }
+            }
+
+            @Override
+            public void onCompleteResponse(ChatResponse completeResponse) {
+                streamingFinished2.set(LocalDateTime.now());
+                future2.complete(completeResponse);
+            }
+
+            @Override
+            public void onError(Throwable error) {
+                future2.completeExceptionally(error);
             }
         });
-        ChatResponse chatResponse = future.get(15, SECONDS);
-        assertThat(chatResponse.aiMessage().text()).contains("Berlin");
+
+        ChatResponse chatResponse1 = future1.get(15, SECONDS);
+        assertThat(chatResponse1.aiMessage().text()).isNotBlank();
+
+        ChatResponse chatResponse2 = future2.get(15, SECONDS);
+        assertThat(chatResponse2.aiMessage().text()).isNotBlank();
+
+        assertThat(streamingStarted1.get()).isBefore(streamingFinished2.get());
+        assertThat(streamingStarted2.get()).isBefore(streamingFinished1.get());
     }
 
     @Test

Original file line number	Diff line number	Diff line change
`@@ -55,6 +55,7 @@ public SpringRestClient(SpringRestClientBuilder builder) {`
`55`	`55`
`56`	`56`	`private static AsyncTaskExecutor createDefaultStreamingRequestExecutor() {`
`57`	`57`	`ThreadPoolTaskExecutor taskExecutor = new ThreadPoolTaskExecutor();`
	`58`	`+ taskExecutor.setQueueCapacity(0);`
`58`	`59`	`taskExecutor.initialize();`
`59`	`60`	`return taskExecutor;`
`60`	`61`	`}`