|
此版本仍在开发中,尚未被视为稳定版。如需最新的快照版本,请使用 Spring AI 1.1.3! |
Docker Model Runner Chat
Docker Model Runner 是一个AI推理引擎,提供来自各种提供商的多种模型。
Spring AI 通过重用现有的 OpenAI 支持的 ChatClient,与 Docker Model Runner 集成。
为了实现这一点,请将基础 URL 设置为 localhost:12434/engines 并选择一个提供的 语言模型(LLM 模型)。
请查看DockerModelRunnerWithOpenAiChatModelIT.java测试用例 以了解如何使用Docker模型运行器和Spring AI框架。
前置条件
-
下载适用于 macOS 的 Docker Desktop 4.40.0。
请选择以下选项之一以启用模型运行器:
选项 1:
-
启用模型运行器
docker desktop enable model-runner --tcp 12434。 -
设置基础 URL 为
localhost:12434/engines
Option 2:
-
启用模型运行器
docker desktop enable model-runner。 -
使用 Testcontainers 并设置 base-url 如下:
@Container
private static final DockerModelRunnerContainer DMR = new DockerModelRunnerContainer("alpine/socat:1.7.4.3-r0");
@Bean
public OpenAiApi chatCompletionApi() {
var baseUrl = DMR.getOpenAIEndpoint();
return OpenAiApi.builder().baseUrl(baseUrl).apiKey("test").build();
}
您可以阅读使用Docker本地运行LLMs博客文章,了解更多信息关于Docker Model Runner。
Auto-configuration
|
自1.0.0.M7版本以来,Spring AI启动模块的artifact ID已被重命名。依赖名称现在应遵循更新后的命名模式,用于模型、向量存储和MCPStarters。 请参阅升级说明以获取更多信息。 |
Spring AI 提供了对 OpenAI 聊天客户端的 Spring Boot 自动配置。
要启用它,请将以下依赖项添加到您的项目 Maven pom.xml 文件中:
<dependency>
<groupId>org.springframework.ai</groupId>
<artifactId>spring-ai-starter-model-openai</artifactId>
</dependency>
或在您的Gradle build.gradle构建文件中添加以下内容。
dependencies {
implementation 'org.springframework.ai:spring-ai-starter-model-openai'
}
| 请参阅依赖管理部分,将Spring AI BOM添加到您的构建文件中。 |
聊天属性
重试属性
spring.ai.retry 前缀用作属性前缀,允许您配置对 OpenAI 聊天模型的重试机制。
| <property> </property> | <description> </description> | 默认 |
|---|---|---|
spring.ai.retry.max-attempts |
最大重试尝试次数。 |
10 |
spring.ai.retry.backoff.initial-interval |
指数退避策略的初始睡眠时长。 |
2 秒。 |
spring.ai.retry.backoff.multiplier |
重试间隔倍数。 |
5 |
spring.ai.retry.backoff.max-interval |
最大退避持续时间。 |
3 min. |
spring.ai.retry.on-client-errors |
如果为假,则抛出一个NonTransientAiException,并且不尝试重试 |
false |
spring.ai.retry.exclude-on-http-codes |
不应当触发重试的HTTP状态码列表(例如,抛出NonTransientAiException)。 |
<p>空内容</p> |
spring.ai.retry.on-http-codes |
应触发重试的HTTP状态码列表(例如,抛出TransientAiException)。 |
<p>空内容</p> |
连接属性
使用前缀spring.ai.openai作为属性前缀,以便连接到OpenAI。
| <property> </property> | <description> </description> | 默认 |
|---|---|---|
spring.ai.openai.base-url |
The URL to connect to. Must be set to |
- |
spring.ai.openai.api-key |
任意字符串 |
- |
配置属性
|
现在通过带有前缀 要启用,请设置为 要禁用,请设置为 此更改允许在应用中配置多个模型。 |
spring.ai.openai.chat 前缀是属性前缀,允许你配置与 OpenAI 的聊天模型实现相关的设置。
| <property> </property> | <description> </description> | 默认 |
|---|---|---|
spring.ai.openai.chat.enabled (已删除且不再有效) |
启用OpenAI聊天模型。 |
true |
spring.ai.model.chat |
启用OpenAI聊天模型。 |
OpenAI |
spring.ai.openai.chat.base-url |
Optional 会覆盖 |
- |
spring.ai.openai.chat.api-key |
Optional 允许覆盖 spring.ai.openai.api-key 提供聊天相关的 api-key |
- |
spring.ai.openai.chat.options.model |
The LLM模型要使用 |
- |
spring.ai.openai.chat.options.temperature |
控制生成完成体显现出的创造性程度的采样温度。更高的值会使输出更加随机,而较低的值会使结果更集中和确定。不建议在同一生成请求中同时修改温度和top_p参数,因为这两个设置之间的交互难以预测。 |
0.8 |
spring.ai.openai.chat.options.frequencyPenalty |
在-2.0到2.0之间的数字。正数值根据文本中现有内容中新词的频率对新词进行惩罚,从而降低模型逐字重复相同行的可能性。 |
0.0f |
spring.ai.openai.chat.options.maxTokens |
生成聊天补全时的最大token数。输入token和生成token的总长度受限于模型的上下文长度。 |
- |
spring.ai.openai.chat.options.n |
每条输入消息生成多少个聊天补全选项。请注意,您将根据所有选项生成的Tokens数量进行收费。为了最小化成本,请保持n为1。 |
1 |
spring.ai.openai.chat.options.presencePenalty |
在-2.0到2.0之间的数字。正数值根据新词在整个文本中出现的频率来惩罚新的词汇,从而增加模型讨论新话题的可能性。 |
- |
spring.ai.openai.chat.options.responseFormat |
指定模型必须输出的格式。设置为 |
- |
spring.ai.openai.chat.options.seed |
此功能处于测试版。如指定,我们的系统将尽力进行确定性采样,这意味着使用相同的种子和参数重复请求应返回相同的结果。 |
- |
spring.ai.openai.chat.options.stop |
API将在生成更多Tokens之前停止生成至多4个序列。 |
- |
spring.ai.openai.chat.options.topP |
在采样温度之外,还有一种称为核采样的方法,该方法中模型会考虑具有 top_p 概率质量的标记结果。因此 0.1 表示只有位于前 10% 概率质量的标记才会被考虑。我们通常建议修改此值或温度中的一个,但不同时修改两者。 |
- |
spring.ai.openai.chat.options.tools |
模型可能调用的工具列表。目前,仅支持函数作为工具。使用此选项提供模型可以生成JSON输入的函数列表。 |
- |
spring.ai.openai.chat.options.toolChoice |
controls which(如果有的话)函数是由模型调用的。none表示模型不会调用任何函数,而是生成一条消息。auto表示模型可以在生成消息或调用函数之间进行选择。通过{"type": "function", "function": {"name": "my_function"}}指定特定的函数强制模型调用该函数。如果没有提供函数,则默认为none;如果提供了函数,则默认为auto。 |
- |
spring.ai.openai.chat.options.user |
代表您最终用户的唯一标识符,这有助于OpenAI监控和检测滥用行为。 |
- |
spring.ai.openai.chat.options.stream-usage |
(仅适用于流式传输) 设置以添加一个额外的分块,其中包含整个请求的 token 使用统计信息。此分块的 |
false |
spring.ai.openai.chat.options.tool-names |
使用名称标识的工具列表,以在单个提示请求中启用功能调用。具有这些名称的工具必须存在于ToolCallback注册表中。 |
- |
spring.ai.openai.chat.options.tool-callbacks |
使用回调注册与ChatModel相关的工具。 |
- |
spring.ai.openai.chat.options.internal-tool-execution-enabled |
如果为假,Spring AI 将不会内部处理工具调用,而是将它们代理给客户端。然后需要由客户端负责处理这些工具调用、将其分派到适当的函数,并返回结果。如果为真(默认值),Spring AI 将会内部处理这些函数调用。仅适用于支持功能调用的聊天模型。 |
true |
所有以spring.ai.openai.chat.options开头的属性可以在运行时通过向Prompt调用添加请求特定的运行时选项来覆盖。 |
运行时选项
The OpenAiChatOptions.java 提供了模型配置,例如要使用的模型、温度、频率惩罚等。
启动时,可以使用OpenAiChatModel(api, options)构造函数或spring.ai.openai.chat.options.*属性来配置默认选项。
在运行时,您可以覆盖默认选项并在Prompt调用中添加新的、针对请求的选项。
例如,为了覆盖特定请求中的默认模型和温度设置:
ChatResponse response = chatModel.call(
new Prompt(
"Generate the names of 5 famous pirates.",
OpenAiChatOptions.builder()
.model("ai/gemma3:4B-F16")
.build()
));
| 除了特定模型的OpenAiChatOptions,你还可以使用一个便携式的ChatOptions 实例,通过调用ChatOptions#builder() 创建。 |
函数调用
Docker Model Runner 支持在选择支持该功能的模型时调用工具/函数。
您可以在ChatModel中注册自定义Java函数,并让提供的模型智能地选择输出一个包含调用已注册函数所需参数的JSON对象。 这是一种强大的技术,可以将LLM能力与外部工具和API连接起来。
工具示例
这里是如何使用Spring AI结合Docker Model Runner功能的一个简单示例:
spring.ai.openai.api-key=test
spring.ai.openai.base-url=http://localhost:12434/engines
spring.ai.openai.chat.options.model=ai/gemma3:4B-F16
@SpringBootApplication
public class DockerModelRunnerLlmApplication {
public static void main(String[] args) {
SpringApplication.run(DockerModelRunnerLlmApplication.class, args);
}
@Bean
CommandLineRunner runner(ChatClient.Builder chatClientBuilder) {
return args -> {
var chatClient = chatClientBuilder.build();
var response = chatClient.prompt()
.user("What is the weather in Amsterdam and Paris?")
.functions("weatherFunction") // reference by bean name.
.call()
.content();
System.out.println(response);
};
}
@Bean
@Description("Get the weather in location")
public Function<WeatherRequest, WeatherResponse> weatherFunction() {
return new MockWeatherService();
}
public static class MockWeatherService implements Function<WeatherRequest, WeatherResponse> {
public record WeatherRequest(String location, String unit) {}
public record WeatherResponse(double temp, String unit) {}
@Override
public WeatherResponse apply(WeatherRequest request) {
double temperature = request.location().contains("Amsterdam") ? 20 : 25;
return new WeatherResponse(temperature, request.unit);
}
}
}
在本例中,当模型需要天气信息时,它将自动调用 weatherFunction 模块,该模块可以随后获取实时天气数据。
预期响应为:"阿姆斯特丹当前气温20摄氏度,巴黎当前气温25摄氏度。"
读取有关OpenAI的更多信息 函数调用。
样本控制器
创建一个新的Spring Boot项目,并在pom(或gradle)依赖中添加spring-ai-starter-model-openai。
在src/main/resources目录下添加一个application.properties文件,以启用并配置OpenAI聊天模型:
spring.ai.openai.api-key=test
spring.ai.openai.base-url=http://localhost:12434/engines
spring.ai.openai.chat.options.model=ai/gemma3:4B-F16
# Docker Model Runner doesn't support embeddings, so we need to disable them.
spring.ai.openai.embedding.enabled=false
这里是一个简单的@Controller类示例,该类使用聊天模型进行文本生成。
@RestController
public class ChatController {
private final OpenAiChatModel chatModel;
@Autowired
public ChatController(OpenAiChatModel chatModel) {
this.chatModel = chatModel;
}
@GetMapping("/ai/generate")
public Map generate(@RequestParam(value = "message", defaultValue = "Tell me a joke") String message) {
return Map.of("generation", this.chatModel.call(message));
}
@GetMapping("/ai/generateStream")
public Flux<ChatResponse> generateStream(@RequestParam(value = "message", defaultValue = "Tell me a joke") String message) {
Prompt prompt = new Prompt(new UserMessage(message));
return this.chatModel.stream(prompt);
}
}