|
此版本仍在开发中,尚未被视为稳定版。如需最新的快照版本,请使用 Spring AI 1.1.3! |
NVIDIA Chat
NVIDIA LLM API 是一个代理AI推理引擎,提供来自各种提供商的广泛模型。
Spring AI通过重用现有的OpenAI客户端与NVIDIA LLM API集成。
为此,您需要将base-url设置为https://integrate.api.nvidia.com,选择一个提供的LLM模型并为其获取一个api-key。
NVIDIA LLM API 要求将 max-tokens 参数显式设置,否则将会抛出服务器错误。 |
检查NvidiaWithOpenAiChatModelIT.java测试 以了解如何使用Spring AI框架与NVIDIA LLM API结合使用。
前置条件
-
创建一个包含足够credits的NVIDIA账户。
-
选择要使用的预训练模型。例如,如截图下方所示的
meta/llama-3.1-70b-instruct。 -
从所选模型的页面,您可以获取访问该模型所需的
api-key。
Auto-configuration
|
Spring AI自动配置和starter模块的artifact名称有了重大变化。 请参阅升级说明获取更多信息。 |
Spring AI 提供了对 OpenAI 聊天客户端的 Spring Boot 自动配置。
要启用它,请将以下依赖项添加到项目中的 Maven pom.xml 文件中:
<dependency>
<groupId>org.springframework.ai</groupId>
<artifactId>spring-ai-starter-model-openai</artifactId>
</dependency>
请将以下内容添加到您的Gradle build.gradle 构建文件中。
dependencies {
implementation 'org.springframework.ai:spring-ai-starter-model-openai'
}
| 请参阅依赖管理部分,将Spring AI BOM添加到您的构建文件中。 |
聊天属性
重试属性
spring.ai.retry 前缀用作属性前缀,允许您配置对 OpenAI 聊天模型的重试机制。
| <property> </property> | <description> </description> | 默认 |
|---|---|---|
spring.ai.retry.max-attempts |
最大重试尝试次数。 |
10 |
spring.ai.retry.backoff.initial-interval |
指数退避策略的初始睡眠时长。 |
2 秒。 |
spring.ai.retry.backoff.multiplier |
重试间隔倍数。 |
5 |
spring.ai.retry.backoff.max-interval |
最大退避持续时间。 |
3 min. |
spring.ai.retry.on-client-errors |
如果为假,则抛出一个NonTransientAiException,并且不尝试重试 |
false |
spring.ai.retry.exclude-on-http-codes |
不应当触发重试的HTTP状态码列表(例如,抛出NonTransientAiException)。 |
<p>空内容</p> |
spring.ai.retry.on-http-codes |
应触发重试的HTTP状态码列表(例如,抛出TransientAiException)。 |
<p>空内容</p> |
连接属性
使用前缀spring.ai.openai作为属性前缀,以便连接到OpenAI。
| <property> </property> | <description> </description> | 默认 |
|---|---|---|
spring.ai.openai.base-url |
The URL to connect to. Must be set to |
- |
spring.ai.openai.api-key |
NVIDIA API密钥 |
- |
配置属性
|
现在通过带有前缀 要启用,请设置:spring.ai.model.chat=openai(默认已启用) 要禁用,请设置 spring.ai.model.chat=none (或任何与 openai 匹配的值) 此更改是为了允许配置多个模型。 |
spring.ai.openai.chat 前缀是属性前缀,允许你配置与 OpenAI 的聊天模型实现相关的设置。
| <property> </property> | <description> </description> | 默认 |
|---|---|---|
spring.ai.openai.chat.enabled (已删除且不再有效) |
启用OpenAI聊天模型。 |
true |
spring.ai.model.chat |
启用OpenAI聊天模型。 |
OpenAI |
spring.ai.openai.chat.base-url |
Optional 用于覆盖 spring.ai.openai.base-url,提供特定于聊天的 URL。必须设置为 |
- |
spring.ai.openai.chat.api-key |
Optional 允许覆盖 spring.ai.openai.api-key 提供聊天相关的 api-key |
- |
spring.ai.openai.chat.options.model |
- |
|
spring.ai.openai.chat.options.temperature |
使用以控制生成完成内容的看似创造力的采样温度。较高值会使输出更具随机性,而较低值会使结果更集中和确定。不建议在同一完成请求中同时修改温度和top_p,因为这两个设置之间的交互难以预测。 |
0.8 |
spring.ai.openai.chat.options.frequencyPenalty |
在-2.0到2.0之间的数字。正数值根据文本中现有内容中新词的频率对新词进行惩罚,从而降低模型逐字重复相同行的可能性。 |
0.0f |
spring.ai.openai.chat.options.maxTokens |
生成聊天补全时的最大token数。输入token和生成token的总长度受限于模型的上下文长度。 |
注:NVIDIA LLM API 要求必须显式设置 |
spring.ai.openai.chat.options.n |
每条输入消息生成多少个聊天补全选项。请注意,您将根据所有选项生成的Tokens数量进行收费。为了最小化成本,请保持n为1。 |
1 |
spring.ai.openai.chat.options.presencePenalty |
在-2.0到2.0之间的数字。正数值根据新词在整个文本中出现的频率来惩罚新的词汇,从而增加模型讨论新话题的可能性。 |
- |
spring.ai.openai.chat.options.responseFormat |
指定模型必须输出的格式。设置为 |
- |
spring.ai.openai.chat.options.seed |
此功能处于测试版。如指定,我们的系统将尽力进行确定性采样,这意味着使用相同的种子和参数重复请求应返回相同的结果。 |
- |
spring.ai.openai.chat.options.stop |
API将在生成更多Tokens之前停止生成至多4个序列。 |
- |
spring.ai.openai.chat.options.topP |
在采样温度之外,还有一种称为核采样的方法,该方法中模型会考虑具有 top_p 概率质量的标记结果。因此 0.1 表示只有位于前 10% 概率质量的标记才会被考虑。我们通常建议修改此值或温度中的一个,但不同时修改两者。 |
- |
spring.ai.openai.chat.options.tools |
模型可能调用的工具列表。目前,仅支持函数作为工具。使用此选项提供模型可以生成JSON输入的函数列表。 |
- |
spring.ai.openai.chat.options.toolChoice |
controls which(如果有的话)函数是由模型调用的。none表示模型不会调用任何函数,而是生成一条消息。auto表示模型可以在生成消息或调用函数之间进行选择。通过{"type": "function", "function": {"name": "my_function"}}指定特定的函数强制模型调用该函数。如果没有提供函数,则默认为none;如果提供了函数,则默认为auto。 |
- |
spring.ai.openai.chat.options.user |
代表您最终用户的唯一标识符,这有助于OpenAI监控和检测滥用行为。 |
- |
spring.ai.openai.chat.options.stream-usage |
(仅适用于流式传输) 设置以添加一个额外的分块,其中包含整个请求的 token 使用统计信息。此分块的 |
false |
spring.ai.openai.chat.options.tool-names |
使用名称标识的工具列表,以在单个提示请求中启用功能调用。具有这些名称的工具必须存在于ToolCallback注册表中。 |
- |
spring.ai.openai.chat.options.tool-callbacks |
使用回调注册与ChatModel相关的工具。 |
- |
spring.ai.openai.chat.options.internal-tool-execution-enabled |
如果为假,Spring AI 将不会内部处理工具调用,而是将它们代理给客户端。然后需要由客户端负责处理这些工具调用、将其分派到适当的函数,并返回结果。如果为真(默认值),Spring AI 将会内部处理这些函数调用。仅适用于支持功能调用的聊天模型。 |
true |
所有以spring.ai.openai.chat.options开头的属性可以在运行时通过向Prompt调用添加请求特定的运行时选项来覆盖。 |
运行时选项
The OpenAiChatOptions.java 提供了模型配置,例如要使用的模型、温度、频率惩罚等。
启动时,可以使用OpenAiChatModel(api, options)构造函数或spring.ai.openai.chat.options.*属性来配置默认选项。
在运行时,您可以覆盖默认选项并通过向Prompt调用添加新的、针对请求的选项来实现。例如,要为特定请求覆盖默认模型和温度:
ChatResponse response = chatModel.call(
new Prompt(
"Generate the names of 5 famous pirates.",
OpenAiChatOptions.builder()
.model("mixtral-8x7b-32768")
.temperature(0.4)
.build()
));
| 除了特定模型的OpenAiChatOptions,你还可以使用一个便携式的ChatOptions 实例,通过调用ChatOptions#builder() 创建。 |
函数调用
NVIDIA LLM API 支持在选择支持该功能的模型时调用工具/函数。
您可以注册自定义的Java函数,并且由提供的模型智能地选择输出一个包含调用一个或多个已注册函数所需参数的JSON对象。 这是一种强大的技术,可以将LLM的能力与外部工具和API连接起来。
工具示例
这里是如何使用NVIDIA LLM API函数调用与Spring AI的一个简单示例:
spring.ai.openai.api-key=${NVIDIA_API_KEY}
spring.ai.openai.base-url=https://integrate.api.nvidia.com
spring.ai.openai.chat.options.model=meta/llama-3.1-70b-instruct
spring.ai.openai.chat.options.max-tokens=2048
@SpringBootApplication
public class NvidiaLlmApplication {
public static void main(String[] args) {
SpringApplication.run(NvidiaLlmApplication.class, args);
}
@Bean
CommandLineRunner runner(ChatClient.Builder chatClientBuilder) {
return args -> {
var chatClient = chatClientBuilder.build();
var response = chatClient.prompt()
.user("What is the weather in Amsterdam and Paris?")
.functions("weatherFunction") // reference by bean name.
.call()
.content();
System.out.println(response);
};
}
@Bean
@Description("Get the weather in location")
public Function<WeatherRequest, WeatherResponse> weatherFunction() {
return new MockWeatherService();
}
public static class MockWeatherService implements Function<WeatherRequest, WeatherResponse> {
public record WeatherRequest(String location, String unit) {}
public record WeatherResponse(double temp, String unit) {}
@Override
public WeatherResponse apply(WeatherRequest request) {
double temperature = request.location().contains("Amsterdam") ? 20 : 25;
return new WeatherResponse(temperature, request.unit);
}
}
}
在本例中,当模型需要天气信息时,它会自动调用weatherFunction bean,该bean可以获取实时天气数据。
预期的响应如下所示:"阿姆斯特丹当前气温为20摄氏度,巴黎当前气温为25摄氏度。"
读取有关OpenAI的更多信息 函数调用。
样本控制器
创建一个新的Spring Boot项目,并在pom(或gradle)依赖中添加spring-ai-starter-model-openai。
在src/main/resources目录下添加一个application.properties文件,以启用并配置OpenAI聊天模型:
spring.ai.openai.api-key=${NVIDIA_API_KEY}
spring.ai.openai.base-url=https://integrate.api.nvidia.com
spring.ai.openai.chat.options.model=meta/llama-3.1-70b-instruct
# The NVIDIA LLM API doesn't support embeddings, so we need to disable it.
spring.ai.openai.embedding.enabled=false
# The NVIDIA LLM API requires this parameter to be set explicitly or server internal error will be thrown.
spring.ai.openai.chat.options.max-tokens=2048
替换api-key为你的NVIDIA凭据。 |
NVIDIA LLM API 要求将 max-token 参数显式设置,否则将会抛出服务器错误。 |
这里是一个使用聊天模型进行文本生成的简单@Controller类示例。
@RestController
public class ChatController {
private final OpenAiChatModel chatModel;
@Autowired
public ChatController(OpenAiChatModel chatModel) {
this.chatModel = chatModel;
}
@GetMapping("/ai/generate")
public Map generate(@RequestParam(value = "message", defaultValue = "Tell me a joke") String message) {
return Map.of("generation", this.chatModel.call(message));
}
@GetMapping("/ai/generateStream")
public Flux<ChatResponse> generateStream(@RequestParam(value = "message", defaultValue = "Tell me a joke") String message) {
Prompt prompt = new Prompt(new UserMessage(message));
return this.chatModel.stream(prompt);
}
}