7 months ago · a0018c9d04
--- a/packages/types/src/provider-settings.ts
+++ b/packages/types/src/provider-settings.ts
@@ -238,6 +238,7 @@ const litellmSchema = baseProviderSettingsSchema.extend({
 
															 	litellmBaseUrl: z.string().optional(),
														
 
															 	litellmApiKey: z.string().optional(),
														
 
															 	litellmModelId: z.string().optional(),
														
 
															+	litellmUsePromptCache: z.boolean().optional(),
														
 
															 })
														
 
															 const defaultSchema = z.object({
														
--- a/src/api/providers/__tests__/lite-llm.spec.ts
+++ b/src/api/providers/__tests__/lite-llm.spec.ts
@@ -0,0 +1,158 @@
 
															+import { describe, it, expect, vi, beforeEach } from "vitest"
														
 
															+import OpenAI from "openai"
														
 
															+import { Anthropic } from "@anthropic-ai/sdk"
														
 
															+
														
 
															+import { LiteLLMHandler } from "../lite-llm"
														
 
															+import { ApiHandlerOptions } from "../../../shared/api"
														
 
															+import { litellmDefaultModelId, litellmDefaultModelInfo } from "@roo-code/types"
														
 
															+
														
 
															+// Mock vscode first to avoid import errors
														
 
															+vi.mock("vscode", () => ({}))
														
 
															+
														
 
															+// Mock OpenAI
														
 
															+vi.mock("openai", () => {
														
 
															+	const mockStream = {
														
 
															+		[Symbol.asyncIterator]: vi.fn(),
														
 
															+	}
														
 
															+
														
 
															+	const mockCreate = vi.fn().mockReturnValue({
														
 
															+		withResponse: vi.fn().mockResolvedValue({ data: mockStream }),
														
 
															+	})
														
 
															+
														
 
															+	return {
														
 
															+		default: vi.fn().mockImplementation(() => ({
														
 
															+			chat: {
														
 
															+				completions: {
														
 
															+					create: mockCreate,
														
 
															+				},
														
 
															+			},
														
 
															+		})),
														
 
															+	}
														
 
															+})
														
 
															+
														
 
															+// Mock model fetching
														
 
															+vi.mock("../fetchers/modelCache", () => ({
														
 
															+	getModels: vi.fn().mockImplementation(() => {
														
 
															+		return Promise.resolve({
														
 
															+			[litellmDefaultModelId]: litellmDefaultModelInfo,
														
 
															+		})
														
 
															+	}),
														
 
															+}))
														
 
															+
														
 
															+describe("LiteLLMHandler", () => {
														
 
															+	let handler: LiteLLMHandler
														
 
															+	let mockOptions: ApiHandlerOptions
														
 
															+	let mockOpenAIClient: any
														
 
															+
														
 
															+	beforeEach(() => {
														
 
															+		vi.clearAllMocks()
														
 
															+		mockOptions = {
														
 
															+			litellmApiKey: "test-key",
														
 
															+			litellmBaseUrl: "http://localhost:4000",
														
 
															+			litellmModelId: litellmDefaultModelId,
														
 
															+		}
														
 
															+		handler = new LiteLLMHandler(mockOptions)
														
 
															+		mockOpenAIClient = new OpenAI()
														
 
															+	})
														
 
															+
														
 
															+	describe("prompt caching", () => {
														
 
															+		it("should add cache control headers when litellmUsePromptCache is enabled", async () => {
														
 
															+			const optionsWithCache: ApiHandlerOptions = {
														
 
															+				...mockOptions,
														
 
															+				litellmUsePromptCache: true,
														
 
															+			}
														
 
															+			handler = new LiteLLMHandler(optionsWithCache)
														
 
															+
														
 
															+			const systemPrompt = "You are a helpful assistant"
														
 
															+			const messages: Anthropic.Messages.MessageParam[] = [
														
 
															+				{ role: "user", content: "Hello" },
														
 
															+				{ role: "assistant", content: "Hi there!" },
														
 
															+				{ role: "user", content: "How are you?" },
														
 
															+			]
														
 
															+
														
 
															+			// Mock the stream response
														
 
															+			const mockStream = {
														
 
															+				async *[Symbol.asyncIterator]() {
														
 
															+					yield {
														
 
															+						choices: [{ delta: { content: "I'm doing well!" } }],
														
 
															+						usage: {
														
 
															+							prompt_tokens: 100,
														
 
															+							completion_tokens: 50,
														
 
															+							cache_creation_input_tokens: 20,
														
 
															+							cache_read_input_tokens: 30,
														
 
															+						},
														
 
															+					}
														
 
															+				},
														
 
															+			}
														
 
															+
														
 
															+			mockOpenAIClient.chat.completions.create.mockReturnValue({
														
 
															+				withResponse: vi.fn().mockResolvedValue({ data: mockStream }),
														
 
															+			})
														
 
															+
														
 
															+			const generator = handler.createMessage(systemPrompt, messages)
														
 
															+			const results = []
														
 
															+			for await (const chunk of generator) {
														
 
															+				results.push(chunk)
														
 
															+			}
														
 
															+
														
 
															+			// Verify that create was called with cache control headers
														
 
															+			const createCall = mockOpenAIClient.chat.completions.create.mock.calls[0][0]
														
 
															+
														
 
															+			// Check system message has cache control in the proper format
														
 
															+			expect(createCall.messages[0]).toMatchObject({
														
 
															+				role: "system",
														
 
															+				content: [
														
 
															+					{
														
 
															+						type: "text",
														
 
															+						text: systemPrompt,
														
 
															+						cache_control: { type: "ephemeral" },
														
 
															+					},
														
 
															+				],
														
 
															+			})
														
 
															+
														
 
															+			// Check that the last two user messages have cache control
														
 
															+			const userMessageIndices = createCall.messages
														
 
															+				.map((msg: any, idx: number) => (msg.role === "user" ? idx : -1))
														
 
															+				.filter((idx: number) => idx !== -1)
														
 
															+
														
 
															+			const lastUserIdx = userMessageIndices[userMessageIndices.length - 1]
														
 
															+			const secondLastUserIdx = userMessageIndices[userMessageIndices.length - 2]
														
 
															+
														
 
															+			// Check last user message has proper structure with cache control
														
 
															+			expect(createCall.messages[lastUserIdx]).toMatchObject({
														
 
															+				role: "user",
														
 
															+				content: [
														
 
															+					{
														
 
															+						type: "text",
														
 
															+						text: "How are you?",
														
 
															+						cache_control: { type: "ephemeral" },
														
 
															+					},
														
 
															+				],
														
 
															+			})
														
 
															+
														
 
															+			// Check second last user message (first user message in this case)
														
 
															+			if (secondLastUserIdx !== -1) {
														
 
															+				expect(createCall.messages[secondLastUserIdx]).toMatchObject({
														
 
															+					role: "user",
														
 
															+					content: [
														
 
															+						{
														
 
															+							type: "text",
														
 
															+							text: "Hello",
														
 
															+							cache_control: { type: "ephemeral" },
														
 
															+						},
														
 
															+					],
														
 
															+				})
														
 
															+			}
														
 
															+
														
 
															+			// Verify usage includes cache tokens
														
 
															+			const usageChunk = results.find((chunk) => chunk.type === "usage")
														
 
															+			expect(usageChunk).toMatchObject({
														
 
															+				type: "usage",
														
 
															+				inputTokens: 100,
														
 
															+				outputTokens: 50,
														
 
															+				cacheWriteTokens: 20,
														
 
															+				cacheReadTokens: 30,
														
 
															+			})
														
 
															+		})
														
 
															+	})
														
 
															+})
														
--- a/src/api/providers/lite-llm.ts
+++ b/src/api/providers/lite-llm.ts
@@ -39,10 +39,70 @@ export class LiteLLMHandler extends RouterProvider implements SingleCompletionHa
 
															 	): ApiStream {
														
 
															 		const { id: modelId, info } = await this.fetchModel()
														
 
															-		const openAiMessages: OpenAI.Chat.ChatCompletionMessageParam[] = [
														
 
															-			{ role: "system", content: systemPrompt },
														
 
															-			...convertToOpenAiMessages(messages),
														
 
															-		]
														
 
															+		const openAiMessages = convertToOpenAiMessages(messages)
														
 
															+
														
 
															+		// Prepare messages with cache control if enabled and supported
														
 
															+		let systemMessage: OpenAI.Chat.ChatCompletionMessageParam
														
 
															+		let enhancedMessages: OpenAI.Chat.ChatCompletionMessageParam[]
														
 
															+
														
 
															+		if (this.options.litellmUsePromptCache && info.supportsPromptCache) {
														
 
															+			// Create system message with cache control in the proper format
														
 
															+			systemMessage = {
														
 
															+				role: "system",
														
 
															+				content: [
														
 
															+					{
														
 
															+						type: "text",
														
 
															+						text: systemPrompt,
														
 
															+						cache_control: { type: "ephemeral" },
														
 
															+					} as any,
														
 
															+				],
														
 
															+			}
														
 
															+
														
 
															+			// Find the last two user messages to apply caching
														
 
															+			const userMsgIndices = openAiMessages.reduce(
														
 
															+				(acc, msg, index) => (msg.role === "user" ? [...acc, index] : acc),
														
 
															+				[] as number[],
														
 
															+			)
														
 
															+			const lastUserMsgIndex = userMsgIndices[userMsgIndices.length - 1] ?? -1
														
 
															+			const secondLastUserMsgIndex = userMsgIndices[userMsgIndices.length - 2] ?? -1
														
 
															+
														
 
															+			// Apply cache_control to the last two user messages
														
 
															+			enhancedMessages = openAiMessages.map((message, index) => {
														
 
															+				if ((index === lastUserMsgIndex || index === secondLastUserMsgIndex) && message.role === "user") {
														
 
															+					// Handle both string and array content types
														
 
															+					if (typeof message.content === "string") {
														
 
															+						return {
														
 
															+							...message,
														
 
															+							content: [
														
 
															+								{
														
 
															+									type: "text",
														
 
															+									text: message.content,
														
 
															+									cache_control: { type: "ephemeral" },
														
 
															+								} as any,
														
 
															+							],
														
 
															+						}
														
 
															+					} else if (Array.isArray(message.content)) {
														
 
															+						// Apply cache control to the last content item in the array
														
 
															+						return {
														
 
															+							...message,
														
 
															+							content: message.content.map((content, contentIndex) =>
														
 
															+								contentIndex === message.content.length - 1
														
 
															+									? ({
														
 
															+											...content,
														
 
															+											cache_control: { type: "ephemeral" },
														
 
															+										} as any)
														
 
															+									: content,
														
 
															+							),
														
 
															+						}
														
 
															+					}
														
 
															+				}
														
 
															+				return message
														
 
															+			})
														
 
															+		} else {
														
 
															+			// No cache control - use simple format
														
 
															+			systemMessage = { role: "system", content: systemPrompt }
														
 
															+			enhancedMessages = openAiMessages
														
 
															+		}
														
 
															 		// Required by some providers; others default to max tokens allowed
														
 
															 		let maxTokens: number | undefined = info.maxTokens ?? undefined
														
@@ -50,7 +110,7 @@ export class LiteLLMHandler extends RouterProvider implements SingleCompletionHa
 
															 		const requestOptions: OpenAI.Chat.Completions.ChatCompletionCreateParamsStreaming = {
														
 
															 			model: modelId,
														
 
															 			max_tokens: maxTokens,
														
 
															-			messages: openAiMessages,
														
 
															+			messages: [systemMessage, ...enhancedMessages],
														
 
															 			stream: true,
														
 
															 			stream_options: {
														
 
															 				include_usage: true,
														
@@ -80,20 +140,30 @@ export class LiteLLMHandler extends RouterProvider implements SingleCompletionHa
 
															 			}
														
 
															 			if (lastUsage) {
														
 
															+				// Extract cache-related information if available
														
 
															+				// LiteLLM may use different field names for cache tokens
														
 
															+				const cacheWriteTokens =
														
 
															+					lastUsage.cache_creation_input_tokens || (lastUsage as any).prompt_cache_miss_tokens || 0
														
 
															+				const cacheReadTokens =
														
 
															+					lastUsage.prompt_tokens_details?.cached_tokens ||
														
 
															+					(lastUsage as any).cache_read_input_tokens ||
														
 
															+					(lastUsage as any).prompt_cache_hit_tokens ||
														
 
															+					0
														
 
															+
														
 
															 				const usageData: ApiStreamUsageChunk = {
														
 
															 					type: "usage",
														
 
															 					inputTokens: lastUsage.prompt_tokens || 0,
														
 
															 					outputTokens: lastUsage.completion_tokens || 0,
														
 
															-					cacheWriteTokens: lastUsage.cache_creation_input_tokens || 0,
														
 
															-					cacheReadTokens: lastUsage.prompt_tokens_details?.cached_tokens || 0,
														
 
															+					cacheWriteTokens: cacheWriteTokens > 0 ? cacheWriteTokens : undefined,
														
 
															+					cacheReadTokens: cacheReadTokens > 0 ? cacheReadTokens : undefined,
														
 
															 				}
														
 
															 				usageData.totalCost = calculateApiCostOpenAI(
														
 
															 					info,
														
 
															 					usageData.inputTokens,
														
 
															 					usageData.outputTokens,
														
 
															-					usageData.cacheWriteTokens,
														
 
															-					usageData.cacheReadTokens,
														
 
															+					usageData.cacheWriteTokens || 0,
														
 
															+					usageData.cacheReadTokens || 0,
														
 
															 				)
														
 
															 				yield usageData
														
--- a/webview-ui/src/components/settings/providers/LiteLLM.tsx
+++ b/webview-ui/src/components/settings/providers/LiteLLM.tsx
@@ -1,5 +1,5 @@
 
															 import { useCallback, useState, useEffect, useRef } from "react"
														
 
															-import { VSCodeTextField } from "@vscode/webview-ui-toolkit/react"
														
 
															+import { VSCodeTextField, VSCodeCheckbox } from "@vscode/webview-ui-toolkit/react"
														
 
															 import { type ProviderSettings, type OrganizationAllowList, litellmDefaultModelId } from "@roo-code/types"
														
@@ -151,6 +151,29 @@ export const LiteLLM = ({
 
															 				organizationAllowList={organizationAllowList}
														
 
															 				errorMessage={modelValidationError}
														
 
															 			/>
														
 
															+
														
 
															+			{/* Show prompt caching option if the selected model supports it */}
														
 
															+			{(() => {
														
 
															+				const selectedModelId = apiConfiguration.litellmModelId || litellmDefaultModelId
														
 
															+				const selectedModel = routerModels?.litellm?.[selectedModelId]
														
 
															+				if (selectedModel?.supportsPromptCache) {
														
 
															+					return (
														
 
															+						<div className="mt-4">
														
 
															+							<VSCodeCheckbox
														
 
															+								checked={apiConfiguration.litellmUsePromptCache || false}
														
 
															+								onChange={(e: any) => {
														
 
															+									setApiConfigurationField("litellmUsePromptCache", e.target.checked)
														
 
															+								}}>
														
 
															+								<span className="font-medium">{t("settings:providers.enablePromptCaching")}</span>
														
 
															+							</VSCodeCheckbox>
														
 
															+							<div className="text-sm text-vscode-descriptionForeground ml-6 mt-1">
														
 
															+								{t("settings:providers.enablePromptCachingTitle")}
														
 
															+							</div>
														
 
															+						</div>
														
 
															+					)
														
 
															+				}
														
 
															+				return null
														
 
															+			})()}
														
 
															 		</>
														
 
															 	)
														
 
															 }