před 3 měsíci · 6db34d7278
--- a/src/llm.ts
+++ b/src/llm.ts
@@ -548,11 +548,32 @@ export class LlamaCpp implements LLM {
 
				    */
			
 
				   private async ensureLlama(): Promise<Llama> {
			
 
				     if (!this.llama) {
			
 
				-      const llama = await getLlama({
			
 
				-        // attempt to build
			
 
				-        build: "autoAttempt",
			
 
				-        logLevel: LlamaLogLevel.error
			
 
				-      });
			
 
				+      // Allow override via QMD_LLAMA_GPU: "false" | "off" | "none" forces CPU
			
 
				+      const gpuOverride = (process.env.QMD_LLAMA_GPU ?? "").toLowerCase();
			
 
				+      const forceCpu = ["false", "off", "none", "disable", "disabled", "0"].includes(gpuOverride);
			
 
				+
			
 
				+      const loadLlama = async (gpu: "auto" | false) =>
			
 
				+        await getLlama({
			
 
				+          build: "autoAttempt",
			
 
				+          logLevel: LlamaLogLevel.error,
			
 
				+          gpu,
			
 
				+        });
			
 
				+
			
 
				+      let llama: Llama;
			
 
				+      if (forceCpu) {
			
 
				+        llama = await loadLlama(false);
			
 
				+      } else {
			
 
				+        try {
			
 
				+          llama = await loadLlama("auto");
			
 
				+        } catch (err) {
			
 
				+          // GPU backend (e.g. Vulkan on headless/driverless machines) can throw at init.
			
 
				+          // Fall back to CPU so qmd still works.
			
 
				+          process.stderr.write(
			
 
				+            `QMD Warning: GPU init failed (${err instanceof Error ? err.message : String(err)}), falling back to CPU.\n`
			
 
				+          );
			
 
				+          llama = await loadLlama(false);
			
 
				+        }
			
 
				+      }
			
 
				 
			
 
				       if (llama.gpu === false) {
			
 
				         process.stderr.write(