Switch transcription to Whisper large v3

2026-06-10 10:10:13 +03:00
parent 1b63dcdbf5
commit 8d6cd84403
12 changed files with 85 additions and 93 deletions
--- a/internal/config/config.go
+++ b/internal/config/config.go
@@ -18,11 +18,11 @@ type Config struct {
 	LLMAPIKey         string
 	LLMModel          string
 	LLMTimeout        time.Duration
-	VoxtralBaseURL    string
-	VoxtralAPIKey     string
-	VoxtralModel      string
-	VoxtralTimeout    time.Duration
-	AudioLLMPrompt    string
+	AudioBaseURL      string
+	AudioAPIKey       string
+	AudioModel        string
+	AudioTimeout      time.Duration
+	AudioPrompt       string
 	AIStatsSidecarURL string
 	AIStatsTimeout    time.Duration

@@ -48,11 +48,11 @@ func Load() Config {
 		LLMAPIKey:         envString("LLM_API_KEY", ""),
 		LLMModel:          envString("LLM_MODEL", "qwen2.5-14b"),
 		LLMTimeout:        envDuration("LLM_TIMEOUT", 5*time.Minute),
-		VoxtralBaseURL:    envString("VOXTRAL_BASE_URL", envString("AUDIO_LLM_BASE_URL", "")),
-		VoxtralAPIKey:     envString("VOXTRAL_API_KEY", envString("AUDIO_LLM_API_KEY", envString("LLM_API_KEY", ""))),
-		VoxtralModel:      envString("VOXTRAL_MODEL", "mistralai/Voxtral-Small-24B-2507"),
-		VoxtralTimeout:    envDuration("VOXTRAL_TIMEOUT", envDuration("AUDIO_LLM_TIMEOUT", 10*time.Minute)),
-		AudioLLMPrompt:    envString("AUDIO_LLM_PROMPT", defaultAudioLLMPrompt()),
+		AudioBaseURL:      envString("AUDIO_TRANSCRIPTION_BASE_URL", envString("AUDIO_LLM_BASE_URL", "")),
+		AudioAPIKey:       envString("AUDIO_TRANSCRIPTION_API_KEY", envString("AUDIO_LLM_API_KEY", envString("LLM_API_KEY", ""))),
+		AudioModel:        envString("AUDIO_TRANSCRIPTION_MODEL", "openai/whisper-large-v3"),
+		AudioTimeout:      envDuration("AUDIO_TRANSCRIPTION_TIMEOUT", envDuration("AUDIO_LLM_TIMEOUT", 10*time.Minute)),
+		AudioPrompt:       envString("AUDIO_TRANSCRIPTION_PROMPT", envString("AUDIO_LLM_PROMPT", defaultAudioPrompt())),
 		AIStatsSidecarURL: envString("AI_STATS_SIDECAR_URL", ""),
 		AIStatsTimeout:    envDuration("AI_STATS_TIMEOUT", 8*time.Second),

@@ -132,7 +132,7 @@ func envCSVDefault(key string, fallback []string) []string {
 	return fallback
 }

-func defaultAudioLLMPrompt() string {
+func defaultAudioPrompt() string {
 	return "Расшифруй речь из аудио максимально точно. Сохрани русский язык, имена, телефоны, суммы и смысловые паузы. Не добавляй комментарии, анализ, Markdown или JSON. Верни только чистый текст расшифровки."
 }