[perf] Optimize different model loading methods

LittleMouse · LittleMouse · commit 538b219c48b1 · 2025-04-09T19:46:43.000+08:00
diff --git a/api_server.py b/api_server.py
@@ -70,6 +70,13 @@ async def get_backend(self, model_name):
                 if model_config["type"] == "openai_proxy":
                     self.backends[model_name] = OpenAIProxyBackend(model_config)
                 elif model_config["type"] in ("llm", "vlm"):
+                    logger.debug(f"self.llm_models: {self.llm_models}")
+                    if self.llm_models and model_name not in self.llm_models:
+                        for old_model in self.llm_models:
+                            old_instance = self.backends.pop(old_model, None)
+                            if old_instance:
+                                await old_instance.close()
+                        self.llm_models.clear()
                     count = model_config["pool_size"]
                     while len(self.llm_models) >= count:
                         oldest_model = self.llm_models.pop(0)
diff --git a/backend/llm_client_backend.py b/backend/llm_client_backend.py
@@ -123,6 +123,8 @@ async def _release_client(self, client):
 
     async def close(self):
         async with self._pool_lock:
+            for task in self._active_tasks:
+                task.cancel()
             for client in self._client_pool:
                 client.exit()
             self._client_pool.clear()