去除多余的日志

shell-nlp · shell-nlp · commit 578caa7a4c9e · 2025-05-08T22:32:16.000+08:00
diff --git a/gpt_server/model_backend/lmdeploy_backend.py b/gpt_server/model_backend/lmdeploy_backend.py
@@ -105,6 +105,7 @@ async def stream_chat(self, params: Dict[str, Any]) -> AsyncGenerator:
         stop_token_ids = params.get("stop_words_ids", None) or []
         presence_penalty = float(params.get("presence_penalty", 0.0))
         frequency_penalty = float(params.get("frequency_penalty", 0.0))
+        reasoning_parser_type = params.get("reasoning_parser", None)
         request = params.get("request", None)
         # Handle stop_str
         stop = set()
@@ -157,7 +158,7 @@ async def stream_chat(self, params: Dict[str, Any]) -> AsyncGenerator:
                 "usage": usage,
                 "finish_reason": request_output.finish_reason,
             }
-            reasoning_parser_type = params.get("reasoning_parser", None)
+            
             if reasoning_parser_type:
                 reasoning_parser = None
                 delta_token_ids = (
diff --git a/gpt_server/model_worker/base/base_model_worker.py b/gpt_server/model_worker/base/base_model_worker.py
@@ -1,4 +1,3 @@
-import asyncio
 import threading
 import time
 from typing import List
@@ -106,12 +105,12 @@ def register_to_controller(self):
         assert r.status_code == 200
 
     def send_heart_beat(self):
-        logger.info(
-            f"Send heart beat. Models: {self.model_names}. "
-            f"Semaphore: {pretty_print_semaphore(self.semaphore)}. "
-            f"call_ct: {self.call_ct}. "
-            f"worker_id: {self.worker_id}. "
-        )
+        # logger.info(
+        #     f"Send heart beat. Models: {self.model_names}. "
+        #     f"Semaphore: {pretty_print_semaphore(self.semaphore)}. "
+        #     f"call_ct: {self.call_ct}. "
+        #     f"worker_id: {self.worker_id}. "
+        # )
 
         url = self.controller_addr + "/receive_heart_beat"
 
@@ -190,67 +189,3 @@ def transcription(self, params):
 
     def generate_voice_stream(self, params):
         raise NotImplementedError
-
-
-def release_worker_semaphore():
-    worker.semaphore.release()
-
-
-def acquire_worker_semaphore():
-    if worker.semaphore is None:
-        worker.semaphore = asyncio.Semaphore(worker.limit_worker_concurrency)
-    return worker.semaphore.acquire()
-
-
-def create_background_tasks():
-    background_tasks = BackgroundTasks()
-    background_tasks.add_task(release_worker_semaphore)
-    return background_tasks
-
-
-@app.post("/worker_generate_stream")
-async def api_generate_stream(request: Request):
-    params = await request.json()
-    await acquire_worker_semaphore()
-    generator = worker.generate_stream_gate(params)
-    background_tasks = create_background_tasks()
-    return StreamingResponse(generator, background=background_tasks)
-
-
-@app.post("/worker_generate")
-async def api_generate(request: Request):
-    params = await request.json()
-    await acquire_worker_semaphore()
-    output = await asyncio.to_thread(worker.generate_gate, params)
-    release_worker_semaphore()
-    return JSONResponse(output)
-
-
-@app.post("/worker_get_embeddings")
-async def api_get_embeddings(request: Request):
-    params = await request.json()
-    await acquire_worker_semaphore()
-    embedding = worker.get_embeddings(params)
-    release_worker_semaphore()
-    return JSONResponse(content=embedding)
-
-
-@app.post("/worker_get_status")
-async def api_get_status(request: Request):
-    return worker.get_status()
-
-
-@app.post("/count_token")
-async def api_count_token(request: Request):
-    params = await request.json()
-    return worker.count_token(params)
-
-
-@app.post("/worker_get_conv_template")
-async def api_get_conv(request: Request):
-    return worker.get_conv_template()
-
-
-@app.post("/model_details")
-async def api_model_details(request: Request):
-    return {"context_length": worker.context_len}
diff --git a/gpt_server/model_worker/qwen.py b/gpt_server/model_worker/qwen.py
@@ -1,3 +1,4 @@
+import asyncio
 import json
 from typing import List
 from fastchat.constants import ErrorCode, SERVER_ERROR_MSG
@@ -75,7 +76,10 @@ async def generate_stream_gate(self, params):
 
             if not self.vision_config:
                 if isinstance(messages, list):
-                    text = self.chat_template.messages2prompt(messages, True, tools)
+                    # text = self.chat_template.messages2prompt(messages, True, tools)
+                    text = await asyncio.to_thread(
+                        self.chat_template.messages2prompt, messages, True, tools
+                    )
                 elif isinstance(messages, str):
                     text = messages
 
@@ -84,12 +88,19 @@ async def generate_stream_gate(self, params):
                 params["prompt"] = text
             else:  # 多模态
                 if isinstance(messages, list):
-                    text = self.tokenizer.apply_chat_template(
+                    text = await asyncio.to_thread(
+                        self.tokenizer.apply_chat_template,
                         messages,
                         chat_template=self.vl_chat_template,
                         tokenize=False,
                         add_generation_prompt=True,
                     )
+                    # text = self.tokenizer.apply_chat_template(
+                    #     messages,
+                    #     chat_template=self.vl_chat_template,
+                    #     tokenize=False,
+                    #     add_generation_prompt=True,
+                    # )
                     params["prompt"] = text
                     # 多模态不需要传入input_ids
                     params["multimodal"] = True
diff --git a/gpt_server/utils.py b/gpt_server/utils.py
@@ -62,6 +62,7 @@ def run_cmd(cmd: str, *args, **kwargs):
 def start_controller(controller_host, controller_port, dispatch_method):
     """启动fastchat控制器"""
     cmd = f"python -m fastchat.serve.controller --host {controller_host} --port {controller_port} --dispatch-method {dispatch_method} "
+    cmd += "> /dev/null 2>&1"  # 完全静默（Linux/macOS）
     controller_process = Process(target=run_cmd, args=(cmd,))
     controller_process.start()