优化日志控制

shell-nlp · shell-nlp · commit 93c23d355385 · 2025-05-10T13:48:11.000+08:00
diff --git a/gpt_server/model_backend/lmdeploy_backend.py b/gpt_server/model_backend/lmdeploy_backend.py
@@ -24,6 +24,10 @@
     "lmdeploy-pytorch": "pytorch",  # pytorch后端
     "lmdeploy-turbomind": "turbomind",  # turbomind后端
 }
+from lmdeploy.utils import get_logger
+
+get_logger("lmdeploy").setLevel("WARNING")
+os.environ["TM_LOG_LEVEL"] = "ERROR"
 
 
 def is_stop(output: str, stop_str: str):
@@ -126,7 +130,6 @@ async def stream_chat(self, params: Dict[str, Any]) -> AsyncGenerator:
             skip_special_tokens=True,
             response_format=params["response_format"],
         )
-        logger.info(f"request_id {int(request_id)}")
         if params.get("tools", None) or is_messages_with_tool(messages=messages):
             messages = prompt or messages  # 解决lmdeploy 的提示模板不支持 tools
         if self.messages_type_select:
@@ -158,7 +161,7 @@ async def stream_chat(self, params: Dict[str, Any]) -> AsyncGenerator:
                 "usage": usage,
                 "finish_reason": request_output.finish_reason,
             }
-            
+
             if reasoning_parser_type:
                 reasoning_parser = None
                 delta_token_ids = (
diff --git a/gpt_server/model_worker/baichuan.py b/gpt_server/model_worker/baichuan.py
@@ -84,12 +84,10 @@ def __init__(
         self.stop = [
             self.tokenizer.decode(skip_word) for skip_word in self.stop_words_ids
         ]
-        logger.info(f"{model_names[0]} 停用词: {self.stop}")
+        logger.warning(f"{model_names[0]} 停用词: {self.stop}")
 
     async def generate_stream_gate(self, params):
         self.call_ct += 1
-        logger.info(f"params {params}")
-        logger.info(f"worker_id: {self.worker_id}")
         try:
             messages = params["messages"]
             if isinstance(messages, list):
diff --git a/gpt_server/model_worker/base/model_worker_base.py b/gpt_server/model_worker/base/model_worker_base.py
@@ -1,6 +1,7 @@
 import asyncio
 from typing import List
 import json
+import sys
 from abc import ABC, abstractmethod
 from fastapi import BackgroundTasks, Request, FastAPI
 from fastapi.responses import JSONResponse, StreamingResponse
@@ -20,6 +21,9 @@
 
 worker = None
 app = FastAPI()
+logger.remove(0)
+log_level = os.getenv("log_level", "WARNING")
+logger.add(sys.stderr, level=log_level)
 
 
 def get_context_length_(config):
@@ -220,6 +224,8 @@ def run(cls):
         parser.add_argument("--kv_cache_quant_policy", type=str, default="0")
         # vad_model
         parser.add_argument("--vad_model", type=str, default="")
+        # log_level
+        parser.add_argument("--log_level", type=str, default="WARNING")
         args = parser.parse_args()
         os.environ["num_gpus"] = str(args.num_gpus)
         if args.backend == "vllm":
@@ -244,6 +250,7 @@ def run(cls):
         os.environ["gpu_memory_utilization"] = args.gpu_memory_utilization
         os.environ["kv_cache_quant_policy"] = args.kv_cache_quant_policy
         os.environ["dtype"] = args.dtype
+        os.environ["log_level"] = args.log_level
 
         host = args.host
         controller_address = args.controller_address
@@ -305,6 +312,7 @@ async def api_generate_stream(request: Request):
     params["request_id"] = request_id
     params["request"] = request
     params.pop("prompt")
+    logger.info(f"params {params}")
     generator = worker.generate_stream_gate(params)
     background_tasks = create_background_tasks(request_id)
     return StreamingResponse(generator, background=background_tasks)
diff --git a/gpt_server/model_worker/chatglm.py b/gpt_server/model_worker/chatglm.py
@@ -38,7 +38,7 @@ def __init__(
                 self.stop_words_ids.append(self.tokenizer.convert_tokens_to_ids(i))
             except Exception as e:
                 pass
-        logger.info(f"{model_names[0]} 停用词: {self.stop}")
+        logger.warning(f"{model_names[0]} 停用词: {self.stop}")
 
     def build_chat_input(self, query, history=None, role="user"):
         if history is None:
@@ -60,8 +60,6 @@ def build_chat_input(self, query, history=None, role="user"):
 
     async def generate_stream_gate(self, params):
         self.call_ct += 1
-        logger.info(f"params {params}")
-        logger.info(f"worker_id: {self.worker_id}")
         try:
             # ----------------添加对工具的支持-----------------------------------
             messages = add_tools2messages(params=params, model_adapter="chatglm4")
diff --git a/gpt_server/model_worker/deepseek.py b/gpt_server/model_worker/deepseek.py
@@ -36,12 +36,10 @@ def __init__(
         self.stop = [
             self.tokenizer.decode(skip_word) for skip_word in self.stop_words_ids
         ]
-        logger.info(f"{model_names[0]} 停用词: {self.stop}")
+        logger.warning(f"{model_names[0]} 停用词: {self.stop}")
 
     async def generate_stream_gate(self, params):
         self.call_ct += 1
-        logger.info(f"params {params}")
-        logger.info(f"worker_id: {self.worker_id}")
         try:
             messages = params["messages"]
             if not self.vision_config:
diff --git a/gpt_server/model_worker/embedding.py b/gpt_server/model_worker/embedding.py
@@ -31,7 +31,7 @@ def __init__(
             device = "cpu"
         else:
             device = "cuda"
-        logger.info(f"使用{device}加载...")
+        logger.warning(f"使用{device}加载...")
         model_kwargs = {"device": device}
         self.encode_kwargs = {"normalize_embeddings": True, "batch_size": 64}
         self.mode = "embedding"
@@ -44,16 +44,14 @@ def __init__(
             self.client = sentence_transformers.CrossEncoder(
                 model_name=model_path, **model_kwargs
             )
-            logger.info("正在使用 rerank 模型...")
+            logger.warning("正在使用 rerank 模型...")
         elif self.mode == "embedding":
             self.client = sentence_transformers.SentenceTransformer(
                 model_path, **model_kwargs
             )
-            logger.info("正在使用 embedding 模型...")
+            logger.warning("正在使用 embedding 模型...")
 
     async def get_embeddings(self, params):
-        logger.info(f"params {params}")
-        logger.info(f"worker_id: {self.worker_id}")
         self.call_ct += 1
         ret = {"embedding": [], "token_num": 0}
         texts = params["input"]
diff --git a/gpt_server/model_worker/embedding_infinity.py b/gpt_server/model_worker/embedding_infinity.py
@@ -45,7 +45,7 @@ def __init__(
             device = "cpu"
         else:
             device = "cuda"
-        logger.info(f"使用{device}加载...")
+        logger.warning(f"使用{device}加载...")
         model_type = getattr(self.model_config, "model_type", None)
         bettertransformer = True
         if model_type is not None and "deberta" in model_type:
@@ -71,15 +71,13 @@ def __init__(
         self.engine: AsyncEmbeddingEngine = AsyncEngineArray.from_args([engine_args])[0]
         loop = asyncio.get_running_loop()
         loop.create_task(self.engine.astart())
-        logger.info(f"模型：{model_names[0]}")
-        logger.info(f"正在使用 {self.mode} 模型...")
+        logger.warning(f"模型：{model_names[0]}")
+        logger.warning(f"正在使用 {self.mode} 模型...")
 
     async def astart(self):
         await self.engine.astart()
 
     async def get_embeddings(self, params):
-        logger.info(f"params {params}")
-        logger.info(f"worker_id: {self.worker_id}")
         self.call_ct += 1
         ret = {"embedding": [], "token_num": 0}
         texts: list = params["input"]
diff --git a/gpt_server/model_worker/embedding_v2.py b/gpt_server/model_worker/embedding_v2.py
@@ -56,12 +56,12 @@ def __init__(
             self.client = sentence_transformers.CrossEncoder(
                 model_name=model_path, **model_kwargs
             )
-            logger.info("正在使用 rerank 模型...")
+            logger.warning("正在使用 rerank 模型...")
         elif self.mode == "embedding":
             self.client = sentence_transformers.SentenceTransformer(
                 model_path, **model_kwargs
             )
-            logger.info("正在使用 embedding 模型...")
+            logger.warning("正在使用 embedding 模型...")
         self.warm_up()
 
     def warm_up(self):
@@ -140,8 +140,6 @@ async def rerank(self, params: dict, future: asyncio.Future):
         await self.add_request(params, future)
 
     async def get_embeddings(self, params):
-        logger.info(f"params {params}")
-        logger.info(f"worker_id: {self.worker_id}")
         self.call_ct += 1
         ret = {"embedding": [], "token_num": 0}
         texts = params["input"]
diff --git a/gpt_server/model_worker/funasr.py b/gpt_server/model_worker/funasr.py
@@ -33,15 +33,15 @@ def __init__(
             device = "cpu"
         else:
             device = "cuda"
-        logger.info(f"使用{device}加载...")
+        logger.warning(f"使用{device}加载...")
         vad_model = os.environ.get("vad_model", None)
         self.model = AutoModel(
             model=model_path,
             vad_model=vad_model,
             vad_kwargs={"max_single_segment_time": 30000},
             device="cuda",
         )
-        logger.info(f"模型：{model_names[0]}")
+        logger.warning(f"模型：{model_names[0]}")
 
     async def transcription(self, params):
         file_input = base64.b64decode(params["file"])  # Base64 → bytes
diff --git a/gpt_server/model_worker/gemma.py b/gpt_server/model_worker/gemma.py
@@ -31,12 +31,10 @@ def __init__(
         self.stop = [
             self.tokenizer.decode(skip_word) for skip_word in self.stop_words_ids
         ]
-        logger.info(f"{model_names[0]} 停用词: {self.stop}")
+        logger.warning(f"{model_names[0]} 停用词: {self.stop}")
 
     async def generate_stream_gate(self, params):
         self.call_ct += 1
-        logger.info(f"params {params}")
-        logger.info(f"worker_id: {self.worker_id}")
         try:
             messages = params["messages"]
             if isinstance(messages, list):
diff --git a/gpt_server/model_worker/internlm.py b/gpt_server/model_worker/internlm.py
@@ -38,15 +38,13 @@ def __init__(
         self.stop = [
             self.tokenizer.decode(skip_word) for skip_word in self.stop_words_ids
         ]
-        logger.info(f"{model_names[0]} 停用词: {self.stop}")
+        logger.warning(f"{model_names[0]} 停用词: {self.stop}")
         self.other_config = {
             "chat_template": "{{ bos_token }}{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}"
         }
 
     async def generate_stream_gate(self, params):
         self.call_ct += 1
-        logger.info(f"params {params}")
-        logger.info(f"worker_id: {self.worker_id}")
         try:
             model_type = getattr(self.model_config, "model_type", "internlm")
             messages = params["messages"]
diff --git a/gpt_server/model_worker/internvl.py b/gpt_server/model_worker/internvl.py
@@ -35,14 +35,12 @@ def __init__(
         self.stop = [
             self.tokenizer.decode(skip_word) for skip_word in self.stop_words_ids
         ]
-        logger.info(f"{model_names[0]} 停用词: {self.stop}")
+        logger.warning(f"{model_names[0]} 停用词: {self.stop}")
         # from https://github.com/xorbitsai/inference/blob/c70ea74fa820a613f8d577047ef1818da20a96b3/xinference/model/llm/llm_family_modelscope.json
         self.vl_chat_template = "{% set image_count = namespace(value=0) %}{% set video_count = namespace(value=0) %}{% for message in messages %}{% if loop.first and message['role'] != 'system' %}<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n{% endif %}<|im_start|>{{ message['role'] }}\n{% if message['content'] is string %}{{ message['content'] }}<|im_end|>\n{% else %}{% for content in message['content'] %}{% if content['type'] == 'image' or 'image' in content or 'image_url' in content %}{% set image_count.value = image_count.value + 1 %}{% if add_vision_id %}Picture {{ image_count.value }}: {% endif %}<|vision_start|><|image_pad|><|vision_end|>{% elif content['type'] == 'video' or 'video' in content %}{% set video_count.value = video_count.value + 1 %}{% if add_vision_id %}Video {{ video_count.value }}: {% endif %}<|vision_start|><|video_pad|><|vision_end|>{% elif 'text' in content %}{{ content['text'] }}{% endif %}{% endfor %}<|im_end|>\n{% endif %}{% endfor %}{% if add_generation_prompt %}<|im_start|>assistant\n{% endif %}"
 
     async def generate_stream_gate(self, params):
         self.call_ct += 1
-        logger.info(f"params {params}")
-        logger.info(f"worker_id: {self.worker_id}")
         try:
             messages = params.get("messages", [])
             # 一定是多模态
diff --git a/gpt_server/model_worker/llama.py b/gpt_server/model_worker/llama.py
@@ -37,12 +37,10 @@ def __init__(
         self.stop = [
             self.tokenizer.decode(skip_word) for skip_word in self.stop_words_ids
         ]
-        logger.info(f"{model_names[0]} 停用词: {self.stop}")
+        logger.warning(f"{model_names[0]} 停用词: {self.stop}")
 
     async def generate_stream_gate(self, params):
         self.call_ct += 1
-        logger.info(f"params {params}")
-        logger.info(f"worker_id: {self.worker_id}")
         try:
             messages = params["messages"]
             if isinstance(messages, list):
diff --git a/gpt_server/model_worker/minicpmv.py b/gpt_server/model_worker/minicpmv.py
@@ -35,12 +35,10 @@ def __init__(
         self.stop = [
             self.tokenizer.decode(skip_word) for skip_word in self.stop_words_ids
         ]
-        logger.info(f"{model_names[0]} 停用词: {self.stop}")
+        logger.warning(f"{model_names[0]} 停用词: {self.stop}")
 
     async def generate_stream_gate(self, params):
         self.call_ct += 1
-        logger.info(f"params {params}")
-        logger.info(f"worker_id: {self.worker_id}")
         try:
             messages = params["messages"]
             if isinstance(messages, list):
diff --git a/gpt_server/model_worker/mixtral.py b/gpt_server/model_worker/mixtral.py
@@ -34,12 +34,10 @@ def __init__(
         self.stop = [
             self.tokenizer.decode(skip_word) for skip_word in self.stop_words_ids
         ]
-        logger.info(f"{model_names[0]} 停用词: {self.stop}")
+        logger.warning(f"{model_names[0]} 停用词: {self.stop}")
 
     async def generate_stream_gate(self, params):
         self.call_ct += 1
-        logger.info(f"params {params}")
-        logger.info(f"worker_id: {self.worker_id}")
         try:
             messages = params["messages"]
             if isinstance(messages, list):
diff --git a/gpt_server/model_worker/phi.py b/gpt_server/model_worker/phi.py
@@ -37,12 +37,10 @@ def __init__(
         self.stop = [
             self.tokenizer.decode(skip_word) for skip_word in self.stop_words_ids
         ]
-        logger.info(f"{model_names[0]} 停用词: {self.stop}")
+        logger.warning(f"{model_names[0]} 停用词: {self.stop}")
 
     async def generate_stream_gate(self, params):
         self.call_ct += 1
-        logger.info(f"params {params}")
-        logger.info(f"worker_id: {self.worker_id}")
         try:
             messages = params["messages"]
             if isinstance(messages, list):
diff --git a/gpt_server/model_worker/qwen.py b/gpt_server/model_worker/qwen.py
@@ -50,7 +50,7 @@ def __init__(
         self.stop = [
             self.tokenizer.decode(skip_word) for skip_word in self.stop_words_ids
         ]
-        logger.info(f"{model_names[0]} 停用词: {self.stop}")
+        logger.warning(f"{model_names[0]} 停用词: {self.stop}")
 
         self.chat_template = MODELS.module_dict["qwen2_5"]()
         self.tool_parser = ToolParserManager.module_dict["qwen2_5"](
@@ -61,8 +61,6 @@ def __init__(
 
     async def generate_stream_gate(self, params):
         self.call_ct += 1
-        logger.info(f"params {params}")
-        logger.info(f"worker_id: {self.worker_id}")
         try:
             messages = params.get("messages", [])
             tools = params.get("tools", None)
diff --git a/gpt_server/model_worker/spark_tts.py b/gpt_server/model_worker/spark_tts.py
@@ -90,7 +90,7 @@ def __init__(
                 ),
             )
         )
-        logger.info(f"模型：{model_names[0]}")
+        logger.warning(f"模型：{model_names[0]}")
 
     # 这个是模型主要的方法
     async def generate_voice_stream(self, params):
diff --git a/gpt_server/model_worker/yi.py b/gpt_server/model_worker/yi.py
@@ -35,12 +35,10 @@ def __init__(
         self.stop = [
             self.tokenizer.decode(skip_word) for skip_word in self.stop_words_ids
         ]
-        logger.info(f"{model_names[0]} 停用词: {self.stop}")
+        logger.warning(f"{model_names[0]} 停用词: {self.stop}")
 
     async def generate_stream_gate(self, params):
         self.call_ct += 1
-        logger.info(f"params {params}")
-        logger.info(f"worker_id: {self.worker_id}")
         try:
             messages = params["messages"]
             if isinstance(messages, list):
diff --git a/gpt_server/utils.py b/gpt_server/utils.py
@@ -132,6 +132,7 @@ def start_model_worker(config: dict):
     try:
         host = config["model_worker_args"]["host"]
         controller_address = config["model_worker_args"]["controller_address"]
+        log_level = config["model_worker_args"].get("log_level", "WARNING")
     except KeyError as e:
         error_msg = f"请参照 https://github.com/shell-nlp/gpt_server/blob/main/gpt_server/script/config.yaml 设置正确的 model_worker_args"
         logger.error(error_msg)
@@ -238,6 +239,7 @@ def start_model_worker(config: dict):
                         + f" --enable_prefix_caching {enable_prefix_caching}"  # 是否开启 prefix cache
                         + f" --gpu_memory_utilization {gpu_memory_utilization}"  # 占用GPU比例
                         + f" --kv_cache_quant_policy {kv_cache_quant_policy}"  # kv cache 量化策略
+                        + f" --log_level {log_level}"  # 日志水平
                     )
                     # 处理为 None的情况
                     if lora:

Original file line number	Diff line number	Diff line change
`@@ -90,7 +90,7 @@ def __init__(`
`90`	`90`	`),`
`91`	`91`	`)`
`92`	`92`	`)`
`93`		`- logger.info(f"模型：{model_names[0]}")`
	`93`	`+ logger.warning(f"模型：{model_names[0]}")`
`94`	`94`
`95`	`95`	`# 这个是模型主要的方法`
`96`	`96`	`async def generate_voice_stream(self, params):`