LMDeploy 部署 VLMs 的方法与探讨_魔搭ModelScope社区-ModelScope魔搭社区

01 LMDeploy简介

LMDeploy 是一个高效且友好的大型语言模型（LLMs）和视觉-语言模型（VLMs）部署工具箱，由上海人工智能实验室模型压缩和部署团队开发，涵盖了模型量化、离线推理和在线服务等功能。

1.1 软硬件平台

支持的软硬件平台包括：

Linux、Windows 系统 + NVIDIA 显卡。运行时，cuda runtime的最低要求是11.3。支持的 NVIDIA 显卡型号包括：
Volta(sm70): V100
Turing(sm75): 20 系列，T4
Ampere(sm80,sm86): 30 系列，A10, A16, A30, A100 等
Ada Lovelace(sm89): 40 系列
Hopper(sm90)：H100（尚未深度优化）
Huawei 910b

1.2 项目结构

1.2.1 接口层

Python：离线推理

RESTful：访问在线服务

gRPC：访问 triton inference server 接口。没有支持 VLM 模型

1.2.2 量化层

权重量化：支持 AWQ 和 SmoothQuant 算法

K/V Cache：KV在线量化

1.2.3 引擎层

TurboMind 引擎：起源于 FasterTransformer，由 C++ 和 CUDA 开发，致力于推理性能的优化

PyTorch 引擎：采用纯 Python 开发，kernel 部分使用 openai triton 编写，旨在降低开发者的门槛

两个引擎互为补充，相辅相成，共同打造了 LMDeploy 的基石

1.2.4 服务层

OpenAI-like Server：推理服务，兼容 openai 接口

Gradio：web demo的服务

Triton Inference Server：不支持 VLM。LLM 也不推荐

1.3 支持的模型

02 LMDeploy 使用指南之 VLMs 部署

2.1 环境安装

方案 1：创建一个干净的 conda 环境，pip安装 lmdeploy。支持的 python 版本是 3.8 - 3.12

conda create -n lmdeploy python=3.8 -y
conda activate lmdeploy
pip install lmdeploy

到这里为止，可以使用 lmdeploy 部署 LLM 模型。

但，如果要部署 VLM 模型，比如 InternVL系列，InternLM-XComposer系列、LLaVA 等等，需要安装上游模型库需要的依赖。原因，LMDeploy 对 VLMs 视觉部分的模型推理以及图像预处理，是复用上游库的。

以 InternVL2 模型为例，还需要安装：

pip install timm
# 建议从https://github.com/Dao-AILab/flash-attention/releases寻找和环境匹配的whl包
pip install flash-attn

因为复用VLMs上游库关于图像的预处理和视觉模型的推理，且不同的VLM依赖各不相同，出于维护性方面的考虑，LMDeploy 没有把 VLMs 的依赖，比如 timm，flash-attn，放在自己的依赖列表里。

但是，torchvision放入了依赖列表。原因是，LMDeploy 依赖 torch，担心用户安装 torchvision 时没留意torch的版本，安装了不匹配的。（后续考虑移除，相信用户）

方案 2：docker 镜像

LMDeploy 只提供可以部署 LLM 模型的镜像，不提供部署 VLM 的镜像，理由如上。

推荐用户基于 LMDeploy 镜像构建 VLM 部署镜像，比如：

ARG CUDA_VERSION=cu12

FROM openmmlab/lmdeploy:latest-cu12 AS cu12
FROM openmmlab/lmdeploy:latest-cu11 AS cu11

RUN python3 -m pip install timm
# 建议从https://github.com/Dao-AILab/flash-attention/releases寻找和环境匹配的whl包
RUN python3 -m pip install flash-attn

LMDeploy 镜像的命名方式如下：

openmmlab/lmdeploy:latest-cu12
openmmlab/lmdeploy:latest-cu11
openmmlab/lmdeploy:latest # 和 openmmlab/lmdeploy:latest-cu12 一致
openmmlab/lmdeploy:{tag}-cu12 # 比如 openmmlab/lmdeploy:v0.5.3-cu12
openmmlab/lmdeploy:{tag}-cu11

2.2 离线推理

以 InternVL2-8B 模型为例，最简单的 "Hello, world" 式的推理方式如下：

from lmdeploy import pipeline
from lmdeploy.vl import load_image

pipe = pipeline('OpenGVLab/InternVL2-8B')

image = load_image('https://raw.githubusercontent.com/open-mmlab/mmdeploy/main/tests/data/tiger.jpeg')
response = pipe(('describe this image', image))
print(response)

在构造 pipeline 时，如果没有指定使用 TurboMind 引擎或 PyTorch 引擎进行推理，LMDeploy 将根据它们各自的能力自动分配一个，默认优先使用 TurboMind 引擎。

当然，你可以手动选择一个引擎，我们将在推理引擎配置章节中，详细介绍两种引擎的配置方法。

2.2.1 创建 pipeline

2.2.1.1 API

def pipeline(model_path: str,
            model_name: Optional[str] = None,
            backend_config: Optional[Union[TurbomindEngineConfig,
                                           PytorchEngineConfig]] = None,
            chat_template_config: Optional[ChatTemplateConfig] = None,
            log_level='ERROR',
            **kwargs):

model_path：模型路径

可以是 huggingface hub 上的 model_repo_id

可以是 modelscope hub 上的 model_repo_id。在这种情况下，需要安装modelscope，并设置环境变量

pip install modelscope
export LMDEPLOY_USE_MODELSCOPE=Tru

对于 LLM 模型来说，它可以是经多 lmdeploy convert 转换后的模型的路径。不支持离线转换 VLMs 模型

model_name：内置对话模板名称

v0.6.0（尚未发布）将会移除这个参数，用 ChatTemplateConfig 中的 model_name 替代

backend_config	推理引擎配置参数
chat_template_config	对话模板参数
log_level	日志级别。默认为 ERROR
vision_config	视觉模型推理的配置参数

vision_config 被隐藏在 kwargs 中了

2.2.1.2 推理引擎配置

引擎参数的定义

Turbomind

@dataclass
class TurbomindEngineConfig:
    model_format: Optional[str] = None
    tp: int = 1
    session_len: Optional[int] = None
    max_batch_size: int = 128
    cache_max_entry_count: float = 0.8
    cache_block_seq_len: int = 64
    enable_prefix_caching: bool = False
    quant_policy: int = 0
    rope_scaling_factor: float = 0.0
    use_logn_attn: bool = False
    download_dir: Optional[str] = None
    revision: Optional[str] = None
    max_prefill_token_num: int = 8192
    num_tokens_per_iter: int = 0
    max_prefill_iters: int = 1

Pytorch

@dataclass
class PytorchEngineConfig:
    tp: int = 1
    session_len: int = None
    max_batch_size: int = 128
    cache_max_entry_count: float = 0.8
    eviction_type: str = 'recompute'
    prefill_interval: int = 16
    block_size: int = 64
    num_cpu_blocks: int = 0
    num_gpu_blocks: int = 0
    adapters: Dict[str, str] = None
    max_prefill_token_num: int = 4096
    thread_safe: bool = False
    enable_prefix_caching: bool = False
    device_type: str = 'cuda'
    download_dir: str = None
    revision: str = None

引擎通用的参数：

单机多卡推理（tp）

tp用于张量并行时的GPU数量，缺省值 1，目前被约束为2n

LMDeploy 只支持单机多卡，不支持多机多卡

Turbomind

from lmdeploy import pipeline
from lmdeploy import TurbomindEngineConfig

pipe = pipeline(
    'OpenGVLab/InternVL2-8B',
    backend_config=TurbomindEngineConfig(
        tp=2))

Pytorch

from lmdeploy import pipeline
from lmdeploy import PytorchEngineConfig

pipe = pipeline(
    'OpenGVLab/InternVL2-8B',
    backend_config=PytorchEngineConfig(
        tp=2))

设置内存使用量（cache_max_entry_count）

cache_max_entry_count 表示加载模型权重后 K/V 缓存占用的空闲 GPU 内存的比例。默认值是 0.8。

K/V 缓存分配方式是一次性申请，重复性使用，这就是为什么 pipeline 以及下文中的 api_server 在启动后会消耗大量 GPU 内存。

如果你遇到内存不足(OOM)错误的错误，可能需要考虑降低 cache_max_entry_count 的

Turbomind

from lmdeploy import pipeline
from lmdeploy import TurbomindEngineConfig

pipe = pipeline(
    'OpenGVLab/InternVL2-8B',
    backend_config=TurbomindEngineConfig(
        tp=2))

Pytorch

from lmdeploy import pipeline
from lmdeploy import PytorchEngineConfig

pipe = pipeline(
    'OpenGVLab/InternVL2-8B',
    backend_config=PytorchEngineConfig(
        tp=2))

设置最大推理长度（session_len）

session_len表示上下文窗口的最大长度，包括输入的prompt token个数和输出的token个数

Turbomind

from lmdeploy import pipeline
from lmdeploy import TurbomindEngineConfig

pipe = pipeline(
   'OpenGVLab/InternVL2-8B',
   backend_config=TurbomindEngineConfig(
       session_len=8192))

Pytorch

from lmdeploy import pipeline
from lmdeploy import PytorchEngineConfig

pipe = pipeline(
   'OpenGVLab/InternVL2-8B',
   backend_config=PytorchEngineConfig(
       session_len=8192))

设置推理最大batch（max_batch_size）

max_batch_size 表示 Continuous batching 推理时，最大的批处理数量

Turbomind

from lmdeploy import pipeline
from lmdeploy import TurbomindEngineConfig

pipe = pipeline(
   'OpenGVLab/InternVL2-8B',
   backend_config=TurbomindEngineConfig(
       max_batch_size=256))

Pytorch

from lmdeploy import pipeline
from lmdeploy import PytorchEngineConfig

pipe = pipeline(
   'OpenGVLab/InternVL2-8B',
   backend_config=PytorchEngineConfig(
       max_batch_size=256))

设置 prefix caching 开关（enable_prefix_caching）

Turbomind

from lmdeploy import pipeline
from lmdeploy import TurbomindEngineConfig

pipe = pipeline(
   'OpenGVLab/InternVL2-8B',
   backend_config=TurbomindEngineConfig(
       enable_prefix_caching=True))

Pytorch

from lmdeploy import pipeline
from lmdeploy import PytorchEngineConfig

pipe = pipeline(
   'OpenGVLab/InternVL2-8B',
   backend_config=PytorchEngineConfig(
       enable_prefix_caching=

设置prefill chunk的最大token数（max_prefill_token_num）

Turbomind

from lmdeploy import pipeline
from lmdeploy import TurbomindEngineConfig

pipe = pipeline(
   'OpenGVLab/InternVL2-8B',
   backend_config=TurbomindEngineConfig(
       max_prefill_token_num=8192))

Pytorch

from lmdeploy import pipeline
from lmdeploy import PytorchEngineConfig

pipe = pipeline(
    'OpenGVLab/InternVL2-8B',
    backend_config=PytorchEngineConfig(
        max_prefill_token_num=4096))

设置模型下载参数（download_dir、revision）

当 model_path 不是本地路径时，LMDeploy 会从 huggingface hub 或者 modelscope hub上下载模型，默认下载最新版本，默认存储在 ~/.cache 下。用户可以通过 revision 指定模型版本，通过download_dir 指定模型存放路径

TurbomindEngine 专用参数：

设置Dynamic NTK外推参数（rope_scaling_factor）

from lmdeploy import pipeline, GenerationConfig, TurbomindEngineConfig

backend_config = TurbomindEngineConfig(
       rope_scaling_factor=2.5,
       session_len=1000000,
       max_batch_size=1,
       cache_max_entry_count=0.9,
       tp=2)
pipe = pipeline('internlm/internlm2_5-7b-chat-1m', backend_config=backend_config)
prompt = 'Use a long prompt to replace this sentence'
gen_config = GenerationConfig(top_p=0.8,
                             top_k=40,
                             temperature=0.8,
                             max_new_tokens=1024)
response = pipe(prompt, gen_config=gen_config)
print(response)

设置在线 KV Cache量化精度（quant_policy）

quant_policy 表示 LLM 模型 KV cache 量化策略的参数，4表示 4bit 量化，8表示 8bit 量化。8bit KV cache 几乎不掉点，可认为量化精度无损。

from lmdeploy import pipeline, TurbomindEngineConfig

pipe = pipeline('OpenGVLab/InternVL2-8B',
               backend_config=TurbomindEngineConfig(
                   quant_policy=8))

设置模型格式（model_format）

取值范围{None,hf,llama,awq,gptq}。None 根据模型文件结构自动判断，hf 表示 huggingface上类llama结构的模型，llama 表示 meta_llama（pytorch权重格式），awq 表示 awq 量化模型，gptq 表示 gptq 量化模型（0.6.0支持）。

from lmdeploy import pipeline, TurbomindEngineConfig

pipe = pipeline(
    'OpenGVLab/InternVL2-8B-AWQ',
    backend_config=TurbomindEngineConfig(
        model_format='awq'))

from lmdeploy import pipeline, TurbomindEngineConfig

pipe = pipeline(
    'OpenGVLab/InternVL2-8B-AWQ',
    backend_config=TurbomindEngineConfig(
        model_format=None))

KV block 的大小（cache_block_seq_len）

一个 KV cache block 能够容纳的 token 的数量。默认是 64。如果 GPU compute_capability >= 8.0，应该是32的倍数，否则应该是64的倍数

num_tokens_per_iter

控制一次forward pass 处理的token数量。这包括预填充（prefill）和解码（decoding）。例如，当有8个解码序列和2个预填充序列时，首先为8个解码token分配所需要的资源，然后为num_tokens_per_iter - 8个预填充token分配资源。

它的默认值为 max_prefill_token_num

为了减少long prompt 序列的影响，num_tokens_per_iter的最优值与模型大小、GPU型号和工作负载有关。对于Llama3-8B、A100 80G和128个并发使用情况，该值在128到256之间。如果你使用的是4090显卡，可以从64-128开始。基本上，这个值越小，预填充的影响就越小（但它要大于max_batch_size）。

max_prefill_iters

控制单个序列预填充的最大迭代次数。

在max_prefill_iters被设定后，num_tokens_per_iter可能会被重新计算。例如，当一个请求有2000个 token 时，如果max_prefill_iters=1，意味着预填充在1次迭代中完成，不管num_tokens_per_iter被设置为多少。所以，为了让num_tokens_per_iter充分发挥其效果，max_prefill_iters应该设置为一个比较大的值。

它的默认值为 (session_len + max_prefill_token_num - 1) // max_prefill_token_num

当找到一个合适的num_tokens_per_iter后，max_prefill_iters用于平衡解码的平滑度和首token延迟。首先将其设置为一个大值（你会观察到首令牌延迟的增加），然后逐渐减小，直到达到可接受的首令牌延迟。

2.2.1.3 对话模板配置

@dataclass
class ChatTemplateConfig:
   model_name: str
   system: Optional[str] = None
   meta_instruction: Optional[str] = None
   eosys: Optional[str] = None
   user: Optional[str] = None
   eoh: Optional[str] = None
   assistant: Optional[str] = None
   eoa: Optional[str] = None
   separator: Optional[str] = None
   capability: Optional[Literal['completion', 'infilling', 'chat',
                                'python']] = None
   stop_words: Optional[List[str]] = None

model_name: 对话模板名称

system、meta_instruction、eosys 分别表示 system 角色的名称，system角色的提示词，system角色的提示词的结束符。

以 InternLM2 模型为例，它的对话模板的这3个属性如下：

# InternLM2
system = "<|im_start|>system"
meta_instruction = """You are an AI assistant whose name is InternLM (书生·浦语).
- InternLM (书生·浦语) is a conversational language model that is developed by Shanghai AI Laboratory (上海人工智能实验室). It is designed to be helpful, honest, and harmless.
- InternLM (书生·浦语) can understand and communicate fluently in the language chosen by the user such as English and 中文.
"""
eosys = "<|im_end|>\n"

user、eoh 分别表示 user 这个角色的名称，user角色的提示词的结束符
assistant、eoa 分别表示 AI assistant 这个角色的名称，以及这个角色回复内容的结束符
seperator：两轮对话之间的分隔符
capability：模型的能力。"completion" 表示文本补全，"chat" 表示对话，"infilling" 表示代码填空（codellama专用）、"python"表示python代码能力（codellama专用）
stop_words：结束符，用来停止 AI assistant 应答的。当前，LMDeploy 只支持每个 stop_word 只能是 1 个 token_id 的情况

对话模板的作用是用来拼接一个对话序列的。

我们假设一个对话序列为 U1A1U2A2...Un，其中Ui表示User在第i轮对话时输入的提示词（prompt），Ai表示模型或者说AI Assistant在第i轮对话中生成的答案。

在 LMDeploy 中，对话序列的拼接方式有 2 种，分别对应两种推理模式：交互式推理（有状态推理）、非交互式推理（无状态推理）。

这两种推理方式的区别在于，第 i轮对话中，用户侧的输入是什么。交互式推理的输入是 Ui，非交互式推理的输入是 U1A1U2A2...Ui。换言之，交互式推理模式下，用户不需要输入历史对话记录，因为历史对话的信息已经被推理引擎缓存了（包括token、KV、游标等），而非交互式推理模式则需要输入历史对话记录。

LMDeploy 拼接对话序列的两种方式在 BaseChatTemplate 中实现。get_prompt 用户交互式推理模式，messages2prompt 用于非交互式推理模式

class BaseChatTemplate:
   def get_prompt(self, prompt, sequence_start=True):
       """Return decorated prompt in interactive inference mode
       """
       if sequence_start: # decorate $$U_0$$
           return f'{self.system}{self.meta_instruction}{self.eosys}' \
                   f'{self.user}{prompt}{self.eoh}' \
                   f'{self.assistant}'
       else: # decorate $$U_i$$
           return f'{self.user}{prompt}{self.eoh}' \
                  f'{self.assistant}'

   def messages2prompt(self, messages, sequence_start=True, **kwargs):
       """Return decorated prompt in non-interactive inference mode.
       Args:
           messages (str|List): user's input prompt which is supposed
           to be in OpenAI format
       """
       if isinstance(messages, str):
           # fallback to `get_prompt` when `messages` isn't a list
           return self.get_prompt(messages, sequence_start)
       
       # "box" indicates "begin of x (role)"
       box_map = dict(user=self.user,
                      assistant=self.assistant,
                      system=self.system)
       # "eox" indicates "end of x (role)"
       eox_map = dict(user=self.eoh,
                      assistant=self.eoa + self.separator,
                      system=self.eosys)
                     
       for message in messages:
           role = message['role']
           content = message['content']
           ret += f'{box_map[role]}{content}{eox_map[role]}'

在上述代码中，为了突出重点，简化了部分逻辑。完成的代码请参考：https://github.com/InternLM/lmdeploy/blob/main/lmdeploy/model.py

对话模板的使用方式有以下几种：

在不指定对话模板配置时，LMDeploy 根据模型的路径名，匹配内置对话模板名

指定内置对话模板

from lmdeploy import pipeline, ChatTemplateConfig
pipe = pipeline('/the/path/of/your/finetuned/internvl2/8b/model',
               chat_template_config=ChatTemplateConfig(
                   model_name='internvl-internlm2'
               )

lmdeploy list 可以显示内置对话模板。内置对话模板与支持的模型之间的映射关系请参考附录-内置对话模板

改变内置对话模板的属性

from lmdeploy import pipeline, ChatTemplateConfig
pipe = pipeline('/the/path/of/your/finetuned/internvl2/8b/model',
               chat_template_config=ChatTemplateConfig(
                   model_name='internvl2-internlm2',
                   meta_instruction='You are a helpful assistant'
               )

LMDeploy 会把非None的属性信息更新到指定的对话模板里

自定义对话模板

方式一：对话模板的属性定义和拼接方式完全符合BaseChatTemplate的定义

只需设置 ChatTemplateConfig 各字段即可。LMDeploy会创建BaseChatTemplate实例

方式二：对话模板的属性或者拼接方式不符合 BaseChatTemplate的定义

@register_module(name="awesome")
class MyChatTemplate:
   def __init__(*args, **kwargs):
       pass
   def get_prompt(self, prompt, sequence_start=True):
       if sequence_start:
           # TODO: return the decorated prompt when it is the first request of a sequence
           pass
       else:
           # TODO: return the decorated prompt when it is NOT the first request of a sequence
           pass

   def message2prompt(self, messages, sequence_start=True, **kwargs):
       if isinstance(messages, str):
           return self.get_prompt(messages, sequence_start)
       # TODO: return the prompt after applying the chat template

pipe = pipeline("/the/path/of/your/awesome/model",
               chat_template_config=ChatTemplateConfig(
                   model_name="awesome"))

2.2.1.4 视觉模型推理配置

@dataclass
class VisionConfig:
   max_batch_size: int = 1
   thread_safe: bool = False

max_batch_size 表示图像批量处理的大小。值越大，OOM 的风险越高，因为 VLM 模型中的 LLM 部分会提前预分配大量的内存。

2.2.2 使用 pipeline

2.2.2.1 API

def __call__(self,
            prompts: Union[VLPromptType, List[Dict], List[VLPromptType],
                           List[List[Dict]]],
            gen_config: Optional[GenerationConfig] = None,
            **kwargs):

prompts 用户输入的 prompt 和 image。它可以是以下几种形式：

str：纯文本
list[str]：纯文本序列
tuple(str, PIL.Image)：文本 + 图像
tuple(str, list[PIL.Image])：文本 + 图像序列
list[tuple(str, PIL.Image)]：(文本+图像)序列
GPT4V的格式

[{
   "role":"user",
   "content": [{
       "type": "text",
       "text": "the input text prompt",
   },
   {
       "type": "image_url",
       "image_url": {
           "url": "data:image/jpeg;base64,{image_base64_data}"
       }
   },
   {
       "type": "image_data",
       "image_data": {
           "data": PIL.Image.Image
       }
   },
   ...
   {...}]
}]

LMDeploy 会把前 5 种格式处理为 GPT4V 的格式

gen_config 生成token的采样参数

@dataclass
class GenerationConfig:
   n: int = 1
   max_new_tokens: int = 512
   top_p: float = 1.0
   top_k: int = 1
   temperature: float = 0.8
   repetition_penalty: float = 1.0
   ignore_eos: bool = False
   random_seed: int = None
   stop_words: List[str] = None
   bad_words: List[str] = None
   min_new_tokens: int = None
   skip_special_tokens: bool = True
   logprobs: int = None

n：输入请求要求生成的序列的数量，目前只支持 1
max_new_tokens：输入请求要求的最多生成的token的个数
top_p：采样时，考虑累积概率超过top_p的最小可能token集合中进行采样
top_k：采样时，考虑从概率最高的top_k个token中进行采样。top_k=1 表示贪心搜索
temperature：采样温度。temperature=0.f 表示贪心搜索
repetition_penalty：防止模型生成重复单词或短语的惩罚。大于1的值会抑制重复。
ignore_eos：是否忽略 eos_token_id
random_seed：采样token时使用的种子
stop_words：token生成的停止符。目前要求每个 stop_word 被 tokenizer 时，只能有一个token_id
bad_words：永远不会被生成的单词。目前要求每个 bad_word 被 tokenizer 时，只能有一个token_id
min_new_tokens：输入请求要求生成的最少token数量
skip_special_tokens：是否在解码中忽略特殊 token。默认为True
logprobs：每个输出 token 返回的对数概率数量
关于生成时采样方式的介绍，推荐阅读 https://huggingface.co/blog/how-to-generate

2.2.2.2 更多示例

多图输入

对于多图的场景，在推理时，只要把它们放在一个列表中即可。不过，多图意味着输入 token 数更多，所以通常需要增大推理的上下文长度

from lmdeploy import pipeline, TurbomindEngineConfig
from lmdeploy.vl import load_image

pipe = pipeline('OpenGVLab/InternVL2-8B',
               backend_config=TurbomindEngineConfig(session_len=10000))

image_urls=[
   'https://raw.githubusercontent.com/open-mmlab/mmdeploy/main/demo/resources/human-pose.jpg',
   'https://raw.githubusercontent.com/open-mmlab/mmdeploy/main/demo/resources/det.jpg'
]

images = [load_image(img_url) for img_url in image_urls]
response = pipe(('describe these images', images))
print(response)

批量图文输入

from lmdeploy import pipeline, TurbomindEngineConfig
from lmdeploy.vl import load_image

pipe = pipeline('OpenGVLab/InternVL2-8B',
               backend_config=TurbomindEngineConfig(session_len=8192))

image_urls=[
   "https://raw.githubusercontent.com/open-mmlab/mmdeploy/main/demo/resources/human-pose.jpg",
   "https://raw.githubusercontent.com/open-mmlab/mmdeploy/main/demo/resources/det.jpg"
]
prompts = [('describe this image', load_image(img_url)) for img_url in image_urls]
response = pipe(prompts)
print(response)

多轮对话

pipeline 进行多轮对话有两种方式，一种是按照 GPT4V 的格式来构造 messages，另外一种是使用 pipeline.chat 接口。

from lmdeploy import pipeline, TurbomindEngineConfig, GenerationConfig
from lmdeploy.vl import load_image

pipe = pipeline('OpenGVLab/InternVL2-8B',
                backend_config=TurbomindEngineConfig(session_len=8192))

image = load_image('https://raw.githubusercontent.com/open-mmlab/mmdeploy/main/demo/resources/human-pose.jpg')
gen_config = GenerationConfig(top_k=40, top_p=0.8, temperature=0.6)
sess = pipe.chat(('describe this image', image), gen_config=gen_config)
print(sess.response.text)
sess = pipe.chat('What is the woman doing?', session=sess, gen_config=gen_config)
print(sess.response.text)

自定义图像 token 的位置

默认情况下，LMDeploy 会根据算法 repo 提供的对话模版将表示图片的特殊 token 插入到 user prompt 中，但在一些模型中，图片 token 的位置并没有限制，如 deepseek-vl，或者用户需要自定义图片 token 插入的位置。这种情况下，用户需要手动将表示图片的 token 插入到 prompt 中。LMDeploy 使用 <IMAGE_TOKEN> 作为表示图片的特殊 token。

from lmdeploy import pipeline
from lmdeploy.vl import load_image
from lmdeploy.vl.constants import IMAGE_TOKEN

pipe = pipeline('deepseek-ai/deepseek-vl-1.3b-chat')

image = load_image('https://raw.githubusercontent.com/open-mmlab/mmdeploy/main/tests/data/tiger.jpeg')
response = pipe((f'describe this image{IMAGE_TOKEN}', image))
print(response)

2.3 在线服务

2.3.1 启动服务

2.3.1.1 方式一：使用 lmdeploy cli 工具

lmdeploy serve api_server OpenGVLab/InternVL2-8B

此命令将在本地主机上的端口 23333 启动一个与 OpenAI 接口兼容的模型推理服务。你可以使用 --server-port 选项指定不同的服务器端口。更多参数的说明请参考章节api_server参数

2.3.1.2 方式二：使用 docker

docker run --runtime nvidia --gpus all \
   -v ~/.cache/huggingface:/root/.cache/huggingface \
   --env "HUGGING_FACE_HUB_TOKEN=<secret>" \
   -p 23333:23333 \
   --ipc=host \
   openmmlab/lmdeploy:latest \
   lmdeploy serve api_server OpenGVLab/InternVL2-8B

2.3.1.3 api_server 参数

root@lmdeploy-on-121:~/lmdeploy# lmdeploy serve api_server -h
usage: lmdeploy serve api_server [-h] [--server-name SERVER_NAME] [--server-port SERVER_PORT]
                                [--allow-origins ALLOW_ORIGINS [ALLOW_ORIGINS ...]] [--allow-credentials]
                                [--allow-methods ALLOW_METHODS [ALLOW_METHODS ...]]
                                [--allow-headers ALLOW_HEADERS [ALLOW_HEADERS ...]] [--qos-config-path QOS_CONFIG_PATH]
                                [--backend {pytorch,turbomind}]
                                [--log-level {CRITICAL,FATAL,ERROR,WARN,WARNING,INFO,DEBUG,NOTSET}]
                                [--api-keys [API_KEYS ...]] [--ssl] [--model-name MODEL_NAME]
                                [--chat-template CHAT_TEMPLATE] [--revision REVISION] [--download-dir DOWNLOAD_DIR]
                                [--adapters [ADAPTERS ...]] [--tp TP] [--session-len SESSION_LEN]
                                [--max-batch-size MAX_BATCH_SIZE] [--cache-max-entry-count CACHE_MAX_ENTRY_COUNT]
                                [--cache-block-seq-len CACHE_BLOCK_SEQ_LEN] [--enable-prefix-caching]
                                [--model-format {hf,llama,awq,gptq}] [--quant-policy {0,4,8}]
                                [--rope-scaling-factor ROPE_SCALING_FACTOR] [--num-tokens-per-iter NUM_TOKENS_PER_ITER]
                                [--max-prefill-iters MAX_PREFILL_ITERS] [--vision-max-batch-size VISION_MAX_BATCH_SIZE]
                                model_path

model_path

--server-name SERVER_NAME: 服务的主机IP地址。默认: 0.0.0.0。

--server-port SERVER_PORT: 服务端口。默认: 23333。

--allow-origins ALLOW_ORIGINS: 允许CORS的来源列表。默认: ['*']。

--allow-credentials: 是否允许CORS的凭证。默认: False。

--allow-methods ALLOW_METHODS: 允许的HTTP方法列表。默认: ['*']。

--allow-headers ALLOW_HEADERS: 允许的HTTP头部列表。默认: ['*']。

--backend {pytorch,turbomind}: 设置推理后端。默认: turbomind。

--log-level {LEVELS}: 设置日志级别。默认: ERROR。

--api-keys [API_KEYS]: 可选的API密钥列表。

--ssl: 启用SSL。需要操作系统环境变量'SSL_KEYFILE'和'SSL_CERTFILE'。

--model-name MODEL_NAME: 模型的服务名称。可以通过RESTful API /v1/models访问。如果未指定，将采用model_path。

--chat-template CHAT_TEMPLATE: 当它为字符串时，表示内置的对话模板名称。当它为JSON文件路径时，表示自定义对话模板。

--revision REVISION: 使用的特定模型版本。可以是分支名、标签名或提交ID。

--download-dir DOWNLOAD_DIR: 下载和加载权重的目录，默认为huggingface的默认缓存目录。

和 TurboMind 引擎相关的参数

--tp TP: 在张量并行中使用的GPU数量

--session-len SESSION_LEN: 序列的最大会话长度

--max-batch-size MAX_BATCH_SIZE: 最大批量大小。默认：128

--cache-max-entry-count CACHE_MAX_ENTRY_COUNT: KV 缓存占用的空闲GPU内存的百分比，不包括权重。默认：0.8

--cache-block-seq-len CACHE_BLOCK_SEQ_LEN: KV 缓存块容纳的token数量。对于Turbomind引擎，如果GPU compute_capability >= 8.0，应该是32的倍数，否则应该是64的倍数。默认：64。

--enable-prefix-caching: 是否启用前缀匹配KV缓存。默认：False。

--model-format {hf,llama,awq,gptq}: 输入模型的格式。hf 表示 hf_llama，llama 表示 meta_llama，awq 表示 awq 量化模型，gptq 表示 gptq 量化模型

--quant-policy {0,4,8}: 是否量化kv。0: 不量化；4: 4位kv；8: 8位kv。默认：0

--rope-scaling-factor ROPE_SCALING_FACTOR: Rope缩放因子。默认：0.0

--num-tokens-per-iter NUM_TOKENS_PER_ITER: 前向传递中处理的令牌数量。默认：0

--max-prefill-iters MAX_PREFILL_ITERS: prefill阶段的最大前向传递数量。默认：1

和 PyTorch 引擎相关的参数

--adapters [ADAPTERS ...]: 用于设置 lora 模型的路径。可以输入多个lora的键值对格式xxx=yyy。如果只有一个适配器，可以只输入适配器的路径。默认：无。类型：字符串。

--tp TP: 在张量并行中使用的GPU数量

--session-len SESSION_LEN: 序列的最大会话长度

--max-batch-size MAX_BATCH_SIZE: 最大批量大小。默认：128

--cache-max-entry-count CACHE_MAX_ENTRY_COUNT: KV 缓存占用的空闲GPU内存的百分比，不包括权重。默认：0.8

--cache-block-seq-len CACHE_BLOCK_SEQ_LEN: KV 缓存块容纳的token数量。如果指定了Lora适配器，此参数将被忽略。默认：64

--enable-prefix-caching: 是否启用前缀匹配KV缓存。默认：False。

视觉模型参数：

--vision-max-batch-size VISION_MAX_BATCH_SIZE: 视觉模型批量大小。默认：1。

2.3.2 访问服务

推荐使用 openai client package 接口访问服务

图像 url

from openai import OpenAI

client = OpenAI(
   api_key='YOUR_API_KEY', # dummy key to pass openai checking key
   base_url='http://0.0.0.0:23333/v1')
model_name = client.models.list().data[0].id
response = client.chat.completions.create(
   model=model_name,
   messages=[{
       'role': 'user',
       'content': [{
           'type': 'text',
           'text': 'Describe the image please',
       }, {
           'type': 'image_url',
           'image_url': {
               'url':
               'https://raw.githubusercontent.com/open-mmlab/mmdeploy/main/tests/data/tiger.jpeg',
           },
       }],
   }],
   temperature=0.8,
   top_p=0.8)
print(response)

如模型支持多图，可以在messages中 user 的content列表中追加图像

图像base64编码

from openai import OpenAI
client = OpenAI(
   api_key='YOUR_API_KEY', # dummy key to pass openai checking key
   base_url='http://0.0.0.0:23333/v1')

def encode_image(image_path):
 with open(image_path, "rb") as image_file:
   return base64.b64encode(image_file.read()).decode('utf-8')
   
# Path to your image
image_path = "path_to_your_image.jpg"
# Getting the base64 string
base64_image = encode_image(image_path)

model_name = client.models.list().data[0].id
response = client.chat.completions.create(
   model=model_name,
   messages=[
   {
     "role": "user",
     "content": [
       {"type": "text", "text": "What’s in this image?"},
       {
         "type": "image_url",
         "image_url": {
           "url": f"data:image/jpeg;base64,{base64_image}",
         },
       },
     ],
   }
   ],
   max_tokens=300,
)

加入额外信息

from openai import OpenAI

client = OpenAI(
   api_key='YOUR_API_KEY', # dummy key to pass openai checking key
   base_url='http://0.0.0.0:23333/v1')
model_name = client.models.list().data[0].id
response = client.chat.completions.create(
   model=model_name,
   messages=[{
       'role': 'user',
       'content': [{
           'type': 'text',
           'text': 'Describe the image please',
       }, {
           'type': 'image_url',
           'image_url': {
               'url':
               'https://raw.githubusercontent.com/open-mmlab/mmdeploy/main/tests/data/tiger.jpeg',
           },
       }],
   }],
   temperature=0.8,
   top_p=0.8,
   extra_body={"repetition_penalty": 1.02}
   )
print(response)

2.4 模型量化

2.4.1 权重量化

4bit 权重量化。量化算法 AWQ，只对 VLM 中的语言模型部分做量化，视觉部分不做量化
支持的显卡型号：
- V100（0.6.0 支持，尚未发版）
- Turing(sm75): 20 系列，T4
- Ampere(sm80): A100
- Ampere(sm86): 30 系列，A10, A16, A30 等
- Ada Lovelace(sm89): 40 系列
- Hopper(sm90): H100, H800（尚未深度优化）

lmdeploy lite auto_awq OpenGVLab/InternVL2-8B

2.4.2 KV Cache 量化

设置 TurbomindEngineConfig 中的参数 quant_policy。详细介绍请参考前文推理引擎配置章节中关于quant_policy的说明

03 推理性能

关于 VLM 推理性能评测方法暂无统一标准，LLM有

评测 LLM pipeline 的方式如下，测试指标 RPS（Request Per Second）

python benchmark/profile_pipeline_api.py \
   ShareGPT_V3_unfiltered_cleaned_split.json \
   meta-llama/Meta-Llama-3-8B-Instruct \
   --num-prompts 5000

在A100-SMX4-80G显卡上，测试结果如下：

--------------------------------------------------
concurrency: 256
elapsed_time: 208.390s

first token latency(s)(min, max, ave): 0.068, 3.880, 0.378
per-token latency(s) percentile(50, 75, 95, 99): [0, 0.09, 0.153, 0.207]

number of prompt tokens: 1136185
number of completion tokens: 1008966
token throughput (completion token): 4841.723 token/s
token throughput (prompt + completion token): 10293.932 token/s
RPS (request per second): 23.993 req/s
RPM (request per minute): 1439.609 req/min
--------------------------------------------------

测试 LLM serving 性能，推荐使用 vLLM 的测试脚本 https://github.com/vllm-project/vllm/blob/main/benchmarks/benchmark_serving.py。该脚本的测试指标是：TTFT、TPOT

# 首先启动服务
lmdeploy api_server meta_llama/Meta-Llama-3-8B-Instruct --max-batch-size 256
# 打开新的终端，使用 vLLM 的测试脚本 benchmark_serving.py 测试

vllm 0.4.2

lmdeploy 0.4.1

tensorrt-llm v0.9.0

04 VLM推理实现方式

初始化 pipeline

prompt 预处理

在离线推理章节的示例 1，模型为 OpenGVLab/InternVL2-8B，pipe推理的请求为('describe this image', image)

经过"转GPT4V请求格式"后，请求变成：

{
   "role": "user",
   "content": [
       {
           "type": "text",
           "text": "describe this image"
       },
       {
           "type": "image_data",
           "image_data": {
               "data": image
           }
       }
   ]
}

经过 "加image标记符"，请求变成:

{'role': 'user', 'content': '<img><IMAGE_TOKEN></img>\ndescribe this image'}

InternVL2-8B 是把 image放到text前的

经过 "装饰对话模板 message2prompt"，请求变成：

<|im_start|>system\n你是由上海人工智能实验室联合商汤科技开发的书生多模态大模型，英文名叫InternVL, 是一个有用无害的人工智能助手。<|im_end|>\n<|im_start|>user\n<img><IMAGE_TOKEN></img>\ndescribe this image<|im_end|>\n<|im_start|>assistant\n

图像编码

self.vl_encoder 复用上游库的图像预处理和vision模型推理

推理

TurboMind 推理

PyTorch 推理

TODO

05未来规划

06附录

6.1 内置对话模板

模型	模型类型	模型结构	内置对话模板名称	说明
InternLM-XComposer2	MLLM	InternLMXComposer2ForCausalLM	internlm-xcomposer2
InternLM-XComposer2.5	MLLM	InternLMXComposer2ForCausalLM	internlm-xcomposer2d5
Qwen-VL	MLLM	QWenLMHeadModel	qwen
DeepSeek-VL	MLLM	MultiModalityCausalLM	deepseek-vl
Phi-3-vision	MLLM	Phi3VForCausalLM	phi-3
CogVLM-Chat	MLLM	CogVLMForCausalLM	cogvlm
CogVLM2-Chat	MLLM	CogVLMForCausalLM	cogvlm2
Yi-VL	MLLM	LlavaLlamaForCausalLM	yi-vl
LLaVA-v1.5	MLLM	LlavaLlamaForCausalLM	llava-vl
LLaVA-v1.6-vicuna	MLLM	LlavaLlamaForCausalLM	llava-v1
llava-v1.6-34b	MLLM	LlavaLlamaForCausalLM	llava-chatml
llava-v1.6-mistral-7b	MLLM	LlavaMistralForCausalLM	mistral
InternVL-Chat-V1-5	MLLM	InternLM2ForCausalLM	internvl-internlm2	InternVL系列需要看llm_config中的architectures
Mini-InternVL-Chat-2B-V1-5	MLLM	InternLM2ForCausalLM	internvl-internlm2
Mini-InternVL-Chat-4B-V1-5	MLLM	Phi3ForCausalLM	internvl-phi3
InternVL2 (2B、8B、26B)	MLLM	InternLM2ForCausalLM	internvl2-internlm2
InternVL2 (4B)	MLLM	Phi3ForCausalLM	internvl2-phi3
InternVL2 (40B)	MLLM	LlamaForCausalLM	internvl2-internlm2
InternVL2-Llama3-76B	MLLM	LlamaForCausalLM	internvl2-internlm2
MiniCPM-Llama3-V-2_5	MLLM	MiniCPMV	llama3	llm的种类在代码里面才能看出来
MiniGeminiLlama	MLLM	MiniGeminiLlamaForCausalLM	mini-gemini-vicuna
GLM-4V	MLLM	ChatGLMModel	glm4