一、测试前准备工作

1.下载镜像

通过SFTP下载，SFTP地址、密码联系天数工程师

get /client_tmp/support/mr-bi150-4.2.0-x86-ubuntu20.04-py3.10-customer-ds-671b-v1.3.tar

2.下载模型

apt-get install git-lfs 或者yum install git-lfs

git clone https://www.modelscope.cn/cognitivecomputations/DeepSeek-R1-awq.git

3.关闭限制

ulimit -l

4.设置cpu为performance模式

cpupower frequency-set -g performance

5. 添加主机名 ip为主机使用的ip，hostname为当前机器名

vi /etc/hosts

ip hostname

6.导入全向箔镜像

docker load -i mr-bi150-4.2.0-x86-ubuntu20.04-py3.10-customer-ds-671b-v1.3.tar

二、启动容器

docker run -it -v /usr/src:/usr/src -v /lib/modules:/lib/modules -v /dev:/dev -v /data:/data --network=host --name=deepseek-awq --pid=host --ipc=host --privileged --cap-add=ALL --pid=host zibo.harbor.iluvatar.com.cn:30000/saas/mr-bi150-4.2.0-x86-ubuntu20.04-py3.10-customer-ds-671b:v1.3 /bin/bash

三、启动vllm服务

VLLM_PP_LAYER_PARTITION="31,30" vllm serve /data/DeepSeek-R1-awq --trust_remote_code --max-model-len 8192 --tensor-parallel-size 8 --pipeline-parallel-size 2 --gpu-memory-utilization 0.92 --dtype float16 --quantization awq_marlin --port 8000

或者

VLLM_PP_LAYER_PARTITION="16,15,15,15" vllm serve /data/DeepSeek-R1-awq --trust_remote_code --max-model-len 8192 --tensor-parallel-size 4 --pipeline-parallel-size 4 --gpu-memory-utilization 0.92 --dtype float16 --quantization awq_marlin --port 8000

四、benchmark测试

cd /root/apps/llm-modelzoo/benchmark/vllm/

python3 benchmark_serving.py --backend vllm --dataset-name random --model /data/DeepSeek-R1-awq \

--num-prompts 1 --random-input-len 1024 --random-output-len 1024 --trust-remote-code

[Title]