一、测试前准备工作
1.下载镜像
通过SFTP下载,SFTP地址、密码联系天数工程师
get /client_tmp/support/mr-bi150-4.2.0-x86-ubuntu20.04-py3.10-customer-ds-671b-v1.3.tar
2.下载模型
apt-get install git-lfs 或者yum install git-lfs
git clone https://www.modelscope.cn/cognitivecomputations/DeepSeek-R1-awq.git
3.关闭限制
ulimit -l
4.设置cpu为performance模式
cpupower frequency-set -g performance
5. 添加主机名 ip为主机使用的ip,hostname为当前机器名
vi /etc/hosts
ip hostname
6.导入全向箔镜像
docker load -i mr-bi150-4.2.0-x86-ubuntu20.04-py3.10-customer-ds-671b-v1.3.tar
二、启动容器
docker run -it -v /usr/src:/usr/src -v /lib/modules:/lib/modules -v /dev:/dev -v /data:/data --network=host --name=deepseek-awq --pid=host --ipc=host --privileged --cap-add=ALL --pid=host zibo.harbor.iluvatar.com.cn:30000/saas/mr-bi150-4.2.0-x86-ubuntu20.04-py3.10-customer-ds-671b:v1.3 /bin/bash
三、启动vllm服务
VLLM_PP_LAYER_PARTITION="31,30" vllm serve /data/DeepSeek-R1-awq --trust_remote_code --max-model-len 8192 --tensor-parallel-size 8 --pipeline-parallel-size 2 --gpu-memory-utilization 0.92 --dtype float16 --quantization awq_marlin --port 8000
或者
VLLM_PP_LAYER_PARTITION="16,15,15,15" vllm serve /data/DeepSeek-R1-awq --trust_remote_code --max-model-len 8192 --tensor-parallel-size 4 --pipeline-parallel-size 4 --gpu-memory-utilization 0.92 --dtype float16 --quantization awq_marlin --port 8000
四、benchmark测试
cd /root/apps/llm-modelzoo/benchmark/vllm/
python3 benchmark_serving.py --backend vllm --dataset-name random --model /data/DeepSeek-R1-awq \
--num-prompts 1 --random-input-len 1024 --random-output-len 1024 --trust-remote-code