13  
查询码: 00000285
MR100_BI150+arm容器上运行Qwen3模型(SDK4.1.3)
专家 作者: 宋美霞 于 2025年05月13日 ,于 2025年05月13日 编辑

确保已安装docker

下载DeepSeek模型权重

apt-get install git-lfs 或者yum install git-lfs 

mkdir -p /home/Qwen/

cd /home/Qwen/

git clone https://www.modelscope.cn/Qwen/Qwen3-4B.git 

git clone https://www.modelscope.cn/Qwen/Qwen3-8B.git 
git clone https://www.modelscope.cn/Qwen/Qwen3-14B.git 

git clone https://www.modelscope.cn/Qwen/Qwen3-32B.git


准备镜像

联网拉取镜像

配置全向箔镜像地址

  • 配置淄博habor的hosts    vim /etc/hosts

         120.220.95.189 zibo.harbor.iluvatar.com.cn

  • 修改docker的配置,vim   /etc/docker/daemon.json

{

"exec-opts": ["native.cgroupdriver=systemd"],

"insecure-registries": ["zibo.harbor.iluvatar.com.cn:30000"]

}

  • 重启docker    systemctl reload docker 

  • 拉取淄博镜像

docker pull zibo.harbor.iluvatar.com.cn:30000/saas/mr-bi150-4.1.3-aarch64-ubuntu20.04-py3.10-poc-llm-infer:v1.2.2

离线导入镜像

在windows上通过FileZilla工具下载,文件->站点管理器->新站点

协议:选择SFTP-SSH File Transfer Protocol

主机: iftp.iluvatar.com.cn 端口:29880

用户:iluvatar_mr

密码:联系天数工程师


在远程站点内输入/client_tmp/support/,把mr-bi150-4.1.3-aarch64-ubuntu20.04-py3.10-poc-llm-infer-v1.2.2.tar文件拷贝到windows本地目录上,然后放到服务器/home目录下

执行 docker load -i /home/mr-bi150-4.1.3-aarch64-ubuntu20.04-py3.10-poc-llm-infer-v1.2.2.tar

粘贴图片

启动容器

docker run -it -v /usr/src:/usr/src -v /lib/modules:/lib/modules -v /dev:/dev -v /home:/home --network=host --name=Qwen3 --pid=host --ipc=host --privileged --cap-add=ALL --pid=host zibo.harbor.iluvatar.com.cn:30000/saas/mr-bi150-4.1.3-aarch64-ubuntu20.04-py3.10-poc-llm-infer:v1.2.2 /bin/bash

运行offline_inference测试

cd /root/apps/llm-modelzoo/inference/Qwen/vllm

python3 offline_inference.py --model /home/Qwen/Qwen3-4B/  --max-tokens 256 --temperature 0.0 --max-model-len 3096 
python3 offline_inference.py --model /home/Qwen/Qwen3-8B/  --max-tokens 256 --temperature 0.0 --max-model-len 3096 
python3 offline_inference.py --model /home/Qwen/Qwen3-14B/  --max-tokens 256 -tp 2 --temperature 0.0 --max-model-len 3096 
python3 offline_inference.py --model /home/Qwen/Qwen3-32B/  --max-tokens 256 -tp 4 --temperature 0.0 --max-model-len 3096 

api测试

# server 端

python3 -m vllm.entrypoints.openai.api_server --model /home/Qwen/Qwen3-4B/ --gpu-memory-utilization 0.9 --max-num-batched-tokens 5120 --max-model-len 2048 --max-num-seqs 256 --host 0.0.0.0 --port 1234 --trust-remote-code
python3 -m vllm.entrypoints.openai.api_server --model /home/Qwen/Qwen3-8B/ --gpu-memory-utilization 0.9 --max-num-batched-tokens 5120 --max-model-len 2048 --max-num-seqs 256 --host 0.0.0.0 --port 1234 --trust-remote-code
python3 -m vllm.entrypoints.openai.api_server --model /home/Qwen/Qwen3-14B/ --gpu-memory-utilization 0.9 --max-num-batched-tokens 5120 --max-model-len 2048 --max-num-seqs 256 -tp 2 --host 0.0.0.0 --port 1234 --trust-remote-code
python3 -m vllm.entrypoints.openai.api_server --model /home/Qwen/Qwen3-32B/ --gpu-memory-utilization 0.9 --max-num-batched-tokens 5120 --max-model-len 2048 --max-num-seqs 256 -tp 4 --host 0.0.0.0 --port 1234 --trust-remote-code --distributed-executor-backend ray

# client 端

curl -X POST http://0.0.0.0:1234/v1/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer YOUR_API_KEY" \
-d '{"model": "/home/Qwen/Qwen3-4B/","prompt": "介绍一下湖南省常德市","temperature": 0.0,"max_tokens": 512}'


curl -X POST http://0.0.0.0:1234/v1/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer YOUR_API_KEY" \
-d '{"model": "/home/Qwen/Qwen3-8B/","prompt": "介绍一下湖南省常德市","temperature": 0.0,"max_tokens": 512}'


curl -X POST http://0.0.0.0:1234/v1/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer YOUR_API_KEY" \
-d '{"model": "/home/Qwen/Qwen3-14B/","prompt": "介绍一下湖南省常德市","temperature": 0.0,"max_tokens": 512}'


curl -X POST http://0.0.0.0:1234/v1/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer YOUR_API_KEY" \
-d '{"model": "/home/Qwen/Qwen3-32B/","prompt": "介绍一下湖南省常德市","temperature": 0.0,"max_tokens": 512}'




笔记



 附件

附件类型

PNGPNG

  目录
    天数智芯知识库系统 -V 5.2.6 -wcp