00000266
corex-docker-installer-4.2.0-10.2-ubuntu20.04-py3.10-x86_64.run
https://gitee.com/121786404/corex_deepseek_vllm_test
BI150 是单卡双芯,下文中MR100可以认为是BI150的其中一颗芯片
https://www.modelscope.cn/Qwen/QwQ-32B.git
https://www.modelscope.cn/Qwen/QwQ-32B-AWQ.git
vllm serve /data/QwQ-32B \
--trust_remote_code --tensor_parallel_size 4 \
--max_model_len 40960 \
--disable_log_requests --disable_log_stats --port 9997
python3 benchmark_serving.py \
--model /data/QwQ-32B \
--dataset-name random \
--random-input-len 1024 \
--random-output-len 1024 \
--num-prompts 1 \
--trust-remote-code \
--ignore-eos \
--port 9997
vllm serve /data/QwQ-32B-AWQ \
--trust_remote_code --tensor_parallel_size 2 \
--max_model_len 40960 \
--disable_log_requests --disable_log_stats --quantization awq --port 9997
python3 benchmark_serving.py \
--model /data/QwQ-32B-AWQ \
--dataset-name random \
--random-input-len 1024 \
--random-output-len 1024 \
--num-prompts 1 \
--trust-remote-code \
--ignore-eos \
--port 9997
vllm serve /data/QwQ-32B \
--trust_remote_code --tensor_parallel_size 4 \
--max_model_len 40960 \
--disable_log_stats \
--disable_log_requests --port 9997
python3 benchmark_serving.py \
--model /data/QwQ-32B \
--dataset-name random \
--random-input-len 16384 \
--random-output-len 16384 \
--num-prompts 1 \
--trust-remote-code \
--port 9997
vllm serve /data/QwQ-32B \
--trust_remote_code --tensor_parallel_size 8 \
--max_model_len 40960 \
--disable_log_requests --disable_log_stats --port 9997
python3 benchmark_serving.py \
--model /data/QwQ-32B \
--dataset-name random \
--random-input-len 16384 \
--random-output-len 16384 \
--num-prompts 1 \
--trust-remote-code \
--port 9997
vllm serve /data/QwQ-32B-AWQ \
--trust_remote_code --tensor_parallel_size 2 \
--max_model_len 40960 \
--disable_log_stats \
--disable_log_requests --quantization awq --port 9997
python3 benchmark_serving.py \
--model /data/QwQ-32B-AWQ \
--dataset-name random \
--random-input-len 16384 \
--random-output-len 16384 \
--num-prompts 1 \
--trust-remote-code \
--port 9997
vllm serve /data/QwQ-32B-AWQ \
--trust_remote_code --tensor_parallel_size 4 \
--max_model_len 40960 \
--disable_log_requests --disable_log_stats --quantization awq --port 9997
python3 benchmark_serving.py \
--model /data/QwQ-32B-AWQ \
--dataset-name random \
--random-input-len 16384 \
--random-output-len 16384 \
--num-prompts 1 \
--trust-remote-code \
--port 9997
部署场景处理上下文长度大于 8192 ,请将以下内容添加到,启用YaRN 以提高模型有效捕获长序列信息的能力:
{
...,
"rope_scaling": {
"factor": 4.0,
"original_max_position_embeddings": 32768,
"type": "yarn"
}
}
curl --location --request POST 'http://127.0.0.1:9997/v1/chat/completions' \
--header 'Content-Type: application/json' \
--data-raw '{
"model": "/data/QwQ-32B",
"temperature": 0.2,
"top_p": 0.8,
"top_k": 20,
"stream": false,
"frequency_penalty": 1,
"messages": [
{
"role": "user",
"content": "你知道红薯是谁吗"
}
]
}'