部署llama3-8B-GPTQ-INT8模型

conda create --name myenv python=3.10
conda activate myenv
bash installwhl.sh /home/whl310
apt-get install git-lfs

git clone https://www.modelscope.cn/swift/Meta-Llama-3-8B-Instruct-GPTQ-Int8.git

python3 offline_inference.py --model /home/Meta-Llama-3-8B-Instruct-GPTQ-Int8 --quantization gptq -tp 1 --temperature 0.0

粘贴图片

替换vllm和ixformer包

pip3 install vllm-0.5.4+corex.4.1.0.w2436-py3-none-any.whl

pip3 install ixformer-0.6.0+corex.4.1.0.w2436-cp310-cp310-linux_x86_64.whl

再次运行模型，没有乱码了

粘贴图片

git clone https://hf-mirror.com/ranchlai/chatglm3-6B-gptq-4bit

python3 offline_inference.py --model /home/chatglm3-6B-gptq-4bit --quantization gptq -tp 1 --temperature 0.0 --trust-remote-code

粘贴图片

附件

附件类型	PNG
paste1732521178162.png(190116.0b) paste1732521285323.png(182380.0b) paste1732525178625.png(215566.0b)