6GPU有一些麻烦 建议使用FP8的权重 尝试一下
vllm serve Qwen/Qwen3-VL-235B-A22B-Instruct-FP8 \
--tensor-parallel-size 4 \
--limit-mm-per-prompt.video 0 \
--max-num-seqs 64
6GPU有一些麻烦 建议使用FP8的权重 尝试一下
vllm serve Qwen/Qwen3-VL-235B-A22B-Instruct-FP8 \
--tensor-parallel-size 4 \
--limit-mm-per-prompt.video 0 \
--max-num-seqs 64