Running NVFP4 Nemotron model on Win11/WSL RTX 5080 + 5070 Ti

trevor · February 2, 2026, 4:00pm

I got it working using NVIDIA’s latest container image for vLLM.

docker run `
    --gpus all `
    -v "C:\git\NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4:/model" `
    -p 8000:8000 `
    --env "VLLM_USE_FLASHINFER_MOE_FP4=1" `
    --env "VLLM_FLASHINFER_MOE_BACKEND=throughput" `
    --env CUDA_DEVICE_ORDER=PCI_BUS_ID `
    --env "CUDA_VISIBLE_DEVICES=0,1" `
    --ipc=host `
    nvcr.io/nvidia/vllm:26.01-py3 `
    vllm serve `
    --model /model `
    --served-model-name nemotron `
    --max-model-len 30000 `
    --max-num-seqs 8 `
    --kv-cache-dtype fp8 `
    --trust-remote-code `
    --reasoning-parser-plugin "/model/nano_v3_reasoning_parser.py" `
    --reasoning-parser nano_v3 `
    --tensor-parallel-size 2

Topic		Replies	Views
EngineCore Error with NVIDIA-Nemotron-3-Super-120B-A12B-FP8 on 2*H100 General	2	76	April 21, 2026
Support for RTX 6000 Blackwell 96GB card NVIDIA GPU Support	5	6565	January 5, 2026
RTX PRO 6000 users seek help, LLAMA 4 NVFP4 NVIDIA GPU Support	1	297	November 25, 2025
Project: vLLM docker for running smoothly on RTX 5090 + WSL2 General	2	863	December 6, 2025
Docker explosion this morning after it worked fine for a long while NVIDIA GPU Support	6	526	May 6, 2025

Running NVFP4 Nemotron model on Win11/WSL RTX 5080 + 5070 Ti

Related topics