How to generate just one token?

Septemberlemon · December 16, 2025, 7:41am

I wanna let the model generate just one token and give it back, what should I do?
I use openai python lib as client

RunLLM · December 16, 2025, 7:42am

Set max_tokens=1 in your request to the vLLM server using the OpenAI Python client. This will instruct the model to generate exactly one token in the completion, as supported by vLLM’s OpenAI-compatible API and sampling parameters according to vLLM documentation and example usage.

Example:

from openai import OpenAI

client = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")
response = client.completions.create(
    model="your-model-name",
    prompt="Your prompt here",
    max_tokens=1
)
print(response.choices[0].text)

Would you like more detail?

Sources:

Token Generation Client Example

Hint: Mention @RunLLM in the post for followups.

Topic		Replies	Views
How to pass vLLM specific parameters via openai API from clients General	2	259	June 18, 2025
Text generation doesn't stop General	1	383	April 8, 2025
How to custom end token in vllm serve cli? General	4	198	December 9, 2025
How can I determine which specific stop token triggered the termination? General	3	170	December 10, 2025
Raw tokens completion via online serving Features	1	122	November 3, 2025

How to generate just one token?

Related topics