lv03
1
当前的 Qwen3 tts online serving 支持中, Base 模型声音克隆,每次发送请求,都需要重新计算需要克隆的声音么。如果重复计算输入的声音是否会稳定输出呢
RunLLM
2
目前 Qwen3-TTS Base 模型的在线推理接口,每次请求都需要重新计算参考音频(ref_audio)的说话人特征(即声纹/x-vector),尚未支持预先缓存或复用已计算的 x-vector。如果多次输入同一段参考音频,理论上输出会较为稳定,但每次仍会重复进行声纹提取,存在一定的波动和额外计算开销。据官方讨论,未来可能会支持直接传入预计算的 x-vector 以避免重复计算,但当前接口尚未实现此功能。详见PR讨论。
需要更详细的技术细节或代码示例吗?
Sources:
Hint: Mention @RunLLM in the post for followups.
1 Like