Currently, only one nvdia graphics card is used, and only the model config.json file is required to dump the module_list parameter information of any size.
For details, please refer to:
https://zhuanlan.zhihu.com/p/1926380689374286484
Next, we hope to continue to use limited computing resources.The function and parameters of the dump bottom-layer operator.
Further, it is hoped that the parameters such as tp, pp, ep, and dp can be manually configured, and the bottom-layer invoking information can be dumped with only one card.
目前实现了仅使用一张nvdia显卡,仅需要模型config.json文件的情况下 dump出任意尺寸的module_list参数信息。
详情可查看:
https://zhuanlan.zhihu.com/p/1926380689374286484
接下来继续希望在计算资源有限的前提下。dump底层算子调用函数及其参数。
更进一步希望可以手动配置tp, pp, ep ,dp等参数,仅用一张卡可以dump出底层调用信息。
目前我的理解是,vLLM 支持通过配置参数(如 tensor_parallel_size、pipeline_parallel_size、enable_expert_parallel、data_parallel_size)来手动设置 TP、PP、EP、DP 等并行策略,但这些参数的实际生效需要多卡环境,单卡下设置这些参数不会真正触发底层的并行逻辑。vLLM 并未在官方文档或源码中提供仅用一张卡模拟多卡并行并 dump 底层算子调用及参数的功能,也没有直接支持在单卡下“虚拟”并行配置并输出底层 operator 调用信息的接口或工具。据我所查,dump module_list 参数信息可通过 config.json 实现,但底层 operator 级别的调用信息和参数 dump 并未在官方文档中有相关说明或 API 支持【参见官方配置与优化文档、多并行策略说明】。
如果你希望在单卡下“手动配置”并行参数并 dump 底层调用信息,vLLM 目前似乎不支持这种“模拟”并行环境的功能。你可以通过设置环境变量 CUDA_VISIBLE_DEVICES 控制使用的 GPU,但这只是物理卡的选择,并不能让 vLLM 在单卡上模拟多卡的并行行为,也无法 dump operator 级别的调用和参数信息。建议关注 vLLM 的后续版本或社区讨论,或考虑在多卡环境下结合 profiling 工具(如 PyTorch Profiler)实现底层算子调用信息的采集【参见多卡配置与环境变量说明、并行配置参数说明】。
需要更详细的技术分析或代码示例吗?
Sources:
你好,你的问题没有具体描述。请补充你想了解的内容,例如关于 vLLM 的哪一方面(如并行配置、性能优化、模型部署等),或者你遇到的具体技术难题。这样我可以更有针对性地为你解答。你也可以参考 vLLM 官方文档 获取常见配置和优化方法。
Sources:
你的问题没有具体内容,请补充你想咨询的具体 vLLM 相关问题,例如并行参数配置、单卡模拟多卡、底层算子调用信息 dump 等。这样我才能为你提供准确的解答和相关资料链接。
需要我举例说明如何配置 TP/PP/EP/DP 或如何采集底层算子信息吗?
Sources: