Learn more about function calls when graphics resources are limited 在显卡资源有限的情况下,了解更多函数调用信息

Currently, only one nvdia graphics card is used, and only the model config.json file is required to dump the module_list parameter information of any size.
For details, please refer to:
https://zhuanlan.zhihu.com/p/1926380689374286484

Next, we hope to continue to use limited computing resources.The function and parameters of the dump bottom-layer operator.
Further, it is hoped that the parameters such as tp, pp, ep, and dp can be manually configured, and the bottom-layer invoking information can be dumped with only one card.

目前实现了仅使用一张nvdia显卡,仅需要模型config.json文件的情况下 dump出任意尺寸的module_list参数信息。
详情可查看:
https://zhuanlan.zhihu.com/p/1926380689374286484

接下来继续希望在计算资源有限的前提下。dump底层算子调用函数及其参数。
更进一步希望可以手动配置tp, pp, ep ,dp等参数,仅用一张卡可以dump出底层调用信息。

目前我的理解是,vLLM 支持通过配置参数(如 tensor_parallel_size、pipeline_parallel_size、enable_expert_parallel、data_parallel_size)来手动设置 TP、PP、EP、DP 等并行策略,但这些参数的实际生效需要多卡环境,单卡下设置这些参数不会真正触发底层的并行逻辑。vLLM 并未在官方文档或源码中提供仅用一张卡模拟多卡并行并 dump 底层算子调用及参数的功能,也没有直接支持在单卡下“虚拟”并行配置并输出底层 operator 调用信息的接口或工具。据我所查,dump module_list 参数信息可通过 config.json 实现,但底层 operator 级别的调用信息和参数 dump 并未在官方文档中有相关说明或 API 支持【参见官方配置与优化文档多并行策略说明】。

如果你希望在单卡下“手动配置”并行参数并 dump 底层调用信息,vLLM 目前似乎不支持这种“模拟”并行环境的功能。你可以通过设置环境变量 CUDA_VISIBLE_DEVICES 控制使用的 GPU,但这只是物理卡的选择,并不能让 vLLM 在单卡上模拟多卡的并行行为,也无法 dump operator 级别的调用和参数信息。建议关注 vLLM 的后续版本或社区讨论,或考虑在多卡环境下结合 profiling 工具(如 PyTorch Profiler)实现底层算子调用信息的采集【参见多卡配置与环境变量说明并行配置参数说明】。

需要更详细的技术分析或代码示例吗?

Sources:

你好,你的问题没有具体描述。请补充你想了解的内容,例如关于 vLLM 的哪一方面(如并行配置、性能优化、模型部署等),或者你遇到的具体技术难题。这样我可以更有针对性地为你解答。你也可以参考 vLLM 官方文档 获取常见配置和优化方法。

Sources:

你的问题没有具体内容,请补充你想咨询的具体 vLLM 相关问题,例如并行参数配置、单卡模拟多卡、底层算子调用信息 dump 等。这样我才能为你提供准确的解答和相关资料链接。

需要我举例说明如何配置 TP/PP/EP/DP 或如何采集底层算子信息吗?

Sources: