编辑
2026-03-19
集群知识
00

空跑节点是集群上常见的情况,表现为作业仍然在计费,但是实际作业利用率几乎为0。对于先进的智算集群来说,常常需要使用混合计算资源,导致节点容易出现异常的概率更高,并且加速卡卡时费用往往比处理器核时计费贵得多,因此,使得即使排查出空跑非常有必要。排查空跑作业一般需要经过几个步骤:

  1. 进入mgr01节点

  2. pestat或者是squeue查看有哪些GPU节点在跑

  3. 例如看到gpur01在跑

    ssh gpur01

    nvidia

  4. nvtop进一步查看

  5. 例如出现掉卡排查 进入计算节点 pestat查看有哪些GPU节点在跑 nvidia-smi查看是否有利用率 dmesg -T | grep -i "Xid" 进一步排查

  6. 基本可以确定是硬件出现了问题。下一步排查方向是散热、硬件接触是否有异常

本文作者:曹永皓

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!