空跑节点是集群上常见的情况,表现为作业仍然在计费,但是实际作业利用率几乎为0。对于先进的智算集群来说,常常需要使用混合计算资源,导致节点容易出现异常的概率更高,并且加速卡卡时费用往往比处理器核时计费贵得多,因此,使得即使排查出空跑非常有必要。排查空跑作业一般需要经过几个步骤:
进入mgr01节点
pestat或者是squeue查看有哪些GPU节点在跑
例如看到gpur01在跑
ssh gpur01
nvidia
nvtop进一步查看
例如出现掉卡排查 进入计算节点 pestat查看有哪些GPU节点在跑 nvidia-smi查看是否有利用率 dmesg -T | grep -i "Xid" 进一步排查
基本可以确定是硬件出现了问题。下一步排查方向是散热、硬件接触是否有异常
本文作者:曹永皓
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!