空跑节点是集群上常见的情况,表现为作业仍然在计费,但是实际作业利用率几乎为0。对于先进的智算集群来说,常常需要使用混合计算资源,导致节点容易出现异常的概率更高,并且加速卡卡时费用往往比处理器核时计费贵得多,因此,使得即使排查出空跑非常有必要。排查空跑作业一般需要经过几个步骤:
| 状态码 | 全称 | 含义 |
|---|---|---|
| PD | PENDING | 排队中,等待资源分配 |
| R | RUNNING | 正在运行 |
| S | SUSPENDED | 被管理员挂起,资源暂时释放 |
| CG | COMPLETING | 正在清理,即将结束 |
| CD | COMPLETED | 正常结束(退出码 0) |
| F | FAILED | 异常结束(退出码非 0) |
| TO | TIMEOUT | 超过时间限制被终止 |
| NF | NODE_FAIL | 节点故障导致作业失败 |