随着openclaw的爆火,大家又把智能体目光拉到本地部署上。我第一次是应用openclaw是在参加区块链技术应用比赛的时候,我发现每次按照题目要求配置不同的区块链环境是一件简单但是又重复的事情,所以我在想openclaw能够完成这样的任务。因此我尝试让openclaw直接部署一个星型多群组多机构的网络拓扑结构。
空跑节点是集群上常见的情况,表现为作业仍然在计费,但是实际作业利用率几乎为0。对于先进的智算集群来说,常常需要使用混合计算资源,导致节点容易出现异常的概率更高,并且加速卡卡时费用往往比处理器核时计费贵得多,因此,使得即使排查出空跑非常有必要。排查空跑作业一般需要经过几个步骤:
| 状态码 | 全称 | 含义 |
|---|---|---|
| PD | PENDING | 排队中,等待资源分配 |
| R | RUNNING | 正在运行 |
| S | SUSPENDED | 被管理员挂起,资源暂时释放 |
| CG | COMPLETING | 正在清理,即将结束 |
| CD | COMPLETED | 正常结束(退出码 0) |
| F | FAILED | 异常结束(退出码非 0) |
| TO | TIMEOUT | 超过时间限制被终止 |
| NF | NODE_FAIL | 节点故障导致作业失败 |