记录一次A100集群的存储崩溃

人工智能

集群架构：整个A100集群由4台8卡A100、一台CPU服务器、一个存储阵列（大概200T）组成。存储阵列是通过一个万兆交换机连接到这个Node00管理节点。其它计算设备都是走的管理节点的映射。

前两天新到一台服务器，准备并入这个集群里面。供应商需要安装一个软件进行交付，结果导致所有SAN磁盘的I/O出现的问题。

因为供应商不靠谱，然后我们开始排查。最后定位到是因为管理节点的重启，而进行计算的若干节点并没有停止导致数据不一致性。这点也是经常出现在分布式系统里面的情况，而对于磁盘来说，也不用回退检查点，因为本身存储就做了备份冗余。所以解决方案就是

解除所有绑定到Node00的计算节点。
1. 1 如果遇到device is busy 就kill对应进程，直到能够解绑
```
sudo fuser -m -k /home/ubuntu/san/
```
在管理节点运行使用fsck对文件系统进行扫描修复
重启绑定

这样就完成了存储崩溃的处理

如果觉得文章对你有用，请随意赞赏

运维

记录一次A100集群的存储崩溃

MirrorML

2024-09-14

2024-09-14

CC BY 4.0