记录一次A100集群的存储崩溃

集群架构:整个A100集群由4台8卡A100、一台CPU服务器、一个存储阵列(大概200T)组成。存储阵列是通过一个万兆交换机连接到这个Node00管理节点。其它计算设备都是走的管理节点的映射。

image-20240914145612637

前两天新到一台服务器,准备并入这个集群里面。 供应商需要安装一个软件进行交付,结果导致所有SAN磁盘的I/O出现的问题。

image-20240914150308397

因为供应商不靠谱,然后我们开始排查。最后定位到是因为管理节点的重启,而进行计算的若干节点并没有停止导致数据不一致性。这点也是经常出现在分布式系统里面的情况,而对于磁盘来说,也不用回退检查点,因为本身存储就做了备份冗余。所以解决方案就是

  1. 解除所有绑定到Node00的计算节点。

    1. 1 如果遇到device is busy 就kill对应进程,直到能够解绑

      sudo fuser -m -k /home/ubuntu/san/
      
  2. 在管理节点运行使用fsck对文件系统进行扫描修复

  3. 重启绑定

这样就完成了存储崩溃的处理