记录一次A100集群的存储崩溃


记录一次A100集群的存储崩溃 集群架构:整个A100集群由4台8卡A100、一台CPU服务器、一个存储阵列(大概200T)组成。存储阵列是通过一个万兆交换机连接到这个Node00管理节点。其它计算设备都是走的管理节点的映射。 前两天新到一台服务器,准备并入这个集群里面。 供应商需要安装一个软件进行

IB网卡驱动安装及其IP配置


IB网卡驱动安装及其IP配置 正常流程 服务器配置网络,由于机房不能连接外网只能通过内部网络做代理。 设置http代理 export http_proxy=http://x.x.x.x:x export https_proxy=http://x.x.x.x:x 设置apt代理 sudo nano

同一台服务器安装多个JumpServer服务


同一台服务器安装多个JumpServer服务 背景:理论上来说单个JumpServer也能做到权限隔离,但为了保证服务器完全分为两个集群分别使用,保证其中一个集群完全不可见,采用在同一个服务器部署两个jumpserver服务。 目前使用的Jumpserver直接使用1panel的自动部署,第二个参考

Jumpserver不能进行TCP转发端口转发解决


Jumpserver不能进行TCP转发端口转发解决 在环境变量配置加入 ENABLE_LOCAL_PORT_FORWARD=true ENABLE_VSCODE_SUPPORT=true 重启解决问题

记录一次服务器被挖矿(top、htop被修改)


记录一次服务器被挖矿(top,htop被修改) 挖矿一个简单的词汇经常出现在互联网各个角落但往往没人在意,直到今天我们实验室的H800服务器出现了问题,才发现挖矿竟在我身边。 背景: 上周我在使用服务器写LLM调试代码的过程中,debug总是失效,加上代码还没写好便没有在意,以为是debug功能出现

服务器基础环境安装


服务器基础环境安装 保证服务器的系统版本是20.04及其以上 在线升级的教程,服务器默认是无网络连接环境,网络配置参考教程 1. sudo apt update # 如果遇到apt下载问题,自行换源,参考(https://mirrors.tuna.tsinghua.edu.cn/help/ubun

重邮使用手机远程实验室和寝室电脑的两种方式


重庆邮电大学使用手机远程控制实验室电脑和寝室电脑的两种方式 从实验室的电脑控制寝室的电脑,从寝室的电脑控制实验室的电脑一直是比较重要的事,能够解决一些突发情况比如有些文件在实验室没work完,还在接下来到寝室进行做完,比如导师突然叫你发文件等。一般来说我们可以通过向日葵或者ToDesk等远程控制软件

一套成熟的团队软资产体系构建


一套成熟的团队软资产体系构建 目前随着团队成员增多,配置服务器及其相应的资产数量增多,其他组内事务也明显增多,之前基于微信等办公方式越来越麻烦,且管理难度耗费时间都明显变多,于是本指南意图说明团队各自资产的搭建及其管理方式,便于各个成员进行学习。 团队目前的在线服务包括JumpServer、Blog