记录一次A100集群的存储崩溃


记录一次A100集群的存储崩溃 集群架构:整个A100集群由4台8卡A100、一台CPU服务器、一个存储阵列(大概200T)组成。存储阵列是通过一个万兆交换机连接到这个Node00管理节点。其它计算设备都是走的管理节点的映射。 前两天新到一台服务器,准备并入这个集群里面。 供应商需要安装一个软件进行

IB网卡驱动安装及其IP配置


IB网卡驱动安装及其IP配置 正常流程 服务器配置网络,由于机房不能连接外网只能通过内部网络做代理。 设置http代理 export http_proxy=http://x.x.x.x:x export https_proxy=http://x.x.x.x:x 设置apt代理 sudo nano

扩散模型能批处理吗?为什么单次推理单批生成速度会线性增长?(Diffusion in Parallel)


扩散模型能批处理吗?为什么单次推理单批生成速度会线性增长?(Diffusion in Parallel) 如果大家使用扩散模型进行推理会发现一个现象:似乎输入多个prompt和输入一个prompt需要的时间差距很大,这不符合Batch常理。 这个表是我们在单卡3090上进行测试不同prompt的结果

快速完成多模态模型-CLIP的训练


快速完成多模态模型-CLIP的训练 当前多模态作为很火的领域,使用多模态可以编很多故事,那么如何训练一个多模态模型就是一个很重要的事,下面讲一下快速上手针对自己的数据集进行训练多模态模型。 数据集准备 以Clip为主的多模态模型其训练数据主要是图像-文本对,图像单独存放到一个路径,文本-图像路径存放

批处理?推理速度快一万倍!!!! 大模型批量推理(LLM Generate in Parallel)


批处理?推理速度快一万倍!!!! 大模型批量推理(LLM Generate in Parallel) 众所周知,CPU只能多进程串行计算,而GPU是天然能进行多进程并行计算。数据标注作为一个现在常用的方式,往往使用大模型对图像进行标注,利用大模型的理解能力重新合成图像所对应的文本。 huggingf

Llama3 本地部署 CPU进行推理


Llama3 本地部署 CPU进行推理 下载模型 https://llama.meta.com/llama-downloads 提交邮件就能申请,在官方GitHub仓库下载示例代码进行使用。 https://github.com/meta-llama/llama3 GPU推理 Llama3默认是开启

LLM开发范式之RAG及其框架LangChain


LLM开发范式之RAG及其框架LangChain RAG及其框架LangChain finetune是一个常见的模型微调方式,但大语言模型通常训练成本高昂。本次主要学习一种新的开发范式。RAG(Retrieval Augmented Generation):检索增强生成。 RAG大概就是将用户输入的

可控人脸生成-第一次总结


可控人脸生成 对于可控人脸生成,优先解决人脸生成的问题,目前有三种生成的方式GAN、VAE、Diffusion三种模型,主流的选型为Diffusion Model,通过进行调研,目前主流的生成模型几乎为Diffusion Model。 文本生成图像 通过控制条件生成图像 文本生成视频 生成图片检测

大模型微调--几种AIGC的方法


大模型微调--几种AIGC的方法 随着团队方向慢慢转型向大模型方向,而大模型的训练往往不能像以前训练常规模型一样一个方向训练一个模型,由于其高昂的训练成本和时间成本,所以了解现在常用的大模型微调方法是有必要的,本次主要讲解LoRA:Low-Rank Adaptation of Large Langu

记录torch使用的错误


记录torch使用的错误 1. RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cpu and cuda:1! (when checking argument f