linux学习笔记3

2024-03-26

技术 Linux

技术博客 Linux

大模型通信笔记1

流水线并行朴素层并行朴素层并行，将模型拆分为多个层，放在不同的GPU上执行但是问题很明显： GPU利用率低：任意时刻只有一个GPU在工作，其他GPU都在等待结果计算和通信没有重叠显存占用高，GPU1需要保存所有激活。等待参数更新完成 GPipeGpipe将整个minibatch分为4个microbatch，然后由GPU0进行计算，之后每个microbatch计算完直接传递给GPU1，以此类

2024-03-26

技术通信大模型

技术博客大模型训练通信

操作系统学习笔记2：多线程

概述现代软件大多支持多线程，相比于进程切换，线程共享代码段，数据段以及其他系统资源，但是拥有单独的寄存器和堆栈。服务器采用多线程，可以减少创建进程的资源消耗，同时处理多个并发请求。优点响应性提高资源共享创建与切换更加经济多核编程并行性 vs 并发性并行性：是同时执行多个任务并发性：是让每个任务都能取得进展，在单处理器上也能实现 Amdahl定理：程序中只有S%可以串行执行时，优化比$$

2024-03-22

技术操作系统

技术博客操作系统

操作系统学习笔记1

内核设计微内核微内核实现了一个功能较少，但是容易扩展的内核架构，客户程序和不同的功能之间提供消息传递功能。除了必须内核功能外，功能组件都作为用户程序来实现。模块化例如Solaris，有7种可以在运行时加载的模块。混合架构例子 MacOS X，其Mach内核提供了远程过程调用，进程间通信等功能。BSD内核提供了POSIX库和文件系统等功能。 iOS基于MacOSX，在系统的顶层提供了媒体服务用来

2024-03-22

技术操作系统

技术博客操作系统

Linux学习笔记2

账号文件/etc/passwd存储了账号信息 x（密码） UID GID 用户信息栏家目录 shell /etc/shadow 账号名密码最近修改不可修改天数建议修改天数警告天数过期密码宽限失效日期忘记密码普通用户：passwdroot：单人启动模式用户组/etc/group 组名用户组密码 GID 支持的

2024-03-15

技术 Linux

技术博客 Linux

Linux学习笔记1

Linux学习笔记1启动运行级Linux的/etc/rcX.d目录下存储着各个启动级的运行程序运行级1时进入单用户模式，仅仅进行文件系统维护。标准运行级为3。运行级为5时会启动X Window服务。切换启动级别可以使用runlevel命令来设置内核模块Linux内有两种方法插入设备驱动：编译进内核可插入的设备驱动 linux内部有三种设备文件：字符设备文件：包括终

2024-03-03

技术 Linux

技术博客 Linux

课题组23-11-15周报

实验关于fp16参数转换速度的问题本周进行了一个实验，主要用于观察pytorch中对张量转移的各种方法的性能差异。实验思路几种不同的传输方向 cpu -> cpu cpu -> gpu gpu -> cpu gpu -> gpu几种不同的数据 fp32 -> fp32 fp32 -> fp16调用half()函数，将fp32数据转换为fp16数据 fp16 -

2023-11-15

技术科研

技术课题组周报神经网络 pytorch

课题组第五周学习

高效直接访问主机内存的方法现有方法存在的问题通过加载后执行的方法面对巨大的模型参数规模，现有GPU的显存难以支撑大模型的训练。因此产生了一种通过加载后执行的方法，即将模型参数存储在主机内存中，每次训练时将参数加载到显存中，训练结束后将参数保存到主机内存中。这种方法的缺点是每次训练都需要将参数加载到显存中，这个过程会消耗大量的时间，例如在v100上，加载时间会是处理时间的4倍以上，导致训练效率低下。

2023-10-22

技术科研

技术课题组周报神经网络 pytorch

课题组第四周学习

ZeRO-Offload方法提出背景对大模型训练来说，GPU显存对参数规模巨大的网络来说是一个瓶颈，然而CPU内存可以做到TB级别，因此可以考虑将一部分参数放在CPU上，而将需要频繁访问的参数放在GPU上，这样可以减少GPU显存的压力，提高训练速度。ZeRO-Offload提出了一种没有数据冗余的优化方法，可以将模型参数分布在CPU和GPU上，而且可以在CPU和GPU之间进行无缝的迁移。大模型传

2023-10-13

技术科研

技术课题组周报神经网络 pytorch

课题组第一周学习

理论学习反向传播算法反向传播是一种基于有监督学习，用于根据误差和损失函数调整网络权重的算法。反向传播算法的核心思想是通过链式法则计算损失函数对于每个权重的梯度，然后使用梯度下降法更新权重。过程：首先通过正向传播，根据输入数据得到一个网络的激励根据得到的激励与目标值计算损失函数根据损失函数，从输出层开始，依次沿着计算图反向计算每个权重的梯度根据得到的梯度调整权重[1] 深度学习入门: 基

2023-09-30

技术科研

技术课题组周报神经网络 pytorch