如何阅读论文

注意：本文参考自William G. Griswold的How to Read an Engineering Research Paper 1. 一篇论文的基本结构： Abstract：本文的主要idea Introduction：扩展Abstract的内容，解释现有方法的限制，以及如何评估方法 Related Work：介绍现有工作，解释本文的贡献如何不同？ Background：介绍本文相关的

2024-07-19

技术科研方法论 [object Object]

课题组科研论文阅读

Plumber:数据流水线追踪器与计算图重构

Plumber: Diagnosing and Removing Performance Bottlenecks in Machine Learning Data Pipelines这篇文章发表在MLSys22上，作者是Michael Kuchnik，Ana Klimovic，Jiri Samansa,Virginia Smith,George Amvrosiadis，机构是CMU。本文主要是介绍

2024-06-20

技术科研论文阅读

技术课题组周报机器学习系统

2024-6-18随笔

2024-6-18随笔

今天的感想有志于改变历史的人，总是无力的。接受了自己宿命的人，却能创造历史。所以啊，我想也许一个人就是在接受了自己只能做好一些事的时候，即使这不是自己想要的，也接受时，才能真正做出有意义的东西。都说世界上只有一种英雄主义，就是看清生活的真相之后依然热爱生活。但是这句话也有两个解释，是接受自己永远无法实现心中的理想后，为了追求“做点什么”的目标，从而将自己投入到不那么欣然，但依旧接受的生活中。或是

2024-06-18

随笔

随笔

cedar：一个通用可编程数据流水线框架

cedar: Composable and Optimized Machine Learning Input Data Pipelines这篇文章发表于arXiv24，作者是Emanuel Adamiak，Mark Zhao，Christos Kozyrakis，机构是Stanford。本文主要针对数据流水线的欠优化问题，设计了一个集成多种数据流水线优化的、通用的数据流水线框架cedar。 1.

2024-06-16

技术科研论文阅读

技术课题组周报机器学习系统

TCP可靠传输

写在前面这是我开始学习计算机网络后的第一篇博客。之前的内容会在后面机会适当的时候补上。实际上我认为应用层的部分笔记不会少，而且会比书中的内容多很多。最近租了一个阿里云的轻量级应用服务器，不仅把博客牵上来了，还买了一个域名，登记了DNS，做好了备案。除此之外，我用roundcube和dovecot搭建了一个邮箱。目前还没有开放注册，而且只能发送本地邮件，有点鸡肋。争取在研究应用层的同时把上层的工具使

2024-06-14

技术通信计算机网络

技术博客计算机网络通信

论文阅读目标

MLSYS相关论文这篇文章梳理一下近期要看的MLSYS的论文，主要是为了给MoE的望道项目做一些理论准备，同时给博士阶段的课题选择打一打基础。至少不要什么都不知道就稀里糊涂的选题了。这个单子之后还会更新，争取变成一个读书等身一样的单子。也是督促自己多看论文吧。如果可能的话，之后每篇论文的笔记链接也会放在这里。 2024年6月15日更新本次主要是梳理github MLSYS 基础。这个单子分为几个

2024-06-14

技术科研

技术课题组周报神经网络

计算图编译后端

编译器后端优化编译器后端优化的途径是和设备有关的，比如不同设备的allocator等。后端优化会为IR的计算节点选择硬件算子。然后为每个算子分配硬件内存。最终生成硬件层的任务序列。后端的功能位于前端与硬件驱动之间，主要工作是计算图优化、算子选择、内存分配等。相当于把前端IR的计算细节展开。算子

2024-06-07

技术科研

技术课题组周报神经网络 pytorch

计算图基本知识

计算图的基本功能统一计算过程：不同的计算后端（硬件）有不同的表示，深度学习框架需要把机器学习统一表达为一种IR。以进行一种共性优化。自动化微分：对于任意的模型拓扑，计算梯度的方法必须要通用且自动运行。计算图可以记录辅助分析模型的梯度计算过程。分析模型变量的生命周期：例如激活值和梯度。从而优化内存管理（ZeRO）优化程序执行：根据网络拓扑计算图，来构建算子执行依赖关系。从而优化模型执行效率。类似编译

2024-06-06

技术科研

技术课题组周报神经网络 pytorch

DeepSpeed代码阅读笔记之：elasticity

本笔记是DeepSpeed代码阅读的第一篇笔记，本周的主要任务是阅读DeepSpeed python代码中的 DeepSpeed 部署DeepSpeed 部署的过程如下：安装cuda与pytorch 按照requirements文件夹安装依赖： 12345pip install -r requirements/requirements-dev.txt pip install -r requi

2024-03-30

技术科研大模型

技术大模型训练课题组笔记

大模型通信笔记2

数据并行传统的数据并行是让每个GPU分别进行FWD和BWD，然后把梯度进行聚合操作，然后再下发给每个GPU，称为All Reduce。缺点存储开销大。每块GPU上都存了一份完整的模型，造成冗余通讯开销大。Server需要和每一个Worker进行梯度传输。当Server和Worker不在一台机器上时，Server的带宽将会成为整个系统的计算效率瓶颈。异步梯度更新 Worker不等待梯度更新

2024-03-26

技术通信大模型

技术博客大模型训练通信