如何阅读论文 注意:本文参考自William G. Griswold的How to Read an Engineering Research Paper 1. 一篇论文的基本结构: Abstract:本文的主要idea Introduction:扩展Abstract的内容,解释现有方法的限制,以及如何评估方法 Related Work:介绍现有工作,解释本文的贡献如何不同? Background:介绍本文相关的 2024-07-19 技术 科研 方法论 [object Object] 课题组 科研 论文 阅读
Plumber:数据流水线追踪器与计算图重构 Plumber: Diagnosing and Removing Performance Bottlenecks in Machine Learning Data Pipelines这篇文章发表在MLSys22上,作者是Michael Kuchnik,Ana Klimovic,Jiri Samansa,Virginia Smith,George Amvrosiadis,机构是CMU。本文主要是介绍 2024-06-20 技术 科研 论文阅读 技术 课题组 周报 机器学习系统
2024-6-18随笔 今天的感想有志于改变历史的人,总是无力的。接受了自己宿命的人,却能创造历史。 所以啊,我想也许一个人就是在接受了自己只能做好一些事的时候,即使这不是自己想要的,也接受时,才能真正做出有意义的东西。都说世界上只有一种英雄主义,就是看清生活的真相之后依然热爱生活。但是这句话也有两个解释,是接受自己永远无法实现心中的理想后,为了追求“做点什么”的目标,从而将自己投入到不那么欣然,但依旧接受的生活中。或是 2024-06-18 随笔 随笔
cedar:一个通用可编程数据流水线框架 cedar: Composable and Optimized Machine Learning Input Data Pipelines这篇文章发表于arXiv24,作者是Emanuel Adamiak,Mark Zhao,Christos Kozyrakis,机构是Stanford。本文主要针对数据流水线的欠优化问题,设计了一个集成多种数据流水线优化的、通用的数据流水线框架cedar。 1. 2024-06-16 技术 科研 论文阅读 技术 课题组 周报 机器学习系统
TCP可靠传输 写在前面这是我开始学习计算机网络后的第一篇博客。之前的内容会在后面机会适当的时候补上。实际上我认为应用层的部分笔记不会少,而且会比书中的内容多很多。最近租了一个阿里云的轻量级应用服务器,不仅把博客牵上来了,还买了一个域名,登记了DNS,做好了备案。除此之外,我用roundcube和dovecot搭建了一个邮箱。目前还没有开放注册,而且只能发送本地邮件,有点鸡肋。争取在研究应用层的同时把上层的工具使 2024-06-14 技术 通信 计算机网络 技术 博客 计算机网络 通信
论文阅读目标 MLSYS相关论文这篇文章梳理一下近期要看的MLSYS的论文,主要是为了给MoE的望道项目做一些理论准备,同时给博士阶段的课题选择打一打基础。至少不要什么都不知道就稀里糊涂的选题了。 这个单子之后还会更新,争取变成一个读书等身一样的单子。也是督促自己多看论文吧。如果可能的话,之后每篇论文的笔记链接也会放在这里。 2024年6月15日更新本次主要是梳理github MLSYS 基础。这个单子分为几个 2024-06-14 技术 科研 技术 课题组 周报 神经网络
计算图编译后端 编译器后端优化编译器后端优化的途径是和设备有关的,比如不同设备的allocator等。后端优化会为IR的计算节点选择硬件算子。然后为每个算子分配硬件内存。最终生成硬件层的任务序列。 后端的功能位于前端与硬件驱动之间,主要工作是计算图优化、算子选择、内存分配等。相当于把前端IR的计算细节展开。 算子 2024-06-07 技术 科研 技术 课题组 周报 神经网络 pytorch
计算图基本知识 计算图的基本功能统一计算过程:不同的计算后端(硬件)有不同的表示,深度学习框架需要把机器学习统一表达为一种IR。以进行一种共性优化。自动化微分:对于任意的模型拓扑,计算梯度的方法必须要通用且自动运行。计算图可以记录辅助分析模型的梯度计算过程。分析模型变量的生命周期:例如激活值和梯度。从而优化内存管理(ZeRO)优化程序执行:根据网络拓扑计算图,来构建算子执行依赖关系。从而优化模型执行效率。类似编译 2024-06-06 技术 科研 技术 课题组 周报 神经网络 pytorch
DeepSpeed代码阅读笔记之:elasticity 本笔记是DeepSpeed代码阅读的第一篇笔记,本周的主要任务是阅读DeepSpeed python代码中的 DeepSpeed 部署DeepSpeed 部署的过程如下: 安装cuda与pytorch 按照requirements文件夹安装依赖: 12345pip install -r requirements/requirements-dev.txt pip install -r requi 2024-03-30 技术 科研 大模型 技术 大模型训练 课题组 笔记
大模型通信笔记2 数据并行传统的数据并行是让每个GPU分别进行FWD和BWD,然后把梯度进行聚合操作,然后再下发给每个GPU,称为All Reduce。 缺点 存储开销大。每块GPU上都存了一份完整的模型,造成冗余 通讯开销大。Server需要和每一个Worker进行梯度传输。当Server和Worker不在一台机器上时,Server的带宽将会成为整个系统的计算效率瓶颈。 异步梯度更新 Worker不等待梯度更新 2024-03-26 技术 通信 大模型 技术 博客 大模型训练 通信