论文阅读目标 ❤ 意大利炮打友军

MLSYS相关论文

这篇文章梳理一下近期要看的MLSYS的论文，主要是为了给MoE的望道项目做一些理论准备，同时给博士阶段的课题选择打一打基础。至少不要什么都不知道就稀里糊涂的选题了。

这个单子之后还会更新，争取变成一个读书等身一样的单子。也是督促自己多看论文吧。如果可能的话，之后每篇论文的笔记链接也会放在这里。

2024年6月15日更新

本次主要是梳理github MLSYS 基础。这个单子分为几个部分：

数据预处理系统
模型训练系统
推理系统
MoE
联邦学习
隐私保护机器学习
ML-API优化
ML for system

暂时不打算看联邦学习和隐私保护的部分了。这两个部分和我目前正在做的工作不太相关，而且不够聚焦于大模型和大集群的工作。ML-API作为编程相关的工作，希望等以后设计模式学习好之后再来进行。

数据预处理

数据流水线

流水线概述

cedar: Composable and Optimized Machine Learning Input Data Pipelines
论文链接
 笔记链接

简介：
发表于arXiv24
作者：Emanuel Adamiak，Mark Zhao，Christos Kozyrakis 
机构：Stanford
coding: ~12k lines
简介：一个整合了目前各种原语的数据流水线框架，同时有一个相对完整但是较为简单的进程调度器，来平衡资源花费和性能。
推荐指数：⭐️⭐️⭐️
评价：可以当成一个流水线的入门概述来看，系统设计本身没有特别出彩的地方。但是关于原理的表述很清晰，适合当成数据流水线的第一篇论文。最大的问题是没有”发现问题“，只是整合了前人的工作，说实话整合方法也是很朴素的。

Plumber: Diagnosing and Removing Performance Bottlenecks in Machine Learning Data Pipelines
论文链接
 笔记链接

简介：
发表在MLSys22
作者：Michael Kuchnik，Ana Klimovic，Jiri Samansa,Virginia Smith,George Amvrosiadis
机构：CMU

Understanding Data Storage and Ingestion for Large-Scale Deep Recommendation Model Training
论文链接
 笔记链接

1
2
3

发表于ISCA22
作者：Mark Zhao，Niket Agarwal，Aarti Basant，Buğra Gedik，Christos Kozyrakis
机构：Meta，Stanford

Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning Preprocessing Pipelines
论文链接
 笔记链接

1
2
3

发表于SIGMOD22
作者：Alexander Isenko，Ruben Mayer，Jeffrey Jedele
机构：TUM，UofT

Analyzing and Mitigating Data Stalls in DNN Training
论文链接
 笔记链接

1
2
3

发表于VLDB21
作者：Jayashree Mohan，Ashish Raniwala，Amar Phanishayee，Vijay Chidambaram
机构：Microsoft，UoTA

tf.data: A Machine Learning Data Processing Framework
论文链接
 笔记链接

1
2
3

发表于VLDB21
作者：Derek G. Murray,Jiri Simsa,Ana Klimovic,Ihor Indyk
机构：Google，Microsoft

数据准备阶段

FusionFlow: Accelerating Data Preprocessing for Machine Learning with CPU-GPU Cooperation
论文链接
 笔记链接

1
2
3

发表于VLDB24
作者：Taeyoon Kim，ChanHo Park，Mansur Mukimbekov，Heelim Hong
机构：UNIST

RINAS: Training with Dataset Shuffling Can Be General and Fast
论文链接
 笔记链接

1
2
3

发表于arXiv23
作者：Tianle Zhong，Jiechen Zhao，Xindi Guo
机构：University of Virginia

FFCV: Accelerating Training by Removing Data Bottlenecks
论文链接
 笔记链接

1
2
3

发表于CVPR23
作者：Guillaume Leclerc，Andrew Ilyas，Logan Engstrom，Sung Min Park，Hadi Salman，Aleksander Madry
机构：MIT

InTune: Reinforcement Learning-based Data Pipeline Optimization for Deep Recommendation Models
论文链接
 笔记链接

1
2
3

发表于Recsys23
作者：Kabir Nagrecha，Lingyi Liu，Pablo Delgado，Prasanna Padmanabhan
机构：Netflix

GoldMiner: Elastic Scaling of Training Data Pre-Processing Pipelines for Deep Learning
论文链接
 笔记链接

1
2
3

发表于SIGMOD23
作者：HANYU ZHAO，ZHI YANG，YU CHENG，CHAO TIAN，SHIRU REN，WENCONG XIAO
机构：Alibaba，PKU

FastFlow: Accelerating Deep Learning Model Training with Smart Offloading of Input Data Pipeline
论文链接
 笔记链接

1
2
3

发表于VLDB23
作者：Taegeon Um，Byungsoo Oh，Byeongchan Seo，Minhyeok Kweun，Goeun Kim，Woo-Yeon Lee
机构：Samsung

tf.data service: A Case for Disaggregating ML Input Data Processing
论文链接
 笔记链接

1
2
3

发表于SoCC23
作者：Andrew Audibert，Yang Chen，Dan Graur，Ana Klimovic，Jiří Šimša，Chandramohan A. Thekkath
机构：Google，ETH Zurich

Cachew: Machine Learning Input Data Processing as a Service
论文链接
 笔记链接

1
2
3

发表于ATC22
作者：Dan Graur，Damien Aymon，Dan Kluser，Tanguy Albrici，Chandramohan A. Thekkath，Ana Klimovic
机构：ETH Zurich，Google

Looking Beyond GPUs for DNN Scheduling on Multi-Tenant Clusters
论文链接
 笔记链接

1
2
3

发表于OSDI22
作者：ayashree Mohan，Amar Phanishayee，Janardhan Kulkarni，Vijay Chidambaram
机构：Microsoft Research，University of Texas at Austin，VMware Research

DLBooster: Boosting End-to-End Deep Learning Workflows with Offloading Data
论文链接
 笔记链接

1
2
3

发表于ICPP19
作者：Yang Cheng，Dan Li，Zhiyuan Guo，Zhiyuan Guo，Jiaxin Lin
机构：Microsoft Research

数据传输阶段

Fastensor: Optimise the Tensor I/O Path from SSD to GPU for Deep Learning Training
论文链接
 笔记链接

1
2
3

发表于TACO23
作者：JIA WEI，XINGJUN ZHANG，LONGXIANG WANG，ZHENG WEI
机构：Xi'an Jiaotong University

Lobster: Load Balance-Aware I/O for Distributed DNN Training
论文链接
 笔记链接

1
2
3

发表于ICPP22
作者：ie Liu，Bogdan Nicolae，Dong Li
机构：UCM，ANL Chicago

Clairvoyant Prefetching for Distributed Machine Learning I/O
论文链接
 笔记链接

1
2
3

发表于SC21
作者：Nikoli Dryden，Roman Böhringer，Tal Ben-Nun，Torsten Hoefler
机构：ETH Zurich

特殊负载（如GNN，DLRM）

技术科研

技术课题组周报神经网络

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

TCP可靠传输上一篇

计算图编译后端下一篇