论文阅读目标

MLSYS相关论文

这篇文章梳理一下近期要看的MLSYS的论文,主要是为了给MoE的望道项目做一些理论准备,同时给博士阶段的课题选择打一打基础。至少不要什么都不知道就稀里糊涂的选题了。

这个单子之后还会更新,争取变成一个读书等身一样的单子。也是督促自己多看论文吧。如果可能的话,之后每篇论文的笔记链接也会放在这里。

2024年6月15日更新

本次主要是梳理github MLSYS 基础。这个单子分为几个部分:

  1. 数据预处理系统
  2. 模型训练系统
  3. 推理系统
  4. MoE
  5. 联邦学习
  6. 隐私保护机器学习
  7. ML-API优化
  8. ML for system

暂时不打算看联邦学习和隐私保护的部分了。这两个部分和我目前正在做的工作不太相关,而且不够聚焦于大模型和大集群的工作。ML-API作为编程相关的工作,希望等以后设计模式学习好之后再来进行。

数据预处理

数据流水线

流水线概述

cedar: Composable and Optimized Machine Learning Input Data Pipelines
论文链接
笔记链接

1
2
3
4
5
6
7
8
简介:
发表于arXiv24
作者:Emanuel Adamiak,Mark Zhao,Christos Kozyrakis
机构:Stanford
coding: ~12k lines
简介:一个整合了目前各种原语的数据流水线框架,同时有一个相对完整但是较为简单的进程调度器,来平衡资源花费和性能。
推荐指数:⭐️⭐️⭐️
评价:可以当成一个流水线的入门概述来看,系统设计本身没有特别出彩的地方。但是关于原理的表述很清晰,适合当成数据流水线的第一篇论文。最大的问题是没有”发现问题“,只是整合了前人的工作,说实话整合方法也是很朴素的。

Plumber: Diagnosing and Removing Performance Bottlenecks in Machine Learning Data Pipelines
论文链接
笔记链接

1
2
3
4
简介:
发表在MLSys22
作者:Michael Kuchnik,Ana Klimovic,Jiri Samansa,Virginia Smith,George Amvrosiadis
机构:CMU

Understanding Data Storage and Ingestion for Large-Scale Deep Recommendation Model Training
论文链接
笔记链接

1
2
3
发表于ISCA22
作者:Mark Zhao,Niket Agarwal,Aarti Basant,Buğra Gedik,Christos Kozyrakis
机构:Meta,Stanford

Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning Preprocessing Pipelines
论文链接
笔记链接

1
2
3
发表于SIGMOD22
作者:Alexander Isenko,Ruben Mayer,Jeffrey Jedele
机构:TUM,UofT

Analyzing and Mitigating Data Stalls in DNN Training
论文链接
笔记链接

1
2
3
发表于VLDB21
作者:Jayashree Mohan,Ashish Raniwala,Amar Phanishayee,Vijay Chidambaram
机构:Microsoft,UoTA

tf.data: A Machine Learning Data Processing Framework
论文链接
笔记链接

1
2
3
发表于VLDB21
作者:Derek G. Murray,Jiri Simsa,Ana Klimovic,Ihor Indyk
机构:Google,Microsoft
数据准备阶段

FusionFlow: Accelerating Data Preprocessing for Machine Learning with CPU-GPU Cooperation
论文链接
笔记链接

1
2
3
发表于VLDB24
作者:Taeyoon Kim,ChanHo Park,Mansur Mukimbekov,Heelim Hong
机构:UNIST

RINAS: Training with Dataset Shuffling Can Be General and Fast
论文链接
笔记链接

1
2
3
发表于arXiv23
作者:Tianle Zhong,Jiechen Zhao,Xindi Guo
机构:University of Virginia

FFCV: Accelerating Training by Removing Data Bottlenecks
论文链接
笔记链接

1
2
3
发表于CVPR23
作者:Guillaume Leclerc,Andrew Ilyas,Logan Engstrom,Sung Min Park,Hadi Salman,Aleksander Madry
机构:MIT

InTune: Reinforcement Learning-based Data Pipeline Optimization for Deep Recommendation Models
论文链接
笔记链接

1
2
3
发表于Recsys23
作者:Kabir Nagrecha,Lingyi Liu,Pablo Delgado,Prasanna Padmanabhan
机构:Netflix

GoldMiner: Elastic Scaling of Training Data Pre-Processing Pipelines for Deep Learning
论文链接
笔记链接

1
2
3
发表于SIGMOD23
作者:HANYU ZHAO,ZHI YANG,YU CHENG,CHAO TIAN,SHIRU REN,WENCONG XIAO
机构:Alibaba,PKU

FastFlow: Accelerating Deep Learning Model Training with Smart Offloading of Input Data Pipeline
论文链接
笔记链接

1
2
3
发表于VLDB23
作者:Taegeon Um,Byungsoo Oh,Byeongchan Seo,Minhyeok Kweun,Goeun Kim,Woo-Yeon Lee
机构:Samsung

tf.data service: A Case for Disaggregating ML Input Data Processing
论文链接
笔记链接

1
2
3
发表于SoCC23
作者:Andrew Audibert,Yang Chen,Dan Graur,Ana Klimovic,Jiří Šimša,Chandramohan A. Thekkath
机构:Google,ETH Zurich

Cachew: Machine Learning Input Data Processing as a Service
论文链接
笔记链接

1
2
3
发表于ATC22
作者:Dan Graur,Damien Aymon,Dan Kluser,Tanguy Albrici,Chandramohan A. Thekkath,Ana Klimovic
机构:ETH Zurich,Google

Looking Beyond GPUs for DNN Scheduling on Multi-Tenant Clusters
论文链接
笔记链接

1
2
3
发表于OSDI22
作者:ayashree Mohan,Amar Phanishayee,Janardhan Kulkarni,Vijay Chidambaram
机构:Microsoft Research,University of Texas at Austin,VMware Research

DLBooster: Boosting End-to-End Deep Learning Workflows with Offloading Data
论文链接
笔记链接

1
2
3
发表于ICPP19
作者:Yang Cheng,Dan Li,Zhiyuan Guo,Zhiyuan Guo,Jiaxin Lin
机构:Microsoft Research
数据传输阶段

Fastensor: Optimise the Tensor I/O Path from SSD to GPU for Deep Learning Training
论文链接
笔记链接

1
2
3
发表于TACO23
作者:JIA WEI,XINGJUN ZHANG,LONGXIANG WANG,ZHENG WEI
机构:Xi'an Jiaotong University

Lobster: Load Balance-Aware I/O for Distributed DNN Training
论文链接
笔记链接

1
2
3
发表于ICPP22
作者:ie Liu,Bogdan Nicolae,Dong Li
机构:UCM,ANL Chicago

Clairvoyant Prefetching for Distributed Machine Learning I/O
论文链接
笔记链接

1
2
3
发表于SC21
作者:Nikoli Dryden,Roman Böhringer,Tal Ben-Nun,Torsten Hoefler
机构:ETH Zurich
特殊负载(如GNN,DLRM)

本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!