论文阅读目标
MLSYS相关论文
这篇文章梳理一下近期要看的MLSYS的论文,主要是为了给MoE的望道项目做一些理论准备,同时给博士阶段的课题选择打一打基础。至少不要什么都不知道就稀里糊涂的选题了。
这个单子之后还会更新,争取变成一个读书等身一样的单子。也是督促自己多看论文吧。如果可能的话,之后每篇论文的笔记链接也会放在这里。
2024年6月15日更新
本次主要是梳理github MLSYS 基础。这个单子分为几个部分:
- 数据预处理系统
- 模型训练系统
- 推理系统
- MoE
- 联邦学习
- 隐私保护机器学习
- ML-API优化
- ML for system
暂时不打算看联邦学习和隐私保护的部分了。这两个部分和我目前正在做的工作不太相关,而且不够聚焦于大模型和大集群的工作。ML-API作为编程相关的工作,希望等以后设计模式学习好之后再来进行。
数据预处理
数据流水线
流水线概述
cedar: Composable and Optimized Machine Learning Input Data Pipelines
论文链接
笔记链接
1 | |
Plumber: Diagnosing and Removing Performance Bottlenecks in Machine Learning Data Pipelines
论文链接
笔记链接
1 | |
Understanding Data Storage and Ingestion for Large-Scale Deep Recommendation Model Training
论文链接
笔记链接
1 | |
Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning Preprocessing Pipelines
论文链接
笔记链接
1 | |
Analyzing and Mitigating Data Stalls in DNN Training
论文链接
笔记链接
1 | |
tf.data: A Machine Learning Data Processing Framework
论文链接
笔记链接
1 | |
数据准备阶段
FusionFlow: Accelerating Data Preprocessing for Machine Learning with CPU-GPU Cooperation
论文链接
笔记链接
1 | |
RINAS: Training with Dataset Shuffling Can Be General and Fast
论文链接
笔记链接
1 | |
FFCV: Accelerating Training by Removing Data Bottlenecks
论文链接
笔记链接
1 | |
InTune: Reinforcement Learning-based Data Pipeline Optimization for Deep Recommendation Models
论文链接
笔记链接
1 | |
GoldMiner: Elastic Scaling of Training Data Pre-Processing Pipelines for Deep Learning
论文链接
笔记链接
1 | |
FastFlow: Accelerating Deep Learning Model Training with Smart Offloading of Input Data Pipeline
论文链接
笔记链接
1 | |
tf.data service: A Case for Disaggregating ML Input Data Processing
论文链接
笔记链接
1 | |
Cachew: Machine Learning Input Data Processing as a Service
论文链接
笔记链接
1 | |
Looking Beyond GPUs for DNN Scheduling on Multi-Tenant Clusters
论文链接
笔记链接
1 | |
DLBooster: Boosting End-to-End Deep Learning Workflows with Offloading Data
论文链接
笔记链接
1 | |
数据传输阶段
Fastensor: Optimise the Tensor I/O Path from SSD to GPU for Deep Learning Training
论文链接
笔记链接
1 | |
Lobster: Load Balance-Aware I/O for Distributed DNN Training
论文链接
笔记链接
1 | |
Clairvoyant Prefetching for Distributed Machine Learning I/O
论文链接
笔记链接
1 | |
特殊负载(如GNN,DLRM)
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!