本書主要講解分布式機器學習算法和開源框架,讀者既可以從宏觀的設計上了解分布式機器學習的概念和理論,也可以深入核心技術的細節(jié)設計中,對分布式機器學習形成深刻而直觀的認識,做到學以致用。 本書共分為5篇,第1篇是分布式基礎,首先介紹了分布式機器學習的概念、基礎設施,以及機器學習并行化技術、框架和軟件系統(tǒng),然后對集合通信和參數服務器PS-Lite進行了介紹。第2篇是數據并行,以PyTorch和Horovod為主對數據并行進行分析,讀者可以了解在具體工程領域內實現(xiàn)數據并行有哪些挑戰(zhàn)和解決方案。第3篇是流水線并行,講解了除模型劃分之外,還通過引入額外的流水線來提高效率,以GPipe / PyTorch / PipeDream為例進行分析。第4篇是模型并行,首先對NVIDIA Megatron進行分析,講解如何進行層內分割模型并行,然后講解PyTorch 如何支持模型并行,最后介紹分布式優(yōu)化器。第5篇是TensorFlow分布式,前面幾篇以PyTorch為綱,結合其他框架/庫來穿插完成,本篇帶領大家進入TensorFlow分布式領域。