萬顆GPU的訓練:分散式機器學習系統工程與實戰

NT $ 1,280
NT $ 1,152


*分散式機器學習機礎,包括資料、模型、管線的並行*集合通訊的重要性、參數伺服器PS-Lite*PyTorchDataParalle、PyTorchDDP的基礎及動態邏輯*UberHorovod的原理及實作*GPipe、PyTorch的管線並行及PipeDream基礎架構及實作*Megatron原理及實作、PyTorch的模型並行原理實作*分散式運算的最佳化器*TensorFlow的分散式環境,靜態架構、動態邏輯*分散式架構的策略基礎、MirroredStrategy、ParameterServerStrategy本書書以PyTorch為主體講解,從系統和實踐的角度對分散式機器學習進行整理。包括了第1篇分散式基礎,介紹了分散式機器學習的基本概念、基礎設施,以及機器學習並行化的技術、框架和軟體系統,然後對集合通訊和參數伺服器PS-Lite進行了介紹。第2篇介紹資料並行,將計算負載切分到多張卡上,實作為PyTorch及Horovod。第3篇介紹模型並行,主要說明了張量模型並行及管線模弄並行,讓模型可以放入多節點上。第4篇NVIDIAMegatron進行分析,講解如何進行層內分割模型並行,然後學習PyTorch如何支援模型並行。第5篇則是將全書的內容用TensorFlow實作,讓已經熟悉TensorFlow的使用者不必重新學習新的框架。


伺服器 PIPEDREAM 通訊 邏輯 GPU 機器學習 模型 動態


會計學
NT $ 550