From 95172781f20d408dc3c5c9f0b87118698d7164c0 Mon Sep 17 00:00:00 2001
From: Wenwei Zhang <40779233+ZwwWayne@users.noreply.github.com>
Date: Fri, 25 Feb 2022 15:38:43 +0800
Subject: [PATCH] Add user doc of distributed primitives (#45)

* add user doc of distributed primitives

* resolve comments

* update
---
 docs/zh_cn/tutorials/distributed.md | 47 +++++++++++++++++++++++++++++
 1 file changed, 47 insertions(+)
 create mode 100644 docs/zh_cn/tutorials/distributed.md

diff --git a/docs/zh_cn/tutorials/distributed.md b/docs/zh_cn/tutorials/distributed.md
new file mode 100644
index 00000000..967aa5f5
--- /dev/null
+++ b/docs/zh_cn/tutorials/distributed.md
@@ -0,0 +1,47 @@
+# åˆ†å¸ƒå¼é€šä¿¡åŽŸè¯
+
+åœ¨åˆ†å¸ƒå¼è®ç»ƒæˆ–æµ‹è¯•çš„è¿‡ç¨‹ä¸ï¼Œä¸åŒè¿›ç¨‹æœ‰æ—¶éœ€è¦æ ¹æ®åˆ†å¸ƒå¼çš„çŽ¯å¢ƒä¿¡æ¯æ‰§è¡Œä¸åŒçš„ä»£ç é€»è¾‘ï¼ŒåŒæ—¶ä¸åŒè¿›ç¨‹ä¹‹é—´ä¹Ÿç»å¸¸ä¼šæœ‰ç›¸äº’é€šä¿¡çš„éœ€æ±‚ï¼Œå¯¹ä¸€äº›æ•°æ®è¿›è¡ŒåŒæ¥ç‰æ“ä½œã€‚
+PyTorch æä¾›äº†ä¸€å¥—åŸºç¡€çš„é€šä¿¡åŽŸè¯ç”¨äºŽå¤šè¿›ç¨‹ä¹‹é—´å¼ é‡çš„é€šä¿¡ï¼ŒåŸºäºŽè¿™å¥—åŽŸè¯ï¼ŒMMEngine å®žçŽ°äº†æ›´é«˜å±‚æ¬¡çš„é€šä¿¡åŽŸè¯å°è£…ä»¥æ»¡è¶³æ›´åŠ ä¸°å¯Œçš„éœ€æ±‚ã€‚åŸºäºŽ MMEngine çš„é€šä¿¡åŽŸè¯ï¼Œç®—æ³•åº“ä¸çš„æ¨¡å—å¯ä»¥
+
+1. åœ¨ä½¿ç”¨é€šä¿¡åŽŸè¯å°è£…æ—¶ä¸æ˜¾å¼åŒºåˆ†åˆ†å¸ƒå¼/éžåˆ†å¸ƒå¼çŽ¯å¢ƒ
+2. è¿›è¡Œé™¤ Tensor ä»¥å¤–ç±»åž‹æ•°æ®çš„å¤šè¿›ç¨‹é€šä¿¡
+3. æ— éœ€äº†è§£åº•å±‚é€šä¿¡åŽç«¯æˆ–æ¡†æž¶
+
+è¿™äº›é€šä¿¡åŽŸè¯å°è£…çš„æŽ¥å£å’ŒåŠŸèƒ½å¯ä»¥å¤§è‡´å½’ç±»ä¸ºå¦‚ä¸‹ä¸‰ç§ï¼Œæˆ‘ä»¬åœ¨åŽç»ç« èŠ‚ä¸é€ä¸ªä»‹ç»
+
+1. åˆ†å¸ƒå¼åˆå§‹åŒ–ï¼š`init_dist` è´Ÿè´£åˆå§‹åŒ–æ‰§è¡Œå™¨çš„åˆ†å¸ƒå¼çŽ¯å¢ƒ
+2. åˆ†å¸ƒå¼ä¿¡æ¯èŽ·å–ä¸ŽæŽ§åˆ¶ï¼šåŒ…æ‹¬ `get_world_size` ç‰å‡½æ•°èŽ·å–å½“å‰çš„ `rank` å’Œ `world_size` ç‰ä¿¡æ¯
+3. åˆ†å¸ƒå¼é€šä¿¡æŽ¥å£ï¼šåŒ…æ‹¬å¦‚ `all_reduce` ç‰é€šä¿¡å‡½æ•°ï¼ˆcollective functionsï¼‰
+
+## åˆ†å¸ƒå¼åˆå§‹åŒ–
+
+- init_distï¼š æ˜¯åˆ†å¸ƒå¼è®ç»ƒçš„å¯åŠ¨å‡½æ•°ï¼Œç›®å‰æ”¯æŒ pytorchï¼Œslurmï¼ŒMPI 3 ç§åˆ†å¸ƒå¼å¯åŠ¨æ–¹å¼ï¼ŒåŒæ—¶å…è®¸è®¾ç½®é€šä¿¡çš„åŽç«¯ï¼Œé»˜è®¤ä½¿ç”¨ NCCLã€‚
+
+## åˆ†å¸ƒå¼ä¿¡æ¯èŽ·å–ä¸ŽæŽ§åˆ¶
+
+åˆ†å¸ƒå¼ä¿¡æ¯çš„èŽ·å–ä¸ŽæŽ§åˆ¶å‡½æ•°æ²¡æœ‰å‚æ•°ï¼Œè¿™äº›å‡½æ•°å…¼å®¹éžåˆ†å¸ƒå¼è®ç»ƒçš„æƒ…å†µï¼ŒåŠŸèƒ½å¦‚ä¸‹
+
+- [get_world_size](todo: add API link)ï¼šèŽ·å–å½“å‰è¿›ç¨‹ç»„çš„è¿›ç¨‹æ€»æ•°ï¼Œéžåˆ†å¸ƒå¼æƒ…å†µä¸‹è¿”å›ž 1
+- [get_rank](todo: add API link)ï¼šèŽ·å–å½“å‰è¿›ç¨‹å¯¹åº”çš„å…¨å±€ rank æ•°ï¼Œéžåˆ†å¸ƒå¼æƒ…å†µä¸‹è¿”å›ž 0
+- [get_backend](todo: add API link)ï¼šèŽ·å–å½“å‰é€šä¿¡ä½¿ç”¨çš„åŽç«¯ï¼Œéžåˆ†å¸ƒå¼æƒ…å†µä¸‹è¿”å›ž None
+- [get_local_rank](todo: add API link)ï¼šèŽ·å–å½“å‰è¿›ç¨‹å¯¹åº”åˆ°å½“å‰æœºå™¨çš„ rank æ•°ï¼Œéžåˆ†å¸ƒå¼æƒ…å†µä¸‹è¿”å›ž 0
+- [get_local_size](todo: add API link)ï¼šèŽ·å–å½“å‰è¿›ç¨‹æ‰€åœ¨æœºå™¨çš„æ€»è¿›ç¨‹æ•°ï¼Œéžåˆ†å¸ƒå¼æƒ…å†µä¸‹è¿”å›ž 0
+- [get_dist_info](todo: add API link)ï¼šèŽ·å–å½“å‰ä»»åŠ¡çš„è¿›ç¨‹æ€»æ•°å’Œå½“å‰è¿›ç¨‹å¯¹åº”åˆ°å…¨å±€çš„ rank æ•°ï¼Œéžåˆ†å¸ƒå¼æƒ…å†µä¸‹ word_size = 1ï¼Œrank = 0
+- [is_main_process](todo: add API link)ï¼šåˆ¤æ–æ˜¯å¦ä¸º 0 å·ä¸»è¿›ç¨‹ï¼Œéžåˆ†å¸ƒå¼æƒ…å†µä¸‹è¿”å›ž True
+- [master_only](todo: add API link)ï¼šå‡½æ•°è£…é¥°å™¨ï¼Œç”¨äºŽä¿®é¥°åªéœ€è¦å…¨å±€ 0 å·è¿›ç¨‹ï¼ˆrank 0 è€Œä¸æ˜¯ local rank 0ï¼‰æ‰§è¡Œçš„å‡½æ•°
+- [barrier](todo: add API link)ï¼šåŒæ¥æ‰€æœ‰è¿›ç¨‹åˆ°è¾¾ç›¸åŒä½ç½®
+
+## åˆ†å¸ƒå¼é€šä¿¡å‡½æ•°
+
+é€šä¿¡å‡½æ•° ï¼ˆCollective functionsï¼‰ï¼Œä¸»è¦ç”¨äºŽè¿›ç¨‹é—´æ•°æ®çš„é€šä¿¡ï¼ŒåŸºäºŽ PyTorch åŽŸç”Ÿçš„ all_reduceï¼Œall_gatherï¼Œgatherï¼Œbroadcast æŽ¥å£ï¼ŒMMEngine æä¾›äº†å¦‚ä¸‹æŽ¥å£ï¼Œå…¼å®¹éžåˆ†å¸ƒå¼è®ç»ƒçš„æƒ…å†µï¼Œå¹¶æ”¯æŒæ›´ä¸°å¯Œæ•°æ®ç±»åž‹çš„é€šä¿¡ã€‚
+
+- [all_reduce](todo: add API link): å¯¹è¿›ç¨‹é—´ tensor è¿›è¡Œ AllReduce æ“ä½œ
+- [all_gather](todo: add API link)ï¼šå¯¹è¿›ç¨‹é—´ tensor è¿›è¡Œ AllGather æ“ä½œ
+- [gather](todo: add API link)ï¼šå°†è¿›ç¨‹çš„ tensor æ”¶é›†åˆ°ä¸€ä¸ªç›®æ ‡ rank
+- [broadcast](todo: add API link)ï¼šå¯¹æŸä¸ªè¿›ç¨‹çš„ tensor è¿›è¡Œå¹¿æ’
+- [sync_random_seed](todo: add API link)ï¼šåŒæ¥è¿›ç¨‹ä¹‹é—´çš„éšæœºç§å
+- [broadcast_object_list](todo: add API link)ï¼šæ”¯æŒ object list çš„å¹¿æ’ï¼Œå¯ä»¥åŸºäºŽ broadcast æŽ¥å£å®žçŽ°
+- [all_reduce_dict](todo: add API link)ï¼šå¯¹ dict ä¸çš„å†…å®¹è¿›è¡Œ all_reduce æ“ä½œï¼ŒåŸºäºŽ broadcast å’Œ all_reduce æŽ¥å£å®žçŽ°
+- [all_gather_object](todo: add API link)ï¼šåŸºäºŽ all_gather å®žçŽ°å¯¹ä»»æ„å¯ä»¥ Python åºåˆ—åŒ–å¯¹è±¡çš„ all_tather æ“ä½œ
+- [gather_object](todo: add API link)ï¼šå°† group é‡Œæ¯ä¸ª rank çš„  data gather åˆ°ä¸€ä¸ªç›®æ ‡ rankï¼Œä¸”æ”¯æŒå¤šç§æ–¹å¼
+- [collect_results](todo: add API link)ï¼šæ”¯æŒåŸºäºŽ CPU æˆ–è€… GPU å¯¹ä¸åŒè¿›ç¨‹é—´çš„åˆ—è¡¨æ•°æ®è¿›è¡Œæ”¶é›†Â·
-- 
GitLab