From 260d332a8ecb610c9050e49bc3cbfeb2991b0319 Mon Sep 17 00:00:00 2001
From: Mashiro <57566630+HAOCHENYE@users.noreply.github.com>
Date: Tue, 30 Aug 2022 18:36:20 +0800
Subject: [PATCH] [Docs] Add model docs (#416)

* first commit

* tmp commit

* tmp commit

* tmp

* finish base module

* tmp commit

* tmp commit

* first finish

* minor refine

* clean the code

* delete design

* refine

* minor refine

* fix as comment

* fix as comment

* refine from jupyter notebook

* minor refine

* split model.md to model.md and initialize.md

* minor refine

* minor refine

* make link availiable

* fix as chengqi comment

* fix as chengqi comment

* fix link

* fix as wenwei comment

* Fix as comment

* Fix as comment

* Fix lint
---
 docs/zh_cn/index.rst               |   2 +
 docs/zh_cn/tutorials/initialize.md | 328 +++++++++++++++++++++++++++++
 docs/zh_cn/tutorials/model.md      | 170 +++++++++++++++
 3 files changed, 500 insertions(+)
 create mode 100644 docs/zh_cn/tutorials/initialize.md
 create mode 100644 docs/zh_cn/tutorials/model.md

diff --git a/docs/zh_cn/index.rst b/docs/zh_cn/index.rst
index 70505eb8..d079936a 100644
--- a/docs/zh_cn/index.rst
+++ b/docs/zh_cn/index.rst
@@ -29,6 +29,8 @@
    tutorials/visualization.md
    tutorials/fileio.md
    tutorials/utils.md
+   tutorials/model.md
+   tutorials/initialize.md
 
 .. toctree::
    :maxdepth: 1
diff --git a/docs/zh_cn/tutorials/initialize.md b/docs/zh_cn/tutorials/initialize.md
new file mode 100644
index 00000000..eb5e9e54
--- /dev/null
+++ b/docs/zh_cn/tutorials/initialize.md
@@ -0,0 +1,328 @@
+# åˆå§‹åŒ–
+
+åŸºäºŽ Pytorch æž„å»ºæ¨¡åž‹æ—¶ï¼Œæˆ‘ä»¬é€šå¸¸ä¼šé€‰æ‹© [nn.Module](https://pytorch.org/docs/stable/nn.html?highlight=nn%20module#module-torch.nn.modules) ä½œä¸ºæ¨¡åž‹çš„åŸºç±»ï¼Œæé…ä½¿ç”¨ Pytorch çš„åˆå§‹åŒ–æ¨¡å— [torch.nn.init](https://pytorch.org/docs/stable/nn.init.html?highlight=kaiming#torch.nn.init.kaiming_normal_)ï¼Œå®Œæˆæ¨¡åž‹çš„åˆå§‹åŒ–ã€‚`MMEngine` åœ¨æ¤åŸºç¡€ä¸ŠæŠ½è±¡å‡ºåŸºç¡€æ¨¡å—ï¼ˆBaseModuleï¼‰,è®©æˆ‘ä»¬èƒ½å¤Ÿé€šè¿‡ä¼ å‚æˆ–é…ç½®æ–‡ä»¶æ¥é€‰æ‹©æ¨¡åž‹çš„åˆå§‹åŒ–æ–¹å¼ã€‚æ¤å¤–ï¼Œ`MMEngine` è¿˜æä¾›äº†ä¸€ç³»åˆ—æ¨¡å—åˆå§‹åŒ–å‡½æ•°ï¼Œè®©æˆ‘ä»¬èƒ½å¤Ÿæ›´åŠ æ–¹ä¾¿çµæ´»åœ°åˆå§‹åŒ–æ¨¡åž‹å‚æ•°ã€‚
+
+## é…ç½®å¼åˆå§‹åŒ–
+
+ä¸ºäº†èƒ½å¤Ÿæ›´åŠ çµæ´»åœ°åˆå§‹åŒ–æ¨¡åž‹æƒé‡ï¼Œ`MMEngine` æŠ½è±¡å‡ºäº†æ¨¡å—åŸºç±» `BaseModule`ã€‚æ¨¡å—åŸºç±»ç»§æ‰¿è‡ª `nn.Module`ï¼Œåœ¨å…·å¤‡ `nn.Module` åŸºç¡€åŠŸèƒ½çš„åŒæ—¶ï¼Œè¿˜æ”¯æŒåœ¨æž„é€ æ—¶æŽ¥å—å‚æ•°ï¼Œä»¥æ¤æ¥é€‰æ‹©æƒé‡åˆå§‹åŒ–æ–¹å¼ã€‚ç»§æ‰¿è‡ª `BaseModule` çš„æ¨¡åž‹å¯ä»¥åœ¨å®žä¾‹åŒ–é˜¶æ®µæŽ¥å— `init_cfg` å‚æ•°ï¼Œæˆ‘ä»¬å¯ä»¥é€šè¿‡é…ç½® `init_cfg` ä¸ºæ¨¡åž‹ä¸ä»»æ„ç»„ä»¶çµæ´»åœ°é€‰æ‹©åˆå§‹åŒ–æ–¹å¼ã€‚ç›®å‰æˆ‘ä»¬å¯ä»¥åœ¨ `init_cfg` ä¸é…ç½®ä»¥ä¸‹åˆå§‹åŒ–å™¨ï¼š
+
+| åˆå§‹åŒ–å™¨                                                        |    æ³¨å†Œå    | åŠŸèƒ½                                                                                                                               |
+| :-------------------------------------------------------------- | :----------: | :--------------------------------------------------------------------------------------------------------------------------------- |
+| [ConstantInit](../api.html#mmengine.model.ConstantInit)         |   Constant   | å°† weight å’Œ bias åˆå§‹åŒ–ä¸ºæŒ‡å®šå¸¸é‡ï¼Œé€šå¸¸ç”¨äºŽåˆå§‹åŒ–å·ç§¯                                                                             |
+| [XavierInit](../api.html#mmengine.model.XavierInit)             |    Xavier    | å°† weight `Xavier` æ–¹å¼åˆå§‹åŒ–ï¼Œå°† bias åˆå§‹åŒ–æˆæŒ‡å®šå¸¸é‡ï¼Œé€šå¸¸ç”¨äºŽåˆå§‹åŒ–å·ç§¯                                                        |
+| [NormalInit](../api.html#mmengine.model.NormalInit)             |    Normal    | å°† weight ä»¥æ£æ€åˆ†å¸ƒçš„æ–¹å¼åˆå§‹åŒ–ï¼Œå°† bias åˆå§‹åŒ–æˆæŒ‡å®šå¸¸é‡ï¼Œé€šå¸¸ç”¨äºŽåˆå§‹åŒ–å·ç§¯                                                     |
+| [TruncNormalInit](../api.html#mmengine.model.TruncNormalInit)   | TruncNormal  | å°† weight ä»¥è¢«æˆªæ–çš„æ£æ€åˆ†å¸ƒçš„æ–¹å¼åˆå§‹åŒ–ï¼Œå‚æ•° a å’Œ b ä¸ºæ£æ€åˆ†å¸ƒçš„æœ‰æ•ˆåŒºåŸŸï¼›å°† bias åˆå§‹åŒ–æˆæŒ‡å®šå¸¸é‡ï¼Œé€šå¸¸ç”¨äºŽåˆå§‹åŒ– `transformer` |
+| [UniformInit](../api.html#mmengine.model.UniformInit)           |   Uniform    | å°† weight ä»¥å‡åŒ€åˆ†å¸ƒçš„æ–¹å¼åˆå§‹åŒ–ï¼Œå‚æ•° a å’Œ b ä¸ºå‡åŒ€åˆ†å¸ƒçš„èŒƒå›´ï¼›å°† bias åˆå§‹åŒ–ä¸ºæŒ‡å®šå¸¸é‡ï¼Œé€šå¸¸ç”¨äºŽåˆå§‹åŒ–å·ç§¯                       |
+| [KaimingInit](../api.html#mmengine.model.KaimingInit)           |   Kaiming    | å°† weight ä»¥ `Kaiming` çš„æ–¹å¼åˆå§‹åŒ–ï¼Œå°† bias åˆå§‹åŒ–æˆæŒ‡å®šå¸¸é‡ï¼Œé€šå¸¸ç”¨äºŽåˆå§‹åŒ–å·ç§¯                                                  |
+| [Caffe2XavierInit](../api.html#mmengine.model.Caffe2XavierInit) | Caffe2Xavier | Caffe2 ä¸ Xavier åˆå§‹åŒ–æ–¹å¼ï¼Œåœ¨ Pytorch ä¸å¯¹åº” `fan_in`, `normal` æ¨¡å¼çš„ `Kaiming` åˆå§‹åŒ–ï¼Œï¼Œé€šå¸¸ç”¨äºŽåˆå§‹åŒ–å·                      |
+| [PretrainedInit](../api.html#mmengine.model.PretrainedInit)     |  Pretrained  | åŠ è½½é¢„è®ç»ƒæƒé‡                                                                                                                     |
+
+æˆ‘ä»¬é€šè¿‡å‡ ä¸ªä¾‹åæ¥ç†è§£å¦‚ä½•åœ¨ `init_cfg` é‡Œé…ç½®åˆå§‹åŒ–å™¨ï¼Œæ¥é€‰æ‹©æ¨¡åž‹çš„åˆå§‹åŒ–æ–¹å¼ã€‚
+
+### ä½¿ç”¨é¢„è®ç»ƒæƒé‡åˆå§‹åŒ–
+
+å‡è®¾æˆ‘ä»¬å®šä¹‰äº†æ¨¡åž‹ç±» `ToyNet`ï¼Œå®ƒç»§æ‰¿è‡ªæ¨¡å—åŸºç±»ï¼ˆ`BaseModule`ï¼‰ã€‚æ¤æ—¶æˆ‘ä»¬å¯ä»¥åœ¨ `ToyNet` åˆå§‹åŒ–æ—¶ä¼ å…¥ `init_cfg` å‚æ•°æ¥é€‰æ‹©æ¨¡åž‹çš„åˆå§‹åŒ–æ–¹å¼ï¼Œå®žä¾‹åŒ–åŽå†è°ƒç”¨ `init_weights` æ–¹æ³•ï¼Œå®Œæˆæƒé‡çš„åˆå§‹åŒ–ã€‚ä»¥åŠ è½½é¢„è®ç»ƒæƒé‡ä¸ºä¾‹ï¼š
+
+```python
+import torch
+import torch.nn as nn
+
+from mmengine.model import BaseModule
+
+
+class ToyNet(BaseModule):
+
+    def __init__(self, init_cfg=None):
+        super().__init__(init_cfg)
+        self.conv1 = nn.Linear(1, 1)
+
+
+# ä¿å˜é¢„è®ç»ƒæƒé‡
+toy_net = ToyNet()
+torch.save(toy_net.state_dict(), './pretrained.pth')
+pretrained = './pretrained.pth'
+
+# é…ç½®åŠ è½½é¢„è®ç»ƒæƒé‡çš„åˆå§‹åŒ–æ–¹å¼
+toy_net = ToyNet(init_cfg=dict(type='Pretrained', checkpoint=pretrained))
+# åŠ è½½æƒé‡
+toy_net.init_weights()
+```
+
+```
+08/19 16:50:24 - mmengine - INFO - load model from: ./pretrained.pth
+08/19 16:50:24 - mmengine - INFO - local loads checkpoint from path: ./pretrained.pth
+```
+
+å½“ `init_cfg` æ˜¯ä¸€ä¸ªå—å…¸æ—¶ï¼Œ`type` å—æ®µå°±è¡¨ç¤ºä¸€ç§åˆå§‹åŒ–å™¨ï¼Œå®ƒéœ€è¦è¢«æ³¨å†Œåˆ° `WEIGHT_INITIALIZERS` [æ³¨å†Œå™¨](./registry.md)ã€‚æˆ‘ä»¬å¯ä»¥é€šè¿‡æŒ‡å®š `init_cfg=dict(type='Pretrained', checkpoint='path/to/ckpt')` æ¥åŠ è½½é¢„è®ç»ƒæƒé‡ï¼Œå…¶ä¸ `Pretrained` ä¸º `PretrainedInit` åˆå§‹åŒ–å™¨çš„ç¼©å†™ï¼Œè¿™ä¸ªæ˜ å°„åç”± `WEIGHT_INITIALIZERS` ç»´æŠ¤ï¼›`checkpoint` æ˜¯ `PretrainedInit` çš„åˆå§‹åŒ–å‚æ•°ï¼Œç”¨äºŽæŒ‡å®šæƒé‡çš„åŠ è½½è·¯å¾„ï¼Œå®ƒå¯ä»¥æ˜¯æœ¬åœ°ç£ç›˜è·¯å¾„ï¼Œä¹Ÿå¯ä»¥æ˜¯ URLã€‚
+
+### å¸¸ç”¨çš„åˆå§‹åŒ–æ–¹å¼
+
+å’Œä½¿ç”¨ `PretrainedInit` åˆå§‹åŒ–å™¨ç±»ä¼¼ï¼Œå¦‚æžœæˆ‘ä»¬æƒ³å¯¹å·ç§¯åš `Kaiming` åˆå§‹åŒ–ï¼Œéœ€è¦ä»¤ `init_cfg=dict(type='Kaiming', layer='Conv2d')`ã€‚è¿™æ ·æ¨¡åž‹åˆå§‹åŒ–æ—¶ï¼Œå°±ä¼šä»¥ `Kaiming` åˆå§‹åŒ–çš„æ–¹å¼æ¥åˆå§‹åŒ–ç±»åž‹ä¸º `Conv2d` çš„æ¨¡å—ã€‚
+
+æœ‰æ—¶å€™æˆ‘ä»¬å¯èƒ½éœ€è¦ç”¨ä¸åŒçš„åˆå§‹åŒ–æ–¹å¼åŽ»åˆå§‹åŒ–ä¸åŒç±»åž‹çš„æ¨¡å—ï¼Œä¾‹å¦‚å¯¹å·ç§¯ä½¿ç”¨ `Kaiming` åˆå§‹åŒ–ï¼Œå¯¹çº¿æ€§å±‚ä½¿ç”¨ `Xavier`
+åˆå§‹åŒ–ã€‚æ¤æ—¶æˆ‘ä»¬å¯ä»¥ä½¿ `init_cfg` æˆä¸ºä¸€ä¸ªåˆ—è¡¨ï¼Œï¼Œå…¶ä¸çš„æ¯ä¸€ä¸ªå…ƒç´ éƒ½è¡¨ç¤ºå¯¹æŸäº›å±‚ä½¿ç”¨ç‰¹å®šçš„åˆå§‹åŒ–æ–¹å¼ã€‚
+
+```python
+import torch.nn as nn
+
+from mmengine.model import BaseModule
+
+
+class ToyNet(BaseModule):
+
+    def __init__(self, init_cfg=None):
+        super().__init__(init_cfg)
+        self.linear = nn.Linear(1, 1)
+        self.conv = nn.Conv2d(1, 1, 1)
+
+
+# å¯¹å·ç§¯åš Kaiming åˆå§‹åŒ–ï¼Œçº¿æ€§å±‚åš Xavier åˆå§‹åŒ–
+toy_net = ToyNet(
+    init_cfg=[
+        dict(type='Kaiming', layer='Conv2d'),
+        dict(type='Xavier', layer='Linear')
+    ], )
+toy_net.init_weights()
+```
+
+```
+08/19 16:50:24 - mmengine - INFO -
+linear.weight - torch.Size([1, 1]):
+XavierInit: gain=1, distribution=normal, bias=0
+
+08/19 16:50:24 - mmengine - INFO -
+linear.bias - torch.Size([1]):
+XavierInit: gain=1, distribution=normal, bias=0
+
+08/19 16:50:24 - mmengine - INFO -
+conv.weight - torch.Size([1, 1, 1, 1]):
+KaimingInit: a=0, mode=fan_out, nonlinearity=relu, distribution =normal, bias=0
+
+08/19 16:50:24 - mmengine - INFO -
+conv.bias - torch.Size([1]):
+KaimingInit: a=0, mode=fan_out, nonlinearity=relu, distribution =normal, bias=0
+```
+
+ç±»ä¼¼åœ°ï¼Œ`layer` å‚æ•°ä¹Ÿå¯ä»¥æ˜¯ä¸€ä¸ªåˆ—è¡¨ï¼Œè¡¨ç¤ºåˆ—è¡¨ä¸çš„å¤šç§ä¸åŒçš„ `layer` å‡ä½¿ç”¨ `type` æŒ‡å®šçš„åˆå§‹åŒ–æ–¹å¼
+
+```python
+# å¯¹å·ç§¯å’Œçº¿æ€§å±‚åš Kaiming åˆå§‹åŒ–
+toy_net = ToyNet(init_cfg=[dict(type='Kaiming', layer=['Conv2d', 'Linear'])], )
+toy_net.init_weights()
+```
+
+```
+08/19 16:50:24 - mmengine - INFO -
+linear.weight - torch.Size([1, 1]):
+KaimingInit: a=0, mode=fan_out, nonlinearity=relu, distribution =normal, bias=0
+
+08/19 16:50:24 - mmengine - INFO -
+linear.bias - torch.Size([1]):
+KaimingInit: a=0, mode=fan_out, nonlinearity=relu, distribution =normal, bias=0
+
+08/19 16:50:24 - mmengine - INFO -
+conv.weight - torch.Size([1, 1, 1, 1]):
+KaimingInit: a=0, mode=fan_out, nonlinearity=relu, distribution =normal, bias=0
+
+08/19 16:50:24 - mmengine - INFO -
+conv.bias - torch.Size([1]):
+KaimingInit: a=0, mode=fan_out, nonlinearity=relu, distribution =normal, bias=0
+```
+
+#### æ›´ç»†ç²’åº¦çš„åˆå§‹åŒ–
+
+æœ‰æ—¶åŒä¸€ç±»åž‹çš„ä¸åŒæ¨¡å—æœ‰ä¸åŒåˆå§‹åŒ–æ–¹å¼ï¼Œä¾‹å¦‚çŽ°åœ¨æœ‰ `conv1` å’Œ `conv2` ä¸¤ä¸ªæ¨¡å—ï¼Œä»–ä»¬çš„ç±»åž‹å‡ä¸º `Conv2d`
+ã€‚æˆ‘ä»¬éœ€è¦å¯¹ conv1 è¿›è¡Œ `Kaiming` åˆå§‹åŒ–ï¼Œconv2 è¿›è¡Œ `Xavier` åˆå§‹åŒ–ï¼Œåˆ™å¯ä»¥é€šè¿‡é…ç½® `override` å‚æ•°æ¥æ»¡è¶³è¿™æ ·çš„éœ€æ±‚ï¼š
+
+```python
+import torch.nn as nn
+
+from mmengine.model import BaseModule
+
+
+class ToyNet(BaseModule):
+
+    def __init__(self, init_cfg=None):
+        super().__init__(init_cfg)
+        self.conv1 = nn.Conv2d(1, 1, 1)
+        self.conv2 = nn.Conv2d(1, 1, 1)
+
+
+# å¯¹ conv1 åšå·ç§¯åˆå§‹åŒ–ï¼Œå¯¹ ä»Ž conv2 åš Xavier åˆå§‹åŒ–
+toy_net = ToyNet(
+    init_cfg=[
+        dict(
+            type='Kaiming',
+            layer=['Conv2d'],
+            override=dict(name='conv2', type='Xavier')),
+    ], )
+toy_net.init_weights()
+```
+
+```
+08/19 16:50:24 - mmengine - INFO -
+conv1.weight - torch.Size([1, 1, 1, 1]):
+KaimingInit: a=0, mode=fan_out, nonlinearity=relu, distribution =normal, bias=0
+
+08/19 16:50:24 - mmengine - INFO -
+conv1.bias - torch.Size([1]):
+KaimingInit: a=0, mode=fan_out, nonlinearity=relu, distribution =normal, bias=0
+
+08/19 16:50:24 - mmengine - INFO -
+conv2.weight - torch.Size([1, 1, 1, 1]):
+XavierInit: gain=1, distribution=normal, bias=0
+
+08/19 16:50:24 - mmengine - INFO -
+conv2.bias - torch.Size([1]):
+KaimingInit: a=0, mode=fan_out, nonlinearity=relu, distribution =normal, bias=0
+```
+
+`override` å¯ä»¥ç†è§£æˆä¸€ä¸ªåµŒå¥—çš„ `init_cfg`ï¼Œ ä»–åŒæ ·å¯ä»¥æ˜¯ `list` æˆ–è€… `dict`ï¼Œä¹Ÿéœ€è¦é€šè¿‡ `type`
+å—æ®µæŒ‡å®šåˆå§‹åŒ–æ–¹å¼ã€‚ä¸åŒçš„æ˜¯ `override` å¿…é¡»æŒ‡å®š `name`ï¼Œ`name` ç›¸å½“äºŽ `override`
+çš„ä½œç”¨åŸŸï¼Œå¦‚ä¸Šä¾‹ä¸ï¼Œ`override` çš„ä½œç”¨åŸŸä¸º `toy_net.conv2`ï¼Œ
+æˆ‘ä»¬ä¼šä»¥ `Xavier` åˆå§‹åŒ–æ–¹å¼åˆå§‹åŒ– `toy_net.conv2` ä¸‹çš„æ‰€æœ‰å‚æ•°ï¼Œè€Œä¸ä¼šå½±å“ä½œç”¨åŸŸä»¥å¤–çš„æ¨¡å—ã€‚
+
+### è‡ªå®šä¹‰çš„åˆå§‹åŒ–æ–¹å¼
+
+å°½ç®¡ `init_cfg` èƒ½å¤ŸæŽ§åˆ¶å„ä¸ªæ¨¡å—çš„åˆå§‹åŒ–æ–¹å¼ï¼Œä½†æ˜¯åœ¨ä¸æ‰©å±• `WEIGHT_INITIALIZERS`
+çš„æƒ…å†µä¸‹ï¼Œæˆ‘ä»¬æ˜¯æ— æ³•åˆå§‹åŒ–ä¸€äº›è‡ªå®šä¹‰æ¨¡å—çš„ï¼Œä¾‹å¦‚è¡¨æ ¼ä¸æåˆ°çš„å¤§å¤šæ•°åˆå§‹åŒ–å™¨ï¼Œéƒ½éœ€è¦å¯¹åº”çš„æ¨¡å—æœ‰ `weight` å’Œ `bias` å±žæ€§ ã€‚å¯¹äºŽè¿™ç§æƒ…å†µï¼Œæˆ‘ä»¬å»ºè®®è®©è‡ªå®šä¹‰æ¨¡å—å®žçŽ° `init_weights` æ–¹æ³•ã€‚æ¨¡åž‹è°ƒç”¨ `init_weights`
+æ—¶ï¼Œä¼šé“¾å¼åœ°è°ƒç”¨æ‰€æœ‰åæ¨¡å—çš„ `init_weights`ã€‚
+
+å‡è®¾æˆ‘ä»¬å®šä¹‰äº†ä»¥ä¸‹æ¨¡å—ï¼š
+
+- ç»§æ‰¿è‡ª `nn.Module` çš„ `ToyConv`ï¼Œå®žçŽ°äº† `init_weights` æ–¹æ³•ï¼Œè®© `custom_weight` åˆå§‹åŒ–ä¸º 1ï¼Œ`custom_bias` åˆå§‹åŒ–ä¸º 0
+- ç»§æ‰¿è‡ªæ¨¡å—åŸºç±»çš„æ¨¡åž‹ `ToyNet`ï¼Œä¸”å«æœ‰ `ToyConv` åæ¨¡å—ã€‚
+
+æˆ‘ä»¬åœ¨è°ƒç”¨ `ToyNet` çš„ `init_weights` æ–¹æ³•æ—¶ï¼Œä¼šé“¾å¼çš„è°ƒç”¨çš„åæ¨¡å— `ToyConv` çš„ `init_weights` æ–¹æ³•ï¼Œå®žçŽ°è‡ªå®šä¹‰æ¨¡å—çš„åˆå§‹åŒ–ã€‚
+
+```python
+import torch
+import torch.nn as nn
+
+from mmengine.model import BaseModule
+
+
+class ToyConv(nn.Module):
+
+    def __init__(self):
+        super().__init__()
+        self.custom_weight = nn.Parameter(torch.empty(1, 1, 1, 1))
+        self.custom_bias = nn.Parameter(torch.empty(1))
+
+    def init_weights(self):
+        with torch.no_grad():
+            self.custom_weight = self.custom_weight.fill_(1)
+            self.custom_bias = self.custom_bias.fill_(0)
+
+
+class ToyNet(BaseModule):
+
+    def __init__(self, init_cfg=None):
+        super().__init__(init_cfg)
+        self.conv1 = nn.Conv2d(1, 1, 1)
+        self.conv2 = nn.Conv2d(1, 1, 1)
+        self.custom_conv = ToyConv()
+
+
+toy_net = ToyNet(
+    init_cfg=[
+        dict(
+            type='Kaiming',
+            layer=['Conv2d'],
+            override=dict(name='conv2', type='Xavier'))
+    ])
+# é“¾å¼è°ƒç”¨ `ToyConv.init_weights()`ï¼Œä»¥è‡ªå®šä¹‰çš„æ–¹å¼åˆå§‹åŒ–
+toy_net.init_weights()
+```
+
+```
+08/19 16:50:24 - mmengine - INFO -
+conv1.weight - torch.Size([1, 1, 1, 1]):
+KaimingInit: a=0, mode=fan_out, nonlinearity=relu, distribution =normal, bias=0
+
+08/19 16:50:24 - mmengine - INFO -
+conv1.bias - torch.Size([1]):
+KaimingInit: a=0, mode=fan_out, nonlinearity=relu, distribution =normal, bias=0
+
+08/19 16:50:24 - mmengine - INFO -
+conv2.weight - torch.Size([1, 1, 1, 1]):
+XavierInit: gain=1, distribution=normal, bias=0
+
+08/19 16:50:24 - mmengine - INFO -
+conv2.bias - torch.Size([1]):
+KaimingInit: a=0, mode=fan_out, nonlinearity=relu, distribution =normal, bias=0
+
+08/19 16:50:24 - mmengine - INFO -
+custom_conv.custom_weight - torch.Size([1, 1, 1, 1]):
+Initialized by user-defined `init_weights` in ToyConv
+
+08/19 16:50:24 - mmengine - INFO -
+custom_conv.custom_bias - torch.Size([1]):
+Initialized by user-defined `init_weights` in ToyConv
+```
+
+### å°ç»“
+
+æœ€åŽæˆ‘ä»¬å¯¹ `init_cfg` å’Œ `init_weights` ä¸¤ç§åˆå§‹åŒ–æ–¹å¼åšä¸€äº›æ€»ç»“ï¼š
+
+**1. é…ç½® `init_cfg` æŽ§åˆ¶åˆå§‹åŒ–**
+
+- é€šå¸¸ç”¨äºŽåˆå§‹åŒ–ä¸€äº›æ¯”è¾ƒåº•å±‚çš„æ¨¡å—ï¼Œä¾‹å¦‚å·ç§¯ã€çº¿æ€§å±‚ç‰ã€‚å¦‚æžœæƒ³é€šè¿‡ `init_cfg` é…ç½®è‡ªå®šä¹‰æ¨¡å—çš„åˆå§‹åŒ–æ–¹å¼ï¼Œéœ€è¦å°†ç›¸åº”çš„åˆå§‹åŒ–å™¨æ³¨å†Œåˆ° `WEIGHT_INITIALIZERS` é‡Œã€‚
+- åŠ¨æ€åˆå§‹åŒ–ç‰¹æ€§ï¼Œåˆå§‹åŒ–æ–¹å¼éš `init_cfg` çš„å€¼æ”¹å˜ã€‚
+
+**2. å®žçŽ° `init_weights` æ–¹æ³•**
+
+- é€šå¸¸ç”¨äºŽåˆå§‹åŒ–è‡ªå®šä¹‰æ¨¡å—ã€‚ç›¸æ¯”äºŽ `init_cfg` çš„è‡ªå®šä¹‰åˆå§‹åŒ–ï¼Œå®žçŽ° `init_weights` æ–¹æ³•æ›´åŠ ç®€å•ï¼Œæ— éœ€æ³¨å†Œã€‚ç„¶è€Œï¼Œå®ƒçš„çµæ´»æ€§ä¸åŠ `init_cfg`ï¼Œæ— æ³•åŠ¨æ€åœ°æŒ‡å®šä»»æ„æ¨¡å—çš„åˆå§‹åŒ–æ–¹å¼ã€‚
+
+```{note}
+- init_weights çš„ä¼˜å…ˆçº§æ¯” `init_cfg` é«˜
+- æ‰§è¡Œå™¨ä¼šåœ¨ train() å‡½æ•°ä¸è°ƒç”¨ init_weightsã€‚
+```
+
+## å‡½æ•°å¼åˆå§‹åŒ–
+
+åœ¨[è‡ªå®šä¹‰çš„åˆå§‹åŒ–æ–¹å¼](è‡ªå®šä¹‰çš„åˆå§‹åŒ–æ–¹å¼)ä¸€èŠ‚æåˆ°ï¼Œæˆ‘ä»¬å¯ä»¥åœ¨ `init_weights` é‡Œå®žçŽ°è‡ªå®šä¹‰çš„å‚æ•°åˆå§‹åŒ–é€»è¾‘ã€‚ä¸ºäº†èƒ½å¤Ÿæ›´åŠ æ–¹ä¾¿åœ°å®žçŽ°å‚æ•°åˆå§‹åŒ–ï¼ŒMMEngine åœ¨ `torch.nn.init`çš„åŸºç¡€ä¸Šï¼Œæä¾›äº†ä¸€ç³»åˆ—**æ¨¡å—åˆå§‹åŒ–å‡½æ•°**æ¥åˆå§‹åŒ–æ•´ä¸ªæ¨¡å—ã€‚ä¾‹å¦‚æˆ‘ä»¬å¯¹å·ç§¯å±‚çš„æƒé‡ï¼ˆ`weight`ï¼‰è¿›è¡Œæ£æ€åˆ†å¸ƒåˆå§‹åŒ–ï¼Œå·ç§¯å±‚çš„åç½®ï¼ˆ`bias`ï¼‰è¿›è¡Œå¸¸æ•°åˆå§‹åŒ–ï¼ŒåŸºäºŽ `torch.nn.init` çš„å®žçŽ°å¦‚ä¸‹ï¼š
+
+```python
+from torch.nn.init import normal_, constant_
+import torch.nn as nn
+
+model = nn.Conv2d(1, 1, 1)
+normal_(model.weight, mean=0, std=0.01)
+constant_(model.bias, val=0)
+```
+
+```
+Parameter containing:
+tensor([0.], requires_grad=True)
+```
+
+ä¸Šè¿°æµç¨‹å®žé™…ä¸Šæ˜¯å·ç§¯æ£æ€åˆ†å¸ƒåˆå§‹åŒ–çš„æ ‡å‡†æµç¨‹ï¼Œå› æ¤ MMEngine åœ¨æ¤åŸºç¡€ä¸Šåšäº†è¿›ä¸€æ¥åœ°ç®€åŒ–ï¼Œå®žçŽ°äº†ä¸€ç³»åˆ—å¸¸ç”¨çš„**æ¨¡å—**åˆå§‹åŒ–å‡½æ•°ã€‚ç›¸æ¯” `torch.nn.init`ï¼ŒMMEngine æä¾›çš„åˆå§‹åŒ–å‡½æ•°ç›´æŽ¥æŽ¥å—å·ç§¯æ¨¡å—ï¼Œä¸€è¡Œä»£ç èƒ½å®žçŽ°åŒæ ·çš„åˆå§‹åŒ–é€»è¾‘ï¼š
+
+```python
+from mmengine.model import normal_init
+
+normal_init(model, mean=0, std=0.01, bias=0)
+```
+
+ç±»ä¼¼åœ°ï¼Œæˆ‘ä»¬ä¹Ÿå¯ä»¥ç”¨ [Kaiming](http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf) åˆå§‹åŒ–å’Œ [Xavier](http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf) åˆå§‹åŒ–ï¼š
+
+```python
+from mmengine.model import kaiming_init, xavier_init
+
+kaiming_init(model)
+xavier_init(model)
+```
+
+ç›®å‰ MMEngine æä¾›äº†ä»¥ä¸‹åˆå§‹åŒ–å‡½æ•°ï¼š
+
+| åˆå§‹åŒ–å‡½æ•°                                                            | åŠŸèƒ½                                                                                                                               |
+| :-------------------------------------------------------------------- | :--------------------------------------------------------------------------------------------------------------------------------- |
+| [constant_init](../api.html#mmengine.model.constant_init)             | å°† weight å’Œ bias åˆå§‹åŒ–ä¸ºæŒ‡å®šå¸¸é‡ï¼Œé€šå¸¸ç”¨äºŽåˆå§‹åŒ–å·ç§¯                                                                             |
+| [xavier_init](../api.html#mmengine.model.xavier_init)                 | å°† weight ä»¥ `Xavier` æ–¹å¼åˆå§‹åŒ–ï¼Œå°† bias åˆå§‹åŒ–æˆæŒ‡å®šå¸¸é‡ï¼Œé€šå¸¸ç”¨äºŽåˆå§‹åŒ–å·ç§¯                                                     |
+| [normal_init](../api.html#mmengine.model.normal_init)                 | å°† weight ä»¥æ£æ€åˆ†å¸ƒçš„æ–¹å¼åˆå§‹åŒ–ï¼Œå°† bias åˆå§‹åŒ–æˆæŒ‡å®šå¸¸é‡ï¼Œé€šå¸¸ç”¨äºŽåˆå§‹åŒ–å·ç§¯                                                     |
+| [trunc_normal_init](../api.html#mmengine.model.trunc_normal_init)     | å°† weight ä»¥è¢«æˆªæ–çš„æ£æ€åˆ†å¸ƒçš„æ–¹å¼åˆå§‹åŒ–ï¼Œå‚æ•° a å’Œ b ä¸ºæ£æ€åˆ†å¸ƒçš„æœ‰æ•ˆåŒºåŸŸï¼›å°† bias åˆå§‹åŒ–æˆæŒ‡å®šå¸¸é‡ï¼Œé€šå¸¸ç”¨äºŽåˆå§‹åŒ– `transformer` |
+| [uniform_init](../api.html#mmengine.model.uniform_init)               | å°† weight ä»¥å‡åŒ€åˆ†å¸ƒçš„æ–¹å¼åˆå§‹åŒ–ï¼Œå‚æ•° a å’Œ b ä¸ºå‡åŒ€åˆ†å¸ƒçš„èŒƒå›´ï¼›å°† bias åˆå§‹åŒ–ä¸ºæŒ‡å®šå¸¸é‡ï¼Œé€šå¸¸ç”¨äºŽåˆå§‹åŒ–å·ç§¯                       |
+| [kaiming_init](../api.html#mmengine.model.kaiming_init)               | å°† weight ä»¥ `Kaiming` æ–¹å¼åˆå§‹åŒ–ï¼Œå°† bias åˆå§‹åŒ–æˆæŒ‡å®šå¸¸é‡ï¼Œé€šå¸¸ç”¨äºŽåˆå§‹åŒ–å·ç§¯                                                    |
+| [caffe2_xavier_init](../api.html#mmengine.model.caffe2_xavier_init)   | Caffe2 ä¸ Xavier åˆå§‹åŒ–æ–¹å¼ï¼Œåœ¨ Pytorch ä¸å¯¹åº” `fan_in`, `normal` æ¨¡å¼çš„ `Kaiming` åˆå§‹åŒ–ï¼Œé€šå¸¸ç”¨äºŽåˆå§‹åŒ–å·ç§¯                      |
+| [bias_init_with_prob](../api.html#mmengine.model.bias_init_with_prob) | ä»¥æ¦‚çŽ‡å€¼çš„å½¢å¼åˆå§‹åŒ– bias                                                                                                          |
diff --git a/docs/zh_cn/tutorials/model.md b/docs/zh_cn/tutorials/model.md
new file mode 100644
index 00000000..2e577232
--- /dev/null
+++ b/docs/zh_cn/tutorials/model.md
@@ -0,0 +1,170 @@
+# æ¨¡åž‹
+
+åœ¨è®ç»ƒæ·±åº¦å¦ä¹ ä»»åŠ¡æ—¶ï¼Œæˆ‘ä»¬é€šå¸¸éœ€è¦å®šä¹‰ä¸€ä¸ªæ¨¡åž‹æ¥å®žçŽ°ç®—æ³•çš„ä¸»ä½“ã€‚åœ¨åŸºäºŽ MMEngine å¼€å‘æ—¶ï¼Œæ¨¡åž‹ç”±[æ‰§è¡Œå™¨](./runner.md)ç®¡ç†ï¼Œéœ€è¦å®žçŽ° `train_step`ï¼Œ`val_step` å’Œ `test_step` æ–¹æ³•ã€‚
+
+å¯¹äºŽæ£€æµ‹ã€è¯†åˆ«ã€åˆ†å‰²ä¸€ç±»çš„æ·±åº¦å¦ä¹ ä»»åŠ¡ï¼Œä¸Šè¿°æ–¹æ³•é€šå¸¸ä¸ºæ ‡å‡†çš„æµç¨‹ï¼Œä¾‹å¦‚åœ¨ `train_step` é‡Œæ›´æ–°å‚æ•°ï¼Œè¿”å›žæŸå¤±ï¼›`val_step` å’Œ `test_step` è¿”å›žé¢„æµ‹ç»“æžœã€‚å› æ¤ MMEngine æŠ½è±¡å‡ºæ¨¡åž‹åŸºç±» [BaseModel](mmengine.model.BaseModel)ï¼Œå®žçŽ°äº†ä¸Šè¿°æŽ¥å£çš„æ ‡å‡†æµç¨‹ã€‚æˆ‘ä»¬åªéœ€è¦è®©æ¨¡åž‹ç»§æ‰¿è‡ªæ¨¡åž‹åŸºç±»ï¼Œå¹¶æŒ‰ç…§ä¸€å®šçš„è§„èŒƒå®žçŽ° `forward`ï¼Œå°±èƒ½è®©æ¨¡åž‹åœ¨æ‰§è¡Œå™¨ä¸è¿è¡Œèµ·æ¥ã€‚
+
+æ¨¡åž‹åŸºç±»ç»§æ‰¿è‡ª[æ¨¡å—åŸºç±»](./initialize.md)ï¼Œèƒ½å¤Ÿé€šè¿‡é…ç½® `init_cfg` çµæ´»çš„é€‰æ‹©åˆå§‹åŒ–æ–¹å¼ã€‚
+
+## æŽ¥å£çº¦å®š
+
+[forward](mmengine.model.BaseModel.forward): `forward` çš„å…¥å‚éœ€è¦å’Œ [DataLoader](https://pytorch.org/tutorials/beginner/basics/data_tutorial.html) çš„è¾“å‡ºä¿æŒä¸€è‡´ (è‡ªå®šä¹‰[æ•°æ®å¤„ç†å™¨](æ•°æ®å¤„ç†å™¨ï¼ˆDataPreprocessorï¼‰)é™¤å¤–)ï¼Œå¦‚æžœ `DataLoader` è¿”å›žå…ƒç»„ç±»åž‹çš„æ•°æ® `data`ï¼Œ`forward` éœ€è¦èƒ½å¤ŸæŽ¥å— `*data` çš„è§£åŒ…åŽçš„å‚æ•°ï¼›å¦‚æžœè¿”å›žå—å…¸ç±»åž‹çš„æ•°æ® `data`ï¼Œ`forward` éœ€è¦èƒ½å¤ŸæŽ¥å— `**data` è§£åŒ…åŽçš„å‚æ•°ã€‚ `mode` å‚æ•°ç”¨äºŽæŽ§åˆ¶ forward çš„è¿”å›žç»“æžœï¼š
+
+- `mode='loss'`ï¼š`loss` æ¨¡å¼é€šå¸¸åœ¨è®ç»ƒé˜¶æ®µå¯ç”¨ï¼Œå¹¶è¿”å›žä¸€ä¸ªæŸå¤±å—å…¸ã€‚æŸå¤±å—å…¸çš„ key-value åˆ†åˆ«ä¸ºæŸå¤±åå’Œå¯å¾®çš„ `torch.Tensor`ã€‚å—å…¸ä¸è®°å½•çš„æŸå¤±ä¼šè¢«ç”¨äºŽæ›´æ–°å‚æ•°å’Œè®°å½•æ—¥å¿—ã€‚æ¨¡åž‹åŸºç±»ä¼šåœ¨ `train_step` æ–¹æ³•ä¸è°ƒç”¨è¯¥æ¨¡å¼çš„ `forward`ã€‚
+- `mode='predict'`ï¼š `predict` æ¨¡å¼é€šå¸¸åœ¨éªŒè¯ã€æµ‹è¯•é˜¶æ®µå¯ç”¨ï¼Œå¹¶è¿”å›žåˆ—è¡¨/å…ƒç»„å½¢å¼çš„é¢„æµ‹ç»“æžœï¼Œé¢„æµ‹ç»“æžœéœ€è¦å’Œ [process](mmengine.evaluator.Evaluator) æŽ¥å£çš„å‚æ•°ç›¸åŒ¹é…ã€‚OpenMMLab ç³»åˆ—ç®—æ³•å¯¹ `predict` æ¨¡å¼çš„è¾“å‡ºæœ‰ç€æ›´åŠ ä¸¥æ ¼çš„çº¦å®šï¼Œéœ€è¦è¾“å‡ºåˆ—è¡¨å½¢å¼çš„[æ•°æ®å…ƒç´ ](./data_element.md)ã€‚æ¨¡åž‹åŸºç±»ä¼šåœ¨ `val_step`ï¼Œ`test_step` æ–¹æ³•ä¸è°ƒç”¨è¯¥æ¨¡å¼çš„ `forward`ã€‚
+- `mode='tensor'`ï¼š`tensor` å’Œ `predict` æ¨¡å¼å‡è¿”å›žæ¨¡åž‹çš„å‰å‘æŽ¨ç†ç»“æžœï¼ŒåŒºåˆ«åœ¨äºŽ `tensor` æ¨¡å¼ä¸‹ï¼Œ`forward` ä¼šè¿”å›žæœªç»åŽå¤„ç†çš„å¼ é‡ï¼Œä¾‹å¦‚è¿”å›žæœªç»éžæžå¤§å€¼æŠ‘åˆ¶ï¼ˆnmsï¼‰å¤„ç†çš„æ£€æµ‹ç»“æžœï¼Œè¿”å›žæœªç» `argmax` å¤„ç†çš„åˆ†ç±»ç»“æžœã€‚æˆ‘ä»¬å¯ä»¥åŸºäºŽ `tensor` æ¨¡å¼çš„ç»“æžœè¿›è¡Œè‡ªå®šä¹‰çš„åŽå¤„ç†ã€‚
+
+[train_step](mmengine.model.BaseModel.train_step): è°ƒç”¨ `loss` æ¨¡å¼çš„ `forward` æŽ¥å£ï¼Œå¾—åˆ°æŸå¤±å—å…¸ã€‚æ¨¡åž‹åŸºç±»åŸºäºŽ[ä¼˜åŒ–å™¨å°è£…](./optim_wrapper.md) å®žçŽ°äº†æ ‡å‡†çš„æ¢¯åº¦è®¡ç®—ã€å‚æ•°æ›´æ–°ã€æ¢¯åº¦æ¸…é›¶æµç¨‹ã€‚
+
+[val_step](mmengine.model.BaseModel.val_step): è°ƒç”¨ `predict` æ¨¡å¼çš„ `forward`ï¼Œè¿”å›žé¢„æµ‹ç»“æžœï¼Œé¢„æµ‹ç»“æžœä¼šè¢«è¿›ä¸€æ¥ä¼ ç»™[è¯„æµ‹å™¨](./metric_and_evaluator.md)çš„ [process](mmengine.evaluator.Evaluator.process) æŽ¥å£å’Œ[é’©åï¼ˆHookï¼‰](./hook.md)çš„ `after_val_iter` æŽ¥å£ã€‚
+
+[test_step](mmengine.model.BaseModel.test_step): åŒ `val_step`ï¼Œé¢„æµ‹ç»“æžœä¼šè¢«è¿›ä¸€æ¥ä¼ ç»™ `after_test_iter` æŽ¥å£ã€‚
+
+åŸºäºŽä¸Šè¿°æŽ¥å£çº¦å®šï¼Œæˆ‘ä»¬å®šä¹‰äº†ç»§æ‰¿è‡ªæ¨¡åž‹åŸºç±»çš„ `NeuralNetwork`ï¼Œé…åˆæ‰§è¡Œå™¨æ¥è®ç»ƒ `FashionMNIST`ï¼š
+
+```python
+from torch.utils.data import DataLoader
+from torch import nn
+from torchvision import datasets
+from torchvision.transforms import ToTensor
+from mmengine.model import BaseModel
+from mmengine.evaluator import BaseMetric
+from mmengine import Runner
+
+
+training_data = datasets.FashionMNIST(
+    root="data",
+    train=True,
+    download=True,
+    transform=ToTensor()
+)
+
+test_data = datasets.FashionMNIST(
+    root="data",
+    train=False,
+    download=True,
+    transform=ToTensor()
+)
+
+train_dataloader = DataLoader(dataset=training_data, batch_size=64)
+test_dataloader = DataLoader(dataset=test_data, batch_size=64)
+
+
+class NeuralNetwork(BaseModel):
+    def __init__(self, data_preprocessor=None):
+        super(NeuralNetwork, self).__init__(data_preprocessor)
+        self.flatten = nn.Flatten()
+        self.linear_relu_stack = nn.Sequential(
+            nn.Linear(28*28, 512),
+            nn.ReLU(),
+            nn.Linear(512, 512),
+            nn.ReLU(),
+            nn.Linear(512, 10),
+        )
+        self.loss = nn.CrossEntropyLoss()
+
+    def forward(self, img, label, mode='tensor'):
+        x = self.flatten(img)
+        pred = self.linear_relu_stack(x)
+        loss = self.loss(pred, label)
+        if mode == 'loss':
+            return dict(loss=loss)
+        elif mode=='predict':
+            return pred.argmax(1), loss.item()
+        else:
+            return pred
+
+
+class FashionMnistMetric(BaseMetric):
+    def process(self, data, preds) -> None:
+        # data å‚æ•°ä¸º Dataloader è¿”å›žçš„å…ƒç»„ï¼Œå³ (img, label)
+        # predict ä¸ºæ¨¡åž‹ `predict` æ¨¡å¼ä¸‹ï¼Œè¿”å›žçš„å…ƒç»„ï¼Œåˆ†åˆ«ä¸º `pred.argmax(1) å’Œ `loss``
+        self.results.append(((data[1] == preds[0].cpu()).sum(), preds[1], len(preds[0])))
+
+    def compute_metrics(self, results):
+        correct, loss, batch_size = zip(*results)
+        test_loss, correct = sum(loss) / len(self.results), sum(correct) / sum(batch_size)
+        return dict(Accuracy=correct, Avg_loss=test_loss)
+
+
+runner = Runner(
+    model=NeuralNetwork(),
+    work_dir='./work_dir',
+    train_dataloader=train_dataloader,
+    optim_wrapper=dict(optimizer=dict(type='SGD', lr=1e-3)),
+    train_cfg=dict(by_epoch=True, max_epochs=5, val_interval=1),
+    val_cfg=dict(fp16=True),
+    val_dataloader=test_dataloader,
+    val_evaluator=dict(metrics=FashionMnistMetric()))
+runner.train()
+```
+
+åœ¨è¿™ä¸ªä¾‹åä¸ï¼Œ`NeuralNetwork.forward` å˜åœ¨ç€ä»¥ä¸‹è·¨æ¨¡å—çš„æŽ¥å£çº¦å®šï¼š
+
+- ç”±äºŽ `train_dataloader` ä¼šè¿”å›žä¸€ä¸ª `(img, label)` å½¢å¼çš„å…ƒç»„ï¼Œå› æ¤ `forward` æŽ¥å£çš„å‰ä¸¤ä¸ªå‚æ•°åˆ†åˆ«éœ€è¦ä¸º `img` å’Œ `label`ã€‚
+- ç”±äºŽ `forward` åœ¨ `predict` æ¨¡å¼ä¸‹ä¼šè¿”å›ž `(pred, loss)` å½¢å¼çš„å…ƒç»„ï¼Œå› æ¤ `process` çš„ `preds` å‚æ•°åº”å½“åŒæ ·ä¸ºç›¸åŒå½¢å¼çš„å…ƒç»„ã€‚
+
+ç›¸æ¯”äºŽ [Pytorch å®˜æ–¹ç¤ºä¾‹](https://pytorch.org/tutorials/beginner/basics/optimization_tutorial.html#)ï¼ŒMMEngine çš„ä»£ç æ›´åŠ ç®€æ´ï¼Œè®°å½•çš„æ—¥å¿—ä¹Ÿæ›´åŠ ä¸°å¯Œã€‚
+
+## æ•°æ®å¤„ç†å™¨ï¼ˆDataPreprocessorï¼‰
+
+å¦‚æžœä½ çš„ç”µè„‘é…æœ‰ GPUï¼ˆæˆ–å…¶ä»–èƒ½å¤ŸåŠ é€Ÿè®ç»ƒçš„ç¡¬ä»¶ï¼Œå¦‚ mpsã€ipu ç‰ï¼‰ï¼Œå¹¶è¿è¡Œäº†ä¸ŠèŠ‚çš„ä»£ç ç¤ºä¾‹ã€‚ä½ ä¼šå‘çŽ° Pytorch çš„ç¤ºä¾‹æ˜¯åœ¨ CPU ä¸Šè¿è¡Œçš„ï¼Œè€Œ MMEngine çš„ç¤ºä¾‹æ˜¯åœ¨ GPU ä¸Šè¿è¡Œçš„ã€‚`MMEngine` æ˜¯åœ¨ä½•æ—¶æŠŠæ•°æ®å’Œæ¨¡åž‹ä»Ž CPU æ¬è¿åˆ° GPU çš„å‘¢ï¼Ÿ
+
+äº‹å®žä¸Šï¼Œæ‰§è¡Œå™¨ä¼šåœ¨æž„é€ é˜¶æ®µå°†æ¨¡åž‹æ¬è¿åˆ°æŒ‡å®šè®¾å¤‡ï¼Œè€Œæ•°æ®åˆ™ä¼šåœ¨ `train_step`ã€`val_step`ã€`test_step` ä¸ï¼Œè¢«[åŸºç¡€æ•°æ®å¤„ç†å™¨ï¼ˆBaseDataPreprocessorï¼‰](mmengine.model.BaseDataPreprocessor)æ¬è¿åˆ°æŒ‡å®šè®¾å¤‡ï¼Œè¿›ä¸€æ¥å°†å¤„ç†å¥½çš„æ•°æ®ä¼ ç»™æ¨¡åž‹ã€‚æ•°æ®å¤„ç†å™¨ä½œä¸ºæ¨¡åž‹åŸºç±»çš„ä¸€ä¸ªå±žæ€§ï¼Œä¼šåœ¨æ¨¡åž‹åŸºç±»çš„æž„é€ è¿‡ç¨‹ä¸è¢«å®žä¾‹åŒ–ã€‚
+
+ä¸ºäº†ä½“çŽ°æ•°æ®å¤„ç†å™¨èµ·åˆ°çš„ä½œç”¨ï¼Œæˆ‘ä»¬ä»ç„¶ä»¥[ä¸Šä¸€èŠ‚](æŽ¥å£çº¦å®š)è®ç»ƒ FashionMNIST ä¸ºä¾‹, å®žçŽ°äº†ä¸€ä¸ªç®€æ˜“çš„æ•°æ®å¤„ç†å™¨ï¼Œç”¨äºŽæ¬è¿æ•°æ®å’Œå½’ä¸€åŒ–ï¼š
+
+```python
+from torch.optim import SGD
+from mmengine.model import BaseDataPreprocessor, BaseModel
+
+
+class NeuralNetwork1(NeuralNetwork):
+
+    def __init__(self, data_preprocessor):
+        super().__init__(data_preprocessor=data_preprocessor)
+        self.data_preprocessor = data_preprocessor
+
+    def train_step(self, data, optimizer):
+        img, label = self.data_preprocessor(data)
+        loss = self(img, label, mode='loss')['loss'].sum()
+        loss.backward()
+        optimizer.step()
+        optimizer.zero_grad()
+        return dict(loss=loss)
+
+    def test_step(self, data):
+        img, label = self.data_preprocessor(data)
+        return self(img, label, mode='predict')
+
+    def val_step(self, data):
+        img, label = self.data_preprocessor(data)
+        return self(img, label, mode='predict')
+
+
+class NormalizeDataPreprocessor(BaseDataPreprocessor):
+
+    def forward(self, data, training=False):
+        img, label = [item for item in data]
+        img = (img - 127.5) / 127.5
+        return img, label
+
+
+model = NeuralNetwork1(data_preprocessor=NormalizeDataPreprocessor())
+optimizer = SGD(model.parameters(), lr=0.01)
+data = (torch.full((3, 28, 28), fill_value=127.5), torch.ones(3, 10))
+
+model.train_step(data, optimizer)
+model.val_step(data)
+model.test_step(data)
+```
+
+ä¸Šä¾‹ä¸ï¼Œæˆ‘ä»¬å®žçŽ°äº† `BaseModel.train_step`ã€`BaseModel.val_step` å’Œ `BaseModel.test_step` çš„ç®€åŒ–ç‰ˆã€‚æ•°æ®ç» `NormalizeDataPreprocessor.forward` å½’ä¸€åŒ–å¤„ç†ï¼Œè§£åŒ…åŽä¼ ç»™ `NeuralNetwork.forward`ï¼Œè¿›ä¸€æ¥è¿”å›žæŸå¤±æˆ–è€…é¢„æµ‹ç»“æžœã€‚å¦‚æžœæƒ³å®žçŽ°è‡ªå®šä¹‰çš„å‚æ•°ä¼˜åŒ–æˆ–é¢„æµ‹é€»è¾‘ï¼Œå¯ä»¥è‡ªè¡Œå®žçŽ° `train_step`ã€`val_step` å’Œ `test_step`ï¼Œå…·ä½“ä¾‹åå¯ä»¥å‚è€ƒï¼š[ä½¿ç”¨ MMEngine è®ç»ƒç”Ÿæˆå¯¹æŠ—ç½‘ç»œ](../examples/train_a_gan.md)
+
+```{note}
+ä¸Šä¾‹ä¸æ•°æ®å¤„ç†å™¨çš„ training å‚æ•°ç”¨äºŽåŒºåˆ†è®ç»ƒã€æµ‹è¯•é˜¶æ®µä¸åŒçš„æ‰¹å¢žå¼ºç–ç•¥ï¼Œ`train_step` ä¼šä¼ å…¥ `training=True`ï¼Œ`test_step` å’Œ `val_step` åˆ™ä¼šä¼ å…¥ `trainig=Fasle`ã€‚
+```
+
+```{note}
+é€šå¸¸æƒ…å†µä¸‹ï¼Œæˆ‘ä»¬è¦æ±‚ DataLoader çš„ `data` æ•°æ®è§£åŒ…åŽï¼ˆå—å…¸ç±»åž‹çš„è¢« **data è§£åŒ…ï¼Œå…ƒç»„åˆ—è¡¨ç±»åž‹è¢« *data è§£åŒ…ï¼‰èƒ½å¤Ÿç›´æŽ¥ä¼ ç»™æ¨¡åž‹çš„ `forward`ã€‚ä½†æ˜¯å¦‚æžœæ•°æ®å¤„ç†å™¨ä¿®æ”¹äº† data çš„æ•°æ®ç±»åž‹ï¼Œåˆ™è¦æ±‚æ•°æ®å¤„ç†å™¨çš„ `forward` çš„è¿”å›žå€¼ä¸Žæ¨¡åž‹ `forward` çš„å…¥å‚ç›¸åŒ¹é…ã€‚
+```
-- 
GitLab