From 92de63eed7f866306002a25bfa7308befb4b264a Mon Sep 17 00:00:00 2001
From: Yining Li <liyining0712@gmail.com>
Date: Fri, 25 Feb 2022 14:43:16 +0800
Subject: [PATCH] [Docs] Add evaluator docs (#33)

* add evaluator docs

* resolve comments

* resolve comments
---
 docs/zh_cn/tutorials/evaluator.md | 141 ++++++++++++++++++++++++++++++
 1 file changed, 141 insertions(+)
 create mode 100644 docs/zh_cn/tutorials/evaluator.md

diff --git a/docs/zh_cn/tutorials/evaluator.md b/docs/zh_cn/tutorials/evaluator.md
new file mode 100644
index 00000000..abcd6fb9
--- /dev/null
+++ b/docs/zh_cn/tutorials/evaluator.md
@@ -0,0 +1,141 @@
+# è¯„æµ‹å™¨ï¼ˆEvaluatorï¼‰
+
+åœ¨æ¨¡åž‹éªŒè¯å’Œæ¨¡åž‹æµ‹è¯•ä¸ï¼Œé€šå¸¸éœ€è¦å¯¹æ¨¡åž‹ç²¾åº¦åšå®šé‡è¯„æµ‹ã€‚åœ¨ MMEngine ä¸å®žçŽ°äº†[è¯„æµ‹å™¨](Todo:evaluator-doc-link)æ¥å®Œæˆè¿™ä¸€åŠŸèƒ½ã€‚è¯„æµ‹å™¨å¯ä»¥æ ¹æ®æ¨¡åž‹çš„è¾“å…¥æ•°æ®å’Œé¢„æµ‹ç»“æžœï¼Œè®¡ç®—ç‰¹å®šçš„è¯„æµ‹æŒ‡æ ‡ï¼ˆMetricï¼‰ã€‚è¯„æµ‹å™¨ä¸Žæ•°æ®é›†ä¹‹é—´ç›¸äº’è§£è€¦ï¼Œè¿™ä½¿å¾—ç”¨æˆ·å¯ä»¥ä»»æ„ç»„åˆæ‰€éœ€çš„æµ‹è¯•æ•°æ®å’Œè¯„æµ‹å™¨ã€‚å¦‚ [COCOEvaluator](Todo:coco-evaluator-doc-link) å¯ç”¨äºŽè®¡ç®— COCO æ•°æ®é›†çš„ APï¼ŒAR ç‰è¯„æµ‹æŒ‡æ ‡ï¼Œä¹Ÿå¯ç”¨äºŽå…¶ä»–çš„ç›®æ ‡æ£€æµ‹æ•°æ®é›†ä¸Šã€‚
+
+## æ¨¡åž‹ç²¾åº¦è¯„æµ‹
+
+ä½¿ç”¨è¯„æµ‹å™¨è®¡ç®—æ¨¡åž‹ç²¾åº¦çš„è¿‡ç¨‹å¦‚ä¸‹å›¾æ‰€ç¤ºã€‚
+
+æµ‹è¯•æ•°æ®é€šå¸¸ä¼šè¢«åˆ’åˆ†ä¸ºè‹¥å¹²æ‰¹æ¬¡ï¼ˆbatchï¼‰ã€‚é€šè¿‡ä¸€ä¸ªå¾ªçŽ¯ï¼Œä¾æ¬¡å°†æ¯ä¸ªæ‰¹æ¬¡çš„æ•°æ®é€å…¥æ¨¡åž‹ï¼Œå¾—åˆ°å¯¹åº”çš„é¢„æµ‹ç»“æžœï¼Œå¹¶å°†é¢„æµ‹ç»“æžœè¿žåŒæ¨¡åž‹çš„è¾“å…¥æ•°æ®ä¸€èµ·é€šè¿‡è¯„æµ‹å™¨çš„ `process()` æ–¹æ³•é€å…¥è¯„æµ‹å™¨ã€‚å½“å¾ªçŽ¯ç»“æŸåŽï¼Œå†è°ƒç”¨è¯„æµ‹å™¨çš„ `evaluate()` æ–¹æ³•ï¼Œå³å¯è®¡ç®—å¾—åˆ°å¯¹åº”çš„è¯„æµ‹æŒ‡æ ‡ã€‚
+
+åœ¨å®žé™…ä½¿ç”¨ä¸ï¼Œè¿™äº›æ“ä½œå‡ç”±ä»»åŠ¡æ‰§è¡Œå™¨å®Œæˆã€‚ç”¨æˆ·åªéœ€è¦åœ¨é…ç½®æ–‡ä»¶ä¸é€‰æ‹©è¦ä½¿ç”¨çš„è¯„æµ‹å™¨å¹¶é…ç½®ç›¸åº”å‚æ•°å³å¯ã€‚
+
+<div align="center">
+    <img src="https://user-images.githubusercontent.com/15977946/154652635-f4bda588-9f94-462f-b68f-b900690e6215.png"/>
+</div>
+
+
+### åœ¨é…ç½®æ–‡ä»¶ä¸é…ç½®è¯„æµ‹å™¨
+
+åœ¨é…ç½®æ–‡ä»¶ä¸é…ç½®è¯„æµ‹å™¨æ—¶ï¼Œéœ€è¦æŒ‡å®šè¯„æµ‹å™¨çš„ç±»åˆ«ã€å‚æ•°ä»¥åŠè°ƒç”¨æ–¹å¼ç‰ã€‚å…¶ä¸ï¼Œè°ƒç”¨æ–¹å¼é€šå¸¸é’ˆå¯¹æ¨¡åž‹éªŒè¯é˜¶æ®µï¼ŒåŒ…æ‹¬è°ƒç”¨è¯„æµ‹å™¨çš„é—´éš”æ—¶é—´å•ä½ï¼ˆepoch æˆ– iterationï¼‰ã€é—´éš”æ—¶é—´ã€ä¸»è¦è¯„æµ‹æŒ‡æ ‡ï¼ˆå³ç›é€‰æœ€ä½³ checkpoint æ‰€ä¾æ®çš„æŒ‡æ ‡ï¼‰ç‰ã€‚
+
+ä¾‹å¦‚ï¼Œç”¨æˆ·å¸Œæœ›åœ¨æ¨¡åž‹éªŒè¯æ—¶ä½¿ç”¨ COCO è¯„æµ‹å™¨ï¼Œæ¯ 10 epoch è¯„æµ‹ä¸€æ¬¡ï¼Œå¹¶ä»¥ AP ä½œä¸ºä¸»è¦è¯„æµ‹æŒ‡æ ‡ï¼Œå¯¹åº”çš„é…ç½®æ–‡ä»¶éƒ¨åˆ†å¦‚ä¸‹ï¼š
+
+```python
+validation_cfg=dict(
+    evaluator=dict(type='COCO'),  # ä½¿ç”¨ COCO è¯„æµ‹å™¨ï¼Œæ— å‚æ•°
+    main_metric='AP',  # ä¸»è¦è¯„æµ‹æŒ‡æ ‡ä¸º AP
+    interval=10,  # æ¯ 10 epoch è¯„æµ‹ä¸€æ¬¡
+    by_epoch=True,
+)
+```
+
+### ä½¿ç”¨å¤šä¸ªè¯„æµ‹å™¨
+
+è¯„æµ‹å™¨æ”¯æŒç»„åˆä½¿ç”¨ã€‚ç”¨æˆ·å¯ä»¥é€šè¿‡é…ç½®å¤šä¸ªè¯„æµ‹å™¨ï¼Œåœ¨æ¨¡åž‹éªŒè¯æˆ–æ¨¡åž‹æµ‹è¯•é˜¶æ®µåŒæ—¶è®¡ç®—å¤šä¸ªè¯„æµ‹æŒ‡æ ‡ã€‚ä½¿ç”¨å¤šä¸ªè¯„æµ‹å™¨æ—¶ï¼Œåªéœ€è¦åœ¨é…ç½®æ–‡ä»¶é‡Œå°†æ‰€æœ‰è¯„æµ‹å™¨çš„é…ç½®å†™åœ¨ä¸€ä¸ªåˆ—è¡¨é‡Œå³å¯ï¼š
+
+```python
+validation_cfg=dict(
+    evaluator=[
+        dict(type='accuracy', top_k=1),  # ä½¿ç”¨åˆ†ç±»æ£ç¡®çŽ‡è¯„æµ‹å™¨
+        dict(type='f1_score')  # ä½¿ç”¨ F1_score è¯„æµ‹å™¨
+    ],
+    main_metric='accuracy'
+    interval=10,
+    by_epoch=True,
+)
+```
+
+åœ¨ä½¿ç”¨å¤šä¸ªè¯„æµ‹å™¨æ—¶ï¼Œå¯èƒ½ä¼šå‡ºçŽ°è¯„æµ‹æŒ‡æ ‡åŒåçš„æƒ…å†µã€‚æ¯”å¦‚ï¼Œåœ¨ä¸‹é¢çš„ä¾‹åä¸ä½¿ç”¨äº† 2 ä¸ªå‚æ•°ä¸åŒçš„åˆ†ç±»æ£ç¡®çŽ‡è¯„æµ‹å™¨ï¼Œå®ƒä»¬å¯¹åº”çš„è¯„æµ‹æŒ‡æ ‡éƒ½æ˜¯ accuracyã€‚æ¤æ—¶ï¼Œä¸ºäº†é¿å…æ§ä¹‰ï¼Œéœ€è¦ç»™è¯„æµ‹å™¨è®¾ç½® `prefix` å‚æ•°ã€‚è¯„æµ‹å™¨çš„ `prefix` ä¼šè‡ªåŠ¨æ·»åŠ åœ¨è¯„æµ‹æŒ‡æ ‡åç§°çš„å¼€å¤´ï¼Œä»Žè€Œä½¿åŒåçš„è¯„æµ‹æŒ‡æ ‡å¯ä»¥åŒºåˆ†ã€‚
+
+```python
+validation_cfg=dict(
+    evaluator=[
+        dict(type='accuracy', top_k=1, prefix='top1'),
+        dict(type='accuracy', top_k=5, prefix='top5')
+    ],
+    main_metric='top1_accuracy',  # å‰ç¼€ 'top1' è¢«è‡ªåŠ¨æ·»åŠ è¿›æŒ‡æ ‡åç§°ä¸ï¼Œç”¨ä»¥åŒºåˆ†åŒåæŒ‡æ ‡
+    interval=10,
+    by_epoch=True,
+)
+```
+
+## å¢žåŠ è‡ªå®šä¹‰è¯„æµ‹å™¨
+
+åœ¨ OpenMMLab çš„å„ä¸ªç®—æ³•åº“ä¸ï¼Œå·²ç»å®žçŽ°äº†å¯¹åº”æ–¹å‘çš„å¸¸ç”¨è¯„æµ‹å™¨ã€‚å¦‚ MMDetection ä¸æä¾›äº† COCO è¯„æµ‹å™¨ï¼ŒMMClassification ä¸æä¾›äº† accuracyã€f1_score ç‰è¯„æµ‹å™¨ç‰ã€‚
+
+ç”¨æˆ·ä¹Ÿå¯ä»¥æ ¹æ®è‡ªèº«éœ€æ±‚ï¼Œå¢žåŠ è‡ªå®šä¹‰çš„è¯„æµ‹å™¨ã€‚åœ¨å®žçŽ°è‡ªå®šä¹‰è¯„æµ‹å™¨æ—¶ï¼Œç”¨æˆ·éœ€è¦ç»§æ‰¿ MMEngine ä¸æä¾›çš„è¯„æµ‹å™¨åŸºç±» [BaseEvaluator](Todo:baseevaluator-doc-link)ï¼Œå¹¶å®žçŽ°å¯¹åº”çš„æŠ½è±¡æ–¹æ³•ã€‚
+
+### è¯„æµ‹å™¨åŸºç±»
+
+è¯„æµ‹å™¨åŸºç±» `BaseEvaluator` æ˜¯ä¸€ä¸ªæŠ½è±¡ç±»ï¼Œå…·æœ‰ä»¥ä¸‹ 2 ä¸ªæŠ½è±¡æ–¹æ³•ï¼š
+
+- `process()`: å¤„ç†æ¯ä¸ªæ‰¹æ¬¡çš„æµ‹è¯•æ•°æ®å’Œæ¨¡åž‹é¢„æµ‹ç»“æžœã€‚å¤„ç†ç»“æžœåº”å˜æ”¾åœ¨ `self.results` åˆ—è¡¨ä¸ï¼Œç”¨äºŽåœ¨å¤„ç†å®Œæ‰€æœ‰æµ‹è¯•æ•°æ®åŽè®¡ç®—è¯„æµ‹æŒ‡æ ‡ã€‚
+- `compute_metrics()`: è®¡ç®—è¯„æµ‹æŒ‡æ ‡ï¼Œå¹¶å°†æ‰€è¯„æµ‹æŒ‡æ ‡å˜æ”¾åœ¨ä¸€ä¸ªå—å…¸ä¸è¿”å›žã€‚
+
+å…¶ä¸ï¼Œ`compute_metrics()` ä¼šåœ¨ `evaluate()` æ–¹æ³•ä¸è¢«è°ƒç”¨ï¼›åŽè€…åœ¨è®¡ç®—è¯„æµ‹æŒ‡æ ‡å‰ï¼Œä¼šåœ¨åˆ†å¸ƒå¼æµ‹è¯•æ—¶æ”¶é›†å’Œæ±‡æ€»ä¸åŒ rank çš„ä¸é—´å¤„ç†ç»“æžœã€‚è€Œ `process()` å’Œ `evaluate()` éƒ½ä¼šç”±ä»»åŠ¡æ‰§è¡Œå™¨è°ƒç”¨ã€‚å› æ¤ï¼Œç”¨æˆ·åªéœ€è¦åœ¨ç»§æ‰¿ `BaseEvaluator` åŽå®žçŽ° `process()` å’Œ `compute_metrics()` æ–¹æ³•å³å¯ã€‚
+
+éœ€è¦æ³¨æ„çš„æ˜¯ï¼Œ`self.results` ä¸å˜æ”¾çš„å…·ä½“ç±»åž‹å–å†³äºŽè‡ªå®šä¹‰è¯„æµ‹å™¨ç±»çš„å®žçŽ°ã€‚ä¾‹å¦‚ï¼Œå½“æµ‹è¯•æ ·æœ¬æˆ–æ¨¡åž‹è¾“å‡ºæ•°æ®é‡è¾ƒå¤§ï¼ˆå¦‚è¯ä¹‰åˆ†å‰²ã€å›¾åƒç”Ÿæˆç‰ä»»åŠ¡ï¼‰ï¼Œä¸å®œå…¨éƒ¨å˜æ”¾åœ¨å†…å˜ä¸æ—¶ï¼Œå¯ä»¥åœ¨ `self.results` ä¸å˜æ”¾æ¯ä¸ªæ‰¹æ¬¡è®¡ç®—å¾—åˆ°çš„æŒ‡æ ‡ï¼Œå¹¶åœ¨ `compute_metrics()` ä¸æ±‡æ€»ï¼›æˆ–å°†æ¯ä¸ªæ‰¹æ¬¡çš„ä¸é—´ç»“æžœå˜å‚¨åˆ°ä¸´æ—¶æ–‡ä»¶ä¸ï¼Œå¹¶åœ¨ `self.results` ä¸å˜æ”¾ä¸´æ—¶æ–‡ä»¶è·¯å¾„ï¼Œæœ€åŽç”± `compute_metrics()` ä»Žæ–‡ä»¶ä¸è¯»å–æ•°æ®å¹¶è®¡ç®—æŒ‡æ ‡ã€‚
+
+### è‡ªå®šä¹‰è¯„æµ‹å™¨ç±»
+
+æˆ‘ä»¬ä»¥å®žçŽ°åˆ†ç±»æ£ç¡®çŽ‡ï¼ˆClassification Accuracyï¼‰è¯„æµ‹å™¨ä¸ºä¾‹ï¼Œè¯´æ˜Žå®žçŽ°è‡ªå®šä¹‰è¯„æµ‹å™¨çš„æ–¹æ³•ã€‚
+
+é¦–å…ˆï¼Œè‡ªå®šä¹‰è¯„æµ‹å™¨ç±»åº”ç»§æ‰¿è‡ª `BaseEvaluator`ï¼Œå¹¶åº”åŠ å…¥æ³¨å†Œå™¨ `EVALUATORS` (å…³äºŽæ³¨å†Œå™¨çš„è¯´æ˜Žè¯·å‚è€ƒ[ç›¸å…³æ–‡æ¡£](docs\zh_cn\tutorials\registry.md))ã€‚
+
+ `process()` æ–¹æ³•æœ‰ 2 ä¸ªè¾“å…¥å‚æ•°ï¼Œåˆ†åˆ«æ˜¯æµ‹è¯•æ•°æ®æ ·æœ¬`data_samples`å’Œæ¨¡åž‹é¢„æµ‹ç»“æžœ `predictions`ã€‚æˆ‘ä»¬ä»Žä¸åˆ†åˆ«å–å‡ºæ ·æœ¬ç±»åˆ«æ ‡ç¾å’Œåˆ†ç±»é¢„æµ‹ç»“æžœï¼Œå¹¶å˜æ”¾åœ¨ `self.results` ä¸ã€‚
+
+`compute_metrics()`æ–¹æ³•æœ‰ 1 ä¸ªè¾“å…¥å‚æ•° `results`ï¼Œé‡Œé¢å˜æ”¾äº†æ‰€æœ‰æ‰¹æ¬¡æµ‹è¯•æ•°æ®ç»è¿‡ `process()` æ–¹æ³•å¤„ç†åŽå¾—åˆ°çš„ç»“æžœã€‚ä»Žä¸å–å‡ºæ ·æœ¬ç±»åˆ«æ ‡ç¾å’Œåˆ†ç±»é¢„æµ‹ç»“æžœï¼Œå³å¯è®¡ç®—å¾—åˆ°åˆ†ç±»æ£ç¡®çŽ‡ `acc`ã€‚æœ€ç»ˆï¼Œå°†è®¡ç®—å¾—åˆ°çš„è¯„æµ‹æŒ‡æ ‡ä»¥å—å…¸çš„å½¢å¼è¿”å›žã€‚
+
+å…·ä½“çš„å®žçŽ°å¦‚ä¸‹ï¼š
+
+```python
+from mmengine.evaluator import BaseEvaluator
+from mmengine.registry import EVALUATORS
+
+import numpy as np
+
+@EVALUATORS.register_module()
+class AccuracyEvaluator(BaseEvaluator):
+    
+    def process(self, data_samples: Dict, predictions: Dict):
+        """Process one batch of data and predictions. The processed
+        Results should be stored in `self.results`, which will be used
+        to computed the metrics when all batches have been processed.
+        
+        Args:
+            data_samples (dict): The data samples from the dataset.
+            predictions (dict): The output of the model.
+        """
+
+        # å–å‡ºåˆ†ç±»é¢„æµ‹ç»“æžœå’Œç±»åˆ«æ ‡ç¾
+        result = dict(
+            'pred': predictions.pred_label,
+            'gt': data_samples.gt_label
+        )
+        
+        # å°†å½“å‰ batch çš„ç»“æžœå˜è¿› self.results
+        self.results.append(result)
+    
+    def compute_metrics(self, results: List):
+        """Compute the metrics from processed results.
+
+        Args:
+            results (dict): The processed results of each batch.
+    
+        Returns:
+            Dict: The computed metrics. The keys are the names of the metrics,
+            and the values are corresponding results.
+        """
+
+        # æ±‡æ€»æ‰€æœ‰æ ·æœ¬çš„åˆ†ç±»é¢„æµ‹ç»“æžœå’Œç±»åˆ«æ ‡ç¾
+        preds = np.concatenate([res['pred'] for res in results])
+        gts = np.concatenate([res['gt'] for res in results])
+
+        # è®¡ç®—åˆ†ç±»æ£ç¡®çŽ‡
+        acc = (preds == gts).sum() / preds.size
+
+        # è¿”å›žè¯„æµ‹æŒ‡æ ‡ç»“æžœ
+        return {'accuracy': acc}
+
+```
-- 
GitLab