From a3b8d4ea56968021c48447105483c863faac4f57 Mon Sep 17 00:00:00 2001
From: Tao Gong <gongtao950513@gmail.com>
Date: Fri, 22 Apr 2022 13:51:57 +0800
Subject: [PATCH] Refactor docs of basedataset (#175)

* refactor docs of basedataset

* fix ci

* fix comments

* fix comments

* fix comments

* fix comments

* fix comments

* set default value of ann_file to ''

* fix comments
---
 docs/zh_cn/tutorials/basedataset.md          | 104 ++++++++++++-------
 mmengine/dataset/base_dataset.py             |  36 +++----
 tests/data/annotations/dummy_annotation.json |   4 +-
 tests/test_data/test_base_dataset.py         |   5 +
 4 files changed, 93 insertions(+), 56 deletions(-)

diff --git a/docs/zh_cn/tutorials/basedataset.md b/docs/zh_cn/tutorials/basedataset.md
index f0532c3e..d7c723a3 100644
--- a/docs/zh_cn/tutorials/basedataset.md
+++ b/docs/zh_cn/tutorials/basedataset.md
@@ -6,25 +6,25 @@
 
 å› æ¤ **MMEngine** å®žçŽ°äº†ä¸€ä¸ªæ•°æ®é›†åŸºç±»ï¼ˆBaseDatasetï¼‰å¹¶å®šä¹‰äº†ä¸€äº›åŸºæœ¬æŽ¥å£ï¼Œä¸”åŸºäºŽè¿™å¥—æŽ¥å£å®žçŽ°äº†ä¸€äº›æ•°æ®é›†åŒ…è£…ï¼ˆDatasetWrapperï¼‰ã€‚OpenMMLab ç®—æ³•åº“ä¸çš„å¤§éƒ¨åˆ†æ•°æ®é›†éƒ½ä¼šæ»¡è¶³è¿™å¥—æ•°æ®é›†åŸºç±»å®šä¹‰çš„æŽ¥å£ï¼Œå¹¶ä½¿ç”¨ç»Ÿä¸€çš„æ•°æ®é›†åŒ…è£…ã€‚
 
-æ•°æ®é›†åŸºç±»çš„åŸºæœ¬åŠŸèƒ½æ˜¯åŠ è½½æ•°æ®é›†ä¿¡æ¯ï¼Œè¿™é‡Œæˆ‘ä»¬å°†æ•°æ®é›†ä¿¡æ¯åˆ†æˆä¸¤ç±»ï¼Œä¸€ç§æ˜¯å…ƒä¿¡æ¯ (meta information)ï¼Œä»£è¡¨æ•°æ®é›†è‡ªèº«ç›¸å…³çš„ä¿¡æ¯ï¼Œæœ‰æ—¶éœ€è¦è¢«æ¨¡åž‹æˆ–å…¶ä»–å¤–éƒ¨ç»„ä»¶èŽ·å–ï¼Œæ¯”å¦‚åœ¨å›¾åƒåˆ†ç±»ä»»åŠ¡ä¸ï¼Œæ•°æ®é›†çš„å…ƒä¿¡æ¯ä¸€èˆ¬åŒ…å«ç±»åˆ«ä¿¡æ¯ `classes`ï¼Œå› ä¸ºåˆ†ç±»æ¨¡åž‹ `model` ä¸€èˆ¬éœ€è¦è®°å½•æ•°æ®é›†çš„ç±»åˆ«ä¿¡æ¯ï¼›å¦ä¸€ç§ä¸ºæ•°æ®ä¿¡æ¯ (data information)ï¼Œåœ¨æ•°æ®ä¿¡æ¯ä¸ï¼Œå®šä¹‰äº†å…·ä½“æ ·æœ¬çš„æ–‡ä»¶è·¯å¾„ã€å¯¹åº”æ ‡ç¾ç‰çš„ä¿¡æ¯ã€‚é™¤æ¤ä¹‹å¤–ï¼Œæ•°æ®é›†åŸºç±»çš„å¦ä¸€ä¸ªåŠŸèƒ½ä¸ºå°†æ•°æ®é€å…¥æ•°æ®æµæ°´çº¿ï¼ˆdata pipelineï¼‰ä¸ï¼Œè¿›è¡Œæ•°æ®é¢„å¤„ç†ã€‚
+æ•°æ®é›†åŸºç±»çš„åŸºæœ¬åŠŸèƒ½æ˜¯åŠ è½½æ•°æ®é›†ä¿¡æ¯ï¼Œè¿™é‡Œæˆ‘ä»¬å°†æ•°æ®é›†ä¿¡æ¯åˆ†æˆä¸¤ç±»ï¼Œä¸€ç§æ˜¯å…ƒä¿¡æ¯ (meta information)ï¼Œä»£è¡¨æ•°æ®é›†è‡ªèº«ç›¸å…³çš„ä¿¡æ¯ï¼Œæœ‰æ—¶éœ€è¦è¢«æ¨¡åž‹æˆ–å…¶ä»–å¤–éƒ¨ç»„ä»¶èŽ·å–ï¼Œæ¯”å¦‚åœ¨å›¾åƒåˆ†ç±»ä»»åŠ¡ä¸ï¼Œæ•°æ®é›†çš„å…ƒä¿¡æ¯ä¸€èˆ¬åŒ…å«ç±»åˆ«ä¿¡æ¯ `classes`ï¼Œå› ä¸ºåˆ†ç±»æ¨¡åž‹ `model` ä¸€èˆ¬éœ€è¦è®°å½•æ•°æ®é›†çš„ç±»åˆ«ä¿¡æ¯ï¼›å¦ä¸€ç§ä¸ºæ•°æ®ä¿¡æ¯ (data information)ï¼Œåœ¨æ•°æ®ä¿¡æ¯ä¸ï¼Œå®šä¹‰äº†å…·ä½“æ ·æœ¬çš„æ–‡ä»¶è·¯å¾„ã€å¯¹åº”æ ‡ç¾ç‰çš„ä¿¡æ¯ã€‚é™¤æ¤ä¹‹å¤–ï¼Œæ•°æ®é›†åŸºç±»çš„å¦ä¸€ä¸ªåŠŸèƒ½ä¸ºä¸æ–åœ°å°†æ•°æ®é€å…¥æ•°æ®æµæ°´çº¿ï¼ˆdata pipelineï¼‰ä¸ï¼Œè¿›è¡Œæ•°æ®é¢„å¤„ç†ã€‚
 
 ### æ•°æ®æ ‡æ³¨æ–‡ä»¶è§„èŒƒ
 
-ä¸ºäº†ç»Ÿä¸€ä¸åŒä»»åŠ¡çš„æ•°æ®é›†æŽ¥å£ï¼Œä¾¿äºŽå¤šä»»åŠ¡çš„ç®—æ³•æ¨¡åž‹è®ç»ƒï¼ŒOpenMMLab åˆ¶å®šäº† **OpenMMLab 2.0 æ•°æ®é›†æ ¼å¼è§„èŒƒ**ï¼Œ æ•°æ®é›†æ ‡æ³¨æ–‡ä»¶éœ€ç¬¦åˆè¯¥è§„èŒƒï¼Œæ•°æ®é›†åŸºç±»åŸºäºŽè¯¥è§„èŒƒåŽ»è¯»å–ä¸Žè§£æžæ•°æ®æ ‡æ³¨æ–‡ä»¶ã€‚å¦‚æžœç”¨æˆ·æä¾›çš„æ•°æ®æ ‡æ³¨æ–‡ä»¶ä¸ç¬¦åˆè§„å®šæ ¼å¼ï¼Œç”¨æˆ·åº”è¯¥å°†å…¶è½¬åŒ–ä¸ºè§„å®šæ ¼å¼æ‰èƒ½ä½¿ç”¨ OpenMMLab çš„ç®—æ³•åº“åŸºäºŽè¯¥æ•°æ®æ ‡æ³¨æ–‡ä»¶è¿›è¡Œç®—æ³•è®ç»ƒå’Œæµ‹è¯•ã€‚
+ä¸ºäº†ç»Ÿä¸€ä¸åŒä»»åŠ¡çš„æ•°æ®é›†æŽ¥å£ï¼Œä¾¿äºŽå¤šä»»åŠ¡çš„ç®—æ³•æ¨¡åž‹è®ç»ƒï¼ŒOpenMMLab åˆ¶å®šäº† **OpenMMLab 2.0 æ•°æ®é›†æ ¼å¼è§„èŒƒ**ï¼Œ æ•°æ®é›†æ ‡æ³¨æ–‡ä»¶éœ€ç¬¦åˆè¯¥è§„èŒƒï¼Œæ•°æ®é›†åŸºç±»åŸºäºŽè¯¥è§„èŒƒåŽ»è¯»å–ä¸Žè§£æžæ•°æ®æ ‡æ³¨æ–‡ä»¶ã€‚å¦‚æžœç”¨æˆ·æä¾›çš„æ•°æ®æ ‡æ³¨æ–‡ä»¶ä¸ç¬¦åˆè§„å®šæ ¼å¼ï¼Œç”¨æˆ·å¯ä»¥é€‰æ‹©å°†å…¶è½¬åŒ–ä¸ºè§„å®šæ ¼å¼ï¼Œå¹¶ä½¿ç”¨ OpenMMLab çš„ç®—æ³•åº“åŸºäºŽè¯¥æ•°æ®æ ‡æ³¨æ–‡ä»¶è¿›è¡Œç®—æ³•è®ç»ƒå’Œæµ‹è¯•ã€‚
 
-OpenMMLab 2.0 æ•°æ®é›†æ ¼å¼è§„èŒƒè§„å®šï¼Œæ ‡æ³¨æ–‡ä»¶å¿…é¡»ä¸º `json` æˆ– `yaml`ï¼Œ`yml` æˆ– `pickle`ï¼Œ`pkl` æ ¼å¼ï¼›æ ‡æ³¨æ–‡ä»¶ä¸å˜å‚¨çš„å—å…¸å¿…é¡»åŒ…å« `metadata` å’Œ `data_infos` ä¸¤ä¸ªå—æ®µã€‚å…¶ä¸ `metadata` æ˜¯ä¸€ä¸ªå—å…¸ï¼Œé‡Œé¢åŒ…å«æ•°æ®é›†çš„å…ƒä¿¡æ¯ï¼›`data_infos` æ˜¯ä¸€ä¸ªåˆ—è¡¨ï¼Œåˆ—è¡¨ä¸æ¯ä¸ªå…ƒç´ æ˜¯ä¸€ä¸ªå—å…¸ï¼Œè¯¥å—å…¸å®šä¹‰äº†ä¸€ä¸ªåŽŸå§‹æ•°æ®ï¼ˆraw dataï¼‰ï¼Œæ¯ä¸ªåŽŸå§‹æ•°æ®åŒ…å«ä¸€ä¸ªæˆ–è‹¥å¹²ä¸ªè®ç»ƒ/æµ‹è¯•æ ·æœ¬ã€‚
+OpenMMLab 2.0 æ•°æ®é›†æ ¼å¼è§„èŒƒè§„å®šï¼Œæ ‡æ³¨æ–‡ä»¶å¿…é¡»ä¸º `json` æˆ– `yaml`ï¼Œ`yml` æˆ– `pickle`ï¼Œ`pkl` æ ¼å¼ï¼›æ ‡æ³¨æ–‡ä»¶ä¸å˜å‚¨çš„å—å…¸å¿…é¡»åŒ…å« `metainfo` å’Œ `data_list` ä¸¤ä¸ªå—æ®µã€‚å…¶ä¸ `metainfo` æ˜¯ä¸€ä¸ªå—å…¸ï¼Œé‡Œé¢åŒ…å«æ•°æ®é›†çš„å…ƒä¿¡æ¯ï¼›`data_list` æ˜¯ä¸€ä¸ªåˆ—è¡¨ï¼Œåˆ—è¡¨ä¸æ¯ä¸ªå…ƒç´ æ˜¯ä¸€ä¸ªå—å…¸ï¼Œè¯¥å—å…¸å®šä¹‰äº†ä¸€ä¸ªåŽŸå§‹æ•°æ®ï¼ˆraw dataï¼‰ï¼Œæ¯ä¸ªåŽŸå§‹æ•°æ®åŒ…å«ä¸€ä¸ªæˆ–è‹¥å¹²ä¸ªè®ç»ƒ/æµ‹è¯•æ ·æœ¬ã€‚
 
 ä»¥ä¸‹æ˜¯ä¸€ä¸ª JSON æ ‡æ³¨æ–‡ä»¶çš„ä¾‹åï¼ˆè¯¥ä¾‹åä¸æ¯ä¸ªåŽŸå§‹æ•°æ®åªåŒ…å«ä¸€ä¸ªè®ç»ƒ/æµ‹è¯•æ ·æœ¬ï¼‰:
 
 ```json
 
 {
-    'metadata':
+    'metainfo':
         {
             'classes': ('cat', 'dog'),
             ...
         },
-    'data_infos':
+    'data_list':
         [
             {
                 'img_path': "xxx/xxx_0.jpg",
@@ -55,45 +55,59 @@ data
 
 ### æ•°æ®é›†åŸºç±»çš„åˆå§‹åŒ–æµç¨‹
 
-æ•°æ®é›†åŸºç±»çš„åˆå§‹åŒ–æµç¨‹å¦‚ä¸‹ï¼š
+æ•°æ®é›†åŸºç±»çš„åˆå§‹åŒ–æµç¨‹å¦‚ä¸‹å›¾æ‰€ç¤ºï¼š
 
-1. èŽ·å–æ•°æ®é›†çš„å…ƒä¿¡æ¯ï¼Œå…ƒä¿¡æ¯æœ‰ä¸‰ç§æ¥æºï¼Œä¼˜å…ˆçº§ä»Žé«˜åˆ°ä½Žä¸ºï¼š
+![image](https://user-images.githubusercontent.com/26813582/164611564-af44e3f2-a50f-4ef1-a6db-eddd840e2f40.png)
 
-- `__init__()` æ–¹æ³•ä¸ç”¨æˆ·ä¼ å…¥çš„ `meta` å—å…¸ï¼›æ”¹åŠ¨é¢‘çŽ‡æœ€é«˜ï¼Œå› ä¸ºç”¨æˆ·å¯ä»¥åœ¨å®žä¾‹åŒ–æ•°æ®é›†æ—¶ï¼Œä¼ å…¥è¯¥å‚æ•°ï¼›
+1. `load metainfo`ï¼šèŽ·å–æ•°æ®é›†çš„å…ƒä¿¡æ¯ï¼Œå…ƒä¿¡æ¯æœ‰ä¸‰ç§æ¥æºï¼Œä¼˜å…ˆçº§ä»Žé«˜åˆ°ä½Žä¸ºï¼š
 
-- ç±»å±žæ€§ `BaseDataset.META` å—å…¸ï¼›æ”¹åŠ¨é¢‘çŽ‡ä¸ç‰ï¼Œå› ä¸ºç”¨æˆ·å¯ä»¥æ”¹åŠ¨è‡ªå®šä¹‰æ•°æ®é›†ç±»ä¸çš„ç±»å±žæ€§ `BaseDataset.META`ï¼›
+- `__init__()` æ–¹æ³•ä¸ç”¨æˆ·ä¼ å…¥çš„ `metainfo` å—å…¸ï¼›æ”¹åŠ¨é¢‘çŽ‡æœ€é«˜ï¼Œå› ä¸ºç”¨æˆ·å¯ä»¥åœ¨å®žä¾‹åŒ–æ•°æ®é›†æ—¶ï¼Œä¼ å…¥è¯¥å‚æ•°ï¼›
 
-- æ ‡æ³¨æ–‡ä»¶ä¸åŒ…å«çš„ `metadata` å—å…¸ï¼›æ”¹åŠ¨é¢‘çŽ‡æœ€ä½Žï¼Œå› ä¸ºæ ‡æ³¨æ–‡ä»¶ä¸€èˆ¬ä¸åšæ”¹åŠ¨ã€‚
+- ç±»å±žæ€§ `BaseDataset.METAINFO` å—å…¸ï¼›æ”¹åŠ¨é¢‘çŽ‡ä¸ç‰ï¼Œå› ä¸ºç”¨æˆ·å¯ä»¥æ”¹åŠ¨è‡ªå®šä¹‰æ•°æ®é›†ç±»ä¸çš„ç±»å±žæ€§ `BaseDataset.METAINFO`ï¼›
+
+- æ ‡æ³¨æ–‡ä»¶ä¸åŒ…å«çš„ `metainfo` å—å…¸ï¼›æ”¹åŠ¨é¢‘çŽ‡æœ€ä½Žï¼Œå› ä¸ºæ ‡æ³¨æ–‡ä»¶ä¸€èˆ¬ä¸åšæ”¹åŠ¨ã€‚
 
     å¦‚æžœä¸‰ç§æ¥æºä¸æœ‰ç›¸åŒçš„å—æ®µï¼Œä¼˜å…ˆçº§æœ€é«˜çš„æ¥æºå†³å®šè¯¥å—æ®µçš„å€¼ï¼›
 
-2. æž„å»ºæ•°æ®æµæ°´çº¿ï¼ˆdata pipelineï¼‰ï¼Œç”¨äºŽæ•°æ®é¢„å¤„ç†ä¸Žæ•°æ®å‡†å¤‡ï¼›
+2. `join path`ï¼šå¤„ç†æ•°æ®ä¸Žæ ‡æ³¨æ–‡ä»¶çš„è·¯å¾„ï¼›
+
+3. `build pipeline`ï¼šæž„å»ºæ•°æ®æµæ°´çº¿ï¼ˆdata pipelineï¼‰ï¼Œç”¨äºŽæ•°æ®é¢„å¤„ç†ä¸Žæ•°æ®å‡†å¤‡ï¼›
 
-3. è¯»å–ä¸Žè§£æžæ»¡è¶³ OpenMMLab 2.0 æ•°æ®é›†æ ¼å¼è§„èŒƒçš„æ ‡æ³¨æ–‡ä»¶ï¼Œè¯¥æ¥éª¤ä¸ä¼šæœ‰ `parse_annotations()` æ–¹æ³•ï¼Œè¯¥æ–¹æ³•è´Ÿè´£è§£æžæ ‡æ³¨æ–‡ä»¶é‡Œçš„æ¯ä¸ªåŽŸå§‹æ•°æ®ï¼›
+4. `full init`ï¼šå®Œå…¨åˆå§‹åŒ–æ•°æ®é›†ç±»ï¼Œè¯¥æ¥éª¤ä¸»è¦åŒ…å«ä»¥ä¸‹æ“ä½œï¼š
 
-4. è¿‡æ»¤æ— ç”¨æ•°æ®ï¼Œæ¯”å¦‚ä¸åŒ…å«æ ‡æ³¨çš„æ ·æœ¬ç‰ï¼›
+- `load data list`ï¼šè¯»å–ä¸Žè§£æžæ»¡è¶³ OpenMMLab 2.0 æ•°æ®é›†æ ¼å¼è§„èŒƒçš„æ ‡æ³¨æ–‡ä»¶ï¼Œè¯¥æ¥éª¤ä¸ä¼šè°ƒç”¨ `parse_data_info()` æ–¹æ³•ï¼Œè¯¥æ–¹æ³•è´Ÿè´£è§£æžæ ‡æ³¨æ–‡ä»¶é‡Œçš„æ¯ä¸ªåŽŸå§‹æ•°æ®ï¼›
 
-5. é‡‡æ ·æ•°æ®ï¼Œæ¯”å¦‚åªå–å‰ 10 ä¸ªæ ·æœ¬å‚ä¸Žè®ç»ƒ/æµ‹è¯•ï¼›
+- `filter data` (å¯é€‰)ï¼šæ ¹æ® `filter_cfg` è¿‡æ»¤æ— ç”¨æ•°æ®ï¼Œæ¯”å¦‚ä¸åŒ…å«æ ‡æ³¨çš„æ ·æœ¬ç‰ï¼›é»˜è®¤ä¸åšè¿‡æ»¤æ“ä½œï¼Œä¸‹æ¸¸åç±»å¯ä»¥æŒ‰è‡ªèº«æ‰€éœ€å¯¹å…¶è¿›è¡Œé‡å†™ï¼›
 
-6. åºåˆ—åŒ–å…¨éƒ¨æ ·æœ¬ï¼Œä»¥è¾¾åˆ°èŠ‚çœå†…å˜çš„æ•ˆæžœï¼Œè¯¦æƒ…è¯·å‚è€ƒ[èŠ‚çœå†…å˜](#èŠ‚çœå†…å˜)ã€‚
+- `get subset` (å¯é€‰)ï¼šæ ¹æ®ç»™å®šçš„ç´¢å¼•æˆ–æ•´æ•°å€¼é‡‡æ ·æ•°æ®ï¼Œæ¯”å¦‚åªå–å‰ 10 ä¸ªæ ·æœ¬å‚ä¸Žè®ç»ƒ/æµ‹è¯•ï¼›é»˜è®¤ä¸é‡‡æ ·æ•°æ®ï¼Œå³ä½¿ç”¨å…¨éƒ¨æ•°æ®æ ·æœ¬ï¼›
 
-æ•°æ®é›†åŸºç±»ä¸åŒ…å«çš„ `parse_annotations()` æ–¹æ³•ç”¨äºŽå°†æ ‡æ³¨æ–‡ä»¶é‡Œçš„ä¸€ä¸ªåŽŸå§‹æ•°æ®å¤„ç†æˆä¸€ä¸ªæˆ–è‹¥å¹²ä¸ªè®ç»ƒ/æµ‹è¯•æ ·æœ¬çš„æ–¹æ³•ã€‚å› æ¤å¯¹äºŽè‡ªå®šä¹‰æ•°æ®é›†ç±»ï¼Œç”¨æˆ·éœ€è¦å®žçŽ° `parse_annotations()` æ–¹æ³•ã€‚
+- `serialize data` (å¯é€‰)ï¼šåºåˆ—åŒ–å…¨éƒ¨æ ·æœ¬ï¼Œä»¥è¾¾åˆ°èŠ‚çœå†…å˜çš„æ•ˆæžœï¼Œè¯¦æƒ…è¯·å‚è€ƒ[èŠ‚çœå†…å˜](#èŠ‚çœå†…å˜)ï¼›é»˜è®¤æ“ä½œä¸ºåºåˆ—åŒ–å…¨éƒ¨æ ·æœ¬ã€‚
+
+æ•°æ®é›†åŸºç±»ä¸åŒ…å«çš„ `parse_data_info()` æ–¹æ³•ç”¨äºŽå°†æ ‡æ³¨æ–‡ä»¶é‡Œçš„ä¸€ä¸ªåŽŸå§‹æ•°æ®å¤„ç†æˆä¸€ä¸ªæˆ–è‹¥å¹²ä¸ªè®ç»ƒ/æµ‹è¯•æ ·æœ¬çš„æ–¹æ³•ã€‚å› æ¤å¯¹äºŽè‡ªå®šä¹‰æ•°æ®é›†ç±»ï¼Œç”¨æˆ·éœ€è¦å®žçŽ° `parse_data_info()` æ–¹æ³•ã€‚
 
 ### æ•°æ®é›†åŸºç±»æä¾›çš„æŽ¥å£
 
 ä¸Ž `torch.utils.data.Dataset` ç±»ä¼¼ï¼Œæ•°æ®é›†åˆå§‹åŒ–åŽï¼Œæ”¯æŒ `__getitem__` æ–¹æ³•ï¼Œç”¨æ¥ç´¢å¼•æ•°æ®ï¼Œä»¥åŠ `__len__` æ“ä½œèŽ·å–æ•°æ®é›†å¤§å°ï¼Œé™¤æ¤ä¹‹å¤–ï¼ŒOpenMMLab çš„æ•°æ®é›†åŸºç±»ä¸»è¦æä¾›äº†ä»¥ä¸‹æŽ¥å£æ¥è®¿é—®å…·ä½“ä¿¡æ¯ï¼š
 
-- `meta` è¿”å›žå…ƒä¿¡æ¯ï¼Œè¿”å›žå€¼ä¸ºå—å…¸
+- `metainfo`ï¼šè¿”å›žå…ƒä¿¡æ¯ï¼Œè¿”å›žå€¼ä¸ºå—å…¸
+
+- `get_data_info(idx)`ï¼šè¿”å›žæŒ‡å®š `idx` çš„æ ·æœ¬å…¨é‡ä¿¡æ¯ï¼Œè¿”å›žå€¼ä¸ºå—å…¸
 
-- `get_data_info(idx)` è¿”å›žæŒ‡å®š `idx` çš„æ ·æœ¬å…¨é‡ä¿¡æ¯ï¼Œè¿”å›žå€¼ä¸ºå—å…¸
+- `__getitem__(idx)`ï¼šè¿”å›žæŒ‡å®š `idx` çš„æ ·æœ¬ç»è¿‡ pipeline ä¹‹åŽçš„ç»“æžœï¼ˆä¹Ÿå°±æ˜¯é€å…¥æ¨¡åž‹çš„æ•°æ®ï¼‰ï¼Œè¿”å›žå€¼ä¸ºå—å…¸
 
-- `__getitem__(idx)` ï¼šè¿”å›žæŒ‡å®š `idx` çš„æ ·æœ¬ç»è¿‡ pipeline ä¹‹åŽçš„ç»“æžœï¼ˆä¹Ÿå°±æ˜¯é€å…¥æ¨¡åž‹çš„æ•°æ®ï¼‰ï¼Œè¿”å›žå€¼ä¸ºå—å…¸
+- `__len__()`ï¼šè¿”å›žæ•°æ®é›†é•¿åº¦ï¼Œè¿”å›žå€¼ä¸ºæ•´æ•°åž‹
 
-- `__len__()` è¿”å›žæ•°æ®é›†é•¿åº¦ï¼Œè¿”å›žå€¼ä¸ºæ•´æ•°åž‹
+- `get_subset_(indices)`ï¼šæ ¹æ® `indices` ä»¥ inplace çš„æ–¹å¼**ä¿®æ”¹åŽŸæ•°æ®é›†ç±»**ã€‚å¦‚æžœ `indices` ä¸º `int`ï¼Œåˆ™åŽŸæ•°æ®é›†ç±»åªåŒ…å«å‰è‹¥å¹²ä¸ªæ•°æ®æ ·æœ¬ï¼›å¦‚æžœ `indices` ä¸º `Sequence[int]`ï¼Œåˆ™åŽŸæ•°æ®é›†ç±»åŒ…å«æ ¹æ® `Sequence[int]` æŒ‡å®šçš„æ•°æ®æ ·æœ¬ã€‚
+
+- `get_subset(indices)`ï¼šæ ¹æ® `indices` ä»¥**éž** inplace çš„æ–¹å¼**è¿”å›žåæ•°æ®é›†ç±»**ï¼Œå³é‡æ–°å¤åˆ¶ä¸€ä»½åæ•°æ®é›†ã€‚å¦‚æžœ `indices` ä¸º `int`ï¼Œåˆ™è¿”å›žçš„åæ•°æ®é›†ç±»åªåŒ…å«å‰è‹¥å¹²ä¸ªæ•°æ®æ ·æœ¬ï¼›å¦‚æžœ `indices` ä¸º `Sequence[int]`ï¼Œåˆ™è¿”å›žçš„åæ•°æ®é›†ç±»åŒ…å«æ ¹æ® `Sequence[int]` æŒ‡å®šçš„æ•°æ®æ ·æœ¬ã€‚
 
 ## ä½¿ç”¨æ•°æ®é›†åŸºç±»è‡ªå®šä¹‰æ•°æ®é›†ç±»
 
-åœ¨äº†è§£äº†æ•°æ®é›†åŸºç±»çš„åˆå§‹åŒ–æµç¨‹ä¸Žæä¾›çš„æŽ¥å£ä¹‹åŽï¼Œå°±å¯ä»¥åŸºäºŽæ•°æ®é›†åŸºç±»è‡ªå®šä¹‰æ•°æ®é›†ç±»ï¼Œå¦‚ä¸Šæ‰€è¿°ï¼Œå¯¹äºŽæ»¡è¶³ OpenMMLab 2.0 æ•°æ®é›†æ ¼å¼è§„èŒƒçš„æ ‡æ³¨æ–‡ä»¶ï¼Œç”¨æˆ·å¯ä»¥é‡è½½ `parse_annotations()`æ¥åŠ è½½æ ‡ç¾ã€‚ä»¥ä¸‹æ˜¯ä¸€ä¸ªä½¿ç”¨æ•°æ®é›†åŸºç±»æ¥å®žçŽ°æŸä¸€å…·ä½“æ•°æ®é›†çš„ä¾‹åã€‚
+åœ¨äº†è§£äº†æ•°æ®é›†åŸºç±»çš„åˆå§‹åŒ–æµç¨‹ä¸Žæä¾›çš„æŽ¥å£ä¹‹åŽï¼Œå°±å¯ä»¥åŸºäºŽæ•°æ®é›†åŸºç±»è‡ªå®šä¹‰æ•°æ®é›†ç±»ã€‚
+
+### å¯¹äºŽæ»¡è¶³ OpenMMLab 2.0 æ•°æ®é›†æ ¼å¼è§„èŒƒçš„æ ‡æ³¨æ–‡ä»¶
+
+å¦‚ä¸Šæ‰€è¿°ï¼Œå¯¹äºŽæ»¡è¶³ OpenMMLab 2.0 æ•°æ®é›†æ ¼å¼è§„èŒƒçš„æ ‡æ³¨æ–‡ä»¶ï¼Œç”¨æˆ·å¯ä»¥é‡è½½ `parse_data_info()` æ¥åŠ è½½æ ‡ç¾ã€‚ä»¥ä¸‹æ˜¯ä¸€ä¸ªä½¿ç”¨æ•°æ®é›†åŸºç±»æ¥å®žçŽ°æŸä¸€å…·ä½“æ•°æ®é›†çš„ä¾‹åã€‚
 
 ```python
 import os.path as osp
@@ -103,13 +117,13 @@ from mmengine.data import BaseDataset
 
 class ToyDataset(BaseDataset):
 
-    # ä»¥ä¸Šé¢æ ‡æ³¨æ–‡ä»¶ä¸ºä¾‹ï¼Œåœ¨è¿™é‡Œ raw_data_info ä»£è¡¨ `data_infos` å¯¹åº”åˆ—è¡¨é‡Œçš„æŸä¸ªå—å…¸ï¼š
+    # ä»¥ä¸Šé¢æ ‡æ³¨æ–‡ä»¶ä¸ºä¾‹ï¼Œåœ¨è¿™é‡Œ raw_data_info ä»£è¡¨ `data_list` å¯¹åº”åˆ—è¡¨é‡Œçš„æŸä¸ªå—å…¸ï¼š
     # {
     #    'img_path': "xxx/xxx_0.jpg",
     #    'img_label': 0,
     #    ...
     # }
-    def parse_annotations(self, raw_data_info):
+    def parse_data_info(self, raw_data_info):
         data_info = raw_data_info
         img_prefix = self.data_prefix.get('img', None)
         if img_prefix is not None:
@@ -119,7 +133,7 @@ class ToyDataset(BaseDataset):
 
 ```
 
-### ä½¿ç”¨è‡ªå®šä¹‰æ•°æ®é›†ç±»
+#### ä½¿ç”¨è‡ªå®šä¹‰æ•°æ®é›†ç±»
 
 åœ¨å®šä¹‰äº†æ•°æ®é›†ç±»åŽï¼Œå°±å¯ä»¥é€šè¿‡å¦‚ä¸‹é…ç½®å®žä¾‹åŒ– `ToyDataset`ï¼š
 
@@ -155,13 +169,23 @@ len(toy_dataset)
 
 toy_dataset[0]
 # dict(img=xxx, label=0)
+
+# `get_subset` æŽ¥å£ä¸å¯¹åŽŸæ•°æ®é›†ç±»åšä¿®æ”¹ï¼Œå³å®Œå…¨å¤åˆ¶ä¸€ä»½æ–°çš„
+sub_toy_dataset = toy_dataset.get_subset(1)
+len(toy_dataset), len(sub_toy_dataset)
+# 2, 1
+
+# `get_subset_` æŽ¥å£ä¼šå¯¹åŽŸæ•°æ®é›†ç±»åšä¿®æ”¹ï¼Œå³ inplace çš„æ–¹å¼
+toy_dataset.get_subset_(1)
+len(toy_dataset)
+# 1
 ```
 
 ç»è¿‡ä»¥ä¸Šæ¥éª¤ï¼Œå¯ä»¥äº†è§£åŸºäºŽæ•°æ®é›†åŸºç±»å¦‚ä½•è‡ªå®šä¹‰æ–°çš„æ•°æ®é›†ç±»ï¼Œä»¥åŠå¦‚ä½•ä½¿ç”¨è‡ªå®šä¹‰æ•°æ®é›†ç±»ã€‚
 
-### è‡ªå®šä¹‰è§†é¢‘çš„æ•°æ®é›†ç±»
+#### è‡ªå®šä¹‰è§†é¢‘çš„æ•°æ®é›†ç±»
 
-åœ¨ä¸Šé¢çš„ä¾‹åä¸ï¼Œæ ‡æ³¨æ–‡ä»¶çš„æ¯ä¸ªåŽŸå§‹æ•°æ®åªåŒ…å«ä¸€ä¸ªè®ç»ƒ/æµ‹è¯•æ ·æœ¬ï¼ˆé€šå¸¸æ˜¯å›¾åƒé¢†åŸŸï¼‰ã€‚å¦‚æžœæ¯ä¸ªåŽŸå§‹æ•°æ®åŒ…å«è‹¥å¹²ä¸ªè®ç»ƒ/æµ‹è¯•æ ·æœ¬ï¼ˆé€šå¸¸æ˜¯è§†é¢‘é¢†åŸŸï¼‰ï¼Œåˆ™åªéœ€ä¿è¯ `parse_annotations()` çš„è¿”å›žå€¼ä¸º `list[dict]` å³å¯ï¼š
+åœ¨ä¸Šé¢çš„ä¾‹åä¸ï¼Œæ ‡æ³¨æ–‡ä»¶çš„æ¯ä¸ªåŽŸå§‹æ•°æ®åªåŒ…å«ä¸€ä¸ªè®ç»ƒ/æµ‹è¯•æ ·æœ¬ï¼ˆé€šå¸¸æ˜¯å›¾åƒé¢†åŸŸï¼‰ã€‚å¦‚æžœæ¯ä¸ªåŽŸå§‹æ•°æ®åŒ…å«è‹¥å¹²ä¸ªè®ç»ƒ/æµ‹è¯•æ ·æœ¬ï¼ˆé€šå¸¸æ˜¯è§†é¢‘é¢†åŸŸï¼‰ï¼Œåˆ™åªéœ€ä¿è¯ `parse_data_info()` çš„è¿”å›žå€¼ä¸º `list[dict]` å³å¯ï¼š
 
 ```python
 from mmengine.data import BaseDataset
@@ -170,8 +194,8 @@ from mmengine.data import BaseDataset
 class ToyVideoDataset(BaseDataset):
 
     # raw_data_info ä»ä¸ºä¸€ä¸ªå—å…¸ï¼Œä½†å®ƒåŒ…å«äº†å¤šä¸ªæ ·æœ¬
-    def parse_annotations(self, raw_data_info):
-        data_infos = []
+    def parse_data_info(self, raw_data_info):
+        data_list = []
 
         ...
 
@@ -181,14 +205,22 @@ class ToyVideoDataset(BaseDataset):
 
             ...
 
-            data_infos.append(data_info)
+            data_list.append(data_info)
 
-        return data_infos
+        return data_list
 
 ```
 
 `ToyVideoDataset` ä½¿ç”¨æ–¹æ³•ä¸Ž `ToyDataset` ç±»ä¼¼ï¼Œåœ¨æ¤ä¸åšèµ˜è¿°ã€‚
 
+### å¯¹äºŽä¸æ»¡è¶³ OpenMMLab 2.0 æ•°æ®é›†æ ¼å¼è§„èŒƒçš„æ ‡æ³¨æ–‡ä»¶
+
+å¯¹äºŽä¸æ»¡è¶³ OpenMMLab 2.0 æ•°æ®é›†æ ¼å¼è§„èŒƒçš„æ ‡æ³¨æ–‡ä»¶ï¼Œæœ‰ä¸¤ç§æ–¹å¼æ¥ä½¿ç”¨æ•°æ®é›†åŸºç±»ï¼š
+
+1. å°†ä¸æ»¡è¶³è§„èŒƒçš„æ ‡æ³¨æ–‡ä»¶è½¬æ¢æˆæ»¡è¶³è§„èŒƒçš„æ ‡æ³¨æ–‡ä»¶ï¼Œå†é€šè¿‡ä¸Šè¿°æ–¹å¼ä½¿ç”¨æ•°æ®é›†åŸºç±»ã€‚
+
+2. å®žçŽ°ä¸€ä¸ªæ–°çš„æ•°æ®é›†ç±»ï¼Œç»§æ‰¿è‡ªæ•°æ®é›†åŸºç±»ï¼Œå¹¶ä¸”é‡è½½æ•°æ®é›†åŸºç±»çš„ `load_data_list(self, ann_file):` å‡½æ•°ï¼Œå¤„ç†ä¸æ»¡è¶³è§„èŒƒçš„æ ‡æ³¨æ–‡ä»¶ï¼Œå¹¶ä¿è¯è¿”å›žå€¼ä¸º `list[dict]`ï¼Œå…¶ä¸æ¯ä¸ª `dict` ä»£è¡¨ä¸€ä¸ªæ•°æ®æ ·æœ¬ã€‚
+
 ## æ•°æ®é›†åŸºç±»çš„å…¶å®ƒç‰¹æ€§
 
 æ•°æ®é›†åŸºç±»è¿˜åŒ…å«ä»¥ä¸‹ç‰¹æ€§ï¼š
@@ -213,9 +245,9 @@ toy_dataset = ToyDataset(
     lazy_init=True)
 ```
 
-å½“ `lazy_init=True` æ—¶ï¼Œ`ToyDataset` çš„åˆå§‹åŒ–æ–¹æ³•åªæ‰§è¡Œäº†[æ•°æ®é›†åŸºç±»çš„åˆå§‹åŒ–æµç¨‹](#æ•°æ®é›†åŸºç±»çš„åˆå§‹åŒ–æµç¨‹)ä¸çš„ 1ã€2 æ¥éª¤ï¼Œæ¤æ—¶ `toy_dataset` å¹¶æœªè¢«å®Œå…¨åˆå§‹åŒ–ï¼Œå› ä¸º `toy_dataset` å¹¶ä¸ä¼šè¯»å–ä¸Žè§£æžæ ‡æ³¨æ–‡ä»¶ï¼Œåªä¼šè®¾ç½®æ•°æ®é›†ç±»çš„å…ƒä¿¡æ¯ï¼ˆ`meta`ï¼‰ã€‚
+å½“ `lazy_init=True` æ—¶ï¼Œ`ToyDataset` çš„åˆå§‹åŒ–æ–¹æ³•åªæ‰§è¡Œäº†[æ•°æ®é›†åŸºç±»çš„åˆå§‹åŒ–æµç¨‹](#æ•°æ®é›†åŸºç±»çš„åˆå§‹åŒ–æµç¨‹)ä¸çš„ 1ã€2ã€3 æ¥éª¤ï¼Œæ¤æ—¶ `toy_dataset` å¹¶æœªè¢«å®Œå…¨åˆå§‹åŒ–ï¼Œå› ä¸º `toy_dataset` å¹¶ä¸ä¼šè¯»å–ä¸Žè§£æžæ ‡æ³¨æ–‡ä»¶ï¼Œåªä¼šè®¾ç½®æ•°æ®é›†ç±»çš„å…ƒä¿¡æ¯ï¼ˆ`metainfo`ï¼‰ã€‚
 
-è‡ªç„¶çš„ï¼Œå¦‚æžœä¹‹åŽéœ€è¦è®¿é—®å…·ä½“çš„æ•°æ®ä¿¡æ¯ï¼Œå¯ä»¥æ‰‹åŠ¨è°ƒç”¨ `toy_dataset.full_init()` æŽ¥å£æ¥æ‰§è¡Œå®Œæ•´çš„åˆå§‹åŒ–è¿‡ç¨‹ï¼Œåœ¨è¿™ä¸ªè¿‡ç¨‹ä¸æ•°æ®æ ‡æ³¨æ–‡ä»¶å°†è¢«è¯»å–ä¸Žè§£æžã€‚è°ƒç”¨ `get_data_info(idx)`, `__len__()`, `__getitem__()` æŽ¥å£ä¹Ÿä¼šè‡ªåŠ¨åœ°è°ƒç”¨ `full_init()` æŽ¥å£æ¥æ‰§è¡Œå®Œæ•´çš„åˆå§‹åŒ–è¿‡ç¨‹ï¼ˆä»…åœ¨ç¬¬ä¸€æ¬¡è°ƒç”¨æ—¶ï¼Œä¹‹åŽè°ƒç”¨ä¸ä¼šé‡å¤åœ°è°ƒç”¨ `full_init()` æŽ¥å£ï¼‰ï¼š
+è‡ªç„¶çš„ï¼Œå¦‚æžœä¹‹åŽéœ€è¦è®¿é—®å…·ä½“çš„æ•°æ®ä¿¡æ¯ï¼Œå¯ä»¥æ‰‹åŠ¨è°ƒç”¨ `toy_dataset.full_init()` æŽ¥å£æ¥æ‰§è¡Œå®Œæ•´çš„åˆå§‹åŒ–è¿‡ç¨‹ï¼Œåœ¨è¿™ä¸ªè¿‡ç¨‹ä¸æ•°æ®æ ‡æ³¨æ–‡ä»¶å°†è¢«è¯»å–ä¸Žè§£æžã€‚è°ƒç”¨ `get_data_info(idx)`, `__len__()`, `__getitem__(idx)`ï¼Œ`get_subset_(indices)`ï¼Œ `get_subset(indices)` æŽ¥å£ä¹Ÿä¼šè‡ªåŠ¨åœ°è°ƒç”¨ `full_init()` æŽ¥å£æ¥æ‰§è¡Œå®Œæ•´çš„åˆå§‹åŒ–è¿‡ç¨‹ï¼ˆä»…åœ¨ç¬¬ä¸€æ¬¡è°ƒç”¨æ—¶ï¼Œä¹‹åŽè°ƒç”¨ä¸ä¼šé‡å¤åœ°è°ƒç”¨ `full_init()` æŽ¥å£ï¼‰ï¼š
 
 ```python
 # å®Œæ•´åˆå§‹åŒ–
@@ -234,9 +266,9 @@ toy_dataset[0] # dict(img=xxx, label=0)
 
 ### èŠ‚çœå†…å˜
 
-åœ¨å…·ä½“çš„è¯»å–æ•°æ®è¿‡ç¨‹ä¸ï¼Œæ•°æ®åŠ è½½å™¨ï¼ˆdataloaderï¼‰é€šå¸¸ä¼šèµ·å¤šä¸ª worker æ¥é¢„å–æ•°æ®ï¼Œå¤šä¸ª worker éƒ½æ‹¥æœ‰å®Œæ•´çš„æ•°æ®é›†ç±»å¤‡ä»½ï¼Œå› æ¤å†…å˜ä¸ä¼šå˜åœ¨å¤šä»½ç›¸åŒçš„ `data_infos`ï¼Œä¸ºäº†èŠ‚çœè¿™éƒ¨åˆ†å†…å˜æ¶ˆè€—ï¼Œæ•°æ®é›†åŸºç±»å¯ä»¥æå‰å°† `data_infos` åºåˆ—åŒ–å˜å…¥å†…å˜ä¸ï¼Œä½¿å¾—å¤šä¸ª worker å¯ä»¥å…±äº«åŒä¸€ä»½ `data_infos`ï¼Œä»¥è¾¾åˆ°èŠ‚çœå†…å˜çš„ç›®çš„ã€‚
+åœ¨å…·ä½“çš„è¯»å–æ•°æ®è¿‡ç¨‹ä¸ï¼Œæ•°æ®åŠ è½½å™¨ï¼ˆdataloaderï¼‰é€šå¸¸ä¼šèµ·å¤šä¸ª worker æ¥é¢„å–æ•°æ®ï¼Œå¤šä¸ª worker éƒ½æ‹¥æœ‰å®Œæ•´çš„æ•°æ®é›†ç±»å¤‡ä»½ï¼Œå› æ¤å†…å˜ä¸ä¼šå˜åœ¨å¤šä»½ç›¸åŒçš„ `data_list`ï¼Œä¸ºäº†èŠ‚çœè¿™éƒ¨åˆ†å†…å˜æ¶ˆè€—ï¼Œæ•°æ®é›†åŸºç±»å¯ä»¥æå‰å°† `data_list` åºåˆ—åŒ–å˜å…¥å†…å˜ä¸ï¼Œä½¿å¾—å¤šä¸ª worker å¯ä»¥å…±äº«åŒä¸€ä»½ `data_list`ï¼Œä»¥è¾¾åˆ°èŠ‚çœå†…å˜çš„ç›®çš„ã€‚
 
-æ•°æ®é›†åŸºç±»é»˜è®¤æ˜¯å°† `data_infos` åºåˆ—åŒ–å˜å…¥å†…å˜ï¼Œä¹Ÿå¯ä»¥é€šè¿‡ `serialize_data` å˜é‡ï¼ˆé»˜è®¤ä¸º `True`ï¼‰æ¥æŽ§åˆ¶æ˜¯å¦æå‰å°† `data_infos` åºåˆ—åŒ–å˜å…¥å†…å˜ä¸ï¼š
+æ•°æ®é›†åŸºç±»é»˜è®¤æ˜¯å°† `data_list` åºåˆ—åŒ–å˜å…¥å†…å˜ï¼Œä¹Ÿå¯ä»¥é€šè¿‡ `serialize_data` å˜é‡ï¼ˆé»˜è®¤ä¸º `True`ï¼‰æ¥æŽ§åˆ¶æ˜¯å¦æå‰å°† `data_list` åºåˆ—åŒ–å˜å…¥å†…å˜ä¸ï¼š
 
 ```python
 pipeline = [
@@ -254,7 +286,7 @@ toy_dataset = ToyDataset(
     serialize_data=False)
 ```
 
-ä¸Šé¢ä¾‹åä¸ä¼šæå‰å°† `data_infos` åºåˆ—åŒ–å˜å…¥å†…å˜ä¸ï¼Œå› æ¤ä¸å»ºè®®åœ¨ä½¿ç”¨æ•°æ®åŠ è½½å™¨å¼€å¤šä¸ª worker åŠ è½½æ•°æ®çš„æƒ…å†µä¸‹ï¼Œä½¿ç”¨è¿™ç§æ–¹å¼å®žä¾‹åŒ–æ•°æ®é›†ç±»ã€‚
+ä¸Šé¢ä¾‹åä¸ä¼šæå‰å°† `data_list` åºåˆ—åŒ–å˜å…¥å†…å˜ä¸ï¼Œå› æ¤ä¸å»ºè®®åœ¨ä½¿ç”¨æ•°æ®åŠ è½½å™¨å¼€å¤šä¸ª worker åŠ è½½æ•°æ®çš„æƒ…å†µä¸‹ï¼Œä½¿ç”¨è¿™ç§æ–¹å¼å®žä¾‹åŒ–æ•°æ®é›†ç±»ã€‚
 
 ## æ•°æ®é›†åŸºç±»åŒ…è£…
 
@@ -329,7 +361,7 @@ from mmengine.data import BaseDataset, ClassBalancedDataset
 
 class ToyDataset(BaseDataset):
 
-    def parse_annotations(self, raw_data_info):
+    def parse_data_info(self, raw_data_info):
         data_info = raw_data_info
         img_prefix = self.data_prefix.get('img', None)
         if img_prefix is not None:
diff --git a/mmengine/dataset/base_dataset.py b/mmengine/dataset/base_dataset.py
index 17f707d3..d8f0f3d5 100644
--- a/mmengine/dataset/base_dataset.py
+++ b/mmengine/dataset/base_dataset.py
@@ -118,12 +118,12 @@ class BaseDataset(Dataset):
     .. code-block:: none
 
         {
-            "metadata":
+            "metainfo":
             {
               "dataset_type": "test_dataset",
               "task_name": "test_task"
             },
-            "data_infos":
+            "data_list":
             [
               {
                 "img_path": "test_img.jpg",
@@ -149,7 +149,7 @@ class BaseDataset(Dataset):
         }
 
     Args:
-        ann_file (str): Annotation file path.
+        ann_file (str): Annotation file path. Defaults to ''.
         metainfo (dict, optional): Meta information for dataset, such as class
             information. Defaults to None.
         data_root (str, optional): The root directory for ``data_prefix`` and
@@ -208,7 +208,7 @@ class BaseDataset(Dataset):
     _fully_initialized: bool = False
 
     def __init__(self,
-                 ann_file: str,
+                 ann_file: str = '',
                  metainfo: Optional[dict] = None,
                  data_root: Optional[str] = None,
                  data_prefix: dict = dict(img=None, ann=None),
@@ -232,7 +232,7 @@ class BaseDataset(Dataset):
         self.data_bytes: np.ndarray
 
         # Set meta information.
-        self._metainfo = self._get_meta_info(copy.deepcopy(metainfo))
+        self._metainfo = self._load_metainfo(copy.deepcopy(metainfo))
 
         # Join paths.
         if self.data_root is not None:
@@ -429,21 +429,21 @@ class BaseDataset(Dataset):
         if not isinstance(annotations, dict):
             raise TypeError(f'The annotations loaded from annotation file '
                             f'should be a dict, but got {type(annotations)}!')
-        if 'data_infos' not in annotations or 'metadata' not in annotations:
-            raise ValueError('Annotation must have data_infos and metadata '
+        if 'data_list' not in annotations or 'metainfo' not in annotations:
+            raise ValueError('Annotation must have data_list and metainfo '
                              'keys')
-        meta_data = annotations['metadata']
-        raw_data_infos = annotations['data_infos']
+        metainfo = annotations['metainfo']
+        raw_data_list = annotations['data_list']
 
         # Meta information load from annotation file will not influence the
         # existed meta information load from `BaseDataset.METAINFO` and
         # `metainfo` arguments defined in constructor.
-        for k, v in meta_data.items():
+        for k, v in metainfo.items():
             self._metainfo.setdefault(k, v)
 
         # load and parse data_infos.
         data_list = []
-        for raw_data_info in raw_data_infos:
+        for raw_data_info in raw_data_list:
             # parse raw data information to target format
             data_info = self.parse_data_info(raw_data_info)
             if isinstance(data_info, dict):
@@ -467,11 +467,11 @@ class BaseDataset(Dataset):
         return data_list
 
     @classmethod
-    def _get_meta_info(cls, in_metainfo: dict = None) -> dict:
+    def _load_metainfo(cls, metainfo: dict = None) -> dict:
         """Collect meta information from the dictionary of meta.
 
         Args:
-            in_metainfo (dict): Meta information dict. If ``in_metainfo``
+            metainfo (dict): Meta information dict. If ``metainfo``
                 contains existed filename, it will be parsed by
                 ``list_from_file``.
 
@@ -480,15 +480,15 @@ class BaseDataset(Dataset):
         """
         # `cls.METAINFO` will be overwritten by in_meta
         cls_metainfo = copy.deepcopy(cls.METAINFO)
-        if in_metainfo is None:
+        if metainfo is None:
             return cls_metainfo
-        if not isinstance(in_metainfo, dict):
+        if not isinstance(metainfo, dict):
             raise TypeError(
-                f'in_metainfo should be a dict, but got {type(in_metainfo)}')
+                f'metainfo should be a dict, but got {type(metainfo)}')
 
-        for k, v in in_metainfo.items():
+        for k, v in metainfo.items():
             if isinstance(v, str) and osp.isfile(v):
-                # if filename in in_metainfo, this key will be further parsed.
+                # if filename in metainfo, this key will be further parsed.
                 # nested filename will be ignored.
                 cls_metainfo[k] = list_from_file(v)
             else:
diff --git a/tests/data/annotations/dummy_annotation.json b/tests/data/annotations/dummy_annotation.json
index 5fac907e..87d6f51a 100644
--- a/tests/data/annotations/dummy_annotation.json
+++ b/tests/data/annotations/dummy_annotation.json
@@ -1,11 +1,11 @@
 {
-    "metadata":
+    "metainfo":
     {
       "dataset_type": "test_dataset",
       "task_name": "test_task",
       "empty_list": []
     },
-    "data_infos":
+    "data_list":
     [
       {
         "img_path": "test_img.jpg",
diff --git a/tests/test_data/test_base_dataset.py b/tests/test_data/test_base_dataset.py
index 3dbbd919..2488144f 100644
--- a/tests/test_data/test_base_dataset.py
+++ b/tests/test_data/test_base_dataset.py
@@ -87,6 +87,11 @@ class TestBaseDataset:
                 data_root=osp.join(osp.dirname(__file__), '../data/'),
                 data_prefix=dict(img='imgs'),
                 ann_file='annotations/not_existed_annotation.json')
+        # Use the default value of ann_file, i.e., ''
+        with pytest.raises(FileNotFoundError):
+            self.dataset_type(
+                data_root=osp.join(osp.dirname(__file__), '../data/'),
+                data_prefix=dict(img='imgs'))
 
         # test the instantiation of self.base_dataset when the ann_file is
         # wrong
-- 
GitLab