Merge branch 'limengzhang/fix_optim_delete' into 'refactor_dev'

zhengmiao · zhengmiao · commit 9ed2e1cdd828 · 2022-06-21T02:35:38.000Z
[Fix] Remove _delete_=True in optimizer

See merge request openmmlab-enterprise/openmmlab-ce/mmsegmentation!51
diff --git a/configs/beit/upernet_beit-base_8x2_640x640_160k_ade20k.py b/configs/beit/upernet_beit-base_8x2_640x640_160k_ade20k.py
@@ -9,16 +9,11 @@
     pretrained='pretrain/beit_base_patch16_224_pt22k_ft22k.pth',
     test_cfg=dict(mode='slide', crop_size=(640, 640), stride=(426, 426)))
 
-optimizer = dict(
-    _delete_=True,
-    type='AdamW',
-    lr=3e-5,
-    betas=(0.9, 0.999),
-    weight_decay=0.05)
-
 optim_wrapper = dict(
+    _delete_=True,
     type='OptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(
+        type='AdamW', lr=3e-5, betas=(0.9, 0.999), weight_decay=0.05),
     constructor='LayerDecayOptimizerConstructor',
     paramwise_cfg=dict(num_layers=12, layer_decay_rate=0.9))
 
diff --git a/configs/beit/upernet_beit-large_fp16_8x1_640x640_160k_ade20k.py b/configs/beit/upernet_beit-large_fp16_8x1_640x640_160k_ade20k.py
@@ -23,17 +23,11 @@
     auxiliary_head=dict(in_channels=1024, num_classes=150),
     test_cfg=dict(mode='slide', crop_size=(640, 640), stride=(426, 426)))
 
-optimizer = dict(
-    _delete_=True,
-    type='AdamW',
-    lr=2e-5,
-    betas=(0.9, 0.999),
-    weight_decay=0.05)
-
 optim_wrapper = dict(
     _delete_=True,
     type='AmpOptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(
+        type='AdamW', lr=2e-5, betas=(0.9, 0.999), weight_decay=0.05),
     constructor='LayerDecayOptimizerConstructor',
     paramwise_cfg=dict(num_layers=24, layer_decay_rate=0.95),
     accumulative_counts=2)
diff --git a/configs/bisenetv2/bisenetv2_fcn_fp16_4x4_1024x1024_160k_cityscapes.py b/configs/bisenetv2/bisenetv2_fcn_fp16_4x4_1024x1024_160k_cityscapes.py
@@ -1,7 +1,6 @@
 _base_ = './bisenetv2_fcn_4x4_1024x1024_160k_cityscapes.py'
-optimizer = dict(type='SGD', lr=0.05, momentum=0.9, weight_decay=0.0005)
 optim_wrapper = dict(
     _delete_=True,
     type='AmpOptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(type='SGD', lr=0.05, momentum=0.9, weight_decay=0.0005),
     loss_scale=512.)
diff --git a/configs/convnext/upernet_convnext_base_fp16_512x512_160k_ade20k.py b/configs/convnext/upernet_convnext_base_fp16_512x512_160k_ade20k.py
@@ -11,17 +11,11 @@
     test_cfg=dict(mode='slide', crop_size=crop_size, stride=(341, 341)),
 )
 
-optimizer = dict(
-    _delete_=True,
-    type='AdamW',
-    lr=0.0001,
-    betas=(0.9, 0.999),
-    weight_decay=0.05)
-
 optim_wrapper = dict(
     _delete_=True,
     type='AmpOptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(
+        type='AdamW', lr=0.0001, betas=(0.9, 0.999), weight_decay=0.05),
     paramwise_cfg={
         'decay_rate': 0.9,
         'decay_type': 'stage_wise',
diff --git a/configs/convnext/upernet_convnext_base_fp16_640x640_160k_ade20k.py b/configs/convnext/upernet_convnext_base_fp16_640x640_160k_ade20k.py
@@ -26,17 +26,11 @@
     test_cfg=dict(mode='slide', crop_size=crop_size, stride=(426, 426)),
 )
 
-optimizer = dict(
-    _delete_=True,
-    type='AdamW',
-    lr=0.0001,
-    betas=(0.9, 0.999),
-    weight_decay=0.05)
-
 optim_wrapper = dict(
     _delete_=True,
     type='AmpOptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(
+        type='AdamW', lr=0.0001, betas=(0.9, 0.999), weight_decay=0.05),
     paramwise_cfg={
         'decay_rate': 0.9,
         'decay_type': 'stage_wise',
diff --git a/configs/convnext/upernet_convnext_large_fp16_640x640_160k_ade20k.py b/configs/convnext/upernet_convnext_large_fp16_640x640_160k_ade20k.py
@@ -26,17 +26,11 @@
     test_cfg=dict(mode='slide', crop_size=crop_size, stride=(426, 426)),
 )
 
-optimizer = dict(
-    _delete_=True,
-    type='AdamW',
-    lr=0.0001,
-    betas=(0.9, 0.999),
-    weight_decay=0.05)
-
 optim_wrapper = dict(
     _delete_=True,
     type='AmpOptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(
+        type='AdamW', lr=0.0001, betas=(0.9, 0.999), weight_decay=0.05),
     paramwise_cfg={
         'decay_rate': 0.9,
         'decay_type': 'stage_wise',
diff --git a/configs/convnext/upernet_convnext_small_fp16_512x512_160k_ade20k.py b/configs/convnext/upernet_convnext_small_fp16_512x512_160k_ade20k.py
@@ -25,17 +25,11 @@
     test_cfg=dict(mode='slide', crop_size=crop_size, stride=(341, 341)),
 )
 
-optimizer = dict(
-    _delete_=True,
-    type='AdamW',
-    lr=0.0001,
-    betas=(0.9, 0.999),
-    weight_decay=0.05)
-
 optim_wrapper = dict(
     _delete_=True,
     type='AmpOptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(
+        type='AdamW', lr=0.0001, betas=(0.9, 0.999), weight_decay=0.05),
     paramwise_cfg={
         'decay_rate': 0.9,
         'decay_type': 'stage_wise',
diff --git a/configs/convnext/upernet_convnext_tiny_fp16_512x512_160k_ade20k.py b/configs/convnext/upernet_convnext_tiny_fp16_512x512_160k_ade20k.py
@@ -25,17 +25,11 @@
     test_cfg=dict(mode='slide', crop_size=crop_size, stride=(341, 341)),
 )
 
-optimizer = dict(
-    _delete_=True,
-    type='AdamW',
-    lr=0.0001,
-    betas=(0.9, 0.999),
-    weight_decay=0.05)
-
 optim_wrapper = dict(
     _delete_=True,
     type='AmpOptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(
+        type='AdamW', lr=0.0001, betas=(0.9, 0.999), weight_decay=0.05),
     paramwise_cfg={
         'decay_rate': 0.9,
         'decay_type': 'stage_wise',
diff --git a/configs/convnext/upernet_convnext_xlarge_fp16_640x640_160k_ade20k.py b/configs/convnext/upernet_convnext_xlarge_fp16_640x640_160k_ade20k.py
@@ -26,17 +26,11 @@
     test_cfg=dict(mode='slide', crop_size=crop_size, stride=(426, 426)),
 )
 
-optimizer = dict(
-    _delete_=True,
-    type='AdamW',
-    lr=0.00008,
-    betas=(0.9, 0.999),
-    weight_decay=0.05)
-
 optim_wrapper = dict(
     _delete_=True,
     type='AmpOptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(
+        type='AdamW', lr=0.00008, betas=(0.9, 0.999), weight_decay=0.05),
     paramwise_cfg={
         'decay_rate': 0.9,
         'decay_type': 'stage_wise',
diff --git a/configs/dpt/dpt_vit-b16_512x512_160k_ade20k.py b/configs/dpt/dpt_vit-b16_512x512_160k_ade20k.py
@@ -7,16 +7,11 @@
 model = dict(data_preprocessor=data_preprocessor)
 # AdamW optimizer, no weight decay for position embedding & layer norm
 # in backbone
-optimizer = dict(
-    _delete_=True,
-    type='AdamW',
-    lr=0.00006,
-    betas=(0.9, 0.999),
-    weight_decay=0.01)
 
 optim_wrapper = dict(
     type='OptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(
+        type='AdamW', lr=0.00006, betas=(0.9, 0.999), weight_decay=0.01),
     paramwise_cfg=dict(
         custom_keys={
             'pos_embed': dict(decay_mult=0.),
diff --git a/configs/fcn/fcn_r101-d8_fp16_512x1024_80k_cityscapes.py b/configs/fcn/fcn_r101-d8_fp16_512x1024_80k_cityscapes.py
@@ -1,7 +1,6 @@
 _base_ = './fcn_r101-d8_512x1024_80k_cityscapes.py'
-optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0005)
 optim_wrapper = dict(
     _delete_=True,
     type='AmpOptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0005),
     loss_scale=512.)
diff --git a/configs/mae/upernet_mae-base_fp16_8x2_512x512_160k_ade20k.py b/configs/mae/upernet_mae-base_fp16_8x2_512x512_160k_ade20k.py
@@ -24,16 +24,10 @@
     auxiliary_head=dict(in_channels=768, num_classes=150),
     test_cfg=dict(mode='slide', crop_size=(512, 512), stride=(341, 341)))
 
-optimizer = dict(
-    _delete_=True,
-    type='AdamW',
-    lr=1e-4,
-    betas=(0.9, 0.999),
-    weight_decay=0.05)
-
 optim_wrapper = dict(
     type='OptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(
+        type='AdamW', lr=1e-4, betas=(0.9, 0.999), weight_decay=0.05),
     paramwise_cfg=dict(num_layers=12, layer_decay_rate=0.65),
     constructor='LayerDecayOptimizerConstructor')
 
diff --git a/configs/pspnet/pspnet_r101-d8_fp16_512x1024_80k_cityscapes.py b/configs/pspnet/pspnet_r101-d8_fp16_512x1024_80k_cityscapes.py
@@ -1,7 +1,6 @@
 _base_ = './pspnet_r101-d8_512x1024_80k_cityscapes.py'
-optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0005)
 optim_wrapper = dict(
     _delete_=True,
     type='AmpOptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0005),
     loss_scale=512.)
diff --git a/configs/pspnet/pspnet_r50-d32_rsb-pretrain_512x1024_adamw_80k_cityscapes.py b/configs/pspnet/pspnet_r50-d32_rsb-pretrain_512x1024_adamw_80k_cityscapes.py
@@ -15,11 +15,10 @@
         dilations=(1, 1, 2, 4),
         strides=(1, 2, 2, 2)))
 
-optimizer = dict(_delete_=True, type='AdamW', lr=0.0005, weight_decay=0.05)
 optim_wrapper = dict(
     _delete_=True,
     type='OptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(type='AdamW', lr=0.0005, weight_decay=0.05),
     clip_grad=dict(max_norm=1, norm_type=2))
 # learning policy
 param_scheduler = [
diff --git a/configs/pspnet/pspnet_r50-d8_rsb-pretrain_512x1024_adamw_80k_cityscapes.py b/configs/pspnet/pspnet_r50-d8_rsb-pretrain_512x1024_adamw_80k_cityscapes.py
@@ -13,11 +13,10 @@
         init_cfg=dict(
             type='Pretrained', prefix='backbone.', checkpoint=checkpoint)))
 
-optimizer = dict(_delete_=True, type='AdamW', lr=0.0005, weight_decay=0.05)
 optim_wrapper = dict(
     _delete_=True,
     type='OptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(type='AdamW', lr=0.0005, weight_decay=0.05),
     clip_grad=dict(max_norm=1, norm_type=2))
 # learning policy
 param_scheduler = [
diff --git a/configs/segformer/segformer_mit-b0_512x512_160k_ade20k.py b/configs/segformer/segformer_mit-b0_512x512_160k_ade20k.py
@@ -9,17 +9,11 @@
     pretrained='pretrain/mit_b0.pth',
     decode_head=dict(num_classes=150))
 
-# optimizer
-optimizer = dict(
-    _delete_=True,
-    type='AdamW',
-    lr=0.00006,
-    betas=(0.9, 0.999),
-    weight_decay=0.01)
-
 optim_wrapper = dict(
+    _delete_=True,
     type='OptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(
+        type='AdamW', lr=0.00006, betas=(0.9, 0.999), weight_decay=0.01),
     paramwise_cfg=dict(
         custom_keys={
             'pos_block': dict(decay_mult=0.),
diff --git a/configs/segformer/segformer_mit-b0_8x1_1024x1024_160k_cityscapes.py b/configs/segformer/segformer_mit-b0_8x1_1024x1024_160k_cityscapes.py
@@ -11,17 +11,11 @@
         init_cfg=dict(type='Pretrained', checkpoint='pretrain/mit_b0.pth')),
     test_cfg=dict(mode='slide', crop_size=(1024, 1024), stride=(768, 768)))
 
-# optimizer
-optimizer = dict(
-    _delete_=True,
-    type='AdamW',
-    lr=0.00006,
-    betas=(0.9, 0.999),
-    weight_decay=0.01)
-
 optim_wrapper = dict(
+    _delete_=True,
     type='OptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(
+        type='AdamW', lr=0.00006, betas=(0.9, 0.999), weight_decay=0.01),
     paramwise_cfg=dict(
         custom_keys={
             'pos_block': dict(decay_mult=0.),
diff --git a/configs/swin/upernet_swin_tiny_patch4_window7_512x512_160k_ade20k_pretrain_224x224_1K.py b/configs/swin/upernet_swin_tiny_patch4_window7_512x512_160k_ade20k_pretrain_224x224_1K.py
@@ -21,16 +21,11 @@
 
 # AdamW optimizer, no weight decay for position embedding & layer norm
 # in backbone
-optimizer = dict(
-    _delete_=True,
-    type='AdamW',
-    lr=0.00006,
-    betas=(0.9, 0.999),
-    weight_decay=0.01)
-
 optim_wrapper = dict(
+    _delete_=True,
     type='OptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(
+        type='AdamW', lr=0.00006, betas=(0.9, 0.999), weight_decay=0.01),
     paramwise_cfg=dict(
         custom_keys={
             'absolute_pos_embed': dict(decay_mult=0.),
diff --git a/configs/twins/twins_pcpvt-s_fpn_fpnhead_8x4_512x512_80k_ade20k.py b/configs/twins/twins_pcpvt-s_fpn_fpnhead_8x4_512x512_80k_ade20k.py
@@ -5,4 +5,8 @@
 crop_size = (512, 512)
 data_preprocessor = dict(size=crop_size)
 model = dict(data_preprocessor=data_preprocessor)
-optimizer = dict(_delete_=True, type='AdamW', lr=0.0001, weight_decay=0.0001)
+optim_wrapper = dict(
+    _delete_=True,
+    type='OptimWrapper',
+    optimizer=dict(type='AdamW', lr=0.0001, weight_decay=0.0001),
+    clip_grad=None)
diff --git a/configs/twins/twins_pcpvt-s_uperhead_8x4_512x512_160k_ade20k.py b/configs/twins/twins_pcpvt-s_uperhead_8x4_512x512_160k_ade20k.py
@@ -6,16 +6,12 @@
 crop_size = (512, 512)
 data_preprocessor = dict(size=crop_size)
 model = dict(data_preprocessor=data_preprocessor)
-optimizer = dict(
-    _delete_=True,
-    type='AdamW',
-    lr=0.00006,
-    betas=(0.9, 0.999),
-    weight_decay=0.01)
 
 optim_wrapper = dict(
+    _delete_=True,
     type='OptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(
+        type='AdamW', lr=0.00006, betas=(0.9, 0.999), weight_decay=0.01),
     paramwise_cfg=dict(custom_keys={
         'pos_block': dict(decay_mult=0.),
         'norm': dict(decay_mult=0.)
diff --git a/configs/twins/twins_svt-s_fpn_fpnhead_8x4_512x512_80k_ade20k.py b/configs/twins/twins_svt-s_fpn_fpnhead_8x4_512x512_80k_ade20k.py
@@ -21,4 +21,8 @@
     decode_head=dict(num_classes=150),
 )
 
-optimizer = dict(_delete_=True, type='AdamW', lr=0.0001, weight_decay=0.0001)
+optim_wrapper = dict(
+    _delete_=True,
+    type='OptimWrapper',
+    optimizer=dict(type='AdamW', lr=0.0001, weight_decay=0.0001),
+    clip_grad=None)
diff --git a/configs/twins/twins_svt-s_uperhead_8x2_512x512_160k_ade20k.py b/configs/twins/twins_svt-s_uperhead_8x2_512x512_160k_ade20k.py
@@ -21,16 +21,11 @@
     decode_head=dict(in_channels=[64, 128, 256, 512]),
     auxiliary_head=dict(in_channels=256))
 
-optimizer = dict(
-    _delete_=True,
-    type='AdamW',
-    lr=0.00006,
-    betas=(0.9, 0.999),
-    weight_decay=0.01)
-
 optim_wrapper = dict(
+    _delete_=True,
     type='OptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(
+        type='AdamW', lr=0.00006, betas=(0.9, 0.999), weight_decay=0.01),
     paramwise_cfg=dict(custom_keys={
         'pos_block': dict(decay_mult=0.),
         'norm': dict(decay_mult=0.)
diff --git a/configs/vit/upernet_vit-b16_ln_mln_512x512_160k_ade20k.py b/configs/vit/upernet_vit-b16_ln_mln_512x512_160k_ade20k.py
@@ -14,16 +14,11 @@
 
 # AdamW optimizer, no weight decay for position embedding & layer norm
 # in backbone
-optimizer = dict(
-    _delete_=True,
-    type='AdamW',
-    lr=0.00006,
-    betas=(0.9, 0.999),
-    weight_decay=0.01)
-
 optim_wrapper = dict(
+    _delete_=True,
     type='OptimWrapper',
-    optimizer=optimizer,
+    optimizer=dict(
+        type='AdamW', lr=0.00006, betas=(0.9, 0.999), weight_decay=0.01),
     paramwise_cfg=dict(
         custom_keys={
             'pos_embed': dict(decay_mult=0.),
diff --git a/configs/vit/upernet_vit-b16_mln_512x512_160k_ade20k.py b/configs/vit/upernet_vit-b16_mln_512x512_160k_ade20k.py
diff --git a/configs/vit/upernet_vit-b16_mln_512x512_80k_ade20k.py b/configs/vit/upernet_vit-b16_mln_512x512_80k_ade20k.py

Original file line number	Diff line number	Diff line change
`@@ -21,4 +21,8 @@`
`21`	`21`	`decode_head=dict(num_classes=150),`
`22`	`22`	`)`
`23`	`23`
`24`		`-optimizer = dict(_delete_=True, type='AdamW', lr=0.0001, weight_decay=0.0001)`
	`24`	`+optim_wrapper = dict(`
	`25`	`+ _delete_=True,`
	`26`	`+ type='OptimWrapper',`
	`27`	`+ optimizer=dict(type='AdamW', lr=0.0001, weight_decay=0.0001),`
	`28`	`+ clip_grad=None)`