fix bugs for ViT

xperzy · web-flow · commit 6b480ad0dd75 · 2021-07-02T13:50:00.000+08:00
diff --git a/image_classification/ViT/config.py b/image_classification/ViT/config.py
@@ -33,8 +33,8 @@
 _C.DATA.DATA_PATH = '/dataset/imagenet/' # path to dataset
 _C.DATA.DATASET = 'imagenet2012' # dataset name
 _C.DATA.IMAGE_SIZE = 224 # input image size: 224 for pretrain, 384 for finetune
-_C.DATA.CROP_PCT = 1.0 # input image scale ratio, scale is applied before centercrop in eval mode
-_C.DATA.NUM_WORKERS = 4 # number of data loading threads 
+_C.DATA.CROP_PCT = 0.875 # input image scale ratio, scale is applied before centercrop in eval mode
+_C.DATA.NUM_WORKERS = 2 # number of data loading threads 
 
 # model settings
 _C.MODEL = CN()
@@ -62,10 +62,10 @@
 _C.TRAIN.LAST_EPOCH = 0
 _C.TRAIN.NUM_EPOCHS = 300
 _C.TRAIN.WARMUP_EPOCHS = 3 #34 # ~ 10k steps for 4096 batch size
-_C.TRAIN.WEIGHT_DECAY = 0.01 #0.3 # 0.0 for finetune
+_C.TRAIN.WEIGHT_DECAY = 0.05 #0.3 # 0.0 for finetune
 _C.TRAIN.BASE_LR = 0.001 #0.003 for pretrain # 0.03 for finetune
 _C.TRAIN.WARMUP_START_LR = 1e-6 #0.0
-_C.TRAIN.END_LR = 1e-5
+_C.TRAIN.END_LR = 5e-4
 _C.TRAIN.GRAD_CLIP = 1.0
 _C.TRAIN.ACCUM_ITER = 2 #1
 
@@ -84,13 +84,13 @@
 # misc
 _C.SAVE = "./output"
 _C.TAG = "default"
-_C.SAVE_FREQ = 20 # freq to save chpt
-_C.REPORT_FREQ = 50 # freq to logging info
-_C.VALIDATE_FREQ = 20 # freq to do validation
+_C.SAVE_FREQ = 10 # freq to save chpt
+_C.REPORT_FREQ = 100 # freq to logging info
+_C.VALIDATE_FREQ = 100 # freq to do validation
 _C.SEED = 0
 _C.EVAL = False # run evaluation only
 _C.LOCAL_RANK = 0
-_C.NGPUS = 1
+_C.NGPUS = -1
 
 
 def _update_config_from_file(config, cfg_file):
diff --git a/image_classification/ViT/main_multi_gpu.py b/image_classification/ViT/main_multi_gpu.py
@@ -60,8 +60,6 @@
 else:
     config.SAVE = '{}/eval-{}'.format(config.SAVE, time.strftime('%Y%m%d-%H-%M-%S'))
 
-config.freeze()
-
 if not os.path.exists(config.SAVE):
     os.makedirs(config.SAVE, exist_ok=True)
 
@@ -147,12 +145,14 @@ def validate(dataloader, model, criterion, total_batch, debug_steps=100):
         debug_steps: int, num of iters to log info
     Returns:
         val_loss_meter.avg
-        val_acc_meter.avg
+        val_acc1_meter.avg
+        val_acc5_meter.avg
         val_time
     """
     model.eval()
     val_loss_meter = AverageMeter()
-    val_acc_meter = AverageMeter()
+    val_acc1_meter = AverageMeter()
+    val_acc5_meter = AverageMeter()
     time_st = time.time()
 
     with paddle.no_grad():
@@ -164,27 +164,32 @@ def validate(dataloader, model, criterion, total_batch, debug_steps=100):
             loss = criterion(output, label)
 
             pred = F.softmax(output)
-            acc = paddle.metric.accuracy(pred, label.unsqueeze(1))
+            acc1 = paddle.metric.accuracy(pred, label.unsqueeze(1))
+            acc5 = paddle.metric.accuracy(pred, label.unsqueeze(1), k=5)
 
             dist.all_reduce(loss)
-            dist.all_reduce(acc)
+            dist.all_reduce(acc1)
+            dist.all_reduce(acc5)
             loss = loss / dist.get_world_size()
-            acc = acc / dist.get_world_size()
+            acc1 = acc1 / dist.get_world_size()
+            acc5 = acc5 / dist.get_world_size()
 
             batch_size = paddle.to_tensor(image.shape[0])
             dist.all_reduce(batch_size)
 
             val_loss_meter.update(loss.numpy()[0], batch_size.numpy()[0])
-            val_acc_meter.update(acc.numpy()[0], batch_size.numpy()[0])
+            val_acc1_meter.update(acc1.numpy()[0], batch_size.numpy()[0])
+            val_acc5_meter.update(acc5.numpy()[0], batch_size.numpy()[0])
 
             if batch_id % debug_steps == 0:
                 logger.info(
                     f"Val Step[{batch_id:04d}/{total_batch:04d}], " +
                     f"Avg Loss: {val_loss_meter.avg:.4f}, " +
-                    f"Avg Acc: {val_acc_meter.avg:.4f}")
+                    f"Avg Acc@1: {val_acc1_meter.avg:.4f}, "+
+                    f"Avg Acc@5: {val_acc5_meter.avg:.4f}")
 
     val_time = time.time() - time_st
-    return val_loss_meter.avg, val_acc_meter.avg, val_time
+    return val_loss_meter.avg, val_acc1_meter.avg, val_acc5_meter.avg, val_time
 
 
 def main_worker(*args):
@@ -288,13 +293,15 @@ def main_worker(*args):
     # 6. Validation
     if config.EVAL:
         logger.info('----- Start Validating')
-        val_loss, val_acc, val_time = validate(dataloader=dataloader_val,
-                                               model=model,
-                                               criterion=criterion,
-                                               total_batch=total_batch_val,
-                                               debug_steps=config.REPORT_FREQ)
+        val_loss, val_acc1, val_acc5, val_time = validate(
+            dataloader=dataloader_val,
+            model=model,
+            criterion=criterion,
+            total_batch=total_batch_val,
+            debug_steps=config.REPORT_FREQ)
         logger.info(f"Validation Loss: {val_loss:.4f}, " +
-                    f"Validation Acc: {val_acc:.4f}, " +
+                    f"Validation Acc@1: {val_acc1:.4f}, " +
+                    f"Validation Acc@5: {val_acc5:.4f}, " +
                     f"time: {val_time:.2f}")
         return
 
@@ -320,14 +327,16 @@ def main_worker(*args):
         # validation
         if epoch % config.VALIDATE_FREQ == 0 or epoch == config.TRAIN.NUM_EPOCHS:
             logger.info(f'----- Validation after Epoch: {epoch}')
-            val_loss, val_acc, val_time = validate(dataloader=dataloader_val,
-                                                   model=model,
-                                                   criterion=criterion,
-                                                   total_batch=total_batch_val,
-                                                   debug_steps=config.REPORT_FREQ)
+            val_loss, val_acc1, val_acc5, val_time = validate(
+                dataloader=dataloader_val,
+                model=model,
+                criterion=criterion,
+                total_batch=total_batch_val,
+                debug_steps=config.REPORT_FREQ)
             logger.info(f"----- Epoch[{epoch:03d}/{config.TRAIN.NUM_EPOCHS:03d}], " +
                         f"Validation Loss: {val_loss:.4f}, " +
-                        f"Validation Acc: {val_acc:.4f}, " +
+                        f"Validation Acc@1: {val_acc1:.4f}, " +
+                        f"Validation Acc@5: {val_acc5:.4f}, " +
                         f"time: {val_time:.2f}")
         # model save
         if local_rank == 0:
@@ -343,6 +352,7 @@ def main_worker(*args):
 def main():
     dataset_train = get_dataset(config, mode='train')
     dataset_val = get_dataset(config, mode='val')
+    config.NGPUS = len(paddle.static.cuda_places()) if config.NGPUS == -1 else config.NGPUS
     dist.spawn(main_worker, args=(dataset_train, dataset_val, ), nprocs=config.NGPUS)
 
 
diff --git a/image_classification/ViT/main_single_gpu.py b/image_classification/ViT/main_single_gpu.py
@@ -1,4 +1,3 @@
-
 #   Copyright (c) 2021 PPViT Authors. All Rights Reserved.
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
@@ -145,12 +144,14 @@ def validate(dataloader, model, criterion, total_batch, debug_steps=100):
         debug_steps: int, num of iters to log info
     Returns:
         val_loss_meter.avg
-        val_acc_meter.avg
+        val_acc1_meter.avg
+        val_acc5_meter.avg
         val_time
     """
     model.eval()
     val_loss_meter = AverageMeter()
-    val_acc_meter = AverageMeter()
+    val_acc1_meter = AverageMeter()
+    val_acc5_meter = AverageMeter()
     time_st = time.time()
 
     with paddle.no_grad():
@@ -162,20 +163,23 @@ def validate(dataloader, model, criterion, total_batch, debug_steps=100):
             loss = criterion(output, label)
 
             pred = F.softmax(output)
-            acc = paddle.metric.accuracy(pred, label.unsqueeze(1))
+            acc1 = paddle.metric.accuracy(pred, label.unsqueeze(1))
+            acc5 = paddle.metric.accuracy(pred, label.unsqueeze(1), k=5)
 
             batch_size = image.shape[0]
             val_loss_meter.update(loss.numpy()[0], batch_size)
-            val_acc_meter.update(acc.numpy()[0], batch_size)
+            val_acc1_meter.update(acc1.numpy()[0], batch_size)
+            val_acc5_meter.update(acc5.numpy()[0], batch_size)
 
             if batch_id % debug_steps == 0:
                 logger.info(
                     f"Val Step[{batch_id:04d}/{total_batch:04d}], " +
                     f"Avg Loss: {val_loss_meter.avg:.4f}, " +
-                    f"Avg Acc: {val_acc_meter.avg:.4f}")
+                    f"Avg Acc@1: {val_acc1_meter.avg:.4f}, ",
+                    f"Avg Acc@5: {val_acc5_meter.avg:.4f}")
 
     val_time = time.time() - time_st
-    return val_loss_meter.avg, val_acc_meter.avg, val_time
+    return val_loss_meter.avg, val_acc1_meter.avg, val_acc5_meter.avg, val_time
 
 
 def main():
@@ -257,13 +261,15 @@ def main():
     # 7. Validation
     if config.EVAL:
         logger.info('----- Start Validating')
-        val_loss, val_acc, val_time = validate(dataloader=dataloader_val,
-                                               model=model,
-                                               criterion=criterion,
-                                               total_batch=len(dataloader_val),
-                                               debug_steps=config.REPORT_FREQ)
+        val_loss, val_acc1, val_acc5, val_time = validate(
+            dataloader=dataloader_val,
+            model=model,
+            criterion=criterion,
+            total_batch=len(dataloader_val),
+            debug_steps=config.REPORT_FREQ)
         logger.info(f"Validation Loss: {val_loss:.4f}, " +
-                    f"Validation Acc: {val_acc:.4f}, " +
+                    f"Validation Acc@1: {val_acc1:.4f}, " +
+                    f"Validation Acc@5: {val_acc5:.4f}, " +
                     f"time: {val_time:.2f}")
         return
     # 8. Start training and validation
@@ -288,14 +294,16 @@ def main():
         # validation
         if epoch % config.VALIDATE_FREQ == 0 or epoch == config.TRAIN.NUM_EPOCHS:
             logger.info(f'----- Validation after Epoch: {epoch}')
-            val_loss, val_acc, val_time = validate(dataloader=dataloader_val,
-                                                   model=model,
-                                                   criterion=criterion,
-                                                   total_batch=len(dataloader_val),
-                                                   debug_steps=config.REPORT_FREQ)
+            val_loss, val_acc1, val_acc5, val_time = validate(
+                dataloader=dataloader_val,
+                model=model,
+                criterion=criterion,
+                total_batch=len(dataloader_val),
+                debug_steps=config.REPORT_FREQ)
             logger.info(f"----- Epoch[{epoch:03d}/{config.TRAIN.NUM_EPOCHS:03d}], " +
                         f"Validation Loss: {val_loss:.4f}, " +
-                        f"Validation Acc: {val_acc:.4f}, " +
+                        f"Validation Acc@1: {val_acc1:.4f}, " +
+                        f"Validation Acc@5: {val_acc5:.4f}, " +
                         f"time: {val_time:.2f}")
         # model save
         if epoch % config.SAVE_FREQ == 0 or epoch == config.TRAIN.NUM_EPOCHS:
diff --git a/image_classification/ViT/run_eval_384_multi.sh b/image_classification/ViT/run_eval_384_multi.sh
@@ -0,0 +1,8 @@
+CUDA_VISIBLE_DEVICES=0,1,2,3 \
+python main_multi_gpu.py \
+-cfg='./configs/vit_base_patch16_384.yaml' \
+-dataset='imagenet2012' \
+-batch_size=4 \
+-data_path='/dataset/imagenet' \
+-eval \
+-pretrained='./vit_base_patch16_384'
diff --git a/image_classification/ViT/run_eval_large_224_multi.sh b/image_classification/ViT/run_eval_large_224_multi.sh
@@ -0,0 +1,8 @@
+CUDA_VISIBLE_DEVICES=0,1,2,3 \
+python main_multi_gpu.py \
+-cfg='./configs/vit_large_patch16_224.yaml' \
+-dataset='imagenet2012' \
+-batch_size=4 \
+-data_path='/dataset/imagenet' \
+-eval \
+-pretrained='./vit_large_patch16_224'
diff --git a/image_classification/ViT/run_eval_multi.sh b/image_classification/ViT/run_eval_multi.sh
@@ -2,7 +2,7 @@ CUDA_VISIBLE_DEVICES=0,1,2,3 \
 python main_multi_gpu.py \
 -cfg='./configs/vit_base_patch16_224.yaml' \
 -dataset='imagenet2012' \
--batch_size=512 \
+-batch_size=8 \
 -data_path='/dataset/imagenet' \
 -eval \
 -pretrained='./vit_base_patch16_224' \
diff --git a/image_classification/ViT/run_train_multi.sh b/image_classification/ViT/run_train_multi.sh
@@ -1,7 +1,7 @@
-CUDA_VISIBLE_DEVICES=4,5,6,7 \
+CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \
 python main_multi_gpu.py \
 -cfg='./configs/vit_base_patch16_224.yaml' \
 -dataset='imagenet2012' \
--batch_size=4 \
+-batch_size=32 \
 -data_path='/dataset/imagenet' \
--ngpus=4
+-ngpus=8
diff --git a/image_classification/ViT/tests/__init__.py b/image_classification/ViT/tests/__init__.py
@@ -1 +1 @@
-#init
+# init
diff --git a/image_classification/ViT/transformer.py b/image_classification/ViT/transformer.py
@@ -354,3 +354,7 @@ def forward(self, x):
         x, self_attn = self.transformer(x)
         logits = self.classifier(x[:, 0]) # take only cls_token as classifier
         return logits, self_attn
+
+    def flops(self):
+        flops = 0
+        flops += self.transformer.flops()