Kedreamix
diff --git a/‎MAE/MAE_In_CIFAR.ipynb‎
Lines changed: 17372 additions & 0 deletions b/‎MAE/MAE_In_CIFAR.ipynb‎
Lines changed: 17372 additions & 0 deletions
diff --git a/‎MAE/README.md‎
Lines changed: 57 additions & 0 deletions b/‎MAE/README.md‎
Lines changed: 57 additions & 0 deletions
diff --git a/‎MAE/mae_pretrain.py‎
Lines changed: 85 additions & 0 deletions b/‎MAE/mae_pretrain.py‎
Lines changed: 85 additions & 0 deletions
diff --git a/‎MAE/model.py‎
Lines changed: 187 additions & 0 deletions b/‎MAE/model.py‎
Lines changed: 187 additions & 0 deletions
@@ -0,0 +1,57 @@
+## 基于CIFAR10 MAE的实现
+
+由于可用资源有限，我们仅在 cifar10 上测试模型。我们主要想重现这样的结果：**使用 MAE 预训练 ViT 可以比直接使用标签进行监督学习训练获得更好的结果**。这应该是**自我监督学习比监督学习更有效的数据**的证据。
+
+我们主要遵循论文中的实现细节。但是，由于 Cifar10 和 ImageNet 的区别，我们做了一些修改：
+
+- 我们使用 vit-tiny 而不是 vit-base。
+- 由于 Cifar10 只有 50k 训练数据，我们将 pretraining epoch 从 400 增加到 2000，将 warmup epoch 从 40 增加到 200。我们注意到，在 2000 epoch 之后损失仍在减少。
+- 我们将训练分类器的批量大小从 1024 减少到 512 以减轻过度拟合。
+
+### Install
+
+`pip install -r requirements.txt`
+
+### Run
+
+首先进行预训练
+
+```python
+# pretrained with mae
+python mae_pretrain.py
+```
+
+训练未用MAE的分类器，也就是从头开始训练分类器
+
+```
+# train classifier from scratch
+python train_classifier.py
+```
+
+利用训练好的MAE的encoder作为输入，构建的分类模型作为分类器
+
+```python
+# train classifier from pretrained model
+python train_classifier.py --pretrained_model_path vit-t-mae.pth --output_model_path vit-t-classifier-from_pretrained.pth
+```
+
+集成了tensorboerd
+
+```
+tensorboard --logdir logs
+```
+
+可以查看结果
+
+### Result
+
+|Model|Validation Acc|
+|-----|--------------|
+|ViT-T w/o pretrain|74.13|
+|ViT-T w/  pretrain|**89.77**|
+
+可视化CIFAR10前16张的图片，也可以在TensorBoard中查看
+
+
+
+![avatar](pic/mae-cifar10-reconstruction.png)
@@ -0,0 +1,85 @@
+import os
+import argparse
+import math
+import torch
+import torchvision
+from torch.utils.tensorboard import SummaryWriter
+from torchvision.transforms import ToTensor, Compose, Normalize
+from tqdm import tqdm
+
+from model import *
+from utils import setup_seed
+
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--seed', type=int, default=42)
+    parser.add_argument('-bs','--batch_size', type=int, default=4096)
+    parser.add_argument('--max_device_batch_size', type=int, default=128)
+    parser.add_argument('--base_learning_rate', type=float, default=1.5e-4)
+    parser.add_argument('--weight_decay', type=float, default=0.05)
+    parser.add_argument('--mask_ratio', type=float, default=0.75)
+    parser.add_argument('--total_epoch', type=int, default=2000)
+    parser.add_argument('--warmup_epoch', type=int, default=200)
+    parser.add_argument('--model_path', type=str, default='vit-t-mae.pth')
+
+    args = parser.parse_args()
+
+    setup_seed(args.seed)
+
+    batch_size = args.batch_size
+    load_batch_size = min(args.max_device_batch_size, batch_size)
+
+    assert batch_size % load_batch_size == 0
+    steps_per_update = batch_size // load_batch_size
+
+    train_dataset = torchvision.datasets.CIFAR10('data', train=True, download=True, transform=Compose([ToTensor(), Normalize(0.5, 0.5)]))
+    val_dataset = torchvision.datasets.CIFAR10('data', train=False, download=True, transform=Compose([ToTensor(), Normalize(0.5, 0.5)]))
+    dataloader = torch.utils.data.DataLoader(train_dataset, load_batch_size, shuffle=True, num_workers=4)
+    writer = SummaryWriter(os.path.join('logs', 'cifar10', 'mae-pretrain'))
+    device = 'cuda' if torch.cuda.is_available() else 'cpu'
+
+    model = MAE_ViT(mask_ratio=args.mask_ratio).to(device)
+    if device == 'cuda':
+        net = torch.nn.DataParallel(model)
+
+    optim = torch.optim.AdamW(model.parameters(), lr=args.base_learning_rate * args.batch_size / 256, betas=(0.9, 0.95), weight_decay=args.weight_decay)
+    lr_func = lambda epoch: min((epoch + 1) / (args.warmup_epoch + 1e-8), 0.5 * (math.cos(epoch / args.total_epoch * math.pi) + 1))
+    lr_scheduler = torch.optim.lr_scheduler.LambdaLR(optim, lr_lambda=lr_func, verbose=True)
+
+    step_count = 0
+    optim.zero_grad()
+    for e in range(args.total_epoch):
+        model.train()
+        losses = []
+        train_step = len(dataloader)
+        with tqdm(total=train_step,desc=f'Epoch {e+1}/{args.total_epoch}',postfix=dict,mininterval=0.3) as pbar:
+            for img, label in iter(dataloader):
+                step_count += 1
+                img = img.to(device)
+                predicted_img, mask = model(img)
+                loss = torch.mean((predicted_img - img) ** 2 * mask) / args.mask_ratio
+                loss.backward()
+                if step_count % steps_per_update == 0:
+                    optim.step()
+                    optim.zero_grad()
+                losses.append(loss.item())
+                pbar.set_postfix(**{'Loss' : np.mean(losses)})
+                pbar.update(1)
+        lr_scheduler.step()
+        avg_loss = sum(losses) / len(losses)
+        writer.add_scalar('mae_loss', avg_loss, global_step=e)
+        # print(f'In epoch {e}, average traning loss is {avg_loss}.')
+
+        ''' visualize the first 16 predicted images on val dataset'''
+        model.eval()
+        with torch.no_grad():
+            val_img = torch.stack([val_dataset[i][0] for i in range(16)])
+            val_img = val_img.to(device)
+            predicted_val_img, mask = model(val_img)
+            predicted_val_img = predicted_val_img * mask + val_img * (1 - mask)
+            img = torch.cat([val_img * (1 - mask), predicted_val_img, val_img], dim=0)
+            img = rearrange(img, '(v h1 w1) c h w -> c (h1 h) (w1 v w)', w1=2, v=3)
+            writer.add_image('mae_image', (img + 1) / 2, global_step=e)
+        
+        ''' save model '''
+        torch.save(model, args.model_path)
@@ -0,0 +1,187 @@
+import torch
+import timm
+import numpy as np
+
+from einops import repeat, rearrange
+from einops.layers.torch import Rearrange
+
+
+# 这里可以用两个timm模型进行构建我们的结果
+from timm.models.layers import trunc_normal_
+from timm.models.vision_transformer import Block
+
+def random_indexes(size : int):
+    forward_indexes = np.arange(size)
+    np.random.shuffle(forward_indexes) # 打乱index
+    backward_indexes = np.argsort(forward_indexes) # 得到原来index的位置，方便进行还原
+    return forward_indexes, backward_indexes
+
+def take_indexes(sequences, indexes):
+    return torch.gather(sequences, 0, repeat(indexes, 't b -> t b c', c=sequences.shape[-1]))
+
+class PatchShuffle(torch.nn.Module):
+    def __init__(self, ratio) -> None:
+        super().__init__()
+        self.ratio = ratio 
+
+    def forward(self, patches : torch.Tensor):
+        T, B, C = patches.shape # length, batch, dim
+        remain_T = int(T * (1 - self.ratio))
+
+        indexes = [random_indexes(T) for _ in range(B)]
+        forward_indexes = torch.as_tensor(np.stack([i[0] for i in indexes], axis=-1), dtype=torch.long).to(patches.device)
+        backward_indexes = torch.as_tensor(np.stack([i[1] for i in indexes], axis=-1), dtype=torch.long).to(patches.device)
+
+        patches = take_indexes(patches, forward_indexes) # 随机打乱了数据的patch，这样所有的patch都被打乱了
+        patches = patches[:remain_T] #得到未mask的pacth [T*0.25, B, C]
+
+        return patches, forward_indexes, backward_indexes
+
+class MAE_Encoder(torch.nn.Module):
+    def __init__(self,
+                 image_size=32,
+                 patch_size=2,
+                 emb_dim=192,
+                 num_layer=12,
+                 num_head=3,
+                 mask_ratio=0.75,
+                 ) -> None:
+        super().__init__()
+
+        self.cls_token = torch.nn.Parameter(torch.zeros(1, 1, emb_dim)) 
+        self.pos_embedding = torch.nn.Parameter(torch.zeros((image_size // patch_size) ** 2, 1, emb_dim))
+        
+        # 对patch进行shuffle 和 mask
+        self.shuffle = PatchShuffle(mask_ratio)
+        
+        # 这里得到一个 (3, dim, patch, patch)
+        self.patchify = torch.nn.Conv2d(3, emb_dim, patch_size, patch_size)
+
+        self.transformer = torch.nn.Sequential(*[Block(emb_dim, num_head) for _ in range(num_layer)])
+        
+        # ViT的laynorm
+        self.layer_norm = torch.nn.LayerNorm(emb_dim)
+
+        self.init_weight()
+        
+    # 初始化类别编码和向量编码
+    def init_weight(self):
+        trunc_normal_(self.cls_token, std=.02)
+        trunc_normal_(self.pos_embedding, std=.02)
+
+    def forward(self, img):
+        patches = self.patchify(img)
+        patches = rearrange(patches, 'b c h w -> (h w) b c')
+        patches = patches + self.pos_embedding
+
+        patches, forward_indexes, backward_indexes = self.shuffle(patches)
+
+        patches = torch.cat([self.cls_token.expand(-1, patches.shape[1], -1), patches], dim=0)
+        patches = rearrange(patches, 't b c -> b t c')
+        features = self.layer_norm(self.transformer(patches))
+        features = rearrange(features, 'b t c -> t b c')
+
+        return features, backward_indexes
+
+class MAE_Decoder(torch.nn.Module):
+    def __init__(self,
+                 image_size=32,
+                 patch_size=2,
+                 emb_dim=192,
+                 num_layer=4,
+                 num_head=3,
+                 ) -> None:
+        super().__init__()
+
+        self.mask_token = torch.nn.Parameter(torch.zeros(1, 1, emb_dim))
+        self.pos_embedding = torch.nn.Parameter(torch.zeros((image_size // patch_size) ** 2 + 1, 1, emb_dim))
+
+        self.transformer = torch.nn.Sequential(*[Block(emb_dim, num_head) for _ in range(num_layer)])
+
+        self.head = torch.nn.Linear(emb_dim, 3 * patch_size ** 2)
+        self.patch2img = Rearrange('(h w) b (c p1 p2) -> b c (h p1) (w p2)', p1=patch_size, p2=patch_size, h=image_size//patch_size)
+
+        self.init_weight()
+
+    def init_weight(self):
+        trunc_normal_(self.mask_token, std=.02)
+        trunc_normal_(self.pos_embedding, std=.02)
+
+    def forward(self, features, backward_indexes):
+        T = features.shape[0]
+        backward_indexes = torch.cat([torch.zeros(1, backward_indexes.shape[1]).to(backward_indexes), backward_indexes + 1], dim=0)
+        features = torch.cat([features, self.mask_token.expand(backward_indexes.shape[0] - features.shape[0], features.shape[1], -1)], dim=0)
+        features = take_indexes(features, backward_indexes)
+        features = features + self.pos_embedding # 加上了位置编码的信息
+
+        features = rearrange(features, 't b c -> b t c')
+        features = self.transformer(features)
+        features = rearrange(features, 'b t c -> t b c') 
+        features = features[1:] # remove global feature 去掉全局信息，得到图像信息
+
+        patches = self.head(features) # 用head得到patchs
+        mask = torch.zeros_like(patches) 
+        mask[T:] = 1  # mask其他的像素全部设为 1
+        mask = take_indexes(mask, backward_indexes[1:] - 1)
+        img = self.patch2img(patches) # 得到 重构之后的 img
+        mask = self.patch2img(mask)
+
+        return img, mask
+
+class MAE_ViT(torch.nn.Module):
+    def __init__(self,
+                 image_size=32,
+                 patch_size=2,
+                 emb_dim=192,
+                 encoder_layer=12,
+                 encoder_head=3,
+                 decoder_layer=4,
+                 decoder_head=3,
+                 mask_ratio=0.75,
+                 ) -> None:
+        super().__init__()
+
+        self.encoder = MAE_Encoder(image_size, patch_size, emb_dim, encoder_layer, encoder_head, mask_ratio)
+        self.decoder = MAE_Decoder(image_size, patch_size, emb_dim, decoder_layer, decoder_head)
+
+    def forward(self, img):
+        features, backward_indexes = self.encoder(img)
+        predicted_img, mask = self.decoder(features,  backward_indexes)
+        return predicted_img, mask
+
+class ViT_Classifier(torch.nn.Module):
+    def __init__(self, encoder : MAE_Encoder, num_classes=10) -> None:
+        super().__init__()
+        self.cls_token = encoder.cls_token
+        self.pos_embedding = encoder.pos_embedding
+        self.patchify = encoder.patchify
+        self.transformer = encoder.transformer
+        self.layer_norm = encoder.layer_norm
+        self.head = torch.nn.Linear(self.pos_embedding.shape[-1], num_classes)
+
+    def forward(self, img):
+        patches = self.patchify(img)
+        patches = rearrange(patches, 'b c h w -> (h w) b c')
+        patches = patches + self.pos_embedding
+        patches = torch.cat([self.cls_token.expand(-1, patches.shape[1], -1), patches], dim=0)
+        patches = rearrange(patches, 't b c -> b t c')
+        features = self.layer_norm(self.transformer(patches))
+        features = rearrange(features, 'b t c -> t b c')
+        logits = self.head(features[0])
+        return logits
+
+
+if __name__ == '__main__':
+    shuffle = PatchShuffle(0.75)
+    a = torch.rand(16, 2, 10)
+    b, forward_indexes, backward_indexes = shuffle(a)
+    print(b.shape)
+
+    img = torch.rand(2, 3, 32, 32)
+    encoder = MAE_Encoder()
+    decoder = MAE_Decoder()
+    features, backward_indexes = encoder(img)
+    print(forward_indexes.shape)
+    predicted_img, mask = decoder(features, backward_indexes)
+    print(predicted_img.shape)
+    loss = torch.mean((predicted_img - img) ** 2 * mask / 0.75)