[pre-commit.ci] auto fixes from pre-commit.com hooks

pre-commit-ci[bot] · pre-commit-ci[bot] · commit ab91a06a57f4 · 2025-02-06T08:54:17.000Z
for more information, see https://pre-commit.ci
diff --git a/colossalai/shardformer/modeling/deepseek_v3.py b/colossalai/shardformer/modeling/deepseek_v3.py
@@ -1,20 +1,7 @@
-import warnings
-from typing import List, Optional, Tuple, Union
-
 import numpy as np
 import torch
 import torch.distributed as dist
-import torch.functional as F
 from torch.distributed import ProcessGroup
-from torch.nn import CrossEntropyLoss
-from transformers.cache_utils import Cache, DynamicCache
-from transformers.modeling_attn_mask_utils import (
-    _prepare_4d_causal_attention_mask,
-    _prepare_4d_causal_attention_mask_for_sdpa,
-)
-from transformers.modeling_outputs import BaseModelOutputWithPast, CausalLMOutputWithPast
-from transformers.models.llama.modeling_llama import apply_rotary_pos_emb
-from transformers.utils import is_flash_attn_2_available, logging
 
 from colossalai.lazy import LazyInitContext
 from colossalai.moe._operation import (
@@ -24,18 +11,8 @@
     EPGradScalerOut,
     all_to_all_uneven,
 )
-from colossalai.pipeline.stage_manager import PipelineStageManager
-from colossalai.quantization.fp8 import all_reduce_fp8
-from colossalai.shardformer.layer._operation import (
-    all_to_all_comm,
-    gather_forward_split_backward,
-    linear_with_async_comm,
-    split_forward_gather_backward,
-)
-from colossalai.shardformer.layer.linear import Linear1D_Col, Linear1D_Row, ParallelModule
-from colossalai.shardformer.shard import ShardConfig
+from colossalai.shardformer.layer.linear import ParallelModule
 from colossalai.shardformer.shard.utils import set_tensors_to_none
-from colossalai.tensor.d_tensor.api import shard_rowwise, sharded_tensor_to_existing_param
 from colossalai.tensor.moe_tensor.api import set_moe_tensor_ep_group
 
 
diff --git a/colossalai/shardformer/policies/deepseek_v3.py b/colossalai/shardformer/policies/deepseek_v3.py
@@ -1,4 +1,4 @@
-from typing import Callable, Dict, List, Union
+from typing import Dict, Union
 
 import torch.nn as nn
 
diff --git a/tests/test_shardformer/test_model/test_shard_deepseek_v3.py b/tests/test_shardformer/test_model/test_shard_deepseek_v3.py
@@ -1,34 +1,20 @@
-import os
-import shutil
-from copy import deepcopy
 from typing import Tuple
 
 import pytest
 import torch
 import torch.distributed
 import torch.distributed as dist
 from torch.testing import assert_close
-from transformers import AutoConfig, AutoModel
 
 import colossalai
-from colossalai.booster.booster import Booster
 from colossalai.booster.plugin import MoeHybridParallelPlugin
 from colossalai.booster.plugin.moe_hybrid_parallel_plugin import MoeHybridParallelPlugin
-from colossalai.shardformer.layer.utils import Randomizer
-from colossalai.tensor.moe_tensor.api import is_moe_tensor
 from colossalai.testing import parameterize, rerun_if_address_is_in_use, spawn
 from colossalai.testing.random import seed_all
 from tests.kit.model_zoo import model_zoo
-from tests.test_moe.moe_utils import assert_loose_close, check_model_equal
 from tests.test_shardformer.test_model._utils import (
     build_model_from_hybrid_plugin,
-    check_all_grad_tensors,
-    check_loss,
-    check_output_hidden_state,
-    check_weight,
-    get_grad_tensors_for_check,
     run_forward_backward_with_hybrid_plugin,
-    unwrap_model,
 )
 
 

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-from typing import Callable, Dict, List, Union`
	`1`	`+from typing import Dict, Union`
`2`	`2`
`3`	`3`	`import torch.nn as nn`
`4`	`4`