Merge branch 'master' into fix/20972-mlflow-logger-windows-uri-from-master

littlebullGit · web-flow · commit a404940baed2 · 2025-08-13T18:24:10.000-04:00
diff --git a/.azure/gpu-benchmarks.yml b/.azure/gpu-benchmarks.yml
@@ -46,7 +46,7 @@ jobs:
     variables:
       DEVICES: $( python -c 'print("$(Agent.Name)".split("_")[-1])' )
     container:
-      image: "pytorchlightning/pytorch_lightning:base-cuda-py3.12-torch2.5-cuda12.1.0"
+      image: "pytorchlightning/pytorch_lightning:base-cuda12.6.3-py3.12-torch2.8"
       options: "--gpus=all --shm-size=32g"
     strategy:
       matrix:
diff --git a/.azure/gpu-tests-fabric.yml b/.azure/gpu-tests-fabric.yml
@@ -57,16 +57,16 @@ jobs:
     strategy:
       matrix:
         "Fabric | oldest":
-          image: "pytorchlightning/pytorch_lightning:base-cuda-py3.10-torch2.1-cuda12.1.1"
+          image: "pytorchlightning/pytorch_lightning:base-cuda12.1.1-py3.10-torch2.1"
           PACKAGE_NAME: "fabric"
         "Fabric | latest":
-          image: "pytorchlightning/pytorch_lightning:base-cuda-py3.12-torch2.8-cuda12.6.3"
+          image: "pytorchlightning/pytorch_lightning:base-cuda12.6.3-py3.12-torch2.8"
           PACKAGE_NAME: "fabric"
         #"Fabric | future":
-        #  image: "pytorchlightning/pytorch_lightning:base-cuda-py3.12-torch2.7-cuda12.6.3"
+        #  image: "pytorchlightning/pytorch_lightning:base-cuda12.6.3-py3.12-torch2.7"
         #  PACKAGE_NAME: "fabric"
         "Lightning | latest":
-          image: "pytorchlightning/pytorch_lightning:base-cuda-py3.12-torch2.8-cuda12.6.3"
+          image: "pytorchlightning/pytorch_lightning:base-cuda12.6.3-py3.12-torch2.8"
           PACKAGE_NAME: "lightning"
     workspace:
       clean: all
diff --git a/.azure/gpu-tests-pytorch.yml b/.azure/gpu-tests-pytorch.yml
@@ -50,16 +50,16 @@ jobs:
     strategy:
       matrix:
         "PyTorch | oldest":
-          image: "pytorchlightning/pytorch_lightning:base-cuda-py3.10-torch2.1-cuda12.1.1"
+          image: "pytorchlightning/pytorch_lightning:base-cuda12.1.1-py3.10-torch2.1"
           PACKAGE_NAME: "pytorch"
         "PyTorch | latest":
-          image: "pytorchlightning/pytorch_lightning:base-cuda-py3.12-torch2.8-cuda12.6.3"
+          image: "pytorchlightning/pytorch_lightning:base-cuda12.6.3-py3.12-torch2.8"
           PACKAGE_NAME: "pytorch"
         #"PyTorch | future":
-        #  image: "pytorchlightning/pytorch_lightning:base-cuda-py3.12-torch2.7-cuda12.6.3"
+        #  image: "pytorchlightning/pytorch_lightning:base-cuda12.6.3-py3.12-torch2.7"
         #  PACKAGE_NAME: "pytorch"
         "Lightning | latest":
-          image: "pytorchlightning/pytorch_lightning:base-cuda-py3.12-torch2.8-cuda12.6.3"
+          image: "pytorchlightning/pytorch_lightning:base-cuda12.6.3-py3.12-torch2.8"
           PACKAGE_NAME: "lightning"
     pool: lit-rtx-3090
     variables:
diff --git a/.lightning/workflows/fabric.yml b/.lightning/workflows/fabric.yml
@@ -10,13 +10,13 @@ parametrize:
   matrix: {}
   include:
     # note that this is setting also all oldest requirements which is linked to Torch == 2.0
-    - image: "pytorchlightning/pytorch_lightning:base-cuda-py3.10-torch2.1-cuda12.1.1"
+    - image: "pytorchlightning/pytorch_lightning:base-cuda12.1.1-py3.10-torch2.1"
       PACKAGE_NAME: "fabric"
-    - image: "pytorchlightning/pytorch_lightning:base-cuda-py3.12-torch2.7-cuda12.6.3"
+    - image: "pytorchlightning/pytorch_lightning:base-cuda12.6.3-py3.12-torch2.7"
       PACKAGE_NAME: "fabric"
-    # - image: "pytorchlightning/pytorch_lightning:base-cuda-py3.12-torch2.7-cuda12.6.3"
+    # - image: "pytorchlightning/pytorch_lightning:base-cuda12.6.3-py3.12-torch2.7"
     #   PACKAGE_NAME: "fabric"
-    - image: "pytorchlightning/pytorch_lightning:base-cuda-py3.12-torch2.7-cuda12.6.3"
+    - image: "pytorchlightning/pytorch_lightning:base-cuda12.6.3-py3.12-torch2.7"
       PACKAGE_NAME: "lightning"
   exclude: []
 
diff --git a/.lightning/workflows/pytorch.yml b/.lightning/workflows/pytorch.yml
@@ -10,13 +10,13 @@ parametrize:
   matrix: {}
   include:
     # note that this is setting also all oldest requirements which is linked to Torch == 2.0
-    - image: "pytorchlightning/pytorch_lightning:base-cuda-py3.10-torch2.1-cuda12.1.1"
+    - image: "pytorchlightning/pytorch_lightning:base-cuda12.1.1-py3.10-torch2.1"
       PACKAGE_NAME: "pytorch"
-    - image: "pytorchlightning/pytorch_lightning:base-cuda-py3.12-torch2.7-cuda12.6.3"
+    - image: "pytorchlightning/pytorch_lightning:base-cuda12.6.3-py3.12-torch2.7"
       PACKAGE_NAME: "pytorch"
-    # - image: "pytorchlightning/pytorch_lightning:base-cuda-py3.12-torch2.7-cuda12.6.3"
+    # - image: "pytorchlightning/pytorch_lightning:base-cuda12.6.3-py3.12-torch2.7"
     #   PACKAGE_NAME: "pytorch"
-    - image: "pytorchlightning/pytorch_lightning:base-cuda-py3.12-torch2.7-cuda12.6.3"
+    - image: "pytorchlightning/pytorch_lightning:base-cuda12.6.3-py3.12-torch2.7"
       PACKAGE_NAME: "lightning"
   exclude: []
 
diff --git a/dockers/README.md b/dockers/README.md
@@ -11,7 +11,13 @@ git clone https://github.com/Lightning-AI/lightning.git
 docker image build -t pytorch-lightning:latest -f dockers/base-cuda/Dockerfile .
 
 # build with specific arguments
-docker image build -t pytorch-lightning:base-cuda-py3.9-torch1.13-cuda11.7.1 -f dockers/base-cuda/Dockerfile --build-arg PYTHON_VERSION=3.9 --build-arg PYTORCH_VERSION=1.13 --build-arg CUDA_VERSION=11.7.1 .
+docker image build \
+  -t pytorch-lightning:base-cuda12.6.3-py3.10-torch2.8 \
+  -f dockers/base-cuda/Dockerfile \
+  --build-arg PYTHON_VERSION=3.10 \
+  --build-arg PYTORCH_VERSION=2.8 \
+  --build-arg CUDA_VERSION=12.6.3 \
+  .
 ```
 
 To run your docker use
@@ -45,18 +51,18 @@ sudo systemctl restart docker
 and later run the docker image with `--gpus all`. For example,
 
 ```
-docker run --rm -it --gpus all pytorchlightning/pytorch_lightning:base-cuda-py3.9-torch1.13-cuda11.7.1
+docker run --rm -it --gpus all pytorchlightning/pytorch_lightning:base-cuda12.6.3-py3.10-torch2.8
 ```
 
 ## Run Jupyter server
 
 1. Build the docker image:
    ```bash
-   docker image build -t pytorch-lightning:v1.6.5 -f dockers/nvidia/Dockerfile --build-arg LIGHTNING_VERSION=1.6.5 .
+   docker image build -t pytorch-lightning:v2.5.1 -f dockers/nvidia/Dockerfile --build-arg LIGHTNING_VERSION=2.5.1 .
    ```
 1. start the server and map ports:
    ```bash
-   docker run --rm -it --gpus=all -p 8888:8888 pytorch-lightning:v1.6.5
+   docker run --rm -it --gpus=all -p 8888:8888 pytorch-lightning:v2.5.1
    ```
 1. Connect in local browser:
    - copy the generated path e.g. `http://hostname:8888/?token=0719fa7e1729778b0cec363541a608d5003e26d4910983c6`
diff --git a/dockers/release/Dockerfile b/dockers/release/Dockerfile
@@ -16,7 +16,7 @@ ARG PYTHON_VERSION=3.10
 ARG PYTORCH_VERSION=2.8
 ARG CUDA_VERSION=12.6.3
 
-FROM pytorchlightning/pytorch_lightning:base-cuda-py${PYTHON_VERSION}-torch${PYTORCH_VERSION}-cuda${CUDA_VERSION}
+FROM pytorchlightning/pytorch_lightning:base-cuda${CUDA_VERSION}-py${PYTHON_VERSION}-torch${PYTORCH_VERSION}
 
 LABEL maintainer="Lightning-AI <https://github.com/Lightning-AI>"
 
diff --git a/docs/source-pytorch/accelerators/gpu_intermediate.rst b/docs/source-pytorch/accelerators/gpu_intermediate.rst
@@ -59,7 +59,7 @@ variables:
     MASTER_ADDR=localhost MASTER_PORT=random() WORLD_SIZE=3 NODE_RANK=0 LOCAL_RANK=1 python my_file.py --accelerator 'gpu' --devices 3 --etc
     MASTER_ADDR=localhost MASTER_PORT=random() WORLD_SIZE=3 NODE_RANK=0 LOCAL_RANK=2 python my_file.py --accelerator 'gpu' --devices 3 --etc
 
-Using DDP this way has a few disadvantages over ``torch.multiprocessing.spawn()``:
+Using DDP this way has a few advantages over ``torch.multiprocessing.spawn()``:
 
 1. All processes (including the main process) participate in training and have the updated state of the model and Trainer state.
 2. No multiprocessing pickle errors
diff --git a/docs/source-pytorch/model/manual_optimization.rst b/docs/source-pytorch/model/manual_optimization.rst
@@ -204,7 +204,6 @@ Here is an example training a simple GAN with multiple optimizers using manual o
             d_opt = torch.optim.Adam(self.D.parameters(), lr=1e-5)
             return g_opt, d_opt
 
-
 Learning Rate Scheduling
 ========================
 
@@ -230,6 +229,10 @@ Here is an example calling ``lr_scheduler.step()`` every step.
         super().__init__()
         self.automatic_optimization = False
 
+    def configure_optimizers(self):
+        optimizer = torch.optim.Adam(self.parameters(), lr=1e-3)
+        scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=10, gamma=0.1)
+        return [optimizer], [scheduler]
 
     def training_step(self, batch, batch_idx):
         # do forward, backward, and optimization
@@ -252,6 +255,11 @@ If you want to call ``lr_scheduler.step()`` every ``N`` steps/epochs, do the fol
         super().__init__()
         self.automatic_optimization = False
 
+    def configure_optimizers(self):
+        optimizer = torch.optim.Adam(self.parameters(), lr=1e-3)
+        scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=10, gamma=0.1)
+        return [optimizer], [scheduler]
+
 
     def training_step(self, batch, batch_idx):
         # do forward, backward, and optimization
@@ -275,13 +283,22 @@ If you want to call schedulers that require a metric value after each epoch, con
         super().__init__()
         self.automatic_optimization = False
 
+    def configure_optimizers(self):
+        optimizer = torch.optim.Adam(self.parameters(), lr=1e-3)
+        scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10)
+        return [optimizer], [scheduler]
 
     def on_train_epoch_end(self):
         sch = self.lr_schedulers()
 
-        # If the selected scheduler is a ReduceLROnPlateau scheduler.
-        if isinstance(sch, torch.optim.lr_scheduler.ReduceLROnPlateau):
-            sch.step(self.trainer.callback_metrics["loss"])
+        sch.step(self.trainer.callback_metrics["loss"])
+
+.. note::
+    :meth:`~lightning.pytorch.core.LightningModule.configure_optimizers` supports 6 different ways to define and return
+    optimizers and learning rate schedulers. Regardless of the way you define them, `self.optimizers()` will always return
+    either a single optimizer if you defined a single optimizer, or a list of optimizers if you defined multiple
+    optimizers. The same applies to the `self.lr_schedulers()` method, which will return a single scheduler
+    if you defined a single scheduler, or a list of schedulers if you defined multiple schedulers
 
 
 Optimizer Steps at Different Frequencies
diff --git a/tests/legacy/back-compatible-versions.txt b/tests/legacy/back-compatible-versions.txt
@@ -106,3 +106,4 @@
 2.3.3
 2.5.1
 2.5.2
+2.5.3
diff --git a/tests/tests_pytorch/tuner/test_lr_finder.py b/tests/tests_pytorch/tuner/test_lr_finder.py
@@ -600,10 +600,9 @@ def configure_optimizers(self):
     # Verify learning rate finder ran and has results
     assert lr_finder_callback.optimal_lr is not None, "Learning rate finder should have results"
     suggestion = lr_finder_callback.optimal_lr.suggestion()
-    if suggestion is None:
-        pytest.xfail("Not enough points to compute learning rate suggestion")
-    assert suggestion > 0, "Learning rate suggestion should be positive"
 
+    if suggestion is not None:
+        assert suggestion > 0, "Learning rate suggestion should be positive"
 
 def test_gradient_correctness():
     """Test that torch.gradient uses correct spacing parameter."""

-Original file line number
+Diff line change
 .3.3
 .5.1
 .5.2
 +2.5.3