diff --git a/Dockerfile b/Dockerfile
index 526026fa..abb0759b 100644
--- a/Dockerfile
+++ b/Dockerfile
@@ -29,8 +29,9 @@ ENV PIP_CONSTRAINT=""
 # There is no pre-build mamba image for pytorch 2.8, we build it before the rest to avoid rebuilds.
 # We need to compile from the repo because of https://github.com/state-spaces/mamba/issues/720 (same for causal-conv1d)
 # We set the number of workers to avoid OOM when compiling on laptop. (TODO: Can we make it configurable?)
+# Using varlen_mamba for variable length sequence support
 RUN MAX_JOBS=2 pip install --no-build-isolation  "causal-conv1d@git+https://github.com/Dao-AILab/causal-conv1d@2a288a1"
-RUN MAX_JOBS=2 pip install --no-build-isolation "mamba_ssm[causal-conv1d]@git+https://github.com/state-spaces/mamba@4a8a2a2"
+RUN MAX_JOBS=2 pip install --no-build-isolation "mamba_ssm[causal-conv1d]@git+https://github.com/jxiw/varlen_mamba@varlen_mamba"
 # Copy dependency files with universal write permissions for all users.
 COPY --chmod=777 setup.py setup.cfg pyproject.toml ./
 COPY --chmod=777 ./fast_llm_external_models/__init__.py fast_llm_external_models/
@@ -38,7 +39,7 @@ COPY --chmod=777 ./fast_llm/__init__.py fast_llm/
 COPY --chmod=777 ./fast_llm/csrc/ fast_llm/csrc/
 
 # Install dependencies within the virtual environment.
-RUN pip install --no-cache-dir --no-build-isolation -e ".[CORE,OPTIONAL,HUGGINGFACE,SSM,GENERATION,DEV]" triton==3.1.0
+RUN pip install --no-cache-dir --no-build-isolation -e ".[CORE,OPTIONAL,HUGGINGFACE,SSM,VISION,GENERATION,DEV]" triton==3.1.0
 
 # Copy the remaining source code with universal write permissions.
 COPY --chmod=777 ./Megatron-LM Megatron-LM
diff --git a/fast_llm/data/data/gpt/data.py b/fast_llm/data/data/gpt/data.py
index 6724afb5..9df9b9b8 100644
--- a/fast_llm/data/data/gpt/data.py
+++ b/fast_llm/data/data/gpt/data.py
@@ -32,6 +32,8 @@ class GPTBatch:
     token_ids: torch.Tensor
     loss_masking_spans: list[torch.Tensor] | None = None
     sequence_lengths: list[torch.Tensor] | None = None
+    images: list[torch.Tensor] | None = None
+    image_positions: list[torch.Tensor] | None = None
     chosen_spans: list[torch.Tensor] | None = None
     rejected_spans: list[torch.Tensor] | None = None
 
@@ -49,12 +51,28 @@ def gpt_data_collate_fn(batch: list[GPTSample], sampling_parameters: GPTSampling
         stacked_rejected_spans = [torch.from_numpy(sample.rejected_span) for sample in batch]
     if not sampling_parameters.cross_document_attention:
         sequence_lengths = [torch.tensor(sample.sequence_lengths) for sample in batch]
+    has_images = False
+    batch_images = []
+    for sample in batch:
+        if sample.images is not None:
+            batch_images.append([torch.from_numpy(image) for image in sample.images])
+            has_images = True
+        else:
+            batch_images.append([])
+    batch_image_positions = []
+    for sample in batch:
+        if sample.image_positions is not None:
+            batch_image_positions.append(torch.from_numpy(sample.image_positions))
+        else:
+            batch_image_positions.append([])
     return GPTBatch(
         token_ids=torch.from_numpy(stacked_ids),
         loss_masking_spans=stacked_spans,
         sequence_lengths=sequence_lengths,
         chosen_spans=stacked_chosen_spans,
         rejected_spans=stacked_rejected_spans,
+        images=batch_images if has_images else None,
+        image_positions=batch_image_positions if has_images else None,
     )
 
 
diff --git a/fast_llm/data/dataset/gpt/config.py b/fast_llm/data/dataset/gpt/config.py
index 656cd7d2..8835480a 100644
--- a/fast_llm/data/dataset/gpt/config.py
+++ b/fast_llm/data/dataset/gpt/config.py
@@ -72,6 +72,10 @@ class GPTSamplingParameters(SamplingParameters):
     use_preference_loss_spans: bool = False
     cross_document_attention: bool = True
     truncate_documents: bool = True
+    patch_size: int | None = None
+    max_image_size: int | None = None
+    image_break_token: int | None = None
+    image_end_token: int | None = None
     # How many extra tokens to add to the sequence length.
     # This is used to provide labels even for the last tokens in the sequence.
     extra_tokens: int = 1
@@ -138,11 +142,18 @@ class GPTMemmapDatasetConfig(GPTIndexedDatasetConfig):
         desc="Expected number of tokens in the dataset.",
         hint=FieldHint.optional,
     )
+    num_pixels: int | None = Field(
+        default=None,
+        desc="Expected number of pixels in the dataset.",
+        hint=FieldHint.optional,
+    )
 
     def build(self) -> "GPTMemmapDataset":
         from fast_llm.data.dataset.gpt.memmap import GPTMemmapDataset
 
-        return GPTMemmapDataset(str(self.path).replace("/", "__"), self.path, self.num_documents, self.num_tokens)
+        return GPTMemmapDataset(
+            str(self.path).replace("/", "__"), self.path, self.num_documents, self.num_tokens, self.num_pixels
+        )
 
 
 @config_class(dynamic_type={GPTSampledDatasetConfig: "concatenated"})
diff --git a/fast_llm/data/dataset/gpt/fim.py b/fast_llm/data/dataset/gpt/fim.py
index 2b2c8b3b..b05b79b2 100644
--- a/fast_llm/data/dataset/gpt/fim.py
+++ b/fast_llm/data/dataset/gpt/fim.py
@@ -158,9 +158,9 @@ def _fim_permute_sequence(
         middle = contents[boundaries[0] : boundaries[1]]
         suffix = contents[boundaries[1] :]
 
-        prefix = np.array([*self._tokenizer.tokenize(prefix, end=False)], dtype=np.int64)
-        middle = np.array([*self._tokenizer.tokenize(middle, begin=False, end=False)], dtype=np.int64)
-        suffix = np.array([*self._tokenizer.tokenize(suffix, begin=False)], dtype=np.int64)
+        prefix = np.array([*self._tokenizer._tokenize(prefix, end=False)], dtype=np.int64)
+        middle = np.array([*self._tokenizer._tokenize(middle, begin=False, end=False)], dtype=np.int64)
+        suffix = np.array([*self._tokenizer._tokenize(suffix, begin=False)], dtype=np.int64)
 
         # here we truncate each given segment to fit the same length as it was before
         # A consequence is that we never reach the end of a file?
diff --git a/fast_llm/data/dataset/gpt/indexed.py b/fast_llm/data/dataset/gpt/indexed.py
index 89622977..b069e36e 100644
--- a/fast_llm/data/dataset/gpt/indexed.py
+++ b/fast_llm/data/dataset/gpt/indexed.py
@@ -30,6 +30,14 @@ def sample(self, sampling: GPTSamplingData) -> "GPTSampledIndexedDataset":
 
         return GPTSampledIndexedDataset(self, sampling)
 
+    @property
+    @abc.abstractmethod
+    def has_images(self) -> bool:
+        """
+        Whether the dataset contains images.
+        This is used to determine whether to use image-related fields in the sampled data.
+        """
+
 
 class GPTDatasetSlice[IndexedDatasetType: GPTIndexedDataset](DatasetSlice[IndexedDatasetType], GPTIndexedDataset):
     """
@@ -40,11 +48,16 @@ class GPTDatasetSlice[IndexedDatasetType: GPTIndexedDataset](DatasetSlice[Indexe
 
     def get_document_sizes(self) -> np.ndarray:
         # TODO: This can be really big.
-        return self._dataset.get_document_sizes()[self._begin : self._end]
+        doc_sizes, im_sizes = self._dataset.get_document_sizes()
+        return doc_sizes[self._begin : self._end], im_sizes[self._begin : self._end] if im_sizes else np.array([])
 
     def get_document_size(self, index: int) -> int:
         return self._dataset.get_document_size(self._begin + index)
 
+    @property
+    def has_images(self) -> bool:
+        return self._dataset.has_images
+
 
 class GPTConcatenatedDataset[IndexedDatasetType: GPTIndexedDataset](
     ConcatenatedDataset[IndexedDatasetType], GPTIndexedDataset
@@ -53,8 +66,17 @@ class GPTConcatenatedDataset[IndexedDatasetType: GPTIndexedDataset](
 
     def get_document_sizes(self) -> np.ndarray:
         # TODO: This can be really big.
-        return np.concatenate([dataset.get_document_sizes() for dataset in self._datasets])
+        # return np.concatenate([dataset.get_document_sizes() for dataset in self._datasets])
+        sizes = [dataset.get_document_sizes() for dataset in self._datasets]
+        return (
+            np.concatenate([size[0] for size in sizes]),
+            np.concatenate([size[1] for size in sizes]) if sizes[0][1] is not None else np.array([]),
+        )
 
     def get_document_size(self, index: int) -> int:
         dataset = np.searchsorted(self._dataset_splits[1:], index, side="right")
         return self._datasets[dataset].get_document_size(index - self._dataset_splits[dataset].item())
+
+    @property
+    def has_images(self) -> bool:
+        return any(dataset.has_images for dataset in self._datasets)
diff --git a/fast_llm/data/dataset/gpt/memmap.py b/fast_llm/data/dataset/gpt/memmap.py
index f39fd56f..4f62561a 100644
--- a/fast_llm/data/dataset/gpt/memmap.py
+++ b/fast_llm/data/dataset/gpt/memmap.py
@@ -1,8 +1,10 @@
+import io
 import pathlib
 import struct
 import typing
 
 import numpy as np
+import PIL.Image
 
 from fast_llm.data.dataset.gpt.indexed import GPTIndexedDataset
 from fast_llm.data.dataset.gpt.sampled import GPTSample
@@ -26,32 +28,46 @@ def __init__(
         prefix: pathlib.Path | str,
         num_documents: int | None = None,
         num_tokens: int | None = None,
+        num_pixels: int | None = None,
     ):
-        self._init(name, prefix, num_documents, num_tokens)
+        self._init(name, prefix, num_documents, num_tokens, num_pixels)
 
-    def _init(self, name: str, prefix: pathlib.Path | str, num_documents: int | None, num_tokens: int | None) -> None:
+    def _init(
+        self,
+        name: str,
+        prefix: pathlib.Path | str,
+        num_documents: int | None,
+        num_tokens: int | None,
+        num_pixels: int | None,
+    ) -> None:
         super().__init__()
         self._name = name
         self._prefix = pathlib.Path(prefix)
         self._has_spans = 0
+        self._has_images = 0
         self._has_preference_spans = False
 
         with self._prefix.with_suffix(".idx").open("rb") as stream:
             Assert.eq(stream.read(9), MEMMAP_INDEX_HEADER, msg=f"File: {stream.name}")
             self._version = struct.unpack("<Q", stream.read(8))[0]
-            assert self._version in [1, 2, 3], f"Unsupported version for gpt_memmap dataset: {self._version}."
+            assert self._version in [1, 2, 3, 4], f"Unsupported version for gpt_memmap dataset: {self._version}."
             if self._version >= 2:
                 self._has_spans = struct.unpack("<B", stream.read(1))[0]
             if self._version >= 3:
                 self._has_preference_spans = struct.unpack("<B", stream.read(1))[0]
 
+            if self._version >= 4:
+                self._has_images = struct.unpack("<B", stream.read(1))[0]
+
             self._dtype = MEMMAP_DTYPES[struct.unpack("<B", stream.read(1))[0]].numpy
             self._num_documents = struct.unpack("<Q", stream.read(8))[0]
             _ = struct.unpack("<Q", stream.read(8))[0]
             offset = stream.tell()
 
         if num_documents is not None:
-            assert self._num_documents == num_documents
+            assert (
+                self._num_documents == num_documents
+            ), f"Inconsistent num_documents for dataset {self.name} - {self._prefix}. Expected {num_documents}, got {self._num_documents}."
 
         self._index_bin_buffer_mmap = np.memmap(self._prefix.with_suffix(".idx"), mode="r", order="C")
         self._index_bin_buffer = memoryview(self._index_bin_buffer_mmap)
@@ -69,6 +85,7 @@ def _init(self, name: str, prefix: pathlib.Path | str, num_documents: int | None
             offset=offset + self._document_sizes.nbytes,
         )
 
+        offset += self._document_sizes.nbytes + self._pointers.nbytes
         # read spans
         self._spans = None
         if self._has_spans and self._version >= 2:
@@ -77,9 +94,8 @@ def _init(self, name: str, prefix: pathlib.Path | str, num_documents: int | None
                 self._index_bin_buffer,
                 dtype=np.int32,
                 count=self._num_documents,
-                offset=offset + self._document_sizes.nbytes + self._pointers.nbytes,
+                offset=offset,
             )
-            span_offset = offset + self._document_sizes.nbytes + self._pointers.nbytes + self._num_spans.nbytes
             self._num_spans_cumsum = np.r_[0, np.cumsum(self._num_spans[:-1], dtype=np.int64)]
             for idx in range(self._num_documents):
                 self._spans.append(
@@ -87,30 +103,29 @@ def _init(self, name: str, prefix: pathlib.Path | str, num_documents: int | None
                         self._index_bin_buffer,
                         dtype=np.int32,
                         count=self._num_spans[idx] * 2,
-                        offset=span_offset + self._num_spans_cumsum[idx] * 2 * np.dtype(np.int32).itemsize,
+                        offset=offset
+                        + self._num_spans.nbytes
+                        + self._num_spans_cumsum[idx] * 2 * np.dtype(np.int32).itemsize,
                     ).reshape(-1, 2)
                 )
-
+            offset += self._num_spans.nbytes + self._num_spans.sum() * 2 * np.dtype(np.int32).itemsize
         # read preference spans
         self._chosen_spans = None
         self._rejected_spans = None
         if self._has_preference_spans and self._version >= 3:
             self._chosen_spans = []
             self._rejected_spans = []
-            chosen_span_offset = offset + self._document_sizes.nbytes + self._pointers.nbytes
             for idx in range(self._num_documents):
                 self._chosen_spans.append(
                     np.frombuffer(
                         self._index_bin_buffer,
                         dtype=np.int32,
                         count=2,
-                        offset=chosen_span_offset + idx * 2 * np.dtype(np.int32).itemsize,
+                        offset=offset + idx * 2 * np.dtype(np.int32).itemsize,
                     )
                 )
 
-            rejected_span_offset = (
-                offset + self._document_sizes.nbytes + self._pointers.nbytes + np.array(self._chosen_spans).nbytes
-            )
+            rejected_span_offset = offset + np.array(self._chosen_spans).nbytes
             for idx in range(self._num_documents):
                 self._rejected_spans.append(
                     np.frombuffer(
@@ -120,16 +135,53 @@ def _init(self, name: str, prefix: pathlib.Path | str, num_documents: int | None
                         offset=rejected_span_offset + idx * 2 * np.dtype(np.int32).itemsize,
                     )
                 )
+            offset += np.array(self._chosen_spans).nbytes + np.array(self._rejected_spans).nbytes
+
+        self._num_pixels = 0
+        self._image_sizes = []
+        self._image_positions = None
+        if self._has_images and self._version >= 4:
+            self._n_images = np.frombuffer(
+                self._index_bin_buffer, dtype=np.int32, count=self._num_documents, offset=offset
+            )
+            self._image_sizes = []
+            self._image_positions = []
+            images_seen = 0
+            num_total_images = self._n_images.sum()
+            for n_images in self._n_images:
+                self._image_sizes.append(
+                    np.frombuffer(
+                        self._index_bin_buffer,
+                        dtype=np.int32,
+                        count=n_images * 2,
+                        offset=offset + self._n_images.nbytes + 2 * images_seen * np.dtype(np.int32).itemsize,
+                    ).reshape(-1, 2)
+                )
+                self._num_pixels += self._image_sizes[-1].prod(axis=1, initial=3).sum()
+                self._image_positions.append(
+                    np.frombuffer(
+                        self._index_bin_buffer,
+                        dtype=np.int32,
+                        count=n_images,
+                        offset=offset
+                        + self._n_images.nbytes
+                        + 2 * num_total_images * np.dtype(np.int32).itemsize
+                        + +images_seen * np.dtype(np.int32).itemsize,
+                    )
+                )
+                images_seen += n_images
 
         self._bin_buffer_mmap = np.memmap(self._prefix.with_suffix(".bin"), mode="r", order="C")
         self._bin_buffer = memoryview(self._bin_buffer_mmap)
 
-        self._num_tokens = div(self._bin_buffer_mmap.size, np.dtype(self._dtype).itemsize)
+        self._num_tokens = div(self._bin_buffer_mmap.size - self._num_pixels, np.dtype(self._dtype).itemsize)
+        if num_pixels is not None:
+            assert self._num_pixels == num_pixels
         if num_tokens is not None:
             assert self._num_tokens == num_tokens
 
     def __getstate__(self) -> tuple[str, pathlib.Path, int | None, int | None]:
-        return (self._name, self._prefix, self._num_documents, self._num_tokens)
+        return (self._name, self._prefix, self._num_documents, self._num_tokens, self._num_pixels)
 
     def __setstate__(self, state: tuple[str, pathlib.Path, int | None, int | None]):
         self._init(*state)
@@ -156,6 +208,24 @@ def get(
             count=self._document_sizes[idx] - offset if length is None else length,
             offset=self._pointers[idx] + offset * np.dtype(self._dtype).itemsize,
         )
+        images = None
+        image_positions = None
+        if self._has_images:
+            image_positions = self._image_positions[idx]
+
+            # Truncations with images are not yet supported, so we get all images from the document
+            pixels = np.frombuffer(
+                self._bin_buffer,
+                dtype=np.dtype(np.uint8),
+                count=self._image_sizes[idx].prod(initial=3, axis=1).sum(),
+                offset=self._pointers[idx] + self._document_sizes[idx] * np.dtype(self._dtype).itemsize,
+            )
+            images = []
+            start = 0
+            for image_size in self._image_sizes[idx]:
+                n_pixels = image_size.prod(initial=3)
+                images.append(pixels[start : start + n_pixels].reshape(3, image_size[0], image_size[1]))
+                start += n_pixels
         sample_spans = None
         if use_loss_masking_spans and self._spans is not None:
             sample_spans = self._spans[idx]
@@ -202,6 +272,8 @@ def get(
 
         return GPTSample(
             token_ids=token_ids,
+            images=images,
+            image_positions=image_positions,
             loss_masking_spans=sample_spans,
             chosen_span=chosen_span,
             rejected_span=rejected_span,
@@ -218,23 +290,31 @@ def __len__(self) -> int:
     def num_tokens(self) -> int:
         return self._num_tokens
 
-    def get_document_sizes(self) -> np.ndarray:
+    @property
+    def has_images(self) -> bool:
+        return self._has_images
+
+    def get_document_sizes(self) -> tuple[np.ndarray, np.ndarray]:
         """
         The size of each document in the dataset.
         The resulting array could be very large, so this method should be called cautiously,
         and derived classes should try to avoid holding the whole array im memory.
         """
-        return self._document_sizes
+        return self._document_sizes, self._image_sizes
 
     def get_document_size(self, index: int) -> int:
-        return self._document_sizes[index].item()
+        return self._document_sizes[index].item(), self._image_sizes[index] if self._has_images else []
 
     @classmethod
     def write_dataset(cls, prefix: pathlib.Path | str, documents: typing.Iterable[GPTSample]):
         # Initialize metadata
         dtype = None
         num_documents = 0
-        lengths = []
+        doc_lengths = []
+        n_images = []
+        image_sizes = []
+        im_positions = []
+        total_images = 0
         pointers = []
         offset = 0
         # number of spans for each document
@@ -259,10 +339,28 @@ def write_dataset(cls, prefix: pathlib.Path | str, documents: typing.Iterable[GP
 
                 # Write document to binary file
                 bin_stream.write(document.token_ids.tobytes(order="C"))
+                total_im_size = 0
+                if document.images:
+                    n_images.append(len(document.images))
+                    total_images += len(document.images)
+                    for image in document.images:
+                        # assume 3 channels (RGB) for all images
+                        with PIL.Image.open(io.BytesIO(image["bytes"])) as img:
+                            if img.mode != "RGB":
+                                # Convert all images to RGB
+                                img = img.convert("RGB")
+                            pixels = np.array(img).transpose(2, 0, 1)  # HWC to CHW
+                            assert pixels.dtype == np.uint8, f"Expected uint8 pixels, got {pixels.dtype}."
+                        image_sizes.append(np.array(pixels.shape[1:]))
+                        bin_stream.write(pixels.tobytes(order="C"))
+                        total_im_size += pixels.size
+                    im_positions.extend(document.image_positions)
+                else:
+                    n_images.append(0)
 
                 # Update metadata
                 doc_length = len(document.token_ids)
-                lengths.append(doc_length)
+                doc_lengths.append(doc_length)
                 pointers.append(offset)
                 if document.loss_masking_spans is not None:
                     num_spans.append(len(document.loss_masking_spans))
@@ -271,11 +369,11 @@ def write_dataset(cls, prefix: pathlib.Path | str, documents: typing.Iterable[GP
                     chosen_spans.append(document.chosen_span)
                 if document.rejected_span is not None:
                     rejected_spans.append(document.rejected_span)
-                offset += doc_length * np.dtype(dtype).itemsize
+                offset += doc_length * np.dtype(dtype).itemsize + total_im_size * np.dtype(np.uint8).itemsize
                 num_documents += 1
 
         # Finalize metadata arrays
-        lengths = np.array(lengths, dtype=np.int32)
+        doc_lengths = np.array(doc_lengths, dtype=np.int32)
         pointers = np.array(pointers, dtype=np.int64)
         num_spans = np.array(num_spans, dtype=np.int32)
         if len(spans) > 0:
@@ -285,25 +383,37 @@ def write_dataset(cls, prefix: pathlib.Path | str, documents: typing.Iterable[GP
         chosen_spans = np.array(chosen_spans, dtype=np.int32).reshape(-1, 2)
         rejected_spans = np.array(rejected_spans, dtype=np.int32).reshape(-1, 2)
 
+        if total_images:
+            n_images = np.array(n_images, dtype=np.int32)
+            image_sizes = np.stack(image_sizes, dtype=np.int32)
+            im_positions = np.array(im_positions, dtype=np.int32)
+        else:
+            n_images = np.array([])
+            image_sizes = np.array([])
+            im_positions = np.array([])
+
         # Write the index file (.idx)
         with prefix.with_suffix(".idx").open("wb") as idx_stream:
             idx_stream.write(MEMMAP_INDEX_HEADER)
             # Indicates the version
-            # Version 2 optionally adds loss-masking spans
+            # Version 2 onwards optionally add loss-masking spans
             # Version 3 optionally adds chosen/rejected spans
-            idx_stream.write(struct.pack("<Q", 3))
+            # Version 4 onwards optionally add images
+            idx_stream.write(struct.pack("<Q", 4))
             # Flag to indicate whether loss-masking spans are present
             idx_stream.write(struct.pack("<B", 1 if spans.size > 0 else 0))
             # Flag to indicate whether preference loss-masking spans are present
             idx_stream.write(struct.pack("<B", 1 if chosen_spans.size > 0 and rejected_spans.size > 0 else 0))
+            # Flag to indicate whether images are present
+            idx_stream.write(struct.pack("<B", 1 if total_images > 0 else 0))
             # Data type
             idx_stream.write(struct.pack("<B", MEMMAP_DTYPES_INV[DataType.from_numpy(dtype.type)]))
             # "Number of sequences", same as documents in our case
             idx_stream.write(struct.pack("<Q", num_documents))
             # "Number of documents", needs a +1 for some reason
             idx_stream.write(struct.pack("<Q", num_documents + 1))
-            # Sequence (document) lengths
-            idx_stream.write(lengths.tobytes(order="C"))
+            # Sequence (document) doc_lengths
+            idx_stream.write(doc_lengths.tobytes(order="C"))
             # Sequence (document) begin offsets in the bin file
             idx_stream.write(pointers.tobytes(order="C"))
             # Number of spans per document
@@ -314,5 +424,11 @@ def write_dataset(cls, prefix: pathlib.Path | str, documents: typing.Iterable[GP
             idx_stream.write(chosen_spans.tobytes(order="C"))
             # Rejected indices for each document
             idx_stream.write(rejected_spans.tobytes(order="C"))
+            # Number of images per document
+            idx_stream.write(n_images.tobytes(order="C"))
+            # n_pixels * 3 per image
+            idx_stream.write(image_sizes.tobytes(order="C"))
+            # Position of each image in the document
+            idx_stream.write(im_positions.tobytes(order="C"))
             # Document indices, unused but needed for compatibility with Megatron-LM
             idx_stream.write(np.arange(num_documents + 1, dtype=np.int64).tobytes(order="C"))
diff --git a/fast_llm/data/dataset/gpt/sampled.py b/fast_llm/data/dataset/gpt/sampled.py
index 95006f18..7e25ac59 100644
--- a/fast_llm/data/dataset/gpt/sampled.py
+++ b/fast_llm/data/dataset/gpt/sampled.py
@@ -14,7 +14,8 @@
 from fast_llm.data.dataset.gpt.indexed import GPTIndexedDataset
 from fast_llm.engine.config_utils.data_type import DataType, get_unsigned_integer_type
 from fast_llm.engine.config_utils.run import log_main_rank
-from fast_llm.utils import Assert
+from fast_llm.layers.vision_encoder.preprocessing import get_num_image_tokens, get_resize_dims
+from fast_llm.utils import Assert, div
 
 try:
     from fast_llm.csrc.data import build_padded_token_cumsum  # noqa
@@ -29,6 +30,8 @@
 @dataclasses.dataclass
 class GPTSample:
     token_ids: np.ndarray
+    images: np.ndarray | None = None
+    image_positions: np.ndarray | None = None
     loss_masking_spans: np.ndarray | None = None
     chosen_span: np.ndarray | None = None
     rejected_span: np.ndarray | None = None
@@ -92,6 +95,11 @@ def __init__(
         self._truncate_documents = sampling.parameters.truncate_documents
         self._device = torch.device("cuda" if self._config.gpu else "cpu")
 
+        if self._indexed_dataset.has_images and self._truncate_documents:
+            raise RuntimeError(
+                "Truncating documents with images is not yet supported. Please turn off truncation to use images."
+            )
+
         if sampling.cache_directory is None:
             self._document_shuffling = MemmapArray()
             self._token_cumsum_shuffled = MemmapArray()
@@ -133,9 +141,33 @@ def _sample(self) -> None:
         Create a `GPTSampledDataset` with the requested parameters.
         """
         # Get the document sizes, the main information needed for sampling.
-        document_sizes = torch.from_numpy(self._indexed_dataset.get_document_sizes()).to(self._device)
+        document_sizes, image_sizes = self._indexed_dataset.get_document_sizes()
+        document_sizes = torch.from_numpy(document_sizes).to(self._device)
+        if image_sizes:
+            image_token_sizes = []
+            for i, sizes in enumerate(image_sizes):
+                image_token_sizes.append(
+                    sum(
+                        get_num_image_tokens(
+                            *get_resize_dims(
+                                *size,
+                                self._parameters.max_image_size,
+                                self._parameters.max_image_size,
+                                self._parameters.patch_size,
+                            ),
+                            self._parameters.patch_size,
+                            image_break=self._parameters.image_break_token is not None,
+                            image_end=self._parameters.image_end_token is not None,
+                        )
+                        for size in sizes
+                    )
+                )
+            image_token_sizes = torch.tensor(image_token_sizes).to(self._device)
+        else:
+            image_token_sizes = torch.zeros_like(document_sizes)
+
         documents_per_epoch = document_sizes.numel()
-        tokens_per_epoch = document_sizes.sum().item()
+        tokens_per_epoch = document_sizes.sum().item() + image_token_sizes.sum().item()
 
         # Calculate basic stats.
         if not self._truncate_documents:
@@ -143,14 +175,14 @@ def _sample(self) -> None:
                 "The C++ extension for dataset sampling is missing."
                 " Please make sure Fast-LLM is installed correctly."
             )
-            long_docs_filter = document_sizes > self._parameters.sequence_length + 1
+            long_docs_filter = document_sizes + image_token_sizes > self._parameters.sequence_length + 1
             ignored_documents = long_docs_filter.sum().item()
             if ignored_documents:
                 log_main_rank(
                     f" > {ignored_documents}/{documents_per_epoch} documents are longer than {self._parameters.sequence_length+1} tokens and will be ignored.",
                     log_fn=logger.warning,
                 )
-            tokens_per_epoch = document_sizes[~long_docs_filter].sum().item()
+            tokens_per_epoch = (document_sizes[~long_docs_filter] + image_token_sizes[~long_docs_filter]).sum().item()
             if tokens_per_epoch == 0:
                 raise RuntimeError(
                     f" > No documents shorter than {self._parameters.sequence_length+1} tokens found in dataset {self._indexed_dataset.name}."
@@ -193,7 +225,10 @@ def _sample(self) -> None:
             "num_samples": self._parameters.num_samples,
             "unshuffled_epochs": unshuffled_epochs,
             "sequence_length": self._parameters.sequence_length,
+            "patch_size": self._parameters.patch_size,
             "truncate_documents": self._truncate_documents,
+            "image_break_token": self._parameters.image_break_token,
+            "image_end_token": self._parameters.image_end_token,
             "config": self._config.to_dict(),
         }
         if self._truncate_documents:
@@ -294,7 +329,7 @@ def _sample(self) -> None:
         # Equivalent to `torch.hstack((0, document_sizes[all_document_index].cumsum()[::TOKEN_CUMSUM_RATE]))`
         if unshuffled_epochs > 0:
             token_cumsum_unshuffled, unshuffled_tokens = self._get_token_cumsum(
-                document_sizes,
+                document_sizes + image_token_sizes,
                 offset=0,
                 # TODO: Allowing for max 100% extra tokens for padding, is that enough?
                 dtype=get_unsigned_integer_type((2 - self._truncate_documents) * tokens_per_epoch * num_epochs),
@@ -317,6 +352,9 @@ def _sample(self) -> None:
                     document_shuffling.to(
                         dtype=torch.int64 if document_shuffling.dtype == torch.int64 else torch.int32
                     )
+                ]
+                + image_token_sizes[
+                    document_shuffling.to(torch.int64 if document_shuffling.dtype == torch.int64 else torch.int32)
                 ],
                 offset=self._unshuffled_tokens,
                 # TODO: Allowing for max 100% extra tokens for padding, is that enough?
@@ -442,6 +480,10 @@ def __getitem__(self, index: int) -> typing.Any:
 
         token_ids = []
         loss_masking_spans = []
+        images = []
+        image_positions = []
+        image_tokens_added = 0
+        text_tokens_added = 0
         while token_count < token_end:
             # Find the document index in the dataset.
             if document_sampling_index < self._unshuffled_documents:
@@ -449,7 +491,28 @@ def __getitem__(self, index: int) -> typing.Any:
             else:
                 document_index = self._document_shuffling[document_sampling_index - self._unshuffled_documents].item()
 
-            document_size = self._indexed_dataset.get_document_size(document_index)
+            text_size, image_lengths = self._indexed_dataset.get_document_size(document_index)
+
+            resized_image_lengths = [
+                get_resize_dims(
+                    *image_length,
+                    self._parameters.max_image_size,
+                    self._parameters.max_image_size,
+                    self._parameters.patch_size,
+                )
+                for image_length in image_lengths
+            ]
+            image_sizes = [
+                get_num_image_tokens(
+                    *image_length,
+                    self._parameters.patch_size,
+                    image_break=self._parameters.image_break_token is not None,
+                    image_end=self._parameters.image_end_token is not None,
+                )
+                for image_length in resized_image_lengths
+            ]
+            image_tokens = sum(image_sizes)
+            document_size = text_size + image_tokens
 
             if not self._truncate_documents:
                 if document_size > self._parameters.sequence_length + 1:
@@ -468,21 +531,97 @@ def __getitem__(self, index: int) -> typing.Any:
                     else:
                         # Move on to the next sample.
                         token_count += padding_size
+                        continue
+                elif document_size + tokens_in_sample == self._parameters.sequence_length + 1:
+                    if token_count + document_size == token_start:
+                        token_count += document_size
+                        document_sampling_index += 1
+                        continue
 
             # Determine if the document belongs to the requested sample.
             if token_count + document_size > token_start:
                 # Determine which part of the document belong to the sample, and add it to the list.
                 token_start_index_in_document = max(token_start - token_count, 0)
-                token_end_index_in_document = min(token_end - token_count, document_size)
+                token_end_index_in_document = min(token_end - token_count, text_size)
                 sample = self._indexed_dataset.get(
                     document_index,
                     offset=token_start_index_in_document,
                     length=token_end_index_in_document - token_start_index_in_document,
                     use_loss_masking_spans=self._parameters.use_loss_masking_spans,
                 )
-                token_ids.append(sample.token_ids)
+                start_pos = 0
+                has_images = sample.image_positions is not None
+                if has_images:
+                    sample_token_ids = []
+                    for idx, im_position in enumerate(sample.image_positions):
+                        # add placeholder masked tokens for images
+                        # if image_break_token is set, it is appended after every row
+                        # if image_end_token is set, it is appended at the end of the image instead  of image_break_token
+                        text_part = sample.token_ids[start_pos:im_position]
+                        if self._parameters.image_break_token is not None:
+                            height, width = resized_image_lengths[idx]
+                            num_patches_h = div(height, self._parameters.patch_size)
+                            num_patches_w = div(width, self._parameters.patch_size)
+                            image_token_array = np.full((image_sizes[idx],), -100, dtype=np.int64)
+                            # account for break tokens after each row
+                            for row in range(num_patches_h - 1):
+                                position = (row + 1) * num_patches_w + row
+                                image_token_array[position] = self._parameters.image_break_token
+                            # handle the last row separately
+                            last_row_position = num_patches_h * num_patches_w + num_patches_h - 1
+                            if self._parameters.image_end_token is not None:
+                                image_token_array[last_row_position] = self._parameters.image_end_token
+                            else:
+                                image_token_array[last_row_position] = self._parameters.image_break_token
+                        else:
+                            image_token_array = np.full((image_sizes[idx],), -100, dtype=np.int64)
+                            if self._parameters.image_end_token is not None:
+                                image_token_array[-1] = self._parameters.image_end_token
+                        sample_token_ids.append(np.concatenate([text_part, image_token_array], dtype=np.int64))
+                        text_tokens_added += len(text_part)
+                        image_positions.append(text_tokens_added + image_tokens_added)
+                        image_tokens_added += image_sizes[idx]
+                        start_pos = im_position
+                    # Add the last text segment after the last image
+                    sample_token_ids.append(sample.token_ids[start_pos:])
+                    text_tokens_added += len(sample_token_ids[-1])
+                    token_ids.append(np.concatenate(sample_token_ids))
+                else:
+                    token_ids.append(sample.token_ids[start_pos:])
+                    text_tokens_added += len(token_ids[-1])
+                if sample.images:
+                    images.append(sample.images)
+                else:
+                    images.append([])
                 if self._parameters.use_loss_masking_spans:
                     for loss_masking_span in sample.loss_masking_spans:
+                        prev_image_tokens = 0
+                        image_idx = 0
+                        image_position = (
+                            sample.image_positions[image_idx]
+                            if has_images and image_idx < len(sample.image_positions)
+                            else float("inf")
+                        )
+                        while image_position < loss_masking_span[0]:
+                            prev_image_tokens += image_sizes[image_idx]
+                            image_idx += 1
+                            image_position = (
+                                sample.image_positions[image_idx]
+                                if has_images and image_idx < len(sample.image_positions)
+                                else float("inf")
+                            )
+                        span_image_tokens = 0
+                        while image_position <= loss_masking_span[1]:
+                            span_image_tokens += image_sizes[image_idx]
+                            image_idx += 1
+                            image_position = (
+                                sample.image_positions[image_idx]
+                                if has_images and image_idx < len(sample.image_positions)
+                                else float("inf")
+                            )
+                        loss_masking_span[0] += prev_image_tokens
+                        loss_masking_span[1] += prev_image_tokens + span_image_tokens
+                        prev_image_tokens += span_image_tokens
                         span = np.clip(
                             loss_masking_span + token_count - token_start,
                             0,
@@ -506,9 +645,17 @@ def __getitem__(self, index: int) -> typing.Any:
             if self._parameters.use_loss_masking_spans
             else None
         )
+        images = [im for img_list in images for im in img_list] if images else None
+        image_positions = np.array(image_positions) if image_positions else None
         Assert.eq(len(token_ids), self._parameters.sequence_length + self._parameters.extra_tokens)
 
-        return GPTSample(token_ids=token_ids, loss_masking_spans=loss_masking_spans, sequence_lengths=sequence_lengths)
+        return GPTSample(
+            token_ids=token_ids,
+            loss_masking_spans=loss_masking_spans,
+            sequence_lengths=sequence_lengths,
+            images=images,
+            image_positions=image_positions,
+        )
 
     @property
     def name(self) -> str:
diff --git a/fast_llm/data/preparator/gpt_memmap/config.py b/fast_llm/data/preparator/gpt_memmap/config.py
index d2aaee5e..da353793 100644
--- a/fast_llm/data/preparator/gpt_memmap/config.py
+++ b/fast_llm/data/preparator/gpt_memmap/config.py
@@ -42,6 +42,18 @@ class TextColumnConfig(SourceSchemaConfig):
     )
 
 
+@config_class(dynamic_type={SourceSchemaConfig: "text_image_column"})
+class TextImageColumnConfig(TextColumnConfig):
+    images_column: str = Field(
+        default="images",
+        desc="Field containing images relevant to a document.",
+    )
+    image_positions_column: None | str = Field(
+        default="image_positions",
+        desc="Field containing image positions within a document.",
+    )
+
+
 @config_class()
 class GPTHuggingfaceDatasetConfig(Config):
     path: str = Field(
@@ -175,6 +187,11 @@ class GPTMemmapDatasetPreparatorConfig(DatasetPreparatorConfig):
         desc="Configuration for the tokenizer.",
         hint=FieldHint.feature,
     )
+    image_patch_size: int = Field(
+        default=16,
+        desc="Patch size for images. This is used solely for computing the number of tokens in an image to get an even split.",
+        hint=FieldHint.optional,
+    )
     splits: dict[str, float] | None = Field(
         default=None,
         desc="Split the output dataset into multiple ones (ex, train/valid/test) with the specified ratios."
diff --git a/fast_llm/data/preparator/gpt_memmap/prepare.py b/fast_llm/data/preparator/gpt_memmap/prepare.py
index 33c40bf8..94eede19 100644
--- a/fast_llm/data/preparator/gpt_memmap/prepare.py
+++ b/fast_llm/data/preparator/gpt_memmap/prepare.py
@@ -1,3 +1,5 @@
+import io
+import itertools
 import json
 import logging
 import multiprocessing
@@ -8,6 +10,7 @@
 import datasets
 import huggingface_hub
 import numpy as np
+import PIL.Image
 import requests
 import torch.distributed
 import tqdm
@@ -24,7 +27,11 @@
 from fast_llm.data.dataset.gpt.memmap import GPTMemmapDataset
 from fast_llm.data.dataset.gpt.sampled import GPTSample
 from fast_llm.data.preparator.config import DatasetPreparator
-from fast_llm.data.preparator.gpt_memmap.config import GPTMemmapDatasetPreparatorConfig, TextColumnConfig
+from fast_llm.data.preparator.gpt_memmap.config import (
+    GPTMemmapDatasetPreparatorConfig,
+    TextColumnConfig,
+    TextImageColumnConfig,
+)
 from fast_llm.data.tokenizer import Tokenizer
 from fast_llm.engine.config_utils.data_type import DataType, get_unsigned_integer_type
 from fast_llm.utils import Assert, normalize_probabilities, padded_cumsum
@@ -39,36 +46,44 @@ class GPTMemmapDatasetPreparator[ConfigType: GPTMemmapDatasetPreparatorConfig](D
     _loss_masking_spans_column: str | None
 
     def _tokenize_batch(self, batch: dict[str, list[typing.Any]]) -> dict[str, list[typing.Any]]:
-        input_ids = [
-            np.array(self._tokenizer.tokenize(text), dtype=self._data_type.numpy) for text in batch[self._text_column]
-        ]
-        num_tokens = [len(x) for x in input_ids]
-        return {
-            "input_ids": input_ids,
-            "num_tokens": num_tokens,
-        }
-
-    def _tokenize_batch_with_spans(self, batch: dict[str, list[typing.Any]]) -> dict[str, list[typing.Any]]:
-        input_ids, token_spans = map(
+        input_ids, token_spans, image_token_positions = map(
             list,
             zip(
                 *[
                     (
                         np.array(input_ids, dtype=self._data_type.numpy),
                         np.array(token_spans, dtype=np.int32).reshape(-1, 2),
+                        np.array(image_token_positions, dtype=np.int32),
                     )
-                    for input_ids, token_spans in [
-                        self._tokenizer.tokenize_with_spans(text, char_spans)
-                        for text, char_spans in zip(batch[self._text_column], batch[self._loss_masking_spans_column])
+                    for input_ids, token_spans, image_token_positions in [
+                        self._tokenizer.tokenize(
+                            text,
+                            loss_mask_spans,
+                            im_char_positions,
+                        )
+                        for text, loss_mask_spans, im_char_positions in zip(
+                            batch[self._text_column],
+                            batch.get(self._loss_masking_spans_column, itertools.repeat(None)),
+                            batch.get(self._image_positions_column, itertools.repeat(None)),
+                        )
                     ]
                 ]
             ),
         )
         num_tokens = [len(x) for x in input_ids]
+        num_pixels = [0] * len(input_ids)
+        for idx, images in enumerate(batch.get("images", [])):
+            for bytes_im in images:
+                with PIL.Image.open(io.BytesIO(bytes_im["bytes"])) as im:
+                    width, height = im.size
+                    num_pixels[idx] += width * height * 3
+
         return {
             "input_ids": input_ids,
+            "image_positions": image_token_positions,
             "token_spans": token_spans,
             "num_tokens": num_tokens,
+            "num_pixels": num_pixels,
         }
 
     def _tokenize_preference_batch_with_spans(self, batch: dict[str, list[typing.Any]]) -> dict[str, list[typing.Any]]:
@@ -141,27 +156,22 @@ def _save_shard(self, args: tuple[int, datasets.Dataset]) -> GPTMemmapDatasetCon
         shard_output_path = self._config.output_path / prefix
 
         def _document_generator():
-            if "token_spans" in shard_dataset.column_names and self._loss_masking_spans_column is not None:
-                for item in tqdm.tqdm(shard_dataset, desc=f"Saving shard {shard_idx}", unit="docs"):
-                    yield GPTSample(
-                        np.array(item["input_ids"], dtype=self._data_type.numpy),
-                        np.array(item["token_spans"], dtype=np.int32).reshape(-1, 2),
-                    )
-            elif (
-                "chosen_token_spans" in shard_dataset.column_names
-                and "rejected_token_spans" in shard_dataset.column_names
-                and self._config.dataset.chosen_text is not None
-                and self._config.dataset.rejected_text is not None
-            ):
-                for item in tqdm.tqdm(shard_dataset, desc=f"Saving shard {shard_idx}", unit="docs"):
-                    yield GPTSample(
-                        token_ids=np.array(item["input_ids"], dtype=self._data_type.numpy),
-                        chosen_span=np.array(item["chosen_token_spans"], dtype=np.int32).reshape(-1, 2),
-                        rejected_span=np.array(item["rejected_token_spans"], dtype=np.int32).reshape(-1, 2),
-                    )
-            else:
-                for item in tqdm.tqdm(shard_dataset, desc=f"Saving shard {shard_idx}", unit="docs"):
-                    yield GPTSample(np.array(item["input_ids"], dtype=self._data_type.numpy))
+            has_preference_spans = (
+                self._config.dataset.chosen_text is not None and self._config.dataset.rejected_text is not None
+            )
+            for item in tqdm.tqdm(shard_dataset, desc=f"Saving shard {shard_idx}", unit="docs"):
+                yield GPTSample(
+                    np.array(item["input_ids"], dtype=self._data_type.numpy),
+                    item["images"] if self._images_column else None,
+                    item["image_positions"] if self._image_positions_column else None,
+                    (
+                        np.array(item["token_spans"], dtype=np.int32).reshape(-1, 2)
+                        if self._loss_masking_spans_column
+                        else None
+                    ),
+                    item["chosen_token_spans"] if has_preference_spans else None,
+                    item["rejected_token_spans"] if has_preference_spans else None,
+                )
 
         GPTMemmapDataset.write_dataset(prefix=shard_output_path, documents=_document_generator())
 
@@ -171,6 +181,7 @@ def _document_generator():
                 "path": prefix,
                 "num_documents": len(shard_dataset),  # Use the length of the shard dataset directly
                 "num_tokens": sum(len(doc["input_ids"]) for doc in shard_dataset),
+                "num_pixels": sum(doc["num_pixels"] for doc in shard_dataset),
             }
         )
 
@@ -290,6 +301,11 @@ def run(self) -> None:
         if isinstance(self._config.dataset.source_schema, TextColumnConfig):
             self._text_column = self._config.dataset.source_schema.input_column
             self._loss_masking_spans_column = self._config.dataset.source_schema.loss_masking_spans_column
+            if isinstance(self._config.dataset.source_schema, TextImageColumnConfig):
+                self._images_column = self._config.dataset.source_schema.images_column
+                self._image_positions_column = self._config.dataset.source_schema.image_positions_column
+                # decoding bytes to images is slow and should be done only when needed
+                dataset = dataset.cast_column("images", datasets.Sequence(datasets.Image(decode=False)))
         else:
             raise ValueError(
                 f"Dataset source_schema set incorrectly. source_schema: '{self._config.dataset.source_schema}'."
@@ -298,18 +314,17 @@ def run(self) -> None:
         if self._text_column not in dataset.column_names:
             raise ValueError(f"Dataset does not have field '{self._text_column}'.")
 
-        if self._config.dataset.source_schema.loss_masking_spans_column is not None and (
+        if self._loss_masking_spans_column is not None and (
             self._config.dataset.chosen_text is not None or self._config.dataset.rejected_text is not None
         ):
-            raise ValueError(f"Can not enable both loss masking spans and chosen/rejected loss masking spans.")
+            if self._config.dataset.chosen_text is not None and self._config.dataset.rejected_text is not None:
+                raise ValueError(f"Can not enable both loss masking spans and chosen/rejected loss masking spans.")
+            if self._loss_masking_spans_column not in dataset.column_names:
+                raise ValueError(f"Dataset does not have spans field '{self._loss_masking_spans_column}'.")
         if (self._config.dataset.chosen_text is None) != (self._config.dataset.rejected_text is None):
             raise ValueError(f"Both chosen and rejected loss masking spans must be specified if one is specified.")
 
         # route tokenize function
-        if self._loss_masking_spans_column is not None:
-            if self._loss_masking_spans_column not in dataset.column_names:
-                raise ValueError(f"Dataset does not have spans field '{self._loss_masking_spans_column}'.")
-            tokenize_fn = self._tokenize_batch_with_spans
         elif self._config.dataset.chosen_text is not None and self._config.dataset.rejected_text is not None:
             if self._config.dataset.chosen_text not in dataset.column_names:
                 raise ValueError(f"Dataset does not have chosen spans field '{self._config.dataset.chosen_text}'.")
@@ -329,6 +344,13 @@ def run(self) -> None:
 
         # Calculate total number of tokens
         total_tokens = sum(tqdm.tqdm(tokenized_dataset["num_tokens"], desc="Counting tokens", unit="tokens"))
+        total_pixels = (
+            sum(tqdm.tqdm(tokenized_dataset["num_pixels"], desc="Counting pixels", unit="pixels"))
+            if self._images_column
+            else 0
+        )
+        # Add the token-equivalent bytes of pixels to determine shard size
+        total_tokens += total_pixels // np.dtype(self._data_type.numpy).itemsize
 
         # Split dataset into shards based on number of tokens
         num_shards = int(np.ceil(total_tokens / self._config.tokens_per_shard))
@@ -357,7 +379,7 @@ def generate_config_yaml_for_sharded_dst(self, dataset_configs: list[GPTMemmapDa
             # Create the config file(s) on rank 0
             if self._config.splits:
                 for split_name, split_config in self._split_and_blend_dataset_configs(
-                    dataset_configs, self._config.splits, self._config.output_path
+                    dataset_configs, self._config.splits, self._config.output_path, self._config.image_patch_size
                 ).items():
                     self._save_dataset_config(
                         split_config, self._config.output_path / f"fast_llm_config_{split_name}.yaml"
@@ -397,7 +419,11 @@ def _blend_dataset_configs(cls, dataset_configs: list[GPTMemmapDatasetConfig]) -
 
     @classmethod
     def _split_and_blend_dataset_configs(
-        cls, dataset_configs: list[GPTMemmapDatasetConfig], splits: dict[str, int | float], output_path: pathlib.Path
+        cls,
+        dataset_configs: list[GPTMemmapDatasetConfig],
+        splits: dict[str, int | float],
+        output_path: pathlib.Path,
+        image_patch_size: None | int = None,
     ) -> dict[str, GPTSampledDatasetConfig]:
         split_cumsum = padded_cumsum(normalize_probabilities(list(splits.values()), return_array=True)).tolist()
         dataset_sizes = [dataset_config.num_tokens for dataset_config in dataset_configs]
@@ -427,10 +453,20 @@ def _split_and_blend_dataset_configs(
                     # Part of the dataset belongs to the split.
                     # TODO: Somehow getting a segfault when merging two lines below (numpy bug?).
                     dataset = dataset_config.to_copy({"path": output_path / dataset_config.path}).build()
-                    sizes_cumsum = dataset.get_document_sizes().cumsum()
-                    Assert.eq(sizes_cumsum[-1], dataset_config.num_tokens)
-                    begin_index = _get_nearest_split(sizes_cumsum, split_begin_in_dataset * dataset_config.num_tokens)
-                    end_index = _get_nearest_split(sizes_cumsum, split_end_in_dataset * dataset_config.num_tokens)
+                    text_sizes, image_sizes = dataset.get_document_sizes()
+                    tokens_cumsum = text_sizes.cumsum()
+                    Assert.eq(tokens_cumsum[-1], dataset_config.num_tokens)
+                    if image_sizes:
+                        num_pixels_cumsum = np.cumsum([x.prod(axis=1).sum() for x in image_sizes])
+                        # We use the patch sizes only for the purposes of even splitting and blending weights.
+                        # We can always use a different patch size for training without any significant impact
+                        # Unless the patch size used at training time is significantly different from the one used here
+                        image_tokens_cumsum = num_pixels_cumsum // (image_patch_size**2)
+                        tokens_cumsum += image_tokens_cumsum
+                        num_pixels_cumsum = num_pixels_cumsum * 3
+                        Assert.eq(num_pixels_cumsum[-1], dataset_config.num_pixels)
+                    begin_index = _get_nearest_split(tokens_cumsum, split_begin_in_dataset * tokens_cumsum[-1])
+                    end_index = _get_nearest_split(tokens_cumsum, split_end_in_dataset * tokens_cumsum[-1])
                     if end_index > begin_index:
                         datasets_in_split.append(
                             GPTDatasetSliceConfig.from_dict(
@@ -443,8 +479,8 @@ def _split_and_blend_dataset_configs(
                             )
                         )
                         dataset_tokens_in_split.append(
-                            sizes_cumsum[end_index - 1].item()
-                            - (sizes_cumsum[begin_index - 1].item() if begin_index > 0 else 0)
+                            tokens_cumsum[end_index - 1].item()
+                            - (tokens_cumsum[begin_index - 1].item() if begin_index > 0 else 0)
                         )
 
                 # [else] None of the dataset belongs to the split.
diff --git a/fast_llm/data/tokenizer.py b/fast_llm/data/tokenizer.py
index c7458620..d46e3893 100644
--- a/fast_llm/data/tokenizer.py
+++ b/fast_llm/data/tokenizer.py
@@ -41,44 +41,75 @@ def vocab(self) -> dict[str, int]:
     def inv_vocab(self) -> dict[int, str]:
         return self._inv_vocab
 
-    def tokenize(self, text: str, begin=True, end=True) -> list[int]:
+    def _tokenize(self, text: str, begin=True, end=True) -> list[int]:
         return (
             ([self.bod_id] if begin else [])
             + self.tokenizer.encode(text, add_special_tokens=False)
             + ([self.eod_id] if end else [])
         )
 
-    def tokenize_with_spans(
-        self, text: str, char_spans: list[tuple[int, int]]
-    ) -> tuple[list[int], list[tuple[int, int]]]:
+    def tokenize(
+        self, text: str, char_spans=None, image_positions=None
+    ) -> tuple[list[int], list[tuple[int, int]], list[int]]:
         """
-        Perform span-aware tokenization and return the tokenized input_ids along with token spans.
+        Tokenize the input text and return the tokenized input_ids, token spans, and image token positions.
+        This version simplifies logic by merging all relevant positions, sorting, and tokenizing between them.
         """
-        input_ids = []
+        if not image_positions:
+            image_positions = []
+        if not char_spans:
+            char_spans = []
+
+        # Collect all positions with their type
+        positions = []
+        for pos in image_positions:
+            positions.append((pos, "image"))
+
+        for start, end in char_spans:
+            positions.append((start, "span_start"))
+            positions.append((end + 1, "span_end"))
+        # Sort positions by character index. We assume that image and span positions are individually sorted and spans do not overlap
+        positions = sorted(positions, key=lambda x: x[0])
+
+        token_ids = []
         token_spans = []
+        image_token_positions = []
         char_pos = 0
-        beginning_of_text = True
+        current_span_start = None
 
-        for start, end in char_spans:
-            if char_pos < start:
-                curr_text = text[char_pos:start]
-                tokenized_text = self.tokenize(curr_text, begin=beginning_of_text, end=False)
-                beginning_of_text = False
-                input_ids.extend(tokenized_text)
-            curr_text = text[start : end + 1]
-            if end >= len(text) - 1:
-                tokenized_text = self.tokenize(curr_text, begin=beginning_of_text, end=True)
-            else:
-                tokenized_text = self.tokenize(curr_text, begin=beginning_of_text, end=False)
-            beginning_of_text = False
-            token_spans.append((len(input_ids), len(input_ids) + len(tokenized_text) - 1))
-            input_ids.extend(tokenized_text)
-            char_pos = end + 1
+        for position in positions:
+            # We only tokenize if there is at least one character, else we might potentially add begin/end multiple times
+            if char_pos < position[0]:
+                tokenized_text = self._tokenize(
+                    text[char_pos : position[0]], begin=(char_pos == 0), end=position[0] > len(text) - 1
+                )
+                token_ids.extend(tokenized_text)
+            char_pos = position[0]
+            # beginning_of_text = False
+            if position[1] == "image":
+                if position[0] == 0:
+                    # image should be after the bos token
+                    image_token_positions.append(1)
+                else:
+                    image_token_positions.append(len(token_ids))
+            elif position[1] == "span_start":
+                assert (
+                    current_span_start is None
+                ), "Starting a new span before current has ended, please check for overlapping spans"
+                current_span_start = len(token_ids)
+            elif position[1] == "span_end":
+                assert (
+                    current_span_start is not None
+                ), "Closing a span that has not started, please check for overlapping spans"
+                # spans are inclusive, so we take the index of the last token in the span
+                token_spans.append((current_span_start, len(token_ids) - 1))
+                current_span_start = None
+        # Handle any remaining text after the last position and add EOS token
         if char_pos < len(text):
-            curr_text = text[char_pos:]
-            tokenized_text = self.tokenize(curr_text, begin=beginning_of_text, end=True)
-            input_ids.extend(tokenized_text)
-        return input_ids, token_spans
+            tokenized_text = self._tokenize(text[char_pos:], begin=(char_pos == 0), end=True)
+            token_ids.extend(tokenized_text)
+
+        return token_ids, token_spans, image_token_positions
 
     def detokenize(self, token_ids: int | list[int] | np.ndarray | torch.Tensor) -> str:
         return self.tokenizer.decode(token_ids)
diff --git a/fast_llm/engine/config_utils/run.py b/fast_llm/engine/config_utils/run.py
index 1737f430..1849a231 100644
--- a/fast_llm/engine/config_utils/run.py
+++ b/fast_llm/engine/config_utils/run.py
@@ -136,7 +136,7 @@ def __init__(
             self._distributed.config.data_rank == 0 and self._distributed.config.tensor_rank == 0
         )
         config_dict = config.to_dict()
-        config_dict_verbose = config.to_dict(verbose=FieldVerboseLevel.performance)
+        config_dict_verbose = config.to_dict(verbose=FieldVerboseLevel.debug)
 
         if self._config.experiment_dir is not None:
             self._experiment_directory = self._config.experiment_dir.resolve()
diff --git a/fast_llm/engine/multi_stage/stage.py b/fast_llm/engine/multi_stage/stage.py
index 7829c243..132bfd38 100644
--- a/fast_llm/engine/multi_stage/stage.py
+++ b/fast_llm/engine/multi_stage/stage.py
@@ -153,7 +153,7 @@ def backward(
         assert self._mode.support_backward
         input_, output = grad_context
         output.backward(output_grad)
-        return input_.grad
+        return input_.grad if input_.grad is not None else torch.zeros_like(input_)
 
     def restore_parameters(self) -> None:
         assert self._is_setup
diff --git a/fast_llm/engine/schedule/config.py b/fast_llm/engine/schedule/config.py
index 272b7c6a..a5e0a86a 100644
--- a/fast_llm/engine/schedule/config.py
+++ b/fast_llm/engine/schedule/config.py
@@ -48,6 +48,12 @@ class BatchConfig(Config):
         desc="Pointer to a distributed configuration, required to know the data-parallel split of the batch.",
         hint=FieldHint.setup,
     )
+    # Image inputs
+    max_image_size: int | None = Field(
+        default=None,
+        desc="Maximum image height and width",
+        hint=FieldHint.optional,
+    )
 
     def setup(self, distributed_config: DistributedConfig) -> None:
         self._distributed = distributed_config
diff --git a/fast_llm/engine/training/config.py b/fast_llm/engine/training/config.py
index 531bc206..809d4680 100644
--- a/fast_llm/engine/training/config.py
+++ b/fast_llm/engine/training/config.py
@@ -361,7 +361,7 @@ def _validate(self) -> None:
             # TODO: Add support.
             Assert.eq(self.model.distributed.pipeline_parallel, 1)
             # TODO: Check if these work.
-            Assert.eq(self.model.distributed.tensor_parallel, 1)
+            # Assert.eq(self.model.distributed.tensor_parallel, 1)
             Assert.eq(self.model.distributed.sequence_data_parallel, 1)
         if self.run.experiment_dir is None:
             assert not self.training.checkpoint.enabled()
diff --git a/fast_llm/functional/config.py b/fast_llm/functional/config.py
index 68419384..5c8d75a6 100644
--- a/fast_llm/functional/config.py
+++ b/fast_llm/functional/config.py
@@ -40,6 +40,7 @@ class ActivationType(enum.StrEnum):
     """
 
     gelu = "gelu"
+    gelu_pytorch_tanh = "gelu_pytorch_tanh"
     silu = "silu"
     relu = "relu"
     squared_relu = "squared_relu"
@@ -67,7 +68,8 @@ def _set_activation_fn_map() -> None:
     global _ACTIVATION_FN_MAP
 
     _ACTIVATION_FN_MAP = {
-        ActivationType.gelu: lambda x: torch.nn.functional.gelu(x, approximate="tanh"),
+        ActivationType.gelu: torch.nn.functional.gelu,
+        ActivationType.gelu_pytorch_tanh: lambda x: torch.nn.functional.gelu(x, approximate="tanh"),
         ActivationType.silu: torch.nn.functional.silu,
         ActivationType.relu: torch.nn.functional.relu,
         ActivationType.squared_relu: lambda x: torch.pow(torch.nn.functional.relu(x), 2),
@@ -78,7 +80,8 @@ def _set_activation_fn_map() -> None:
 _ACTIVATION_FN_MAP: dict[ActivationType, typing.Callable[["torch.Tensor"], "torch.Tensor"]] = {}
 
 _ACTIVATION_HF_NAMES = {
-    ActivationType.gelu: "gelu_pytorch_tanh",
+    ActivationType.gelu: "gelu",
+    ActivationType.gelu_pytorch_tanh: "gelu_pytorch_tanh",
     ActivationType.silu: "silu",
     ActivationType.relu: "relu",
     ActivationType.squared_relu: "relu2",
@@ -86,9 +89,16 @@ def _set_activation_fn_map() -> None:
 }
 _ACTIVATION_HF_NAMES_INV = {value: key for key, value in _ACTIVATION_HF_NAMES.items()}
 
+
 MAX_DROPLESS_BLOCK_SIZE_ROW = 128
 
 
+class ReverseKLImpl(str, enum.Enum):
+    tp = "tp"
+    stp = "stp"
+    no_tp = "no_tp"
+
+
 class CrossEntropyImpl(str, enum.Enum):
     auto = "auto"
     torch = "torch"
diff --git a/fast_llm/functional/cross_entropy.py b/fast_llm/functional/cross_entropy.py
index d56dce98..d9ca547a 100644
--- a/fast_llm/functional/cross_entropy.py
+++ b/fast_llm/functional/cross_entropy.py
@@ -1,7 +1,7 @@
 import torch
 
 from fast_llm.core.distributed import ProcessGroup, ReduceOp, all_reduce
-from fast_llm.functional.config import CrossEntropyImpl, TargetFormat
+from fast_llm.functional.config import CrossEntropyImpl, ReverseKLImpl, TargetFormat
 from fast_llm.functional.triton.cross_entropy import triton_cross_entropy_forward_backward
 from fast_llm.utils import Assert
 
@@ -49,6 +49,19 @@ def _torch_cross_entropy_forward_backward(
     return loss.detach_(), grad
 
 
+def distributed_log_softmax(logits: torch.Tensor, group: ProcessGroup, dim: int = -1):
+    logits = logits.float()
+    local_max = logits.max(dim=dim, keepdim=True)[0]
+    all_reduce(local_max, op=ReduceOp.MAX, group=group)
+
+    logits_shifted = logits - local_max
+    exp_logits = torch.exp(logits_shifted)
+    sum_exp = exp_logits.sum(dim=dim, keepdim=True)
+    all_reduce(sum_exp, op=ReduceOp.SUM, group=group)
+
+    return logits_shifted - sum_exp.log()  # log_softmax
+
+
 @torch.compile
 def _fused_softmax_base(
     logits: torch.Tensor, logits_scale_factor: float = 1.0, group: ProcessGroup | None = None, dim: int = -1
@@ -151,7 +164,8 @@ def _fused_cross_entropy_forward_backward(
 
     loss = per_sample_loss.mean()
     if target_format != TargetFormat.labels and group is not None:
-        all_reduce(loss, op=ReduceOp.MEAN, group=group)
+        all_reduce(loss, op=ReduceOp.SUM, group=group)
+        loss /= group.size()
 
     return loss, grad
 
@@ -213,20 +227,30 @@ def cross_entropy_forward_backward(
         )
 
 
-def _torch_reverse_kl_forward_backward(
+def _torch_reverse_kl_forward_backward_vocab_parallel(
     logits: torch.Tensor,
     target: torch.Tensor,
     loss_mask: torch.Tensor | None,
     grad_output: float | None,
-    logits_scale_factor: float,
     target_format: TargetFormat,
     group: ProcessGroup | None = None,
+    logits_scale_factor: float = 1.0,
     teacher_softmax_temperature: float = 1.0,
+    **kwargs,
 ) -> tuple[torch.Tensor, torch.Tensor | None]:
     """
     Reverse KL using PyTorch's native kl_div function.
-    Much simpler and more reliable than custom implementation!
+    This is used for TP version where we split accross vocab dimantion.
+    This works with sequence-tensor-parallel (distributing over the sequence dimention) as well as a non-TP case.
+    In sequence-tensor-parallel, where we split along sequence dim., we compute per split loss and then average the loss.
     """
+    Assert.eq(
+        teacher_softmax_temperature,
+        1,
+        msg="Teacher softmax temperature must be 1 for sequence-tensor-parallel reverse KL",
+    )
+    Assert.eq(logits_scale_factor, 1, msg="Logits scale factor must be 1 for sequence-tensor-parallel reverse KL")
+    # TODO: merge into single function _torch_reverse_kl_forward_backward
     Assert.eq(target_format, TargetFormat.logits, msg="Reverse KL only supports logits format")
     Assert.eq(target.shape, logits.shape)
     assert target.dtype.is_floating_point, target.dtype
@@ -234,32 +258,78 @@ def _torch_reverse_kl_forward_backward(
         Assert.eq(loss_mask.shape, logits.shape[:-1])
 
     # Compute log probabilities - let _fused_softmax handle scaling internally
-    # teacher_probs = _fused_softmax(target, logits_scale_factor * (1 / teacher_softmax_temperature), group)
-    # # teacher_log_probs = torch.log(teacher_probs + 1e-8)  # log(p)
-    # teacher_probs = torch.clamp(teacher_probs, min=1e-7)  # or even 1e-6
-    # teacher_log_probs = torch.log(teacher_probs)
+    teacher_log_probs = distributed_log_softmax(target.float(), group=group)
+    batch_size = logits.shape[0]
+    with torch.enable_grad():
+        logits_ = logits.float().detach().requires_grad_(grad_output is not None)
+        student_log_probs = distributed_log_softmax(logits_, group=group)
+
+        # Reverse KL: input=teacher_log_probs, target=student_probs
+        if loss_mask is None:
+            loss = torch.nn.functional.kl_div(
+                teacher_log_probs,  # input = log(p)
+                student_log_probs,  # target = log(q)
+                reduction="sum",
+                log_target=True,
+            )
+        else:
+            # Apply loss mask - this requires some reshaping
+            raise NotImplementedError("Loss mask not implemented with TP for reverse KL , it must be doublechecked")
+            loss_per_sample = torch.nn.functional.kl_div(
+                teacher_log_probs, student_log_probs, reduction="none", log_target=True
+            ).sum(dim=-1)
+            loss = (loss_per_sample * loss_mask).sum()
+
+        if group is not None and target_format != TargetFormat.labels:
+            all_reduce(loss, op=ReduceOp.SUM, group=group)
+            loss /= batch_size
+
+        if grad_output is not None:
+            loss.backward(torch.full_like(loss, grad_output))
+            grad = logits_.grad.to(logits.dtype)
+        else:
+            grad = None
+
+    return loss.detach_(), grad
+
 
+def _torch_reverse_kl_forward_backward_no_tp(
+    logits: torch.Tensor,
+    target: torch.Tensor,
+    loss_mask: torch.Tensor | None,
+    grad_output: float | None,
+    logits_scale_factor: float,
+    target_format: TargetFormat,
+    teacher_softmax_temperature: float = 1.0,
+    **kwargs,
+) -> tuple[torch.Tensor, torch.Tensor | None]:
+    """
+    Reverse KL using PyTorch's native kl_div function.
+    THis is only used for no-TP case.
+    """
+    Assert.eq(target_format, TargetFormat.logits, msg="Reverse KL only supports logits format")
+    Assert.eq(target.shape, logits.shape)
+    assert target.dtype.is_floating_point, target.dtype
+    if loss_mask is not None:
+        Assert.eq(loss_mask.shape, logits.shape[:-1])
     # Scale target logits more carefully
     scaled_target = target * (logits_scale_factor / teacher_softmax_temperature)
+    # Clamp to prevent extreme values that cause NaNs in log_softmax
+    scaled_target = torch.clamp(scaled_target, min=-100.0, max=100.0)
 
-    # Clamp to prevent extreme values before log_softmax
-    scaled_target = torch.clamp(scaled_target, min=-50, max=50)
-    teacher_log_probs = torch.log_softmax(scaled_target, dim=-1)
+    teacher_log_probs = torch.log_softmax(scaled_target.float(), dim=-1)
 
     # For reverse KL: KL(q||p) = Σ q * log(q/p) = Σ q * (log(q) - log(p))
     # Use kl_div with: input=log(p), target=q, log_target=False
     # This gives: Σ q * (log(q) - log(p)) = exactly what we want!
 
     with torch.enable_grad():
-        logits_ = logits.detach().requires_grad_(grad_output is not None)
+        logits_ = logits.float().detach().requires_grad_(grad_output is not None)
 
-        # Use log_softmax for consistency instead of _fused_softmax
         scaled_logits = logits_ * logits_scale_factor
-        scaled_logits = torch.clamp(scaled_logits, min=-50, max=50)
-        student_log_probs = torch.log_softmax(scaled_logits, dim=-1)
-
-        # Convert to probabilities for kl_div
-        # student_probs_ = torch.exp(student_log_probs)
+        # Clamp to prevent extreme values that cause NaNs in log_softmax
+        scaled_logits = torch.clamp(scaled_logits, min=-100.0, max=100.0)
+        student_log_probs = torch.log_softmax(scaled_logits.float(), dim=-1)
 
         # Reverse KL: input=teacher_log_probs, target=student_probs
         if loss_mask is None:
@@ -274,12 +344,85 @@ def _torch_reverse_kl_forward_backward(
             loss_per_sample = torch.nn.functional.kl_div(
                 teacher_log_probs, student_log_probs, reduction="none", log_target=True
             ).sum(dim=-1)
-            loss = (loss_per_sample * loss_mask).mean()
+            loss = (loss_per_sample * loss_mask).sum() / loss_mask.sum()
 
-        if group is not None and target_format != TargetFormat.labels:
-            all_reduce(loss, op=ReduceOp.MEAN, group=group)
+        if grad_output is not None:
+            # note, we never get here in TP over seq. dim.
+            loss.backward(torch.full_like(loss, grad_output))
+            grad = logits_.grad.to(logits.dtype)
+        else:
+            grad = None
+
+    return loss.detach_(), grad
+
+
+def _torch_reverse_kl_forward_backward_sequence_tensor_parallel(
+    logits: torch.Tensor,
+    target: torch.Tensor,
+    loss_mask: torch.Tensor | None,
+    grad_output: float | None,
+    logits_scale_factor: float,
+    target_format: TargetFormat,
+    teacher_softmax_temperature: float = 1.0,
+    total_valid_tokens: int | None = None,  # total number of unmasked tokens in the batch
+    **kwargs,
+) -> tuple[torch.Tensor, torch.Tensor | None]:
+    """
+    Reverse KL using PyTorch's native kl_div function.
+    THis is only used for sequence-tensor-parallel case where we split over sequence dimension.
+    """
+    Assert.eq(
+        total_valid_tokens is not None,
+        msg="Total valid tokens must be provided for sequence-tensor-parallel reverse KL",
+    )
+    Assert.eq(
+        teacher_softmax_temperature,
+        1,
+        msg="Teacher softmax temperature must be 1 for sequence-tensor-parallel reverse KL",
+    )
+    Assert.eq(logits_scale_factor, 1, msg="Logits scale factor must be 1 for sequence-tensor-parallel reverse KL")
+    Assert.eq(target_format, TargetFormat.logits, msg="Reverse KL only supports logits format")
+    Assert.eq(target.shape, logits.shape)
+    assert target.dtype.is_floating_point, target.dtype
+    if loss_mask is not None:
+        Assert.eq(loss_mask.shape, logits.shape[:-1])
+    # Scale target logits more carefully
+    scaled_target = target * (logits_scale_factor / teacher_softmax_temperature)
+    # Clamp to prevent extreme values that cause NaNs in log_softmax
+    scaled_target = torch.clamp(scaled_target, min=-100.0, max=100.0)
+
+    teacher_log_probs = torch.log_softmax(scaled_target.float(), dim=-1)
+
+    # For reverse KL: KL(q||p) = Σ q * log(q/p) = Σ q * (log(q) - log(p))
+    # Use kl_div with: input=log(p), target=q, log_target=False
+    # This gives: Σ q * (log(q) - log(p)) = exactly what we want!
+
+    with torch.enable_grad():
+        logits_ = logits.float().detach().requires_grad_(grad_output is not None)
+
+        scaled_logits = logits_ * logits_scale_factor
+        # Clamp to prevent extreme values that cause NaNs in log_softmax
+        scaled_logits = torch.clamp(scaled_logits, min=-100.0, max=100.0)
+        student_log_probs = torch.log_softmax(scaled_logits.float(), dim=-1)
+
+        # Reverse KL: input=teacher_log_probs, target=student_probs
+        if loss_mask is None:
+            loss = torch.nn.functional.kl_div(
+                teacher_log_probs,  # input = log(p)
+                student_log_probs,  # target = log(q)
+                reduction="sum",
+                log_target=True,
+            )
+        else:
+            # Apply loss mask - this requires some reshaping
+            loss_per_sample = torch.nn.functional.kl_div(
+                teacher_log_probs, student_log_probs, reduction="none", log_target=True
+            ).sum(dim=-1)
+            loss = (loss_per_sample * loss_mask).sum()  # this can be 0.0 if all tokens are masked
 
         if grad_output is not None:
+            # note, if we compute gradient w.r.t sum of losses,
+            # and grad_output should reflect the scaling by 1/valid samples
             loss.backward(torch.full_like(loss, grad_output))
             grad = logits_.grad.to(logits.dtype)
         else:
@@ -288,6 +431,13 @@ def _torch_reverse_kl_forward_backward(
     return loss.detach_(), grad
 
 
+REVERSE_KL_IMPLEMENTATIONS = {
+    ReverseKLImpl.no_tp: _torch_reverse_kl_forward_backward_no_tp,
+    ReverseKLImpl.tp: _torch_reverse_kl_forward_backward_vocab_parallel,
+    ReverseKLImpl.stp: _torch_reverse_kl_forward_backward_sequence_tensor_parallel,
+}
+
+
 def reverse_kl_forward_backward(
     logits: torch.Tensor,
     target: torch.Tensor,
@@ -297,6 +447,8 @@ def reverse_kl_forward_backward(
     logits_scale_factor: float = 1.0,
     teacher_softmax_temperature: float = 1.0,
     target_format: TargetFormat = TargetFormat.labels,
+    reverse_kl_impl: ReverseKLImpl = ReverseKLImpl.no_tp,
+    total_valid_tokens: int | None = None,
 ) -> tuple[torch.Tensor, torch.Tensor | None]:
     """
     Compute reverse KL divergence: KL(q||p) where q is the predicted distribution (student) and p is the target (teacher).
@@ -339,7 +491,15 @@ def reverse_kl_forward_backward(
         assert target.dtype.is_floating_point, target.dtype
         if loss_mask is not None:
             Assert.eq(loss_mask.shape, logits.shape[:-1])
-    # TODO: implement fused?
-    return _torch_reverse_kl_forward_backward(
-        logits, target, loss_mask, grad_output, logits_scale_factor, target_format, group, teacher_softmax_temperature
+    # TODO: implement fused reverse KL?
+    return REVERSE_KL_IMPLEMENTATIONS[reverse_kl_impl](
+        logits=logits,
+        target=target,
+        loss_mask=loss_mask,
+        grad_output=grad_output,
+        logits_scale_factor=logits_scale_factor,
+        target_format=target_format,
+        teacher_softmax_temperature=teacher_softmax_temperature,
+        group=group,
+        total_valid_tokens=total_valid_tokens,
     )
diff --git a/fast_llm/functional/triton/mlp.py b/fast_llm/functional/triton/mlp.py
index ab408368..f3d9d7d0 100644
--- a/fast_llm/functional/triton/mlp.py
+++ b/fast_llm/functional/triton/mlp.py
@@ -47,8 +47,7 @@ def triton_mlp_activation_forward_kernel(
 
     input_ = tl.load(input_ptr, mask=mask).to(tl.float32)
 
-    # Triton doesn't like enums, so we use str instead of ActivationType.
-    if activation_type == "gelu":
+    if activation_type == "gelu" or activation_type == "gelu_pytorch_tanh":
         tanh_input = 0.79788456 * input_ * (1 + 0.044715 * input_ * input_)
         tanh = 1 - 2 / (1 + tl.exp(2 * tanh_input))
         out = input_ * 0.5 * (1.0 + tanh)
@@ -98,8 +97,7 @@ def triton_mlp_activation_backward_kernel(
     input_ = tl.load(input_ptr, mask=mask).to(tl.float32)
     output_grad = tl.load(grad_output_ptr + output_offsets, mask=mask).to(tl.float32)
 
-    # Triton doesn't like enums, so we use str instead of ActivationType.
-    if activation_type == "gelu":
+    if activation_type == "gelu" or activation_type == "gelu_pytorch_tanh":
         tanh_input = 0.79788456 * input_ * (1 + 0.044715 * input_ * input_)
         tanh = 1 - 2 / (1 + tl.exp(2 * tanh_input))
         grad = 0.5 * input_ * ((1 - tanh * tanh) * (0.79788456 + 0.1070322243 * input_ * input_)) + 0.5 * (1 + tanh)
diff --git a/fast_llm/layers/attention/attention.py b/fast_llm/layers/attention/attention.py
index 9a940f4c..9a2be6b4 100644
--- a/fast_llm/layers/attention/attention.py
+++ b/fast_llm/layers/attention/attention.py
@@ -340,7 +340,7 @@ def forward(
                         max_seqlen_k=kwargs.get(AttentionKwargs.max_seqlen_k),
                         dropout_p=self._config.dropout if self.training else 0.0,
                         window_size=window_size,
-                        causal=True,
+                        causal=self._config.causal,
                         softmax_scale=self._softmax_scale,
                     ).view(*out_dims)
                 else:
@@ -350,7 +350,7 @@ def forward(
                         value,
                         window_size=window_size,
                         dropout_p=self._config.dropout if self.training else 0.0,
-                        causal=True,
+                        causal=self._config.causal,
                         softmax_scale=self._softmax_scale,
                     )
             input_ = input_.flatten(-2)
diff --git a/fast_llm/layers/attention/config.py b/fast_llm/layers/attention/config.py
index 2910c7c7..924e0605 100644
--- a/fast_llm/layers/attention/config.py
+++ b/fast_llm/layers/attention/config.py
@@ -80,6 +80,11 @@ class AttentionConfig(MixerConfig):
         desc="Add biases to linear layers. May be overridden for individual layers.",
         hint=FieldHint.architecture,
     )
+    causal: bool = Field(
+        default=True,
+        desc="Use causal attention. Turn this off only for bidirectional attention e.g., in Vision Transformer.",
+        hint=FieldHint.feature,
+    )
     dropout: float = Field(
         default=0.0,
         desc="Dropout applied to the attention intermediate states.",
diff --git a/fast_llm/layers/attention/rotary/config.py b/fast_llm/layers/attention/rotary/config.py
index 5bd7a9b8..5e24af9a 100644
--- a/fast_llm/layers/attention/rotary/config.py
+++ b/fast_llm/layers/attention/rotary/config.py
@@ -135,3 +135,11 @@ def _get_configurable_class(self) -> "type[YarnRotary]":
         from fast_llm.layers.attention.rotary.rotary import YarnRotary
 
         return YarnRotary
+
+
+@config_class(dynamic_type={RotaryConfig: "rope_2d"})
+class Rotary2DConfig(DefaultRotaryConfig):
+    def _get_configurable_class(self) -> "type[Rotary2D]":
+        from fast_llm.layers.transformer.rotary.rotary import Rotary2D
+
+        return Rotary2D
diff --git a/fast_llm/layers/attention/rotary/rotary.py b/fast_llm/layers/attention/rotary/rotary.py
index 88971183..58a78694 100644
--- a/fast_llm/layers/attention/rotary/rotary.py
+++ b/fast_llm/layers/attention/rotary/rotary.py
@@ -13,9 +13,11 @@
     DefaultRotaryConfig,
     Llama3RotaryConfig,
     NoRotaryConfig,
+    Rotary2DConfig,
     RotaryConfig,
     YarnRotaryConfig,
 )
+from fast_llm.layers.vision_encoder.config import VisionEncoderKwargs
 from fast_llm.tensor import TensorMeta
 from fast_llm.utils import div
 
@@ -199,3 +201,71 @@ def _get_correction(self, beta: float, dim: int) -> float:
             * math.log(self._config.original_context_length / (beta * 2 * math.pi))
             / (2 * math.log(self._config.theta))
         )
+
+
+class Rotary2D[ConfigType: DefaultRotaryConfig](DefaultRotary[Rotary2DConfig]):
+    _rotary_embedding_frequencies: torch.Tensor
+    _tensor_cache_max_num_patches: int = -1
+
+    def preprocess(self, batch, kwargs: dict[str, typing.Any]) -> None:
+        assert self._tensor_space is not None
+        max_num_patches = kwargs[VisionEncoderKwargs.max_image_size] // kwargs[VisionEncoderKwargs.patch_size]
+        self._create_tensors(max_num_patches)
+        position_ids = kwargs[VisionTransformerKwargs.patch_position_ids]
+        kwargs[VisionTransformerKwargs.rotary_freq_q] = self._rotary_embedding_frequencies[:, position_ids]
+        kwargs[VisionTransformerKwargs.rotary_freq_k] = self._rotary_embedding_frequencies[:, position_ids]
+
+    def preprocess_meta(self, kwargs: dict[str, typing.Any]) -> None:
+        assert self._tensor_space is not None
+        kwargs[VisionTransformerKwargs.rotary_freq_q] = TensorMeta.from_dims(
+            (
+                self._scalar_dim,
+                kwargs[TransformerKwargs.sequence_q_dim],
+                self._scalar_dim,
+                self._kv_channels_dim,
+            ),
+            tensor_name=VisionTransformerKwargs.rotary_freq_q,
+        )
+        kwargs[VisionTransformerKwargs.rotary_freq_k] = TensorMeta.from_dims(
+            (
+                self._scalar_dim,
+                kwargs[TransformerKwargs.sequence_k_dim],
+                self._scalar_dim,
+                self._kv_channels_dim,
+            ),
+            tensor_name=VisionTransformerKwargs.rotary_freq_k,
+        )
+
+    def _create_tensors(self, max_num_patches: int) -> None:
+        if max_num_patches <= self._tensor_cache_max_num_patches:
+            return
+        self._tensor_cache_max_num_patches = max_num_patches
+
+        self._rotary_embedding_frequencies = self._get_frequencies(
+            max_num_patches,
+            self._kv_channels_dim.global_size,
+            device=self._tensor_space.distributed.device,
+        )
+
+    def _get_frequencies(self, max_num_patches: int, kv_channels: int, device="cuda") -> torch.Tensor:
+        # Calculate complex frequencies by using alternating channels for width and height
+        height_positions = torch.arange(max_num_patches, device=device, dtype=torch.float64)
+        width_positions = torch.arange(max_num_patches, device=device, dtype=torch.float64)
+        frequencies = self._config.theta ** -torch.arange(0, 1, 2 / kv_channels, device=device, dtype=torch.float64)
+        angles_h = torch.outer(height_positions, frequencies[::2])
+        angles_w = torch.outer(width_positions, frequencies[1::2])
+        angles = torch.cat(
+            [
+                angles_h[:, None, :].repeat(1, max_num_patches, 1),
+                angles_w[None, :, :].repeat(max_num_patches, 1, 1),
+            ],
+            dim=-1,
+        ).reshape(-1, kv_channels // 2)
+
+        frequencies = torch.polar(torch.ones_like(angles), angles)[None, :, None, :].to(torch.complex64)
+        if not self._config.complex_format:
+            frequencies = convert_rotary_complex_to_real(
+                torch.view_as_real(frequencies).flatten(-2), kv_channels, 3
+            ).contiguous()
+
+        return frequencies
diff --git a/fast_llm/layers/language_model/config.py b/fast_llm/layers/language_model/config.py
index f59b4cff..5bd35eb7 100644
--- a/fast_llm/layers/language_model/config.py
+++ b/fast_llm/layers/language_model/config.py
@@ -9,6 +9,7 @@
 from fast_llm.layers.block.config import BlockConfig, BlockKwargs, BlockSequenceConfig
 from fast_llm.layers.common.normalization.config import NormalizationConfig
 from fast_llm.layers.common.peft.config import PeftConfig
+from fast_llm.layers.vision_encoder.config import VisionEncoderConfig
 from fast_llm.utils import Assert
 
 if typing.TYPE_CHECKING:
@@ -34,6 +35,7 @@ class LanguageModelKwargs(BlockKwargs):
     position_ids = "position_ids"
     # TODO: These are generic
     labels = "labels"
+    tokens = "tokens"
     phase = "phase"
     chosen_spans = "chosen_spans"
     rejected_spans = "rejected_spans"
@@ -48,6 +50,10 @@ class LanguageModelEmbeddingsConfig(BlockConfig):
         desc="Configuration for the word embedding (weight).",
         hint=FieldHint.architecture,
     )
+    vision_encoder: VisionEncoderConfig = Field(
+        desc="Configuration for the vision encoder that transforms images into embeddings.",
+        hint=FieldHint.optional,
+    )
     position_embeddings: OptionalParameterConfig = Field(
         desc="Configuration for the word embedding (weight).",
         hint=FieldHint.architecture,
diff --git a/fast_llm/layers/language_model/head.py b/fast_llm/layers/language_model/head.py
index ade1144d..eb830202 100644
--- a/fast_llm/layers/language_model/head.py
+++ b/fast_llm/layers/language_model/head.py
@@ -11,7 +11,13 @@
 from fast_llm.engine.config_utils.tensor_dim import TensorDim, scalar_dim
 from fast_llm.engine.distributed.config import DistributedConfig, DistributedDimNames
 from fast_llm.functional.autograd import grad_is_context, wrap_forward_backward
-from fast_llm.functional.config import CrossEntropyImpl, DistillationLossImpl, TargetFormat, TritonConfig
+from fast_llm.functional.config import (
+    CrossEntropyImpl,
+    DistillationLossImpl,
+    ReverseKLImpl,
+    TargetFormat,
+    TritonConfig,
+)
 from fast_llm.functional.cross_entropy import cross_entropy_forward_backward, reverse_kl_forward_backward
 from fast_llm.functional.dpo import compute_dpo_loss
 from fast_llm.functional.linear import output_parallel_linear_backward, output_parallel_linear_forward
@@ -242,10 +248,24 @@ def _get_targets(
                     ).flatten()
             else:
                 lm_target = None
-
-        targets = (dpo_target, lm_target, distillation_target, loss_mask)
-        if self._sequence_parallel_logits:
-            targets = [None if target is None else split_op(target, self._parallel_dim.group, 0) for target in targets]
+        targets = (dpo_target, lm_target, distillation_target)
+        # If we do distillation, no need to split it here as it has already been split in the embedding layer!
+        # if we do CPT/language modeling, we need to split the targets here!
+        if (
+            self._config.distillation_model is not None
+            and self._sequence_parallel_logits
+            and not self._parallel_embeddings
+            and not self._sequence_parallel
+        ) or (self._config.distillation_model is None and self._sequence_parallel_logits):
+            # We dont split targets if they already have been split in the embedding layer!
+            targets = [
+                None if target is None else split_op(target, self._tensor_space.distributed.tensor_group, 0)
+                for target in targets
+            ]
+        # Loss mask may need to be split. It was not split in the embedding layer as it is not used there.
+        if loss_mask is not None and self._sequence_parallel_logits:
+            loss_mask = split_op(loss_mask, self._tensor_space.distributed.tensor_group, 0)
+        targets = (*targets, loss_mask)
         if not any(target is not None for target in targets):
             # Simplify so we don't have to check every time.
             targets = None
@@ -305,14 +325,13 @@ def _logits_cross_entropy_forward_backward_split(
                     logit_input_grad_.copy_(grad_)
                 loss = loss_ if loss is None else loss + loss_
                 del grad_, loss_
-        loss_count = (self._config.cross_entropy_splits or 1) * (
-            self._parallel_dim.size if self._sequence_parallel_logits else 1
-        )
-        if loss_count != 1:
-            loss.div_(loss_count)
-        if self._sequence_parallel_logits:
-            # TODO: Async
-            all_reduce(loss, group=self._parallel_dim.group)
+        assert self._cross_entropy_splits is None, "This is not supported for now"
+        # loss_count = (self._cross_entropy_splits or 1) * (self._group_size if self._sequence_parallel_logits else 1)
+        # if loss_count != 1:
+        #     loss.div_(loss_count)
+        # if self._sequence_parallel_logits:
+        #     # TODO: Async
+        #     all_reduce(loss, group=self._tensor_space.distributed.tensor_group)
         return loss, logit_input_grad.view_as(input_) if logit_input_grad is not None else None
 
     def _logits_cross_entropy_forward_backward(
@@ -343,13 +362,34 @@ def _logits_cross_entropy_forward_backward(
                 LanguageModelLossNames.z_loss,
                 logits_scale_factor=self._config.logits_scale_factor,
             )
-        if self._debug.enabled and self._config.cross_entropy_splits is None:
-            sequence_dim = BlockDimNames.sequence_q_tp if self._sequence_parallel_logits else BlockDimNames.sequence_q
-            batch_dim = kwargs[LanguageModelKwargs.hidden_dims][1 if kwargs[LanguageModelKwargs.sequence_first] else 0]
-            dims = (
-                (sequence_dim, batch_dim, self._vocab_dim)
-                if kwargs[LanguageModelKwargs.sequence_first]
-                else (batch_dim, sequence_dim, self._vocab_dim)
+        if self._debug_transformer and self._cross_entropy_splits is None:
+            vocab_dim = self._tensor_space[
+                LanguageModelDimNames.vocab if self._sequence_parallel_logits else LanguageModelDimNames.vocab_tp
+            ]
+            dims = [*kwargs[TransformerKwargs.hidden_dims][:-1], vocab_dim]
+            sequence_index = 1 - int(kwargs[TransformerKwargs.sequence_first])
+            dims[sequence_index] = (
+                TensorDim(
+                    TransformerDimNames.sequence_q_tp, dims[sequence_index].global_size, DistributedDimNames.tensor
+                )
+                if self._sequence_parallel_logits
+                else TensorDim(TransformerDimNames.sequence_q, dims[sequence_index].global_size)
+            )
+
+            dim_names = (
+                [TransformerDimNames.sequence_q_tp, LanguageModelDimNames.vocab]
+                if self._sequence_parallel_logits
+                else [TransformerDimNames.sequence_q, LanguageModelDimNames.vocab_tp]
+            )
+
+            dim_names.insert(int(kwargs[TransformerKwargs.sequence_first]), TransformerDimNames.batch)
+            log_distributed_tensor(
+                "",
+                logits,
+                level=self._debug_transformer,
+                meta=TensorMeta.from_dims(tuple(dims), tensor_name="transformer logits", dtype=logits.dtype),
+                distributed=self._tensor_space.distributed,
+                scale=self._logits_scale_factor,
             )
             self._debug(logits, "Language model logits", dims, kwargs, scale=self._config.logits_scale_factor)
 
@@ -385,8 +425,31 @@ def _logits_cross_entropy_forward_backward(
         else:
             lm_loss, lm_grad = None, None
 
-        if distillation_target is not None and self._config.distillation_loss_factor > 0.0:
-            if self._config.distillation_loss_implementation == DistillationLossImpl.reverse_kl:
+        if distillation_target is not None and self._distillation_loss_factor > 0.0:
+            if self._distillation_loss_implementation == DistillationLossImpl.reverse_kl:
+                local_valid_tokens = total_valid_tokens = logits.shape[0]
+                if logits.shape[-1] != self._config.vocab_size:
+                    reverse_kl_impl = ReverseKLImpl.tp
+                    assert loss_mask is None, "Loss mask is not implemented for TP (vocab dim) reverse KL yet"
+                elif self._sequence_parallel_logits:
+                    # grad_output already reflects scaling 1/ number of ranks (group_size), see _forward_backward
+                    reverse_kl_impl = ReverseKLImpl.stp
+                    if loss_mask is not None:
+                        local_valid_tokens = loss_mask.sum()
+                        total_valid_tokens = local_valid_tokens.clone()
+                        all_reduce(
+                            total_valid_tokens, op=ReduceOp.SUM, group=self._tensor_space.distributed.tensor_group
+                        )
+                    else:
+                        local_valid_tokens = logits.shape[0]
+                        total_valid_tokens = local_valid_tokens * self._group_size
+                    # in the loss function we compute grads w.r.t sum of losses,
+                    # so we need to multiply back by the group size and divide by the number of valid tokens to get the correct scaling
+                    # note, the function returns the sum of local losses, so we need to handle this properly for reporting
+                    grad_output *= self._group_size / total_valid_tokens  # multiply back by the group size
+                else:
+                    reverse_kl_impl = ReverseKLImpl.no_tp
+
                 distillation_loss, distillation_grad = reverse_kl_forward_backward(
                     logits.flatten(0, -2),
                     distillation_target,
@@ -398,8 +461,15 @@ def _logits_cross_entropy_forward_backward(
                     target_format=(
                         TargetFormat.labels if self._config.distillation_model is None else TargetFormat.logits
                     ),
+                    reverse_kl_impl=reverse_kl_impl,
+                    total_valid_tokens=total_valid_tokens,
                 )
-            elif self._config.distillation_loss_implementation == DistillationLossImpl.cross_entropy:
+                if self._sequence_parallel_logits:
+                    # distillation_loss is local sum, so we need to divide by the number of valid tokens to get the correct scaling
+                    all_reduce(distillation_loss, op=ReduceOp.SUM, group=self._tensor_space.distributed.tensor_group)
+                    distillation_loss /= total_valid_tokens  # final global loss
+
+            elif self._distillation_loss_implementation == DistillationLossImpl.cross_entropy:
                 distillation_loss, distillation_grad = cross_entropy_forward_backward(
                     logits.flatten(0, -2),
                     distillation_target,
diff --git a/fast_llm/layers/multi_modal/embedding.py b/fast_llm/layers/multi_modal/embedding.py
new file mode 100644
index 00000000..a5a789f9
--- /dev/null
+++ b/fast_llm/layers/multi_modal/embedding.py
@@ -0,0 +1,183 @@
+import typing
+
+import torch
+
+from fast_llm.core.distributed import set_generator
+from fast_llm.core.ops import reduce_forward, split
+from fast_llm.engine.config_utils.tensor_space import TensorSpace
+from fast_llm.layers.language_model.config import LanguageModelBaseConfig, LanguageModelKwargs
+from fast_llm.layers.language_model.embedding import LanguageModelEmbedding
+from fast_llm.layers.transformer.config import TransformerKwargs
+from fast_llm.layers.vision_encoder.config import VisionEncoderKwargs
+from fast_llm.layers.vision_encoder.preprocessing import get_num_patches
+from fast_llm.tensor import TensorMeta
+from fast_llm.utils import Assert, div
+
+
+class MultiModalEmbedding(LanguageModelEmbedding):
+    """
+    Multi-modal embedding layer to combine embeddings from text, image and more modalities.
+    """
+
+    def __init__(
+        self,
+        config: LanguageModelBaseConfig,
+        tensor_space: TensorSpace,
+    ):
+        super().__init__(config, tensor_space)
+
+    # @torch.compile
+    def _forward(
+        self,
+        input_: torch.Tensor,
+        tokens: torch.Tensor,
+        position_ids: torch.Tensor | None,
+        image_positions: list[torch.Tensor] | None,
+        image_sizes: list[list[tuple[int, int]]] | None,
+    ) -> torch.Tensor:
+        """
+        Forward pass for the multi-modal embedding layer.
+        Args:
+            input_: The input tensor (image embeddings).
+            tokens: The tokenized text input.
+            position_ids: The position ids for the text input.
+            image_positions: The positions of the image tokens in the input.
+            image_sizes: The sizes of the images in the input.
+        Returns:
+            The combined embeddings for text and images.
+        """
+        Assert.eq(position_ids is not None, self._use_absolute_position_embeddings)
+        group = self._tensor_space.distributed.tensor_group
+        if self._sequence_parallel:
+            micro_seqlen = input_.size(0)
+            patch_start_offset = self._distributed_config.tensor_rank * micro_seqlen
+            patch_end_offset = (self._distributed_config.tensor_rank + 1) * micro_seqlen
+        else:
+            patch_start_offset = 0
+            patch_end_offset = input_.size(0)
+        if self._parallel_embeddings:
+            token_mask = (tokens >= self._vocab_start_index) * (tokens < self._vocab_end_index)
+            masked_tokens = (tokens - self._vocab_start_index) * token_mask
+            embeddings = torch.embedding(self.word_embeddings_weight, masked_tokens) * token_mask.unsqueeze(2)  # noqa
+            # Cloning since we will modify the embeddings in-place
+            embeddings = embeddings.clone()
+            # the embeddings tensor are full-sized, but we might get a split of the patch embeddings
+            # We need to determine the offset in the embeddings tensor for each sample
+            # and also account for the special image tokens if applicable
+            for sample_idx, (positions, sizes) in enumerate(zip(image_positions, image_sizes)):
+                image_embedding_offset = 0
+                for position, size in zip(positions, sizes):
+                    num_patches = get_num_patches(*size, self._config.vision_encoder.patch_size)
+                    if image_embedding_offset + num_patches < patch_start_offset:
+                        image_embedding_offset += num_patches
+                        continue
+                    if self._config.vision_encoder.image_break_token is not None:
+                        patch_height = div(size[0], self._config.vision_encoder.patch_size)
+                        patch_width = div(size[1], self._config.vision_encoder.patch_size)
+                        for row in range(patch_height):
+                            row_start_src = image_embedding_offset + row * patch_width
+                            row_start_dst = position + row * (patch_width + 1)
+                            if row_start_src > patch_end_offset:
+                                break
+                            if row_start_src + patch_width <= patch_start_offset:
+                                continue
+
+                            input_start_index = max(row_start_src, patch_start_offset) - patch_start_offset
+                            input_end_index = min(row_start_src + patch_width, patch_end_offset) - patch_start_offset
+                            embeddings_start_index = row_start_dst + max(patch_start_offset - row_start_src, 0)
+                            embeddings_end_index = (
+                                row_start_dst + patch_width - max(row_start_src + patch_width - patch_end_offset, 0)
+                            )
+                            # row_end_src = min(row_start_src + patch_width, patch_end_offset)
+                            if self._sequence_parallel:
+                                embeddings[embeddings_start_index:embeddings_end_index, sample_idx] = input_[
+                                    input_start_index:input_end_index, sample_idx
+                                ]
+                            else:
+                                embeddings[sample_idx, embeddings_start_index:embeddings_end_index] = input_[
+                                    sample_idx, input_start_index:input_end_index
+                                ]
+                    else:
+                        input_start_index = max(image_embedding_offset, patch_start_offset) - patch_start_offset
+                        input_end_index = (
+                            min(image_embedding_offset + num_patches, patch_end_offset) - patch_start_offset
+                        )
+                        embedding_start_index = position - max(patch_start_offset - image_embedding_offset, 0)
+                        embedding_end_index = (
+                            position + num_patches - max(image_embedding_offset + num_patches - patch_end_offset, 0)
+                        )
+                        embeddings[sample_idx, embedding_start_index:embedding_end_index] = input_[
+                            input_start_index:input_end_index, sample_idx
+                        ]
+                        # embeddings[sample_idx, position : position + num_patches] = input_[
+                        #     sample_idx, image_embedding_offset : image_embedding_offset + num_patches
+                        # ]
+                    image_embedding_offset += num_patches
+                    if image_embedding_offset > patch_end_offset:
+                        break
+            embeddings = reduce_forward(embeddings, group)
+            if self._use_absolute_position_embeddings:
+                embeddings = embeddings + torch.nn.functional.embedding(position_ids, self.position_embeddings_weight)
+            if self._sequence_parallel:
+                embeddings = split(embeddings, group=group, dim=0)
+        else:
+            if self._sequence_parallel:
+                tokens = split(tokens, group=group, dim=0)
+                if self._use_absolute_position_embeddings:
+                    position_ids = split(position_ids, group=group, dim=0)
+            # mask padded tokens
+            token_mask = tokens >= 0
+            masked_tokens = tokens * token_mask
+            embeddings = torch.embedding(self.word_embeddings_weight, masked_tokens) * token_mask.unsqueeze(2)
+            embeddings = embeddings.clone()
+            for sample_idx, (positions, sizes) in enumerate(zip(image_positions, image_sizes)):
+                image_embedding_offset = 0
+                for position, size in zip(positions, sizes):
+                    num_patches = get_num_patches(*size, self._config.vision_encoder.patch_size)
+                    if self._config.vision_encoder.image_break_token is not None:
+                        patch_height = div(size[0], self._config.vision_encoder.patch_size)
+                        patch_width = div(size[1], self._config.vision_encoder.patch_size)
+
+                        for row in range(patch_height):
+                            row_start_src = image_embedding_offset + row * patch_width
+                            row_start_dst = position + row * (patch_width + 1)
+
+                            embeddings[sample_idx, row_start_dst : row_start_dst + patch_width] = input_[
+                                sample_idx, row_start_src : row_start_src + patch_width
+                            ]
+                    else:
+                        embeddings[sample_idx, position : position + num_patches] = input_[
+                            sample_idx, image_embedding_offset : image_embedding_offset + num_patches
+                        ]
+                    # Move to the next image in the input tensor
+                    image_embedding_offset += num_patches
+
+            if self._use_absolute_position_embeddings:
+                embeddings = embeddings + torch.nn.functional.embedding(position_ids, self.position_embeddings_weight)
+        with set_generator(
+            self._tensor_space.distributed.tp_generator
+            if self._sequence_parallel
+            else self._tensor_space.distributed.pp_generator
+        ):
+            embeddings = torch.dropout(embeddings, self._dropout_p, self.training)
+        return embeddings.to(dtype=self._residual_dtype)
+
+    def forward(
+        self,
+        input_: torch.Tensor,
+        kwargs: dict[str, typing.Any],
+        losses: dict[str, typing.Any] | None = None,
+        metrics: dict | None = None,
+    ) -> torch.Tensor:
+        if isinstance(input_, TensorMeta):
+            return TensorMeta.from_dims(
+                kwargs[TransformerKwargs.hidden_dims],
+                tensor_name="Embedding output",
+                dtype=self._residual_dtype,
+            )
+        position_ids = kwargs.get(LanguageModelKwargs.position_ids)
+        image_sizes = kwargs.get(VisionEncoderKwargs.image_sizes)
+        image_positions = kwargs.get(VisionEncoderKwargs.image_positions)
+        tokens = kwargs.get(LanguageModelKwargs.tokens)
+
+        return self._forward(input_, tokens, position_ids, image_positions, image_sizes)
diff --git a/fast_llm/layers/ssm/preprocessing.py b/fast_llm/layers/ssm/preprocessing.py
new file mode 100644
index 00000000..343f0bb2
--- /dev/null
+++ b/fast_llm/layers/ssm/preprocessing.py
@@ -0,0 +1,68 @@
+import logging
+import typing
+
+import torch
+
+from fast_llm.engine.base_model.config import Preprocessor
+from fast_llm.engine.config_utils.tensor_space import TensorSpace
+from fast_llm.layers.ssm.config import SSMKwargs
+from fast_llm.layers.transformer.config import TransformerKwargs
+from fast_llm.models.ssm.config import HybridSSMBaseModelConfig
+from fast_llm.utils import Assert
+
+logger = logging.getLogger(__name__)
+
+
+class Mamba2Preprocessor(Preprocessor):
+    def __init__(self, config: HybridSSMBaseModelConfig, tensor_space: TensorSpace):
+        self._config = config
+        self._tensor_space = tensor_space
+        self._distributed_config = self._tensor_space.distributed_config
+        self._transformer_dim_names = config.transformer._transformer_dim_names
+
+    def preprocess(self, batch, kwargs: dict[str, typing.Any]) -> None:
+        """
+        Simplified preprocessor that does not take into account micro-sequences.
+        """
+        if TransformerKwargs.sequence_lengths not in kwargs:
+            return
+        sequence_lengths = kwargs[TransformerKwargs.sequence_lengths]
+        if TransformerKwargs.cu_seqlens_k in kwargs:
+            # already set this in the transformer preprocessor, so we can use it here
+            cu_seqlens_k = kwargs[TransformerKwargs.cu_seqlens_k]
+            cu_seqlens_q = kwargs[TransformerKwargs.cu_seqlens_q]
+            Assert.eq(
+                cu_seqlens_k.shape[0],
+                cu_seqlens_q.shape[0],
+                msg="cu_seqlens_k and cu_seqlens_q have different lengths, is micro_sequence_length being used? This is currently not supported for Mamba.",
+            )
+            Assert.all_equal(cu_seqlens_k, cu_seqlens_q)
+            cu_seqlens = cu_seqlens_k
+        else:
+            seqlens = torch.cat(sequence_lengths)
+            cu_seqlens = torch.cat(
+                (
+                    torch.zeros(1, dtype=torch.int32, device=self._tensor_space.distributed.device),
+                    torch.cumsum(seqlens, dim=0, dtype=torch.int32).to(self._tensor_space.distributed.device),
+                )
+            )
+        kwargs[SSMKwargs.cu_seqlens] = cu_seqlens
+        # from https://github.com/jxiw/M1/blob/d92b53faa640f8ebf624d3e9e771fe24648ef014/rl/verl/verl/models/mamba/hybrid_wrapper.py#L152
+        kwargs[SSMKwargs.seq_idx] = torch.cat(
+            [
+                torch.full((s,), i, dtype=torch.int32, device=cu_seqlens.device)
+                for i, s in enumerate(cu_seqlens[1:] - cu_seqlens[:-1])
+            ],
+            dim=0,
+        ).unsqueeze(0)
+
+        sequence_lengths = kwargs.get(TransformerKwargs.sequence_lengths)
+        sequence_k = kwargs[TransformerKwargs.sequence_k_dim].size
+        sequence_q = kwargs[TransformerKwargs.sequence_q_dim].size
+        position_ids = torch.stack(
+            [torch.cat([torch.arange(x) for x in sample_lens]) for sample_lens in sequence_lengths]
+        ).to(self._tensor_space.distributed.device, dtype=torch.int64)
+        position_ids = position_ids[
+            :, sequence_k - sequence_q : sequence_k
+        ]  # this is only needed if we do micro-sequences?
+        kwargs[SSMKwargs.ssm_position_ids] = position_ids.to(torch.int32)
diff --git a/fast_llm/layers/vision_encoder/adapter.py b/fast_llm/layers/vision_encoder/adapter.py
new file mode 100644
index 00000000..7ec50dfe
--- /dev/null
+++ b/fast_llm/layers/vision_encoder/adapter.py
@@ -0,0 +1,55 @@
+import typing
+
+import torch
+
+from fast_llm.engine.base_model.base_model import Layer
+from fast_llm.engine.config_utils.tensor_space import TensorSpace
+from fast_llm.functional.triton.mlp import torch_mlp_activation
+from fast_llm.layers.common.linear import Linear
+from fast_llm.layers.transformer.config import TransformerDimNames, TransformerKwargs
+from fast_llm.layers.vision_encoder.config import VisionEncoderConfig, VisionEncoderDimNames
+from fast_llm.tensor import TensorMeta, init_normal_
+
+
+class VisionAdapter(Layer):
+    """
+    Vision adapter layer for the LLM.
+    """
+
+    def __init__(self, config: VisionEncoderConfig, tensor_space: TensorSpace):
+        super().__init__()
+        input_dim = tensor_space[VisionEncoderDimNames.out_channels]
+        self._activation_type = config.adapter_activation_type
+        self.layer_1 = Linear(
+            input_dim,
+            tensor_space[VisionEncoderDimNames.adapter_size],
+            bias=True,
+            weight_init_method=init_normal_(std=config.adapter_init_method_std),
+            bias_init_method=init_normal_(std=config.adapter_init_method_std),
+            lr_scale=config.adapter_lr_scale,
+        )
+        self.layer_2 = Linear(
+            tensor_space[VisionEncoderDimNames.adapter_size],
+            tensor_space[TransformerDimNames.hidden],
+            bias=True,
+            weight_init_method=init_normal_(std=config.adapter_init_method_std),
+            bias_init_method=init_normal_(std=config.adapter_init_method_std),
+            lr_scale=config.adapter_lr_scale,
+        )
+
+    def forward(
+        self,
+        input_: torch.Tensor,
+        kwargs: dict[str, typing.Any],
+        losses: dict[str, typing.Any] | None = None,
+        metrics: dict[str, typing.Any] | None = None,
+    ) -> torch.Tensor:
+        if isinstance(input_, TensorMeta):
+            return TensorMeta.from_dims(
+                kwargs[TransformerKwargs.hidden_dims],
+                tensor_name="Vision adapter output",
+                dtype=input_.dtype,
+            )
+        return self.layer_2(
+            torch_mlp_activation(input_=self.layer_1(input_), gated=False, activation_type=self._activation_type)
+        )
diff --git a/fast_llm/layers/vision_encoder/config.py b/fast_llm/layers/vision_encoder/config.py
new file mode 100644
index 00000000..a705d948
--- /dev/null
+++ b/fast_llm/layers/vision_encoder/config.py
@@ -0,0 +1,181 @@
+import enum
+
+from fast_llm.config import Config, Field, FieldHint, check_field, config_class, skip_valid_if_none
+from fast_llm.engine.base_model.config import BaseModelConfig
+from fast_llm.engine.config_utils.tensor_space import TensorDim, TensorSpace
+from fast_llm.functional.config import ActivationType
+from fast_llm.layers.common.config import NormalizationConfig
+from fast_llm.layers.transformer.config import TransformerConfig
+from fast_llm.utils import Assert
+
+
+class VisionEncoderDimNames:
+    in_channels = "vision_in_channels"
+    out_channels = "vision_out_channels"
+    adapter_size = "vision_adapter_size"
+    patch_size = "vision_patch_size"
+    kv_channels = "vision_kv_channels"
+
+
+class VisionEncoderKwargs:
+    patch_size = "patch_size"
+    images = "images"
+    image_patches = "image_patches"
+    image_positions = "image_positions"
+    max_image_size = "max_image_size"
+    image_sizes = "image_sizes"
+    image_mean = "image_normalization_mean"
+    image_std = "image_normalization_std"
+    image_rescale_factor = "image_rescale_factor"
+    rope_theta = "vit_rope_theta"
+    rotary_inv_freq = "vit_rotary_inv_freq"
+    kv_channels = "vit_kv_channels"
+    max_image_tokens = "max_image_tokens"
+    patch_embeddings = "patch_embeddings"
+    hidden_dims = "vit_hidden_dims"
+    image_patches_meta = "vit_image_patches_meta"
+    out_channels = "vit_out_channels"
+
+
+@config_class()
+class ImageNormalizationConfig(Config):
+    mean_r: float = Field(
+        default=0.48145466,
+        desc="Mean value for the red channel in the image normalization process.",
+        hint=FieldHint.optional,
+    )
+    mean_g: float = Field(
+        default=0.4578275,
+        desc="Mean value for the green channel in the image normalization process.",
+        hint=FieldHint.optional,
+    )
+    mean_b: float = Field(
+        default=0.40821073,
+        desc="Mean value for the blue channel in the image normalization process.",
+        hint=FieldHint.optional,
+    )
+    std_r: float = Field(
+        default=0.26862954,
+        desc="Standard deviation value for the red channel in the image normalization process.",
+        hint=FieldHint.optional,
+    )
+    std_g: float = Field(
+        default=0.26130258,
+        desc="Standard deviation value for the green channel in the image normalization process.",
+        hint=FieldHint.optional,
+    )
+    std_b: float = Field(
+        default=0.27577711,
+        desc="Standard deviation value for the blue channel in the image normalization process.",
+        hint=FieldHint.optional,
+    )
+    rescale_factor: float = Field(
+        default=255.0,
+        desc="Rescale factor for the image normalization process.",
+        hint=FieldHint.optional,
+    )
+
+
+class VisionEncoderType(str, enum.Enum):
+    none = "none"
+    # TODO: better name? normalization, patch size, adapter can change based on implementation, no standard way currently.
+    pixtral = "pixtral"
+
+
+@config_class(registry=True)
+class VisionEncoderConfig(BaseModelConfig):
+    _abstract = False
+
+    type: VisionEncoderType = Field(
+        default=VisionEncoderType.none,
+        desc="Type of the vision encoder. Choices: none, pixtral.",
+        hint=FieldHint.architecture,
+    )
+    transformer: TransformerConfig = Field(
+        desc="Configuration for the vision transformer architecture.",
+        hint=FieldHint.core,
+    )
+    patch_size: int = Field(
+        default=16,
+        desc="Patch size for the image encoder.",
+        hint=FieldHint.core,
+    )
+    conv_bias: bool = Field(
+        default=False,
+        desc="Whether to use bias in the convolutional layer.",
+        hint=FieldHint.optional,
+    )
+    patch_norm: NormalizationConfig = Field(
+        desc="Configuration for the normalization layers applied to the image patches.",
+        hint=FieldHint.optional,
+    )
+    adapter_size: int = Field(
+        default=5120,
+        desc="Intermediate size for the adapter linear layers. Assuming 2 linear layers",
+        hint=FieldHint.core,
+    )
+    adapter_activation_type: ActivationType = Field(
+        default=ActivationType.gelu,
+        desc="The intermediate activation type for multi-modal adapter. Default: GeLU.",
+        hint=FieldHint.core,
+    )
+    adapter_bias: bool = Field(
+        default=True,
+        desc="Whether to use bias in the adapter linear layer.",
+        hint=FieldHint.optional,
+    )
+    image_normalization: ImageNormalizationConfig = Field(
+        desc="Configuration for the normalization layers applied to the image patches.",
+        hint=FieldHint.optional,
+    )
+    image_break_token: int | None = Field(
+        default=None,
+        desc="Token id to separate image rows. If None, no token id is applied.",
+        hint=FieldHint.optional,
+    )
+    image_end_token: int | None = Field(
+        default=None,
+        desc="Token id to indicate the end of an image. If None, no token id is applied.",
+        hint=FieldHint.optional,
+    )
+    adapter_lr_scale: float | None = Field(
+        default=None,
+        desc="Custom learning rate scale for the adapter weights.",
+        hint=FieldHint.feature,
+        valid=skip_valid_if_none(check_field(Assert.geq, 0)),
+    )
+    conv_lr_scale: float | None = Field(
+        default=None,
+        desc="Custom learning rate scale for the convolutional layer weights.",
+        hint=FieldHint.feature,
+        valid=skip_valid_if_none(check_field(Assert.geq, 0)),
+    )
+    adapter_init_method_std: float = Field(
+        default=None,
+        desc="Standard deviation for the normal initialization of the adapter weights. Default: adapter_size ** -0.5.",
+        hint=FieldHint.optional,
+        valid=check_field(Assert.geq, 0),
+    )
+
+    def _validate(self) -> None:
+        with self._set_implicit_default():
+            if self.adapter_init_method_std is None:
+                self.adapter_init_method_std = self.adapter_size**-0.5
+        super()._validate()
+
+    def setup_tensor_space(self, tensor_space: TensorSpace):
+        tensor_space.add_tensor_dim(TensorDim(VisionEncoderDimNames.out_channels, self.transformer.hidden_size))
+        tensor_space.add_tensor_dim(TensorDim(VisionEncoderDimNames.adapter_size, self.adapter_size))
+        tensor_space.add_tensor_dim(TensorDim(VisionEncoderDimNames.patch_size, self.patch_size))
+        tensor_space.add_tensor_dim(TensorDim(VisionEncoderDimNames.in_channels, 3))
+        self.transformer.setup_tensor_space(tensor_space)
+
+    @property
+    def enabled(self) -> bool:
+        return self.type != VisionEncoderType.none
+
+
+for name in VisionEncoderType:
+    # We need this because we are using the reserved field name `type`.
+    # TODO: Implement proper dynamic typing.
+    VisionEncoderConfig.register_subclass(name.value, VisionEncoderConfig)
diff --git a/fast_llm/layers/vision_encoder/patch_conv.py b/fast_llm/layers/vision_encoder/patch_conv.py
new file mode 100644
index 00000000..6c2a7093
--- /dev/null
+++ b/fast_llm/layers/vision_encoder/patch_conv.py
@@ -0,0 +1,62 @@
+import typing
+
+import torch
+
+from fast_llm.core.ops import split
+from fast_llm.engine.base_model.base_model import Layer
+from fast_llm.engine.config_utils.tensor_space import TensorSpace
+from fast_llm.layers.transformer.config import TransformerKwargs, VisionTransformerKwargs
+from fast_llm.layers.vision_encoder.config import VisionEncoderConfig, VisionEncoderDimNames, VisionEncoderKwargs
+from fast_llm.tensor import ParameterMeta, TensorMeta, init_normal_
+
+
+class PatchConv(Layer):
+    def __init__(self, config: VisionEncoderConfig, tensor_space: TensorSpace):
+        super().__init__()
+        self._tensor_space = tensor_space
+        self._distributed_config = tensor_space.distributed_config
+        self._sequence_parallel = self._distributed_config.sequence_tensor_parallel
+        self._lr_scale = config.adapter_lr_scale
+        self.weight = ParameterMeta.from_dims(
+            (
+                self._tensor_space[VisionEncoderDimNames.out_channels],
+                self._tensor_space[VisionEncoderDimNames.in_channels],
+                self._tensor_space[VisionEncoderDimNames.patch_size],
+                self._tensor_space[VisionEncoderDimNames.patch_size],
+            ),
+            init_method=init_normal_(),
+            lr_scale=self._lr_scale,
+        )
+        if config.conv_bias:
+            self.bias = ParameterMeta.from_dims(
+                (self._tensor_space[VisionEncoderDimNames.out_channels],),
+                init_method=init_normal_(),
+                lr_scale=self._lr_scale,
+            )
+        else:
+            self.bias = None
+        self.norm = config.patch_norm.get_layer(tensor_space[VisionEncoderDimNames.out_channels])
+        self.stride = config.patch_size
+
+    def forward(
+        self,
+        input_: torch.Tensor,
+        kwargs: dict[str, typing.Any],
+        losses: dict[str, typing.Any] | None = None,
+        metrics: dict | None = None,
+    ) -> torch.Tensor:
+        hidden_dims = kwargs[VisionTransformerKwargs.hidden_dims]
+        if isinstance(input_, TensorMeta):
+            return TensorMeta.from_dims(hidden_dims, tensor_name="patch conv output", dtype=input_.dtype)
+        micro_batch_size = kwargs[TransformerKwargs.micro_batch_size]
+        sequence_length = kwargs[TransformerKwargs.sequence_length]
+        out_channels = kwargs[VisionEncoderKwargs.out_channels]
+        reshape_dims = (micro_batch_size, sequence_length, out_channels)
+        group = self._tensor_space.distributed.tensor_group
+        input_ = torch.nn.functional.conv2d(input_, self.weight, self.bias, stride=self.stride)
+        patch_embeddings = self.norm(input_.flatten(1))
+        patch_embeddings = patch_embeddings.view(reshape_dims)
+        if self._sequence_parallel:
+            patch_embeddings = patch_embeddings.permute(1, 0, 2).contiguous()
+            patch_embeddings = split(patch_embeddings, group=group, dim=0)
+        return patch_embeddings
diff --git a/fast_llm/layers/vision_encoder/preprocessing.py b/fast_llm/layers/vision_encoder/preprocessing.py
new file mode 100644
index 00000000..adacd380
--- /dev/null
+++ b/fast_llm/layers/vision_encoder/preprocessing.py
@@ -0,0 +1,281 @@
+import math
+import typing
+
+import torch
+import torchvision.transforms.v2 as torchvision_transforms
+
+from fast_llm.engine.base_model.config import Preprocessor
+from fast_llm.engine.config_utils.tensor_space import TensorDim, TensorSpace
+from fast_llm.layers.language_model.config import LanguageModelKwargs
+from fast_llm.layers.transformer.config import TransformerKwargs, VisionTransformerDimNames, VisionTransformerKwargs
+from fast_llm.layers.vision_encoder.config import VisionEncoderConfig, VisionEncoderDimNames, VisionEncoderKwargs
+from fast_llm.tensor import TensorMeta
+from fast_llm.utils import div
+
+
+def get_num_patches(height: int, width: int, patch_size: int) -> tuple[int, int]:
+    """
+    Calculate the number of patches in height and width dimensions.
+    """
+    return div(height, patch_size) * div(width, patch_size)
+
+
+def get_num_image_tokens(height: int, width: int, patch_size: int, image_break: bool, image_end: bool) -> int:
+    """
+    Calculate the number of image tokens.
+    If image_break is True, we consider 1 additional token after every row of patches.
+    """
+    height_patches = div(height, patch_size)
+    width_patches = div(width, patch_size)
+    num_tokens = height_patches * width_patches
+    if image_break:
+        num_tokens += height_patches
+    elif image_end:
+        num_tokens += 1
+    return num_tokens
+
+
+def get_resize_dims(height: int, width: int, max_height: int, max_width: int, patch_size: int) -> tuple[int, int]:
+    """
+    Calculate the new dimensions for resizing an image while maintaining the aspect ratio.
+    If the image is larger than the max dimensions, it will be resized to fit within them.
+    If the image is smaller, it will be resized to the nearest multiple of the patch size.
+    """
+    ratio = max(height / max_height, width / max_width)
+    if ratio > 1:
+        # Resize to fit within max dimensions
+        height = int(height / ratio)
+        width = int(width / ratio)
+    return patch_size * math.ceil(height / patch_size), patch_size * math.ceil(width / patch_size)
+
+
+def resize(image: torch.Tensor, max_height: int, max_width: int, patch_size: int) -> tuple[int, int]:
+    target_height, target_width = get_resize_dims(
+        image.size(1), image.size(2), max_height, max_width, patch_size=patch_size
+    )
+    height, width = image.size(1), image.size(2)
+    while height > 2 * target_height or width > 2 * target_width:
+        # cap the resizing to half of the current size as a workaround for large images
+        # See pytorch issue: https://github.com/pytorch/pytorch/issues/103589
+        intermediate_max_width = max(target_width, width // 2)
+        intermediate_max_height = max(target_height, height // 2)
+        height, width = get_resize_dims(
+            height, width, intermediate_max_height, intermediate_max_width, patch_size=patch_size
+        )
+        image = torchvision_transforms.functional.resize(
+            image, size=(height, width), interpolation=torchvision_transforms.InterpolationMode.BICUBIC
+        )
+
+    # TODO: options for interpolation mode?
+    return torchvision_transforms.functional.resize(
+        image, size=(target_height, target_width), interpolation=torchvision_transforms.InterpolationMode.BICUBIC
+    )
+
+
+def normalize(image: torch.Tensor, mean: list[float], std: list[float]) -> torch.Tensor:
+    """
+    Normalize the image using the specified mean and standard deviation.
+    """
+    return torchvision_transforms.functional.normalize(image, mean=mean, std=std)
+
+
+def pad(image: torch.Tensor, max_height, max_width) -> torch.Tensor:
+    """
+    Pad images on the right and bottom with 0s untitl max_height and max_width
+    """
+    width_padding = max(0, max_height - image.size(1))
+    depth_padding = max(0, max_width - image.size(2))
+    return torchvision_transforms.functional.pad(image, (0, 0, depth_padding, width_padding), 0)
+
+
+def create_inv_freqs(rope_theta: int, kv_channels: int, max_image_size: int, patch_size: int) -> torch.Tensor:
+    freqs = 1.0 / (rope_theta ** (torch.arange(0, kv_channels, 2).float() / kv_channels))
+    max_patches_per_side = max_image_size // patch_size
+
+    h = torch.arange(max_patches_per_side)
+    w = torch.arange(max_patches_per_side)
+
+    freqs_h = torch.outer(h, freqs[::2]).float()
+    freqs_w = torch.outer(w, freqs[1::2]).float()
+    inv_freq = torch.cat(
+        [
+            freqs_h[:, None, :].repeat(1, max_patches_per_side, 1),
+            freqs_w[None, :, :].repeat(max_patches_per_side, 1, 1),
+        ],
+        dim=-1,
+    ).reshape(-1, kv_channels // 2)
+
+    return torch.cat((inv_freq, inv_freq), dim=-1)
+
+
+def position_ids_in_meshgrid(height, width, max_size, patch_size) -> torch.Tensor:
+    patch_height = height // patch_size
+    patch_width = width // patch_size
+    mesh = torch.meshgrid(torch.arange(patch_height), torch.arange(patch_width), indexing="ij")
+    h_grid, v_grid = torch.stack(mesh, dim=-1).reshape(-1, 2).chunk(2, -1)
+    ids = h_grid * max_size + v_grid
+    return ids[:, 0]
+
+
+class VisionPreprocessor(Preprocessor):
+    def __init__(self, config: VisionEncoderConfig, tensor_space: TensorSpace):
+        self._config = config
+        self._tensor_space = tensor_space
+        self._distributed_config = self._tensor_space.distributed_config
+
+    def preprocess_meta(self, kwargs: dict[str, typing.Any]) -> None:
+        kwargs[VisionEncoderKwargs.image_patches_meta] = TensorMeta.from_dims(
+            (
+                TensorDim(
+                    VisionTransformerDimNames.batch,
+                    kwargs[TransformerKwargs.micro_batch_size] * kwargs[TransformerKwargs.sequence_q_dim].size,
+                ),
+                TensorDim(VisionEncoderDimNames.in_channels, 3),
+                TensorDim(VisionEncoderDimNames.patch_size, kwargs[VisionEncoderKwargs.patch_size]),
+                TensorDim(VisionEncoderDimNames.patch_size, kwargs[VisionEncoderKwargs.patch_size]),
+            ),
+            dtype=self._distributed_config.training_dtype.torch,
+        )
+
+    def preprocess(self, tokens, kwargs: dict[str, typing.Any]) -> None:
+        images = kwargs.get(VisionEncoderKwargs.images)
+        max_image_size = kwargs.get(VisionEncoderKwargs.max_image_size)
+        im_width = kwargs.get(VisionEncoderKwargs.max_image_size)
+        patch_size = kwargs[VisionEncoderKwargs.patch_size]
+        image_positions = kwargs.get(VisionEncoderKwargs.image_positions)
+        image_sizes = [
+            [get_resize_dims(im.size(1), im.size(2), max_image_size, im_width, patch_size=patch_size) for im in ims]
+            for ims in images
+        ]
+        kwargs[VisionEncoderKwargs.image_sizes] = image_sizes
+        images = [
+            [
+                normalize(
+                    resize(image, max_image_size, im_width, patch_size).to(
+                        dtype=self._tensor_space.distributed_config.training_dtype.torch
+                    )
+                    / kwargs[VisionEncoderKwargs.image_rescale_factor],
+                    mean=kwargs[VisionEncoderKwargs.image_mean],
+                    std=kwargs[VisionEncoderKwargs.image_std],
+                )
+                for image in imgs
+            ]
+            for imgs in images
+        ]
+
+        if LanguageModelKwargs.labels in kwargs:
+            labels = kwargs[LanguageModelKwargs.labels]
+            if (self._config.image_break_token is not None) or (self._config.image_end_token is not None):
+                # If image break or end token is present, we need to replace image token ids to -100 in labels
+                # TODO: avoid double cloning labels in case of loss masking spans?
+                labels = labels.clone()
+
+        patches = []
+        patch_position_ids = []
+        cu_seqlens = [0]
+        max_seqlen = -1
+        kwargs.get(TransformerKwargs.sequence_first)
+        for idx, (imgs, sizes, positions) in enumerate(zip(images, image_sizes, image_positions)):
+            # add an empty tensor for clean concatenation in case of no images
+            seq_patches = [
+                torch.tensor([]).to(
+                    dtype=self._tensor_space.distributed_config.training_dtype.torch,
+                    device=self._tensor_space.distributed.device,
+                )
+            ]
+            sample_cu_seqlen = 0
+            for image, size, position in zip(imgs, sizes, positions):
+                seqlen = get_num_patches(*size, patch_size)
+                num_tokens = get_num_image_tokens(
+                    *size,
+                    patch_size=patch_size,
+                    image_break=self._config.image_break_token is not None,
+                    image_end=self._config.image_end_token is not None,
+                )
+                if LanguageModelKwargs.labels in kwargs:
+                    # set labels for image patches to -100
+                    labels[idx, max(position - 1, 0) : position + num_tokens - 1] = -100
+                if seqlen > max_seqlen:
+                    max_seqlen = seqlen
+                cu_seqlens.append(cu_seqlens[-1] + seqlen)
+                sample_cu_seqlen += seqlen
+                seq_patches.append(
+                    torch.cat(
+                        [
+                            torch.nn.functional.unfold(image, kernel_size=patch_size, stride=patch_size).T.reshape(
+                                -1, 3, patch_size, patch_size
+                            ),
+                        ]
+                    )
+                )
+            padding_size = kwargs[TransformerKwargs.sequence_length] - sample_cu_seqlen
+            if padding_size > max_seqlen:
+                max_seqlen = padding_size
+            cu_seqlens.append(kwargs[TransformerKwargs.sequence_length] * (idx + 1))
+            patches.append(
+                torch.cat(
+                    [
+                        *seq_patches,
+                        torch.zeros(padding_size, 3, patch_size, patch_size).to(
+                            dtype=self._tensor_space.distributed_config.training_dtype.torch,
+                            device=self._tensor_space.distributed.device,
+                        ),
+                    ]
+                )
+            )
+            if sizes:
+                position_ids = torch.cat(
+                    [position_ids_in_meshgrid(*size, max_image_size // patch_size, patch_size) for size in sizes]
+                ).to(device=self._tensor_space.distributed.device)
+            else:
+                position_ids = torch.tensor(
+                    [],
+                    dtype=torch.int64,
+                    device=self._tensor_space.distributed.device,
+                )
+            # We pad at the end instead of padding at the position in meshgrid because flash attention does not support custom attention masks
+            patch_position_ids.append(
+                torch.cat(
+                    [
+                        position_ids,
+                        torch.full((padding_size,), 0).to(device=self._tensor_space.distributed.device),
+                    ]
+                )
+            )
+            assert patches[-1].size(0) == kwargs[TransformerKwargs.sequence_length]
+        patches = torch.cat(patches)
+        patch_position_ids = torch.cat(patch_position_ids)
+        kwargs[VisionEncoderKwargs.image_patches] = patches
+        kwargs[VisionTransformerKwargs.patch_position_ids] = patch_position_ids
+        kwargs[VisionEncoderKwargs.rotary_inv_freq] = create_inv_freqs(
+            kwargs[VisionEncoderKwargs.rope_theta],
+            kwargs[VisionEncoderKwargs.kv_channels],
+            max_image_size,
+            patch_size,
+        ).to(device=self._tensor_space.distributed.device)
+        kwargs[VisionEncoderKwargs.max_image_tokens] = div(max_image_size * im_width, patch_size**2)
+        # sequence data parallel is not yet supported for images, so we use the same cu_seqlens for q and k
+        kwargs[VisionTransformerKwargs.cu_seqlens_q] = torch.tensor(
+            cu_seqlens, device=self._tensor_space.distributed.device, dtype=torch.int32
+        )
+        kwargs[VisionTransformerKwargs.cu_seqlens_k] = torch.tensor(
+            cu_seqlens, device=self._tensor_space.distributed.device, dtype=torch.int32
+        )
+        kwargs[VisionTransformerKwargs.max_seqlen_q] = max_seqlen
+        kwargs[VisionTransformerKwargs.max_seqlen_k] = max_seqlen
+        if LanguageModelKwargs.labels in kwargs:
+            kwargs[LanguageModelKwargs.labels] = labels
+
+        # TODO: add proper preprocessing for attention-mask when not using flash attention
+        # Following is just a dummy code to run the tests.
+        kwargs[self._config.transformer._transformer_kwargs.attention_mask] = torch.ones(
+            (1, 1, kwargs[TransformerKwargs.sequence_length], 1, kwargs[TransformerKwargs.sequence_length]),
+            dtype=torch.bool,
+            device=self._tensor_space.distributed.device,
+        )
+        kwargs[self._config.transformer._transformer_kwargs.attention_mask_value] = torch.full(
+            [],
+            torch.finfo(self._distributed_config.training_dtype.torch).min,
+            dtype=self._distributed_config.training_dtype.torch,
+            device=self._tensor_space.distributed.device,
+        )
diff --git a/fast_llm/models/custom/model.py b/fast_llm/models/custom/model.py
new file mode 100644
index 00000000..534d813f
--- /dev/null
+++ b/fast_llm/models/custom/model.py
@@ -0,0 +1,70 @@
+import typing
+
+import torch
+
+from fast_llm.data.data.gpt.data import GPTBatch
+from fast_llm.engine.base_model.base_model import Layer, LossDef
+from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
+from fast_llm.engine.schedule.config import BatchConfig
+from fast_llm.layers.language_model.embedding import LanguageModelEmbedding
+from fast_llm.layers.transformer.transformer import TransformerBlock
+from fast_llm.models.custom.config import CustomBaseModelConfig, CustomModelConfig
+from fast_llm.models.custom.head import CustomHead
+from fast_llm.models.gpt.config import GPTBaseModelConfig
+from fast_llm.models.gpt.model import GPTBaseModel, GPTModel
+from fast_llm.tensor import TensorMeta
+
+
+class CustomBaseModel[ConfigType: CustomBaseModelConfig](GPTBaseModel[ConfigType]):
+    config_class: typing.ClassVar[type[GPTBaseModelConfig]] = GPTBaseModelConfig
+
+    def __init__(
+        self,
+        config: CustomBaseModelConfig,
+        distributed_config: DistributedConfig,
+    ):
+        # TODO: Implement / update.
+        super().__init__(config, distributed_config)
+
+    def get_layers(self) -> list[Layer]:
+        # TODO: Adjust as needed.
+        return [
+            LanguageModelEmbedding(self._config, self._tensor_space),
+            *[
+                TransformerBlock(
+                    self._config.transformer,
+                    self._tensor_space,
+                    block_index=i + 1,
+                )
+                for i in range(self._config.transformer.num_layers)
+            ],
+            CustomHead(self._config, self._tensor_space),
+        ]
+
+    def preprocess_meta(
+        self, batch_meta: BatchConfig | torch.Tensor, phase: PhaseType
+    ) -> list[tuple[TensorMeta, dict]]:
+        # TODO: Adjust or reimplement.
+        return super().preprocess_meta(batch_meta, phase)
+
+    def preprocess(
+        self,
+        batch: GPTBatch,
+        preprocessed_meta: list[tuple[TensorMeta, dict]] | None = None,
+        *,
+        phase: PhaseType,
+        iteration: int,
+        metrics: dict | None = None,
+    ) -> list[tuple[torch.Tensor, dict]]:
+        # TODO: Adjust or reimplement.
+        return super().preprocess(batch, preprocessed_meta, phase=phase, iteration=iteration, metrics=metrics)
+
+    @property
+    def loss_defs(self) -> list[LossDef]:
+        # TODO: Adjust or reimplement.
+        return super().loss_defs
+
+
+class CustomModel[ConfigType: CustomBaseModelConfig](GPTModel[ConfigType]):
+    config_class: typing.ClassVar[type[CustomModelConfig]] = CustomModelConfig
+    base_model_class: typing.ClassVar[type[CustomBaseModel]] = CustomBaseModel
diff --git a/fast_llm/models/gpt/config.py b/fast_llm/models/gpt/config.py
index 8fbb99ca..7712d764 100644
--- a/fast_llm/models/gpt/config.py
+++ b/fast_llm/models/gpt/config.py
@@ -16,9 +16,12 @@
     DiffusionDreamCheckpointFormat,
     DiffusionLlamaCheckpointFormat,
     LlamaCheckpointFormat,
+    LlavaCheckpointFormat,
+    LlavaHybridCheckpointFormat,
     MistralCheckpointFormat,
     MixtralCheckpointFormat,
     MTPLlamaCheckpointFormat,
+    PixtralCheckpointFormat,
     Qwen2CheckpointFormat,
 )
 from fast_llm.models.gpt.megatron import set_megatron_distributed_seeds
@@ -104,6 +107,9 @@ class GPTModelConfig(FastLLMModelConfig):
         DiffusionDreamCheckpointFormat,
         DiffusionLlamaCheckpointFormat,
         AprielHybridSSMCheckpointFormat,
+        PixtralCheckpointFormat,
+        LlavaCheckpointFormat,
+        LlavaHybridCheckpointFormat,
     )
 
     @classmethod
@@ -124,6 +130,25 @@ def get_huggingface_model_for_causal_lm_class(cls) -> type["HuggingfaceGPTModelF
 
         return HuggingfaceGPTModelForCausalLM
 
+    @classmethod
+    def get_checkpoint_format(cls, format: type[CheckpointFormat]) -> type[CheckpointFormat]:
+        if isinstance(format, type) and issubclass(format, CheckpointFormat):
+            format_ = cls.get_checkpoint_format(format.name)
+            Assert.is_(format, format_)
+            return format_
+        elif isinstance(format, dict):
+            for format_ in cls.checkpoint_formats:
+                if format_.name == format["name"]:
+                    if (vision_name := format.get("vision_name")) is not None:
+                        format_.vision_name = vision_name
+                    if (text_name := format.get("text_name")) is not None:
+                        format_.text_name = text_name
+                    return format_
+        for format_ in cls.checkpoint_formats:
+            if format_.name == format:
+                return format_
+        raise ValueError(f"Checkpoint format {format} not supported for model {cls.model_name}")
+
 
 @config_class()
 class PretrainedGPTModelConfig(PretrainedFastLLMModelConfig):
@@ -177,6 +202,10 @@ def _validate(self) -> None:
             )
             Assert.geq(output_layer.prediction_heads, output_layer.prediction_heads)
 
+        if self.model.base_model.vision_encoder.enabled:
+            assert self.batch.max_image_size is not None, "max_image_size must be set when using vision encoder"
+            Assert.gt(self.batch.max_image_size, 0)
+
     @classmethod
     def get_trainer_class(cls) -> type["GPTTrainer"]:
         from fast_llm.models.gpt.trainer import GPTTrainer
diff --git a/fast_llm/models/gpt/conversion/auto.py b/fast_llm/models/gpt/conversion/auto.py
index 659d1f12..bd2c3d2c 100644
--- a/fast_llm/models/gpt/conversion/auto.py
+++ b/fast_llm/models/gpt/conversion/auto.py
@@ -8,9 +8,12 @@
     DiffusionDreamCheckpointFormat,
     DiffusionLlamaCheckpointFormat,
     LlamaCheckpointFormat,
+    LlavaCheckpointFormat,
+    LlavaHybridCheckpointFormat,
     MistralCheckpointFormat,
     MixtralCheckpointFormat,
     MTPLlamaCheckpointFormat,
+    PixtralCheckpointFormat,
     Qwen2CheckpointFormat,
 )
 from fast_llm.models.gpt.conversion.diffusion_dream import DiffusionDreamHuggingfaceCheckpointHandler
@@ -35,4 +38,7 @@ class AutoGPTHuggingfaceCheckpointHandler(
         DiffusionDreamCheckpointFormat.name: DiffusionDreamHuggingfaceCheckpointHandler,
         DiffusionLlamaCheckpointFormat.name: DiffusionLlamaHuggingfaceCheckpointHandler,
         AprielHybridSSMCheckpointFormat.name: AprielHuggingfaceCheckpointHandler,
+        PixtralCheckpointFormat: PixtralHuggingfaceCheckpointHandler,
+        LlavaCheckpointFormat.name: LlavaHuggingfaceCheckpointHandler,
+        LlavaHybridCheckpointFormat: LlavaHybridCHuggingfaceCheckpointHandler,
     }
diff --git a/fast_llm/models/gpt/conversion/config.py b/fast_llm/models/gpt/conversion/config.py
index 7c06906a..f6e3d65c 100644
--- a/fast_llm/models/gpt/conversion/config.py
+++ b/fast_llm/models/gpt/conversion/config.py
@@ -47,3 +47,27 @@ class DiffusionLlamaCheckpointFormat(GPTHuggingfaceCheckpointFormat):
 
 class AprielHybridSSMCheckpointFormat(GPTHuggingfaceCheckpointFormat):
     name: typing.ClassVar[str] = "apriel_hybrid_ssm"
+
+
+class LlavaCheckpointFormat(GPTHuggingfaceCheckpointFormat):
+    name: typing.ClassVar[str] = "llava"
+    # Using default values for vision and text models. Can be overridden in the config
+    vision_name: typing.ClassVar[str] = "pixtral"
+    text_name: typing.ClassVar[str] = "mistral"
+
+
+class PixtralCheckpointFormat(GPTHuggingfaceCheckpointFormat):
+    name: typing.ClassVar[str] = "pixtral"
+
+
+class LlavaHybridCheckpointFormat(GPTHuggingfaceCheckpointFormat):
+    name: typing.ClassVar[str] = "llava_hybrid"
+    vision_name: typing.ClassVar[str] = "pixtral"
+    text_name: typing.ClassVar[str] = "apriel_ssm_thinker_hybrid"
+    trust_remote_code: typing.ClassVar[bool] = True
+
+    @classmethod
+    def get_handler_class(cls) -> type[CheckpointHandler]:
+        from fast_llm.models.ssm.conversion import LlavaHybridHuggingfaceCheckpointHandler
+
+        return LlavaHybridHuggingfaceCheckpointHandler
diff --git a/fast_llm/models/gpt/conversion/llava.py b/fast_llm/models/gpt/conversion/llava.py
new file mode 100644
index 00000000..99626986
--- /dev/null
+++ b/fast_llm/models/gpt/conversion/llava.py
@@ -0,0 +1,155 @@
+import typing
+
+from fast_llm import __version__
+from fast_llm.config import MISSING, get_nested_dict_value, set_nested_dict_value
+from fast_llm.engine.base_model.config import BaseModelConfig
+from fast_llm.engine.checkpoint.config import CheckpointFormat, CheckpointLoadMetadataConfig
+from fast_llm.engine.checkpoint.external import ExternalStateDictCheckpointHandler
+from fast_llm.engine.checkpoint.huggingface import HuggingfaceStateDictCheckpointHandler
+from fast_llm.engine.multi_stage.config import CheckpointMetadata, FastLLMModelConfig
+from fast_llm.functional.config import ActivationType
+from fast_llm.models.gpt.config import GPTBaseModelConfig, GPTModelConfig
+from fast_llm.models.gpt.conversion.auto import AutoGPTHuggingfaceCheckpointHandler
+from tests.utils.model_configs import LlavaGPTHuggingfaceCheckpointFormat
+
+
+class LlavaHuggingfaceCheckpointHandler(HuggingfaceStateDictCheckpointHandler):
+    format: typing.ClassVar[type[CheckpointFormat]] = LlavaGPTHuggingfaceCheckpointFormat
+    architecture: typing.ClassVar[str] = "LlavaForConditionalGeneration"
+    _model_class: typing.ClassVar[FastLLMModelConfig] = GPTModelConfig
+
+    @classmethod
+    def get_vision_handler_class(cls) -> type[ExternalStateDictCheckpointHandler]:
+        return AutoGPTHuggingfaceCheckpointHandler.get_handler_class(cls.format.vision_name)
+
+    @classmethod
+    def get_text_handler_class(cls) -> type[ExternalStateDictCheckpointHandler]:
+        return AutoGPTHuggingfaceCheckpointHandler.get_handler_class(cls.format.text_name)
+
+    @classmethod
+    def _load_metadata(cls, config: CheckpointLoadMetadataConfig) -> CheckpointMetadata:
+        vision_handler_cls = cls.get_vision_handler_class()
+        text_handler_cls = cls.get_text_handler_class()
+        cfg_dict = cls._load_config(config.path)
+        kwargs = {}
+        if "text_config" in cfg_dict:
+            text_kwargs = text_handler_cls._import_config_dict(cfg_dict["text_config"])
+            kwargs.update(text_kwargs)
+        if "vision_config" in cfg_dict:
+            vision_kwargs = vision_handler_cls._import_config_dict(cfg_dict["vision_config"])
+            vision_kwargs = {tuple(["vision_encoder"] + list(key)): value for key, value in vision_kwargs.items()}
+            kwargs.update(vision_kwargs)
+        kwargs.update(
+            cls._import_config(
+                {key: value for key, value in cfg_dict.items() if key not in ("text_config", "vision_config")}
+            )
+        )
+        imported_model_config = cls._model_class.get_base_model_config_class().from_dict({}, kwargs)
+        return CheckpointMetadata(
+            fast_llm_version=__version__,
+            model=cls._model_class,
+            format=config.format,
+            config=cls._model_class.from_dict({"base_model": imported_model_config.to_dict()}),
+            shards=["weights"],
+        )
+
+    @classmethod
+    def _create_config_converters(cls) -> list[ParamConverter]:
+        return super()._create_config_converters() + [
+            ConstantExportParamConverter(export_names=(("architectures",),), export_value=[cls.architecture]),
+            MappedConfigParamConverter(
+                fast_llm_names=(("vision_encoder", "adapter_activation_type"),),
+                export_names=(("projector_hidden_act",),),
+                fast_llm_value=ActivationType.from_hf_name,
+                export_value=lambda activation_type: activation_type.hf_name,
+            ),
+            RenameParamConverter(
+                fast_llm_names=(("vision_encoder", "adapter_size"),),
+                export_names=(("projector_intermediate_size",),),
+            ),
+        ]
+
+    @classmethod
+    def _import_config(cls, config: dict[str, typing.Any]) -> GPTBaseModelConfig:
+        # handler_cls = AutoGPTHuggingfaceCheckpointHandler.get_handler_class(config["model_type"])
+        kwargs = {}
+        for converter in cls._create_config_converters():
+            try:
+                values = ()
+                for export_name in converter.export_names:
+                    try:
+                        value = get_nested_dict_value(config, export_name)
+                    except KeyError:
+                        value = MISSING
+                    values = values + (value,)
+                values = converter.import_params(values)
+                for fast_llm_name, value in zip(converter.fast_llm_names, values, strict=True):
+                    if value is MISSING:
+                        raise ValueError(f"Missing converted value for fast-llm parameter {fast_llm_name}")
+                    if fast_llm_name in kwargs:
+                        raise ValueError(f"Duplicate converted value for fast-llm parameter {fast_llm_name}")
+                    kwargs[fast_llm_name] = value
+            except Exception as e:
+                raise RuntimeError(f"Config conversion failed for converter {converter}", *e.args)
+
+        return kwargs
+
+    @classmethod
+    def _export_config(cls, config: BaseModelConfig) -> dict[str, typing.Any]:
+        exported_config = {}
+        vision_handler_cls = cls.get_vision_handler_class()
+        text_handler_cls = cls.get_text_handler_class()
+        for converter in vision_handler_cls._create_config_converters():
+            try:
+                values = converter.export_params(
+                    tuple(
+                        cls._get_fast_llm_attribute(config, ("vision_encoder",) + fast_llm_name)
+                        for fast_llm_name in converter.fast_llm_names
+                    )
+                )
+                for export_name, value in zip(converter.export_names, values, strict=True):
+                    if value is not MISSING:
+                        set_nested_dict_value(exported_config, ("vision_config",) + export_name, value)
+            except Exception as e:
+                raise RuntimeError(f"Config conversion failed for converter {converter}", *e.args)
+
+        for converter in text_handler_cls._create_config_converters():
+            try:
+                values = converter.export_params(
+                    tuple(
+                        cls._get_fast_llm_attribute(config, fast_llm_name)
+                        for fast_llm_name in converter.fast_llm_names
+                    )
+                )
+                for export_name, value in zip(converter.export_names, values, strict=True):
+                    if value is not MISSING:
+                        set_nested_dict_value(exported_config, ("text_config",) + export_name, value)
+            except Exception as e:
+                raise RuntimeError(f"Config conversion failed for converter {converter}", *e.args)
+
+        for converter in cls._create_config_converters():
+            try:
+                values = converter.export_params(
+                    tuple(
+                        cls._get_fast_llm_attribute(config, fast_llm_name)
+                        for fast_llm_name in converter.fast_llm_names
+                    )
+                )
+                for export_name, value in zip(converter.export_names, values, strict=True):
+                    if value is not MISSING:
+                        set_nested_dict_value(exported_config, export_name, value)
+            except Exception as e:
+                raise RuntimeError(f"Config conversion failed for converter {converter}", *e.args)
+
+        return exported_config
+
+    def _create_weight_converters(self):
+        vision_handler_cls = self.get_vision_handler_class()
+        vision_handler = vision_handler_cls(self._model)
+        converters = vision_handler._create_weight_converters(hf_base_prefix="vision_tower.", offset=0)
+        text_handler_cls = self.get_text_handler_class()
+        text_handler = text_handler_cls(self._model)
+        converters.extend(
+            text_handler._create_weight_converters(hf_base_prefix="language_model.", offset=vision_handler.num_layers)
+        )
+        return converters
diff --git a/fast_llm/models/gpt/conversion/llava_hybrid.py b/fast_llm/models/gpt/conversion/llava_hybrid.py
new file mode 100644
index 00000000..45eb1cf2
--- /dev/null
+++ b/fast_llm/models/gpt/conversion/llava_hybrid.py
@@ -0,0 +1,40 @@
+import typing
+
+from fast_llm.engine.checkpoint.config import CheckpointFormat
+from fast_llm.engine.checkpoint.external import ExternalStateDictCheckpointHandler
+from fast_llm.engine.multi_stage.config import FastLLMModelConfig
+from fast_llm.models.gpt.conversion.config import LlavaHybridCheckpointFormat
+from fast_llm.models.gpt.conversion.llava import LlavaHuggingfaceCheckpointHandler
+
+
+class LlavaHybridHuggingfaceCheckpointHandler(CustomModelingExportMixin, LlavaHuggingfaceCheckpointHandler):
+    format: typing.ClassVar[type[CheckpointFormat]] = LlavaHybridCheckpointFormat
+    architecture: typing.ClassVar[str] = "LlavaHybridForConditionalGeneration"
+    modeling_file = modeling_llava_hybrid.__file__
+    configuration_file = configuration_llava_hybrid.__file__
+    configuration_cls: typing.ClassVar[type[PretrainedConfig]] = configuration_llava_hybrid.LlavaHybridConfig
+    _model_class: typing.ClassVar[FastLLMModelConfig] = HybridSSMModelConfig
+    additional_files = [
+        modeling_ssm_hybrid_apriel15b.__file__,
+        configuration_ssm_hybrid_apriel15b.__file__,
+    ]
+
+    @classmethod
+    def get_text_handler_class(cls) -> type[ExternalStateDictCheckpointHandler]:
+        from fast_llm.models.ssm.conversion import AprielThinkerSSMHHybridHuggingfaceCheckpointHandler
+
+        return AprielThinkerSSMHHybridHuggingfaceCheckpointHandler
+
+    @classmethod
+    def _create_config_converters(cls) -> list[ParamConverter]:
+        return super()._create_config_converters() + [
+            ConstantExportParamConverter(
+                export_names=(("auto_map",),),
+                export_value={
+                    "AutoConfig": "configuration_llava_hybrid.LlavaHybridConfig",
+                    "AutoModel": "modeling_llava_hybrid.LlavaHybridModel",
+                    "AutoModelForVision2Seq": "modeling_llava_hybrid.LlavaHybridForConditionalGeneration",
+                    "AutoModelForCausalLM": "modeling_llava_hybrid.LlavaHybridForConditionalGeneration",
+                },
+            ),
+        ]
diff --git a/fast_llm/models/gpt/conversion/pixtral.py b/fast_llm/models/gpt/conversion/pixtral.py
new file mode 100644
index 00000000..da055a5d
--- /dev/null
+++ b/fast_llm/models/gpt/conversion/pixtral.py
@@ -0,0 +1,266 @@
+import typing
+
+from fast_llm.engine.checkpoint.config import CheckpointFormat
+from fast_llm.engine.checkpoint.external import SplitWeightConverter, WeightConverter
+from fast_llm.engine.checkpoint.huggingface import HuggingfaceStateDictCheckpointHandler
+from fast_llm.engine.multi_stage.config import FastLLMModelConfig
+from fast_llm.functional.config import ActivationType
+from fast_llm.layers.attention.rotary.config import Rotary2DConfig
+from fast_llm.layers.common.normalization.config import LayerNormalizationConfig
+from fast_llm.models.gpt.conversion.llama import KeyValueWeightConverter, MLPLayer2Converter, QueryWeightConverter
+from fast_llm.utils import Assert
+
+
+class PixtralNumHeadsConverter(ParamConverter):
+    """
+    Pixtral encoder uses Multi-Head Attention.
+    Map `num_attention_heads` and `head_groups` to a single `num_heads` parameter.
+    """
+
+    def __post_init__(self):
+        Assert.eq(len(self.fast_llm_names), 2)
+        Assert.eq(len(self.export_names), 1)
+
+    def export_params(self, fast_llm_values: tuple[typing.Any, ...]) -> tuple[typing.Any, ...]:
+        (num_heads, head_groups) = fast_llm_values
+        assert head_groups == num_heads, "Pixtral encoder expects num_heads == head_groups (MHA)"
+        return (num_heads,)
+
+    def import_params(self, export_values: tuple[typing.Any, ...]) -> tuple[typing.Any, ...]:
+        (num_heads,) = export_values
+        return (num_heads, num_heads)
+
+
+class PixtralRotaryParamConverter(ParamConverter):
+    """
+    Pixtral encoder uses 2D Rotary Embeddings.
+    Map `rope_theta` to a single `rotary` parameter. `rotary_scaling` is not needed.
+    """
+
+    def __init__(self, fast_llm_names, export_names):
+        Assert.eq(len(fast_llm_names), 1)
+        Assert.eq(len(export_names), 1)
+        self.fast_llm_names = fast_llm_names
+        self.export_names = export_names
+
+    def export_params(self, fast_llm_values: tuple[typing.Any, ...]) -> tuple[typing.Any, ...]:
+        (rotary_config,) = fast_llm_values
+        if type(rotary_config) is Rotary2DConfig:
+            return (rotary_config.theta,)
+        else:
+            raise ValueError(f"Unsupported rotary type: {type(rotary_config).__name__}")
+
+    def import_params(self, export_values: tuple[typing.Any, ...]) -> tuple[typing.Any, ...]:
+        (rotary_theta,) = export_values
+        rotary_config = {
+            "type": "rope_2d",
+            "theta": rotary_theta,
+        }
+        return (rotary_config,)
+
+
+class PixtralHuggingfaceCheckpointHandler(WeightAndBiasConverterMixin, HuggingfaceStateDictCheckpointHandler):
+    format: typing.ClassVar[type[CheckpointFormat]] = PixtralGPTHuggingfaceCheckpointFormat
+    _model_class: typing.ClassVar[FastLLMModelConfig] = FastLLMModelConfig
+
+    @classmethod
+    def _create_config_converters(cls) -> list[ParamConverter]:
+        return super()._create_config_converters() + [
+            ConstantImportParamConverter(fast_llm_names=(("type",),), fast_llm_value="pixtral"),
+            ConstantImportParamConverter(fast_llm_names=(("patch_norm", "type"),), fast_llm_value="rms_norm"),
+            ConstantImportParamConverter(
+                fast_llm_names=(("transformer", "normalization", "type"),), fast_llm_value="rms_norm"
+            ),
+            ConstantImportParamConverter(fast_llm_names=(("transformer", "type"),), fast_llm_value="image_encoder"),
+            ConstantExportParamConverter(export_names=(("architectures",),), export_value=["PixtralVisionModel"]),
+            ConstantImportParamConverter(fast_llm_names=(("transformer", "causal"),), fast_llm_value=False),
+            RenameParamConverter(
+                fast_llm_names=(
+                    (
+                        "transformer",
+                        "num_layers",
+                    ),
+                ),
+                export_names=(("num_hidden_layers",),),
+            ),
+            RenameParamConverter(
+                fast_llm_names=(
+                    (
+                        "transformer",
+                        "hidden_size",
+                    ),
+                ),
+                export_names=(("hidden_size",),),
+            ),
+            PixtralNumHeadsConverter(
+                fast_llm_names=(
+                    (
+                        "transformer",
+                        "num_attention_heads",
+                    ),
+                    (
+                        "transformer",
+                        "head_groups",
+                    ),
+                ),
+                export_names=(("num_attention_heads",),),
+            ),
+            RenameParamConverter(
+                fast_llm_names=(
+                    (
+                        "transformer",
+                        "ffn_hidden_size",
+                    ),
+                ),
+                export_names=(("intermediate_size",),),
+            ),
+            MappedConfigParamConverter(
+                fast_llm_names=(("transformer", "activation_type"),),
+                export_names=(("hidden_act",),),
+                fast_llm_value=ActivationType.from_hf_name,
+                export_value=lambda activation_type: activation_type.hf_name,
+            ),
+            RenameParamConverter(
+                fast_llm_names=(
+                    (
+                        "transformer",
+                        "kv_channels",
+                    ),
+                ),
+                export_names=(("head_dim",),),
+            ),
+            # ConstantImportParamConverter(
+            #     fast_llm_names=(("transformer", "rotary", "type"),), fast_llm_value=RotaryEmbeddingType.rope_2d
+            # ),
+            # RenameParamConverter(
+            #     fast_llm_names=(
+            #         (
+            #             "transformer",
+            #             "rotary",
+            #             "theta",
+            #         ),
+            #     ),
+            #     export_names=(("rope_theta",),),
+            # ),
+            PixtralRotaryParamConverter(
+                fast_llm_names=(("transformer", "rotary"),),
+                export_names=(("rope_theta",),),
+            ),
+            RenameParamConverter(fast_llm_names=(("patch_size",),), export_names=(("patch_size",),)),
+            ConstantImportParamConverter(fast_llm_names=(("transformer", "gated"),), fast_llm_value=True),
+            ConstantImportParamConverter(fast_llm_names=(("transformer", "add_linear_biases"),), fast_llm_value=False),
+        ]
+
+    def _get_transformer_mlp_converters(self, fast_llm_prefix: str, hf_prefix: str) -> list[WeightConverter]:
+        return [
+            SplitWeightConverter(
+                f"{fast_llm_prefix}.mlp.layer_1.weight",
+                (f"{hf_prefix}.feed_forward.gate_proj.weight", f"{hf_prefix}.feed_forward.up_proj.weight"),
+            ),
+            MLPLayer2Converter(
+                f"{fast_llm_prefix}.mlp.layer_2.weight",
+                f"{hf_prefix}.feed_forward.down_proj.weight",
+                self._model.config.base_model,
+            ),
+        ]
+
+    def _create_vision_transformer_layer_converters(
+        self, transformer_layer_index: int, fast_llm_offset: int = 1, hf_base_prefix: str = ""
+    ) -> list[WeightConverter]:
+        # Vision transformer layer
+        transformer_config = self._model.config.base_model.vision_encoder.transformer
+        norm_bias: bool = isinstance(self._model.config.base_model.transformer.normalization, LayerNormalizationConfig)
+        name_bias_cls = [
+            # Self-attn
+            (
+                f"layers.{fast_llm_offset + transformer_layer_index}.self_attn.query",
+                f"{hf_base_prefix}transformer.layers.{transformer_layer_index}.attention.q_proj",
+                transformer_config.add_attn_qkv_bias,
+                QueryWeightConverter,
+            ),
+            (
+                f"layers.{fast_llm_offset + transformer_layer_index}.self_attn.key_value",
+                (
+                    f"{hf_base_prefix}transformer.layers.{transformer_layer_index}.attention.k_proj",
+                    f"{hf_base_prefix}transformer.layers.{transformer_layer_index}.attention.v_proj",
+                ),
+                transformer_config.add_attn_qkv_bias,
+                KeyValueWeightConverter,
+            ),
+            (
+                f"layers.{fast_llm_offset + transformer_layer_index}.self_attn.dense",
+                f"{hf_base_prefix}transformer.layers.{transformer_layer_index}.attention.o_proj",
+                transformer_config.add_attn_dense_bias,
+                WeightConverter,
+            ),
+            # Norm
+            (
+                f"layers.{fast_llm_offset + transformer_layer_index}.norm_1",
+                f"{hf_base_prefix}transformer.layers.{transformer_layer_index}.attention_norm",
+                norm_bias,
+                WeightConverter,
+            ),
+            (
+                f"layers.{fast_llm_offset + transformer_layer_index}.norm_2",
+                f"{hf_base_prefix}transformer.layers.{transformer_layer_index}.ffn_norm",
+                norm_bias,
+                WeightConverter,
+            ),
+        ]
+        converters = []
+        for fast_llm_prefix, hf_prefix, use_bias, cls in name_bias_cls:
+            converters += self._get_weight_and_bias_converters(
+                fast_llm_prefix,
+                hf_prefix,
+                use_bias,
+                cls,
+            )
+        # MLP
+        converters += self._get_transformer_mlp_converters(
+            f"layers.{fast_llm_offset + transformer_layer_index}",
+            f"{hf_base_prefix}transformer.layers.{transformer_layer_index}",
+        )
+        return converters
+
+    def _create_weight_converters(self, offset: int = 0, hf_base_prefix: str = "") -> list[WeightConverter]:
+        converters = []
+        norm_bias = isinstance(self._model.config.base_model.vision_encoder.patch_norm, LayerNormalizationConfig)
+        converters.append(WeightConverter(f"layers.{offset}.weight", f"{hf_base_prefix}patch_conv.weight"))
+        if self._model.config.base_model.vision_encoder.conv_bias:
+            converters.append(WeightConverter(f"layers.{offset}.bias", f"{hf_base_prefix}patch_conv.bias"))
+        converters.append(WeightConverter(f"layers.{offset}.norm.weight", f"{hf_base_prefix}ln_pre.weight"))
+        if norm_bias:
+            converters.append(WeightConverter(f"layers.{offset}.norm.bias", f"{hf_base_prefix}ln_pre.bias"))
+
+        num_layers = self._model.config.base_model.vision_encoder.transformer.num_layers
+        for i in range(num_layers):
+            converters += self._create_vision_transformer_layer_converters(i, offset + 1, hf_base_prefix)
+
+        converters.extend(
+            [
+                WeightConverter(
+                    f"layers.{offset + num_layers + 1}.layer_1.weight", "multi_modal_projector.linear_1.weight"
+                ),
+                WeightConverter(
+                    f"layers.{offset + num_layers + 1}.layer_2.weight", "multi_modal_projector.linear_2.weight"
+                ),
+            ]
+        )
+        if self._model.config.base_model.vision_encoder.adapter_bias:
+            converters.extend(
+                [
+                    WeightConverter(
+                        f"layers.{offset + num_layers + 1}.layer_1.bias", "multi_modal_projector.linear_1.bias"
+                    ),
+                    WeightConverter(
+                        f"layers.{offset + num_layers + 1}.layer_2.bias", "multi_modal_projector.linear_2.bias"
+                    ),
+                ]
+            )
+
+        return converters
+
+    @property
+    def num_layers(self) -> int:
+        # +2 for projector and conv layers
+        return self._model.config.base_model.vision_encoder.transformer.num_layers + 2
diff --git a/fast_llm/models/gpt/llava.py b/fast_llm/models/gpt/llava.py
new file mode 100644
index 00000000..e69de29b
diff --git a/fast_llm/models/gpt/model.py b/fast_llm/models/gpt/model.py
index b7d751a6..bbe9f5cb 100644
--- a/fast_llm/models/gpt/model.py
+++ b/fast_llm/models/gpt/model.py
@@ -11,10 +11,17 @@
 from fast_llm.engine.inference.runner import InferenceRunner
 from fast_llm.engine.multi_stage.fast_llm_model import FastLLMModel
 from fast_llm.layers.attention.config import AttentionKwargs
+from fast_llm.layers.attention.preprocessing import BackupAttentionPreprocessor, FlashAttnVarlenPreprocessor
 from fast_llm.layers.block.config import BlockDimNames
 from fast_llm.layers.language_model.config import LanguageModelKwargs
 from fast_llm.layers.language_model.embedding import WORD_EMBEDDINGS_WEIGHT, LanguageModelEmbedding
 from fast_llm.layers.language_model.head import OUTPUT_WEIGHTS, LanguageModelHead
+from fast_llm.layers.language_model.preprocessing import PositionEmbeddingPreprocessor, PreferenceSpanPreprocessor
+from fast_llm.layers.multi_modal.embedding import MultiModalEmbedding
+from fast_llm.layers.vision_encoder.adapter import VisionAdapter
+from fast_llm.layers.vision_encoder.config import VisionEncoderDimNames, VisionEncoderKwargs
+from fast_llm.layers.vision_encoder.patch_conv import PatchConv
+from fast_llm.layers.vision_encoder.preprocessing import VisionPreprocessor
 from fast_llm.models.gpt.config import GPTBaseModelConfig, GPTBatchConfig, GPTModelConfig
 from fast_llm.models.gpt.megatron import get_init_megatron
 from fast_llm.tensor import ParameterMeta, TensorMeta
@@ -44,10 +51,82 @@ def __init__(
                     param, self._config.decoder.block, config.embeddings_layer.hidden_size
                 )  # Noqa
         # `self._reference_models` is not populated at this point, so we pass a mutable dict.
-        self._preprocessors: list[Preprocessor] = self._config.get_preprocessors(distributed_config)
+        self._preprocessors: list[Preprocessor] = []
+        if self._config.use_absolute_position_embeddings:
+            self._preprocessors.append(PositionEmbeddingPreprocessor(self._config, self._tensor_space))
+        # We have multiple identical rotary modules/preprocessors, so it's simpler to make a new one here.
+        # TODO: Find a better solution.
+        self._preprocessors.append(self._config.transformer.rotary.build(self._tensor_space))
+        if self._use_flash_attention:
+            self._preprocessors.append(FlashAttnVarlenPreprocessor(self._config.transformer, self._tensor_space))
+        else:
+            self._preprocessors.append(BackupAttentionPreprocessor(self._config.transformer, self._tensor_space))
+
+        if self._config.enable_dpo:  # TODO better way to pass in?
+            self._preprocessors.append(PreferenceSpanPreprocessor(self._config, self._tensor_space))
+
+        if self._config.vision_encoder.enabled:
+            self._preprocessors.append(VisionPreprocessor(self._config.vision_encoder, self._tensor_space))
+            self._preprocessors.append(self._config.vision_encoder.transformer.rotary.build(self._tensor_space))
+
+    def get_output_layers(self) -> list[Layer]:
+        layers = []
+        for i in range(self._config.prediction_heads):
+            if i > 0:
+                layers.append(
+                    TransformerBlock(
+                        self._config.transformer,
+                        self._tensor_space,
+                        # TODO MTP: which index?
+                        block_index=max(self._config.transformer.num_layers + i, 1),
+                        # The last layer only returns the transformer output.
+                        # The previous layers return a stack of shared_hidden and transformer_output.
+                        return_input=i < self._config.prediction_heads - 1,
+                    )
+                )
+            layers.append(
+                LanguageModelHead(
+                    self._config,
+                    self._tensor_space,
+                    prediction_distance=i,
+                )
+            )
+        return layers
+
+    def get_vision_layers(self) -> list[Layer]:
+        vit_layers = [
+            VisionTransformerBlock(self._config.vision_encoder.transformer, self._tensor_space, block_index=idx + 1)
+            for idx in range(self._config.vision_encoder.transformer.num_layers)
+        ]
+        return [
+            PatchConv(self._config.vision_encoder, self._tensor_space),
+            *vit_layers,
+            VisionAdapter(self._config.vision_encoder, self._tensor_space),
+            MultiModalEmbedding(self._config, self._tensor_space),
+        ]
+
+    def get_embedding_layers(self) -> list[Layer]:
+        if self._config.vision_encoder.enabled:
+            return self.get_vision_layers()
+        else:
+            return [LanguageModelEmbedding(self._config, self._tensor_space)]
 
     def get_layers(self) -> list[Layer]:
-        return self._config.get_blocks(self._distributed_config)
+        return [
+            *(self.get_embedding_layers()),
+            *[
+                TransformerBlock(
+                    self._config.transformer,
+                    self._tensor_space,
+                    block_index=i + 1,
+                    # The last layer only returns the transformer output.
+                    # The previous layers return a stack of shared_hidden and transformer_output.
+                    return_input=self._config.prediction_heads > 1 and i == self._config.transformer.num_layers - 1,
+                )
+                for i in range(self._config.transformer.num_layers)
+            ],
+            *self.get_output_layers(),
+        ]
 
     def preprocess_meta(
         self, batch_meta: GPTBatchConfig | torch.Tensor, phase: PhaseType
@@ -67,8 +146,41 @@ def preprocess_meta(
             micro_sequence_length = sequence_length
             truncate_documents = True
 
-        batch_data = self._distributed_config.get_distributed_dim(DistributedDimNames.batch_data)
-        batch_dim = TensorDim(BlockDimNames.batch, micro_batch_size * batch_data.size, batch_data)
+        if self._config.vision_encoder.enabled:
+            try:
+                max_image_size = batch_meta.max_image_size
+            except AttributeError:
+                max_image_size = 256
+                logger.warning("Inference mode: max_image_size not provided, defaulting to 256")
+            image_mean = [
+                self._config.vision_encoder.image_normalization.mean_r,
+                self._config.vision_encoder.image_normalization.mean_g,
+                self._config.vision_encoder.image_normalization.mean_b,
+            ]
+            image_std = [
+                self._config.vision_encoder.image_normalization.std_r,
+                self._config.vision_encoder.image_normalization.std_g,
+                self._config.vision_encoder.image_normalization.std_b,
+            ]
+            image_rescale_factor = self._config.vision_encoder.image_normalization.rescale_factor
+            vision_kwargs = {
+                VisionEncoderKwargs.patch_size: self._config.vision_encoder.patch_size,
+                VisionEncoderKwargs.max_image_size: max_image_size,
+                VisionEncoderKwargs.image_mean: image_mean,
+                VisionEncoderKwargs.image_std: image_std,
+                VisionEncoderKwargs.image_rescale_factor: image_rescale_factor,
+                VisionEncoderKwargs.rope_theta: self._config.vision_encoder.transformer.rotary.theta,
+                VisionEncoderKwargs.kv_channels: self._tensor_space[VisionTransformerDimNames.kv_channels].size,
+                VisionEncoderKwargs.out_channels: self._tensor_space[VisionEncoderDimNames.out_channels].size,
+            }
+        else:
+            vision_kwargs = {}
+
+        batch_data = self._tensor_space.distributed_config.get_distributed_dim(DistributedDimNames.batch_data)
+        batch_dim = TensorDim(TransformerDimNames.batch, micro_batch_size * batch_data.size, batch_data)
+
+        if isinstance(batch_meta, GPTBatchConfig):
+            micro_sequence_length = batch_meta.micro_sequence_length
 
         if micro_sequence_length is None:
             micro_sequence_length = sequence_length
@@ -98,11 +210,24 @@ def preprocess_meta(
             sequence_first = self._config.sequence_first
             assert not (need_sequence_first and not sequence_first)
 
+        self._tensor_space[TransformerDimNames.hidden]
         hidden_dims = (
             (hidden_sequence_q_dim, batch_dim, self._hidden_dim)
             if sequence_first
             else (batch_dim, hidden_sequence_q_dim, self._hidden_dim)
         )
+        if self._config.vision_encoder.enabled:
+            vision_hidden_dim = self._tensor_space[VisionTransformerDimNames.hidden]
+            vision_hidden_dims = (
+                (hidden_sequence_q_dim, batch_dim, vision_hidden_dim)
+                if sequence_first
+                else (batch_dim, hidden_sequence_q_dim, vision_hidden_dim)
+            )
+            vision_kwargs.update(
+                {
+                    VisionTransformerKwargs.hidden_dims: vision_hidden_dims,
+                }
+            )
 
         common_kwargs = {
             LanguageModelKwargs.phase: phase,
@@ -110,8 +235,10 @@ def preprocess_meta(
             AttentionKwargs.hidden_dims: hidden_dims,
             AttentionKwargs.sequence_length: sequence_length,
             AttentionKwargs.sequence_q_dim: sequence_q_dim,
+            AttentionKwargs.micro_batch_size: micro_batch_size,
             LanguageModelKwargs.mask_inputs: not truncate_documents,
         }
+        common_kwargs.update(vision_kwargs)
 
         sequence_k_pasts = range(
             sequence_q_dim.size * self._distributed_config.sequence_data_rank,
@@ -157,7 +284,11 @@ def preprocess_meta(
                 reference_kwargs[name] = reference_kwargs_
             kwargs["reference_models"] = reference_kwargs
 
-            preprocessed_meta.append((tokens, kwargs))
+            if self._config.vision_encoder.enabled:
+                # patch_dimensions are (batch * sequence_length) x 3 x patch_size x patch_size
+                preprocessed_meta.append((kwargs[VisionEncoderKwargs.image_patches_meta], kwargs))
+            else:
+                preprocessed_meta.append((tokens, kwargs))
 
         return preprocessed_meta
 
@@ -203,19 +334,20 @@ def preprocess(
                 reference_model.forward(reference_tokens, reference_kwargs, iteration=iteration)
                 reference_logits[i][f"{name}_logits"] = reference_kwargs["logits"]
 
+        token_ids = batch.token_ids
         if sequence_first:
             # Move the sequence dimension first to make sequence parallel ops more efficient.
-            batch.token_ids = batch.token_ids.transpose(0, 1).contiguous()
+            token_ids = token_ids.transpose(0, 1).contiguous()
 
         preprocessed = []
         presents = None
         for i, (_, kwargs_meta) in enumerate(preprocessed_meta):
             sequence_k = kwargs_meta[AttentionKwargs.sequence_k_dim].size
             if sequence_first:
-                tokens = batch.token_ids[sequence_k - sequence_q : sequence_k]
+                tokens = token_ids[sequence_k - sequence_q : sequence_k]
             else:
                 # TODO: Avoid multiple contiguous calls?
-                tokens = batch.token_ids[:, sequence_k - sequence_q : sequence_k].contiguous()
+                tokens = token_ids[:, sequence_k - sequence_q : sequence_k].contiguous()
             if batch.sequence_lengths is not None:
                 kwargs_meta[AttentionKwargs.sequence_lengths] = batch.sequence_lengths
             if batch.chosen_spans is not None:
@@ -235,16 +367,18 @@ def preprocess(
             if phase != PhaseType.inference:
                 sequence_offset = sequence_k - sequence_q + 1  # +1 for shift in labels
                 if sequence_first:
-                    labels = batch.token_ids[sequence_offset : sequence_k + prediction_heads]
+                    labels = token_ids[sequence_offset : sequence_k + prediction_heads]
                 else:
                     # TODO: Avoid multiple contiguous calls?
-                    labels = batch.token_ids[:, sequence_offset : sequence_k + prediction_heads].contiguous()
+                    labels = token_ids[:, sequence_offset : sequence_k + prediction_heads].contiguous()
                     # We set label indices to -100 for masked spans, inline with ignore_index in torch.nn.CrossEntropyLoss
                     # TODO: take ignore_index from config
+                labels_cloned = False
                 if batch.loss_masking_spans is not None:
                     # avoid changing input tokens
                     labels = labels.clone()
-                    for idx, spans in enumerate(batch.loss_masking_spans):
+                    labels_cloned = True
+                    for i, spans in enumerate(batch.loss_masking_spans):
                         if not spans.numel():
                             continue
                         valid_spans = spans[
@@ -255,27 +389,72 @@ def preprocess(
                             valid_spans[:, 0].clamp_(min=sequence_offset)
                             valid_spans[:, 1].clamp_(max=sequence_k + prediction_heads - 1)
                             valid_spans -= sequence_offset
-                            loss_mask = torch.ones_like(labels, dtype=torch.bool)
                             for start, end in valid_spans:
                                 if sequence_first:
-                                    loss_mask[start : end + 1, idx] = False
+                                    labels[start : end + 1, i] = -100
                                 else:
-                                    loss_mask[idx, start : end + 1] = False
-                            if self._config.output_layer.distillation_model is not None:
-                                kwargs[LanguageModelKwargs.loss_mask] = loss_mask
-                            labels = torch.where(loss_mask, labels, -100)
+                                    labels[i, start : end + 1] = -100
+                if self._config.vision_encoder.enabled:
+                    if self._config.vision_encoder.image_break_token is not None:
+                        if not labels_cloned:
+                            labels = labels.clone()
+                            labels_cloned = True
+                        labels = torch.where(labels == self._config.vision_encoder.image_break_token, -100, labels)
+                    if self._config.vision_encoder.image_end_token is not None:
+                        if not labels_cloned:
+                            labels = labels.clone()
+                            labels_cloned = True
+                        labels = torch.where(labels == self._config.vision_encoder.image_end_token, -100, labels)
+                # Loss-masking for distillation losses
+                if self._config.distillation_model is not None:
+                    loss_mask = torch.ones_like(labels, dtype=torch.bool)
+                    loss_mask = torch.where(labels == -100, False, loss_mask)
+                    kwargs[LanguageModelKwargs.loss_mask] = loss_mask
                 kwargs[LanguageModelKwargs.labels] = labels
             kwargs.update(reference_logits[i])
 
+            if self._config.vision_encoder.enabled:
+                batch_images = (
+                    batch.images if batch.images is not None else [[]] * kwargs[AttentionKwargs.micro_batch_size]
+                )
+                kwargs[VisionEncoderKwargs.images] = [
+                    [
+                        img.to(device=self._tensor_space.distributed.device, dtype=torch.uint8, non_blocking=True)
+                        for img in images
+                    ]
+                    for images in batch_images
+                ]
+                kwargs[VisionEncoderKwargs.image_positions] = (
+                    batch.image_positions
+                    if batch.image_positions is not None
+                    else [[]] * kwargs[AttentionKwargs.micro_batch_size]
+                )
+                kwargs[LanguageModelKwargs.tokens] = tokens
+
             for preprocessor in self._preprocessors:
                 preprocessor.preprocess(tokens, kwargs)
-            preprocessed.append((tokens, kwargs))
+            image_patches = kwargs.get(VisionEncoderKwargs.image_patches, None)
+            if image_patches is not None:
+                preprocessed.append((image_patches, kwargs))
+            else:
+                preprocessed.append((tokens, kwargs))
 
         return preprocessed
 
     @property
     def embedding(self) -> LanguageModelEmbedding:
-        return self.layers[0]
+        return self.layers[self.embedding_layer_index]
+
+    @property
+    def transformer_layers(self) -> list[TransformerBlock]:
+        return self.layers[self.embedding_layer_index + 1 : -1]
+
+    @property
+    def embedding_layer_index(self) -> int:
+        if self._config.vision_encoder.enabled:
+            return self._config.vision_encoder.transformer.num_layers + 2
+        else:
+            return 0
 
     @property
     def model_head(self) -> LanguageModelHead:
@@ -290,7 +469,7 @@ def get_tied_weights(self) -> dict[str, tuple[ParameterMeta, tuple[int, ...]]]:
             return {
                 WORD_EMBEDDINGS_WEIGHT: (
                     self.embedding.word_embeddings_weight,
-                    (0, *self.model_head_indices),
+                    (self.embedding_layer_index, *self.model_head_indices),
                 )
             }
         elif self._config.output_layer.prediction_heads > 1:
diff --git a/fast_llm/models/gpt/trainer.py b/fast_llm/models/gpt/trainer.py
index 4dbbfbb1..cc676d18 100644
--- a/fast_llm/models/gpt/trainer.py
+++ b/fast_llm/models/gpt/trainer.py
@@ -31,4 +31,13 @@ def _get_sampling_parameters(
                 "extra_tokens": self._config.model.base_model.output_layer.prediction_heads,
             }
         )
+        if self._config.model.base_model.vision_encoder.enabled:
+            parameters.update(
+                {
+                    "patch_size": self._config.model.base_model.vision_encoder.patch_size,
+                    "max_image_size": self._config.batch.max_image_size,
+                    "image_break_token": self._config.model.base_model.vision_encoder.image_break_token,
+                    "image_end_token": self._config.model.base_model.vision_encoder.image_end_token,
+                }
+            )
         return parameters if _return_dict else GPTSamplingParameters(**parameters)
diff --git a/fast_llm_external_models/apriel_hybrid_ssm/modeling_apriel_hybrid_ssm.py b/fast_llm_external_models/apriel_hybrid_ssm/modeling_apriel_hybrid_ssm.py
index 5c0a2216..ad76c56d 100644
--- a/fast_llm_external_models/apriel_hybrid_ssm/modeling_apriel_hybrid_ssm.py
+++ b/fast_llm_external_models/apriel_hybrid_ssm/modeling_apriel_hybrid_ssm.py
@@ -18,7 +18,7 @@
 from transformers.modeling_utils import PreTrainedModel
 from transformers.models.mistral.modeling_mistral import MistralDecoderLayer, MistralMLP, MistralModel, MistralRMSNorm
 from transformers.processing_utils import Unpack
-from transformers.utils import LossKwargs, logging
+from transformers.utils import LossKwargs, can_return_tuple, logging
 from transformers.utils.generic import ModelOutput
 
 from fast_llm_external_models.apriel_hybrid_ssm.configuration_apriel_hybrid_ssm import AprielHybridSSMConfig
@@ -357,7 +357,13 @@ def get_seq_length(self, layer_idx: Optional[int] = 0) -> int:
         layer_idx = self.transformer_layers[0] if layer_idx not in self.transformer_layers else layer_idx
         if len(self.key_cache) <= layer_idx:
             return 0
-        return self.key_cache[layer_idx].shape[-2]
+        is_empty_layer = (
+            len(self.key_cache) == 0  # no cache in any layer
+            or len(self.key_cache) <= layer_idx  # skipped `layer_idx` and hasn't run a layer with cache after it
+            or not self.key_cache[layer_idx].numel()  # the layer has no cache
+        )
+        return self.key_cache[layer_idx].shape[-2] if not is_empty_layer else 0
+        # return self.key_cache[layer_idx].shape[-2]
 
     def reset(self):
         self.conv_states.zero_()
@@ -886,7 +892,7 @@ def forward(
         self,
         hidden_states: torch.Tensor,
         past_key_value: Optional[HybridMambaAttentionDynamicCache] = None,
-        attention_mask: Optional[torch.Tensor] = None,
+        mamba_mask: Optional[torch.Tensor] = None,
         return_mixer_matrix=False,
         **kwargs,
     ):
@@ -898,6 +904,10 @@ def forward(
         assert is_fast_path_available and "cuda" in self.in_proj.weight.device.type, "Only support fast path on cuda"
         cache_position = kwargs.get("cache_position", None)
         batch, seqlen, dim = hidden_states.shape
+        # mamba_mask = (
+        #     None if seqlen == 1 else mamba_mask
+        # )  # prevent that hidden_states are expanded to mask's seq. dimention., i.e. we do not need apply_mask_to_padding_states when generating single token at a time
+        # hidden_states = apply_mask_to_padding_states(hidden_states, mamba_mask)
 
         ssm_state, conv_state = None, None
         use_precomputed_states = False
@@ -978,7 +988,7 @@ def forward(
                 # Update state (B D W)
                 conv_state.copy_(F.pad(x, (self.d_conv - x.shape[-1], 0)))
             if causal_conv1d_fn is None:
-                x = self.act(self.conv1d(x)[..., :seqlen])
+                x = self.act(self.conv1d(x)[..., :seqlen]).transpose(1, 2)
             else:
                 assert self.activation in ["silu", "swish"]
                 x = causal_conv1d_fn(
@@ -986,7 +996,10 @@ def forward(
                     weight=rearrange(self.conv1d.weight, "d 1 w -> d w"),
                     bias=self.conv1d.bias,
                     activation=self.activation,
-                )
+                )  # .transpose(1, 2)
+        # x = apply_mask_to_padding_states(x, mamba_mask).transpose(
+        #     1, 2
+        # )  # zero out everything that comes from padding tokens
 
         if not self.repeat_kv_before_conv:
             x = rearrange(x, "b (n_group dstate) l -> b n_group l dstate", dstate=self.d_state)
@@ -1041,14 +1054,14 @@ def step(self, hidden_states, conv_state, ssm_state):
 
         A = -torch.exp(self.A_log.float())  # (d_inner, d_state)
 
-        zxbcdt = self.in_proj(hidden_states_input)
-        z, x, B, C, dt = torch.split(zxbcdt, [self.d_inner, self.d_xb, self.d_xb, self.d_inner, self.dt_rank], dim=-1)
+        zxbc = self.in_proj(hidden_states_input)
+        z, x, B, C = torch.split(zxbc, [self.d_inner, self.d_xb, self.d_xb, self.d_inner], dim=-1)
 
         B = rearrange(B, "b (n_group dstate) -> b n_group dstate", dstate=self.d_state)
         B = torch.repeat_interleave(B, dim=1, repeats=self.repeat_group)
         C = rearrange(C, "b (n_group dstate) -> b n_group dstate", dstate=self.d_state).contiguous()
 
-        dt = self.dt_proj(dt)  # B, d_inner
+        dt = self.dt_proj(self.dt_in_proj(hidden_states_input))  # B, d_inner
 
         if self.repeat_kv_before_conv:
             x = rearrange(x, "b (n_group dstate) -> b n_group dstate", dstate=self.d_state)
@@ -1216,6 +1229,42 @@ def __init__(self, config: AprielHybridSSMConfig, **kwargs):
         # Initialize weights and apply final processing
         self.post_init()
 
+    @can_return_tuple
+    def forward(
+        self,
+        input_ids: Optional[torch.LongTensor] = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[Cache] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        cache_position: Optional[torch.LongTensor] = None,
+        **flash_attn_kwargs: Unpack[FlashAttentionKwargs],
+    ) -> BaseModelOutputWithPast:
+        use_cache = use_cache if use_cache is not None else self.config.use_cache
+        if use_cache and past_key_values is None:
+            # for the case where prepare_inputs_for_generation is not called to create the cache (as in fast-llm test)
+            batch_size = input_ids.shape[0] if input_ids is not None else inputs_embeds.shape[0]
+            past_key_values = HybridMambaAttentionDynamicCache(self.config, batch_size, self.dtype, device=self.device)
+        output = super().forward(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            cache_position=cache_position,
+            **flash_attn_kwargs,
+        )
+        past_key_values: HybridMambaAttentionDynamicCache = output.past_key_values
+        if past_key_values and not past_key_values.has_previous_state:
+            past_key_values.has_previous_state = True
+        return output
+
 
 class KwargsForCausalLM(FlashAttentionKwargs, LossKwargs): ...
 
@@ -1397,6 +1446,7 @@ def forward(
             output_attentions=output_attentions,
             output_hidden_states=output_hidden_states,
             cache_position=cache_position,
+            mamba_mask=attention_mask,  # non-expended mask
             **kwargs,
         )
 
diff --git a/fast_llm_external_models/llava_hybrid/configuration_llava_hybrid.py b/fast_llm_external_models/llava_hybrid/configuration_llava_hybrid.py
new file mode 100644
index 00000000..b8e822d9
--- /dev/null
+++ b/fast_llm_external_models/llava_hybrid/configuration_llava_hybrid.py
@@ -0,0 +1,117 @@
+from transformers import MistralConfig
+from transformers.configuration_utils import PretrainedConfig
+from transformers.models.auto import CONFIG_MAPPING
+from transformers.utils import logging
+
+logger = logging.get_logger(__name__)
+
+# Copied from configuration_ssm_hybrid_apriel15b.py
+# TODO: split into mamba 2 and discrete mamba 2 configs with a base dict
+ssm_config_default = {
+    # discrete mamba2
+    "d_state": 64,
+    "n_v_heads": 32,
+    "n_qk_heads": 32,
+    "expand": 1,
+    "chunk_size": 128,
+    "activation": "identity",
+    "bias": False,
+    "d_conv": 4,
+    "d_inner": 32 * 128,
+    # mamba2
+    "d_xb": None,  # will be set to model dim
+    "dt_rank": "auto",
+    "dt_min": 0.001,
+    "dt_max": 0.1,
+    "dt_init": "random",
+    "dt_scale": 1.0,
+    "dt_init_floor": 1e-4,
+    "conv_bias": True,
+}
+
+
+class AprielSSMHybridConfig(MistralConfig):
+    model_type = "apriel_ssm_thinker_hybrid"
+
+    def __init__(self, hybrid_block_layout=["m2d"], ssm_cfg=None, **kwargs):
+        super().__init__(**kwargs)
+        self.hybrid_block_layout = hybrid_block_layout
+        self.head_dim = self.head_dim or self.hidden_size // self.num_attention_heads  # as in transformers 4.51.3
+        self.ssm_cfg = ssm_cfg or ssm_config_default
+
+        for k, v in ssm_config_default.items():
+            if k not in self.ssm_cfg:
+                self.ssm_cfg[k] = v  # to make sure all elements are present in the config
+
+
+class LlavaHybridConfig(PretrainedConfig):
+    """
+    Configuration class for Llava SSM-Hybrid-decoder model.
+    """
+
+    model_type = "llava_hybrid"
+
+    def __init__(
+        self,
+        vision_config=None,
+        text_config=None,
+        image_token_index=32000,
+        projector_hidden_act="gelu",
+        projector_intermediate_size=4096,
+        vision_feature_select_strategy="default",
+        vision_feature_layer=-2,
+        image_seq_length=576,
+        multimodal_projector_bias=True,
+        **kwargs,
+    ):
+        self.image_token_index = image_token_index
+        self.projector_hidden_act = projector_hidden_act
+        # projector_intermediate_size is an addition to the original Llava config
+        self.projector_intermediate_size = projector_intermediate_size
+        self.image_seq_length = image_seq_length
+
+        if vision_feature_select_strategy not in ["default", "full"]:
+            raise ValueError(
+                "vision_feature_select_strategy should be one of 'default', 'full'."
+                f"Got: {vision_feature_select_strategy}"
+            )
+
+        self.vision_feature_select_strategy = vision_feature_select_strategy
+        self.vision_feature_layer = vision_feature_layer
+
+        if isinstance(vision_config, dict):
+            vision_config["model_type"] = (
+                vision_config["model_type"] if "model_type" in vision_config else "clip_vision_model"
+            )
+            vision_config = CONFIG_MAPPING[vision_config["model_type"]](**vision_config)
+        elif vision_config is None:
+            vision_config = CONFIG_MAPPING["clip_vision_model"](
+                intermediate_size=4096,
+                hidden_size=1024,
+                patch_size=14,
+                image_size=336,
+                num_hidden_layers=24,
+                num_attention_heads=16,
+                vocab_size=32000,
+                projection_dim=768,
+            )
+
+        self.vision_config = vision_config
+
+        if isinstance(text_config, dict):
+            # Load the custom SSM hybrid config if specified
+            if text_config.get("model_type") == "apriel_ssm_thinker_hybrid":
+                text_config = AprielSSMHybridConfig(**text_config)
+            else:
+                text_config["model_type"] = text_config["model_type"] if "model_type" in text_config else "llama"
+                text_config = CONFIG_MAPPING[text_config["model_type"]](**text_config)
+        elif text_config is None:
+            text_config = CONFIG_MAPPING["llama"]()
+
+        self.text_config = text_config
+        self.multimodal_projector_bias = multimodal_projector_bias
+
+        super().__init__(**kwargs)
+
+
+__all__ = ["LlavaHybridConfig"]
diff --git a/fast_llm_external_models/llava_hybrid/modeling_llava_hybrid.py b/fast_llm_external_models/llava_hybrid/modeling_llava_hybrid.py
new file mode 100644
index 00000000..68073f9c
--- /dev/null
+++ b/fast_llm_external_models/llava_hybrid/modeling_llava_hybrid.py
@@ -0,0 +1,132 @@
+from torch import nn
+from transformers import AutoModel, LlavaForConditionalGeneration, LlavaModel
+from transformers.activations import ACT2FN
+
+from .configuration_llava_hybrid import LlavaHybridConfig
+
+try:
+    # In the fast-llm repo, import from the SSM modeling file
+    from fast_llm.models.ssm.external.apriel_15b_hybrid.modeling_ssm_hybrid_apriel15b import (
+        AprielThinkerSSMHybridModel,
+        HybridMambaAttentionDynamicCache,
+    )
+except ImportError:
+    # In the exported checkpoint, import from local file
+    from .modeling_ssm_hybrid_apriel15b import AprielThinkerSSMHybridModel, HybridMambaAttentionDynamicCache
+
+
+class LlavaMultiModalProjector(nn.Module):
+    def __init__(self, config: LlavaHybridConfig):
+        super().__init__()
+        # We have hidden_size * the number of vision feature layers
+        num_feature_layers = 1 if isinstance(config.vision_feature_layer, int) else len(config.vision_feature_layer)
+        self.linear_1 = nn.Linear(
+            config.vision_config.hidden_size * num_feature_layers,
+            config.projector_intermediate_size,
+            bias=config.multimodal_projector_bias,
+        )
+        self.act = ACT2FN[config.projector_hidden_act]
+        self.linear_2 = nn.Linear(
+            config.projector_intermediate_size, config.text_config.hidden_size, bias=config.multimodal_projector_bias
+        )
+
+    def forward(self, image_features):
+        hidden_states = self.linear_1(image_features)
+        hidden_states = self.act(hidden_states)
+        hidden_states = self.linear_2(hidden_states)
+        return hidden_states
+
+
+class LlavaHybridModel(LlavaModel):
+    """
+    Llava SSM-Hybrid-decoder model.
+    """
+
+    config_class = LlavaHybridConfig
+
+    def __init__(self, config: LlavaHybridConfig):
+        super(LlavaModel, self).__init__(config)
+        self.vision_tower = AutoModel.from_config(config.vision_config)
+
+        self.multi_modal_projector = LlavaMultiModalProjector(config)
+        assert (
+            config.text_config.model_type == "apriel_ssm_thinker_hybrid"
+        ), "Only Apriel SSM Hybrid model is supported in LlavaHybridModel"
+
+        self.language_model = AprielThinkerSSMHybridModel(config.text_config)
+        self.post_init()
+
+
+class LlavaHybridForConditionalGeneration(LlavaForConditionalGeneration):
+    config_class = LlavaHybridConfig
+
+    def __init__(self, config: LlavaHybridConfig):
+        super(LlavaForConditionalGeneration, self).__init__(config)
+        self.model = LlavaHybridModel(config)
+        self.lm_head = nn.Linear(config.text_config.hidden_size, config.text_config.vocab_size, bias=False)
+        self.post_init()
+
+    def prepare_inputs_for_generation(
+        self,
+        input_ids,
+        past_key_values=None,
+        attention_mask=None,
+        inputs_embeds=None,
+        output_router_logits=False,
+        cache_position=None,
+        position_ids=None,
+        use_cache=True,
+        pixel_values=None,
+        **kwargs,
+    ):
+        # Copy of the method from `AprielThinkerSSMHybridForCausalLM`
+        # Overwritten -- has a unique cache type, `HybridMambaAttentionDynamicCache`
+
+        empty_past_kv = past_key_values is None or not isinstance(past_key_values, HybridMambaAttentionDynamicCache)
+
+        # If we have cache: let's slice `input_ids` through `cache_position`, to keep only the unprocessed tokens
+        # Exception 1: when passing input_embeds, input_ids may be missing entries
+        # Exception 2: some generation methods do special slicing of input_ids, so we don't need to do it here
+        # Exception 3: with synced GPUs cache_position may go out of bounds, but we only want dummy token in that case.
+        #              (we can't check exception 3 while compiling)
+        if not empty_past_kv:
+            if inputs_embeds is not None or cache_position[-1] >= input_ids.shape[1]:  # Exception 1  # Exception 3
+                input_ids = input_ids[:, -cache_position.shape[0] :]
+            elif input_ids.shape[1] != cache_position.shape[0]:  # Default case (the "else", a no op, is Exception 2)
+                input_ids = input_ids[:, cache_position]
+        else:
+            past_key_values = HybridMambaAttentionDynamicCache(
+                self.config.text_config, input_ids.shape[0], self.dtype, device=self.device
+            )
+
+        if attention_mask is not None and position_ids is None:
+            # create position_ids on the fly for batch generation
+            position_ids = attention_mask.long().cumsum(-1) - 1
+            position_ids.masked_fill_(attention_mask == 0, 1)
+            if not empty_past_kv:
+                position_ids = position_ids[:, -input_ids.shape[1] :]
+
+        # if `inputs_embeds` are passed, we only want to use them in the 1st generation step
+        if inputs_embeds is not None and empty_past_kv:
+            model_inputs = {"inputs_embeds": inputs_embeds}
+        else:
+            model_inputs = {"input_ids": input_ids.contiguous()}  # `contiguous()` needed for compilation use cases
+
+        # Copy from `LlavaForConditionalGeneration.prepare_inputs_for_generation`
+        if cache_position[0] == 0:
+            # If we're in cached decoding stage, pixel values should be None because input ids do not contain special image token anymore
+            # Otherwise we need pixel values to be passed to model
+            model_inputs["pixel_values"] = pixel_values
+
+        model_inputs.update(
+            {
+                "position_ids": position_ids,
+                "past_key_values": past_key_values,
+                "use_cache": use_cache,
+                "attention_mask": attention_mask,
+                "output_router_logits": output_router_logits,
+                # "logits_to_keep": self.config.num_logits_to_keep,
+                "cache_position": cache_position,
+            }
+        )
+        return model_inputs
diff --git a/setup.cfg b/setup.cfg
index 77073ab5..f65f21a8 100644
--- a/setup.cfg
+++ b/setup.cfg
@@ -43,7 +43,7 @@ OPTIONAL =
 
 # Huggingface tools
 HUGGINGFACE =
-    transformers>=4.52.4
+    transformers==4.53.2
     hf-transfer>=0.1.9
     datasets>=3.6.0
     huggingface-hub>=0.32.6
@@ -52,13 +52,20 @@ HUGGINGFACE =
 # To install on cpu environment (ex. for IDE support):
 #   MAMBA_FORCE_BUILD=TRUE CAUSAL_CONV1D_FORCE_BUILD=TRUE CAUSAL_CONV1D_SKIP_CUDA_BUILD=TRUE pip install -e ".[CORE,SSM]" --no-build-isolation
 SSM =
-    mamba_ssm[causal-conv1d]==2.2.4
+    mamba_ssm[causal-conv1d] @ git+https://github.com/jxiw/varlen_mamba.git@varlen_mamba
     cartesia_pytorch>=0.0.2
 
-GENERATION =
-    lm_eval>=0.4.9
+# GENERATION =
+#     lm_eval>=0.4.9
 
 
+# Required for supporting vision inputs
+VISION =
+    # Vision Tools
+    webp>=0.4.0
+    pillow-simd>=9.5.0
+    torchvision>=0.20.0
+
 DEV =
     # Pre-commit git hook
     pre-commit>=4.2.0
diff --git a/tests/data/common.py b/tests/data/common.py
index d8cc6fff..b7284872 100644
--- a/tests/data/common.py
+++ b/tests/data/common.py
@@ -122,10 +122,10 @@ def compare_indexed_dataset(
     loss_masking_spans: dict[int, list[int]] | None = None,
 ) -> None:
     Assert.eq(len(dataset), length)
-    sizes = dataset.get_document_sizes()
+    text_sizes, image_sizes = dataset.get_document_sizes()
     # Assert.eq(sizes.sum(), num_tokens)
     Assert.all_equal(
-        [len(dataset.get(i).token_ids) for i in range(min(len(dataset), 100))], sizes[: min(len(dataset), 100)]
+        [len(dataset.get(i).token_ids) for i in range(min(len(dataset), 100))], text_sizes[: min(len(dataset), 100)]
     )
     for i, expected_sample in expected_samples.items():
         Assert.all_equal(dataset.get(i).token_ids, np.array(expected_sample, dtype=np.uint16))
@@ -219,10 +219,15 @@ def __len__(self) -> int:
         return self._config.num_documents
 
     def get_document_sizes(self) -> np.ndarray:
-        return np.full(self._config.num_documents, self._config.num_tokens_per_document, dtype=np.int64)
+        return np.full(self._config.num_documents, self._config.num_tokens_per_document, dtype=np.int64), np.array(
+            [], dtype=np.int64
+        )
 
     def get_document_size(self, index: int) -> int:
         return self._config.num_tokens_per_document
 
     def get(self, index: int, *args, **kwargs) -> typing.Any:
         raise NotImplementedError()
+
+    def has_images(self) -> bool:
+        return False
diff --git a/tests/data/test_sampling.py b/tests/data/test_sampling.py
index 6a2be3dc..e04af129 100644
--- a/tests/data/test_sampling.py
+++ b/tests/data/test_sampling.py
@@ -79,14 +79,24 @@ def __len__(self) -> int:
         return len(self._samples)
 
     def get_document_sizes(self) -> np.ndarray:
-        return np.array([self.get_document_size(index) for index in range(len(self))], dtype=np.int64)
+        doc_sizes = []
+        im_sizes = []
+        for index in range(len(self)):
+            doc_size, im_size = self.get_document_size(index)
+            doc_sizes.append(doc_size)
+            im_sizes.append(im_size)
+        return np.array(doc_sizes, dtype=np.int64), np.array(im_sizes, dtype=np.int64)
 
     def get_document_size(self, index: int) -> int:
-        return len(self._samples[index])
+        return len(self._samples[index]), []
 
     def name(self) -> str:
         return "dataset"
 
+    @property
+    def has_images(self) -> bool:
+        return False
+
 
 TEST_DATASET = SimpleGPTIndexedDataset(
     [
diff --git a/tests/layers/test_lm_head.py b/tests/layers/test_lm_head.py
index f14f028e..c836df9f 100644
--- a/tests/layers/test_lm_head.py
+++ b/tests/layers/test_lm_head.py
@@ -23,12 +23,10 @@ def _reverse_kl_loss(
 ):
     scaled_target = target / teacher_softmax_temperature
 
-    scaled_target = torch.clamp(target, min=-50, max=50)
     teacher_log_probs = torch.log_softmax(scaled_target, dim=-1)
 
     with torch.enable_grad():
         # Use log_softmax for consistency instead of _fused_softmax
-        logits = torch.clamp(logits, min=-50, max=50)
         student_log_probs = torch.log_softmax(logits, dim=-1)
         if loss_mask is None:
             loss = torch.nn.functional.kl_div(
diff --git a/tests/models/test_checkpoint.py b/tests/models/test_checkpoint.py
index 714abc13..97a618cf 100644
--- a/tests/models/test_checkpoint.py
+++ b/tests/models/test_checkpoint.py
@@ -343,12 +343,15 @@ def test_huggingface_model(model_testing_config, get_convert_path):
         )
     )
     errors = []
-    auto_model = (
-        transformers.AutoModel
-        if model_testing_config.name in ("diffusion_llama", "dream")
-        else transformers.AutoModelForCausalLM
-    )
-    model_as_hf = auto_model.from_pretrained(hf_path, trust_remote_code=True).cuda()
+    if model_testing_config.name in ("diffusion_llama", "dream"):
+        auto_model = transformers.AutoModel
+    elif model_testing_config.name in ("llava", "vision_hybrid_mamba2"):
+        auto_model = transformers.AutoModelForVision2Seq
+    else:
+        auto_model = transformers.AutoModelForCausalLM
+    model_as_hf = auto_model.from_pretrained(
+        hf_path, trust_remote_code=model_testing_config.checkpoint_format.trust_remote_code
+    ).cuda()
     for name, model in zip(
         ("From state dict", "From Huggingface", "Native Huggingface"),
         (model_from_fast_llm, model_from_hf, model_as_hf),
diff --git a/tests/test_ssms.py b/tests/test_ssms.py
new file mode 100644
index 00000000..2a338f1b
--- /dev/null
+++ b/tests/test_ssms.py
@@ -0,0 +1,349 @@
+import inspect
+import itertools
+import pathlib
+from functools import partial
+
+import pytest
+import torch
+from mamba2 import Mamba2
+
+from fast_llm.config import NoAutoValidate
+from fast_llm.engine.checkpoint.config import CheckpointLoadConfig
+from fast_llm.engine.config_utils.tensor_space import TensorSpace
+from fast_llm.engine.distributed.config import DistributedConfig, PhaseType
+from fast_llm.engine.distributed.distributed import Distributed
+from fast_llm.engine.schedule.config import ScheduleConfig
+from fast_llm.engine.schedule.runner import ScheduleRunner
+from fast_llm.engine.schedule.schedule import Schedule
+from fast_llm.layers.ssm.config import SSMConfig
+from fast_llm.layers.ssm.llamba_block import SSMBlock
+from fast_llm.layers.transformer.config import TransformerConfig, TransformerKwargs
+from fast_llm.models.gpt.config import GPTBatchConfig
+from fast_llm.models.ssm.config import HybridSSMBaseModelConfig, LLambaHuggingfaceCheckpointFormat
+from fast_llm.models.ssm.model import HybridSSMModel
+
+_mamba_varlen = False
+try:
+    from mamba_ssm.ops.selective_scan_interface import selective_scan_fn  # noqa
+
+    _mamba_available = True
+    sig = inspect.signature(selective_scan_fn)
+    if "position_indices" in sig.parameters:
+        _mamba_varlen = True
+    else:
+        _mamba_varlen = False
+        # for training with packing install https://github.com/jxiw/varlen_mamba
+        # see https://github.com/jxiw/M1/blob/main/HYBRID_PACK.md
+
+except (ImportError, RuntimeError):
+    _mamba_available = False
+
+
+def get_hybrid_config(hybrid_block_layout=["t", "m2"], prediction_heads=1, default_mtp_type=None):
+    hidden_size = 512
+    config = HybridSSMBaseModelConfig(
+        transformer=TransformerConfig(num_layers=len(hybrid_block_layout), hidden_size=hidden_size),
+        ssm=SSMConfig(d_xb=hidden_size, dt_rank=10, d_inner=hidden_size * 2),
+        hybrid_block_layout=hybrid_block_layout,
+        prediction_heads=prediction_heads,
+        default_mtp_type=default_mtp_type,
+        init_method_std_embed=0.02,
+        init_method_min_embed=-0.02,
+        init_method_max_embed=0.02,
+        use_position_embeddings=True,
+        tie_word_embeddings=False,
+    )
+    return config
+
+
+@pytest.mark.skip("Disabled due to cartesia_pytorch installation issue")
+@pytest.mark.slow
+def test_load_from_llamba_checkpoint():
+    """
+    Test to check whether the of Fast-LLM and Huggingface checkpoint loading for Llamba-1B produce the same results.
+    """
+    import cartesia_pytorch.Llamba.llamba
+
+    vocab_size = 128256  # from https://huggingface.co/cartesia-ai/Llamba-1B/blob/main/config.json
+    batch_size = 2
+    seq_length = 32
+
+    path = pathlib.Path("/mnt/checkpoints_fml/pretrained_models/Llamba-1B")
+    format = LLambaHuggingfaceCheckpointFormat
+
+    x = torch.randint(0, vocab_size, (batch_size, seq_length), device="cuda")
+
+    hf_model = cartesia_pytorch.Llamba.llamba.LMHeadModel.from_pretrained(path, strict=True).to("cuda")
+    parameter_sum_hf = sum(p.detach().sum().cpu().item() for p in hf_model.parameters())
+    hf_logits = hf_model(x)["logits"].cpu()
+    del hf_model
+    torch.cuda.empty_cache()
+
+    # Create checkpoint load config
+    checkpoint_config = CheckpointLoadConfig(path=path, format=format, model_weights=True, optimizer_state=False)
+    # Initialize model
+    model = HybridSSMModel.from_pretrained(checkpoint_config)
+    param_sum = 0
+    for stage in model.stages:
+        for fsdp in stage.fsdps:
+            if hasattr(fsdp, "_weight_shard"):
+                param_sum += torch.sum(fsdp._weight_shard).item()
+    assert torch.abs(torch.tensor(param_sum) - parameter_sum_hf) < 1e-1
+
+    # model = GPTModel.from_pretrained(checkpoint_config)
+    assert model.config.base_model.vocab_size == vocab_size
+    schedule_config = ScheduleConfig()
+    with NoAutoValidate():
+        batch_config = GPTBatchConfig(micro_batch_size=batch_size, sequence_length=seq_length)
+    batch_config.setup(DistributedConfig.from_dict({}))
+    batch_config.validate()
+    schedule_runner = ScheduleRunner(
+        config=schedule_config,
+        multi_stage=model,
+        distributed_config=model.distributed.config,
+    )
+    schedule = Schedule(
+        multi_stage=model,
+        batch_config=batch_config,
+        schedule_config=schedule_config,
+        distributed_config=model.distributed.config,
+        phase=PhaseType.inference,
+    )
+    schedule_runner.setup(model.distributed, optimizer=None)
+
+    common_kwargs = {
+        TransformerKwargs.sequence_first: True,
+        TransformerKwargs.grad_output: False,
+    }
+    input_data = [(x, common_kwargs)]
+
+    schedule_runner.run_step(iter([input_data]), schedule, iteration=0, return_metrics=True, preprocessed=True)
+
+    logits = input_data[0][1]["logits"].cpu()
+    assert torch.allclose(logits, hf_logits, atol=1e-2)
+
+
+@pytest.fixture
+def distributed_config():
+    return DistributedConfig(
+        tensor_parallel=1,
+        pipeline_parallel=1,
+        sequence_data_parallel=1,
+        local_world_size=1,
+        world_size=1,
+    )
+
+
+@pytest.fixture
+def distributed(distributed_config):
+    return Distributed(config=distributed_config)
+
+
+def materialize_meta_tensors(model, tensor_space):
+    # Materialize parameters that are on meta device
+    for name, param in model.named_parameters():
+        if param.device.type == "meta":
+            # Check if the parameter is a custom tensor type
+            if hasattr(param, "tensor_name") and hasattr(param, "init_parameter"):
+                param_data = param.new_empty(param.shape, device="cuda")
+                # Initialize param_data
+                param.init_parameter(param_data, tensor_space.distributed)
+                # Replace the parameter in the module
+                module_path, param_name = name.rsplit(".", 1) if "." in name else (None, name)
+                module = model
+                if module_path is not None:
+                    for part in module_path.split("."):
+                        module = getattr(module, part)
+                param = torch.nn.Parameter(param_data, requires_grad=param.requires_grad)
+                # TODO: add param_grad_is_zero etc., grad_buffer, etc., see test_mlp_recomputation
+                param.grad = None
+                param.grad_buffer = torch.empty_like(param)
+                param.param_grad_is_zero = True
+                module._parameters[param_name] = param
+    return model
+
+
+def unpack(packed_hidden_states, cu_seqlens):
+    batch_size = packed_hidden_states.shape[0]
+    package_num = cu_seqlens.shape[0] - 1
+    seq_len = (cu_seqlens[1:] - cu_seqlens[:-1]).max()
+    hidden_dim = packed_hidden_states.shape[2]
+    hidden_states = torch.zeros(
+        package_num * batch_size,
+        seq_len,
+        hidden_dim,
+        dtype=packed_hidden_states.dtype,
+        device=packed_hidden_states.device,
+    )
+    for j in range(batch_size):
+        for i in range(package_num):
+            line = j * package_num + i
+            hidden_states[line, : cu_seqlens[i + 1] - cu_seqlens[i], :] = packed_hidden_states[
+                j, cu_seqlens[i] : cu_seqlens[i + 1], :
+            ]
+    return hidden_states
+
+
+def pack(hidden_states, cu_seqlens, batch_size):
+    package_num, seq_len, hidden_dim = hidden_states.shape
+    seq_len_list = cu_seqlens[1:] - cu_seqlens[:-1]
+    seq_len_list_3d = seq_len_list.unsqueeze(1).unsqueeze(2)
+    indices_3d = (
+        torch.arange(seq_len, device=hidden_states.device).unsqueeze(0).unsqueeze(2).repeat(package_num, 1, hidden_dim)
+    )
+    mask_3d = indices_3d < seq_len_list_3d.repeat(batch_size, 1, 1)
+    packed_hidden_states = hidden_states[mask_3d].view(batch_size, -1, hidden_dim)
+    return packed_hidden_states
+
+
+def generate_random_cu_seqlens(seq_len, packages_num=2):
+    if packages_num < 1:
+        raise ValueError("packages_num must be at least 1")
+
+    # base size of each chunk, and how many get an extra token
+    base, rem = divmod(seq_len, packages_num)
+    # lengths: e.g. for seq_len=10, packages=3 → [4,3,3]
+    lengths = [base + 1 if i < rem else base for i in range(packages_num)]
+
+    # split points exclude the final cumulative (seq_len)
+    split_points = list(itertools.accumulate(lengths))[:-1]
+
+    # cu_seqlens = [0] + split_points + [seq_len]
+    cu_seqlens = [0] + split_points + [seq_len]
+
+    # index: for each chunk, we emit 0,1,...,length-1
+    index = []
+    for length in lengths:
+        index.extend(range(length))
+
+    # sanity check
+    assert len(cu_seqlens) - 1 == packages_num
+    assert sum(lengths) == seq_len
+    assert len(index) == seq_len
+
+    return cu_seqlens, index
+
+
+# Quick and dirty test for Mamba2 varlen block from https://github.com/jxiw/M1/blob/d92b53faa640f8ebf624d3e9e771fe24648ef014/rl/verl/tests/pack_mamba/test_mamba_layer.py
+# TODO: integrate in the testing framework
+@pytest.mark.slow
+@pytest.mark.skipif(not torch.cuda.is_available(), reason="No CUDA available")
+@pytest.mark.skipif(not _mamba_available, reason="Mamba2 is not available")
+@pytest.mark.skipif(not _mamba_varlen, reason="Mamba2 varlen is not available")
+def test_mamba_varlen_block(distributed_config, distributed):
+    """
+    Compare that the output and grads of packed and unpacked Mamba2 varlen block are the same.
+    """
+    hybrid_config = get_hybrid_config(hybrid_block_layout=["m2", "t"])
+    tensor_space = TensorSpace(distributed_config=distributed_config)
+    tensor_space.setup(distributed)
+    hybrid_config.setup_tensor_space(tensor_space)
+    layer_idx = 0
+
+    mixer_cls = partial(Mamba2, block_index=layer_idx)
+    block_packed = SSMBlock(
+        hybrid_config.transformer,
+        hybrid_config.ssm,
+        mixer_cls=mixer_cls,
+        tensor_space=tensor_space,
+        block_index=layer_idx,
+    )
+    block_ref = SSMBlock(
+        hybrid_config.transformer,
+        hybrid_config.ssm,
+        mixer_cls=mixer_cls,
+        tensor_space=tensor_space,
+        block_index=layer_idx,
+    )
+    device = "cuda"
+    materialize_meta_tensors(block_packed, tensor_space)
+    materialize_meta_tensors(block_ref, tensor_space)
+    block_ref.load_state_dict(block_packed.state_dict())
+    block_packed.to(device)
+    block_ref.to(device)
+
+    batch_size = 2
+    seq_len = 64
+    packages_num = 2
+    hidden_dim = hybrid_config.transformer.hidden_size
+
+    cu_seqlens, index = generate_random_cu_seqlens(seq_len, packages_num=packages_num)
+    cu_seqlens = torch.tensor(cu_seqlens).cuda()
+    ssm_position_ids = torch.tensor(index, dtype=torch.int32).unsqueeze(0).expand(batch_size, -1).contiguous().cuda()
+    seq_idx = (
+        torch.cat(
+            [
+                torch.full((s,), i, dtype=torch.int32, device=cu_seqlens.device)
+                for i, s in enumerate(cu_seqlens[1:] - cu_seqlens[:-1])
+            ],
+            dim=0,
+        )
+        .unsqueeze(0)
+        .repeat(batch_size, 1)
+    )
+
+    # Generate packed_hidden_states with random values for testing
+    hidden_states_list = [
+        torch.randn(l, hidden_dim, device=device, dtype=torch.bfloat16, requires_grad=True)
+        for l in (cu_seqlens[1:] - cu_seqlens[:-1]).tolist()
+    ]
+    packed_hidden_states = torch.cat(hidden_states_list, dim=0).unsqueeze(0)
+    packed_hidden_states = packed_hidden_states.expand(batch_size, -1, -1).contiguous()
+    # hidden_states should be forwarded without cu_seqlens
+    hidden_states = unpack(packed_hidden_states, cu_seqlens)
+
+    # Check: sum of seq_len of item in hidden_states_list should be equal to seq_len of packed_hidden_states
+    assert sum([hs.shape[0] for hs in hidden_states_list]) == packed_hidden_states.shape[1]
+    # Check: max of seq_len of item in hidden_states_list should be equal to seq_len of hidden_states
+    assert max([hs.shape[0] for hs in hidden_states_list]) == hidden_states.shape[1]
+
+    output_states_packed = block_packed(
+        packed_hidden_states,
+        {"cu_seqlens": cu_seqlens, "seq_idx": seq_idx, "ssm_position_ids": ssm_position_ids, "sequence_first": False},
+    )
+    output_states_unpacked = block_ref(
+        hidden_states.clone(), {"cu_seqlens": None, "seq_idx": None, "ssm_position_ids": None, "sequence_first": False}
+    )
+    tollerance = 1e-4
+    assert output_states_packed.shape == packed_hidden_states.shape
+    assert output_states_unpacked.shape == hidden_states.shape
+    assert not torch.isnan(hidden_states).any()
+    assert not torch.isinf(hidden_states).any()
+
+    output_states_unpacked = pack(output_states_unpacked, cu_seqlens, batch_size)
+    torch.allclose(output_states_packed, output_states_unpacked, atol=tollerance)
+
+    loss = output_states_packed.sum()
+    loss.backward()
+    loss_ref = output_states_unpacked.sum()
+    loss_ref.backward()
+    assert torch.allclose(block_packed.mixer.conv1d_weight.grad, block_ref.mixer.conv1d_weight.grad, atol=tollerance)
+    assert torch.allclose(block_packed.mixer.conv1d_bias.grad, block_ref.mixer.conv1d_bias.grad, atol=tollerance)
+    assert torch.allclose(
+        block_packed.mixer.in_proj.weight.grad_buffer, block_ref.mixer.in_proj.weight.grad_buffer, atol=tollerance
+    )
+    assert torch.allclose(
+        block_packed.mixer.out_proj.weight.grad_buffer, block_ref.mixer.out_proj.weight.grad_buffer, atol=tollerance
+    )
+    assert torch.allclose(
+        block_packed.mixer.dt_in_proj.weight.grad_buffer,
+        block_ref.mixer.dt_in_proj.weight.grad_buffer,
+        atol=tollerance,
+    )
+
+    assert torch.allclose(
+        block_packed.mlp.layer_1.weight.grad_buffer, block_ref.mlp.layer_1.weight.grad_buffer, atol=tollerance
+    )
+    assert torch.allclose(
+        block_packed.mlp.layer_1.bias.grad_buffer, block_ref.mlp.layer_1.bias.grad_buffer, atol=tollerance
+    )
+    assert torch.allclose(
+        block_packed.mlp.layer_2.weight.grad_buffer, block_ref.mlp.layer_2.weight.grad_buffer, atol=tollerance
+    )
+    assert torch.allclose(
+        block_packed.mlp.layer_2.bias.grad_buffer, block_ref.mlp.layer_2.bias.grad_buffer, atol=tollerance
+    )
+
+
+if __name__ == "__main__":
+    pytest.main([__file__])
diff --git a/tests/utils/model_configs.py b/tests/utils/model_configs.py
index aa810012..a818a1f2 100644
--- a/tests/utils/model_configs.py
+++ b/tests/utils/model_configs.py
@@ -16,6 +16,7 @@
     DiffusionDreamCheckpointFormat,
     DiffusionLlamaCheckpointFormat,
     LlamaCheckpointFormat,
+    LlavaCheckpointFormat,
     MistralCheckpointFormat,
     MixtralCheckpointFormat,
     MTPLlamaCheckpointFormat,
@@ -680,6 +681,77 @@ def _update_and_add_testing_config(
     skip_tests=("sdp", "ms"),
 )
 
+_update_and_add_testing_config(
+    # Tests hybrid Mamba, llamba converter.
+    "llama",
+    "llava",
+    extra_args=[
+        "batch.max_image_size=128",
+        "model.base_model.vision_encoder.type=pixtral",
+        "model.base_model.vision_encoder.patch_norm.type=rms_norm",
+        "model.base_model.vision_encoder.transformer.add_linear_biases=False",
+        "model.base_model.vision_encoder.transformer.causal=False",
+        "model.base_model.vision_encoder.transformer.normalization.type=rms_norm",
+        "model.base_model.vision_encoder.transformer.type=image_encoder",
+        "model.base_model.vision_encoder.transformer.gated=True",
+        "model.base_model.vision_encoder.transformer.num_layers=2",
+        "model.base_model.vision_encoder.transformer.hidden_size=256",
+        "model.base_model.vision_encoder.transformer.num_attention_heads=8",
+        "model.base_model.vision_encoder.transformer.head_groups=8",
+        "model.base_model.vision_encoder.transformer.init_method_std=0.022",
+        "model.base_model.vision_encoder.transformer.rotary.type=rope_2d",
+        "model.base_model.vision_encoder.adapter_size=256",
+        "model.distributed.training_dtype=torch.bfloat16",
+    ],
+    megatron_args=None,
+    checkpoint_format=LlavaCheckpointFormat,
+    groups={
+        ModelTestingGroup.basic: ModelTestingGroupAction.normal,
+        ModelTestingGroup.checkpoint: ModelTestingGroupAction.normal,
+        ModelTestingGroup.convert: ModelTestingGroupAction.normal,
+        ModelTestingGroup.generate: ModelTestingGroupAction.not_implemented,
+        ModelTestingGroup.megatron: ModelTestingGroupAction.not_implemented,
+        ModelTestingGroup.distributed: ModelTestingGroupAction.unimportant,
+    },
+    compare_factor=8.0,
+)
+
+_update_and_add_testing_config(
+    # Tests hybrid ssm, llamba converter.
+    "hybrid_mamba2",
+    "vision_hybrid_mamba2",
+    model_type="hybrid_ssm",
+    extra_args=[
+        "batch.max_image_size=128",
+        "model.base_model.vision_encoder.type=pixtral",
+        "model.base_model.vision_encoder.patch_norm.type=rms_norm",
+        "model.base_model.vision_encoder.transformer.add_linear_biases=False",
+        "model.base_model.vision_encoder.transformer.causal=False",
+        "model.base_model.vision_encoder.transformer.normalization.type=rms_norm",
+        "model.base_model.vision_encoder.transformer.type=image_encoder",
+        "model.base_model.vision_encoder.transformer.gated=True",
+        "model.base_model.vision_encoder.transformer.num_layers=2",
+        "model.base_model.vision_encoder.transformer.hidden_size=256",
+        "model.base_model.vision_encoder.transformer.num_attention_heads=8",
+        "model.base_model.vision_encoder.transformer.head_groups=8",
+        "model.base_model.vision_encoder.transformer.init_method_std=0.022",
+        "model.base_model.vision_encoder.transformer.rotary.type=rope_2d",
+        "model.base_model.vision_encoder.adapter_size=512",
+        "model.distributed.training_dtype=torch.bfloat16",
+    ],
+    megatron_args=None,
+    checkpoint_format=LlavaHybridHuggingfaceCheckpointFormat,
+    groups={
+        ModelTestingGroup.basic: ModelTestingGroupAction.normal,
+        ModelTestingGroup.checkpoint: ModelTestingGroupAction.normal,
+        ModelTestingGroup.convert: ModelTestingGroupAction.normal,
+        ModelTestingGroup.generate: ModelTestingGroupAction.not_implemented,
+        ModelTestingGroup.megatron: ModelTestingGroupAction.not_implemented,
+        ModelTestingGroup.distributed: ModelTestingGroupAction.unimportant,
+    },
+    compare_factor=16.0,
+)
+
 
 @pytest.fixture(scope="session", params=MODEL_CONFIGS.keys())
 def model_testing_config(request) -> ModelTestingConfig: