gpt-oss implementation

## **Description**

This outlines the current status of gpt-oss features that need to be implemented in Megatron Core, leveraging Transformer Engine.

**✅ UPDATE: All core GPT-OSS functionality is now available in Megatron Core (training) and [Megatron Bridge](https://github.com/NVIDIA-NeMo/Megatron-Bridge) (checkpoint conversion).**

### **MoE Layer**

#### **Enabled Bias**

* **Status:** ✅ **Supported**
* **Implementation:** Available in main branch: https://github.com/NVIDIA/Megatron-LM/pull/2038

### **Attention Mechanisms**

#### **Alternating Sliding-Window Attention Pattern**

* **Status:** ✅ **Supported** \- Infrastructure exists for per-layer patterns and sliding window attention using TE

#### **Attention Sinks**

* **Status:** ✅ **Implemented** \- in Transformer Engine and cuDNN  
* **Reference:** [Streaming LLM](https://arxiv.org/abs/2309.17453)  
* **Related Transformer Engine PR:** https://github.com/NVIDIA/TransformerEngine/pull/2148

### **Activation Functions**

#### **Custom SwiGLU with Clamping**

* **Status:** ✅ **Supported**  
* **Implementation:** Megatron Core added partially fused version as "custom quick GeGLU"

FP8-aware fused kernel merged into Transformer Engine
* **Related Transformer Engine PR:** https://github.com/NVIDIA/TransformerEngine/pull/2161

### **Positional Encodings**

#### **YaRN RoPE Scaling**

* **Status:** ✅ **Fully Supported**
* **Implementation:**
  * [x] YaRN scaling to 128k+ context
  * [x] Integration with existing RoPE
  * [x] YaRN for general RoPE/GPT models
  * [x] Convergence validation
* **Usage:** `--position-embedding-type yarn` with YaRN configuration parameters
* **Reference:** [arXiv:2309.00071](https://arxiv.org/abs/2309.00071)

### **Megatron Bridge Support**

  **[Megatron Bridge](https://github.com/NVIDIA-NeMo/Megatron-Bridge/tree/main/src/megatron/bridge/models/gpt_oss)** provides full GPT-OSS integration:

  - ✅ **Checkpoint Conversion**: Hugging Face ↔ Megatron format
  - ✅ **Pre-configured Providers**: `GPTOSSProvider20B` and `GPTOSSProvider120B`
  - ✅ **Quantization Support**: Handles MXFP4 weight dequantization

### **Megatron Bridge + Megatron-LM Example**

**PR: https://github.com/NVIDIA/Megatron-LM/pull/2383** provides end-to-end example scripts covering checkpoint conversion (`convert_mcore_bf16_checkpoint_from_hf.py`) and training/fine-tuning (`training_gptoss_20b_h100_bf16_fp8.sh`)

Credits: @cuichenx for core implementation, @yiakwy-xpu-ml-framework-team for example scripts

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

gpt-oss implementation #1739

Description

MoE Layer

Enabled Bias

Attention Mechanisms

Alternating Sliding-Window Attention Pattern

Attention Sinks

Activation Functions

Custom SwiGLU with Clamping

Positional Encodings

YaRN RoPE Scaling

Megatron Bridge Support

Megatron Bridge + Megatron-LM Example

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

gpt-oss implementation #1739

Description

Description

MoE Layer

Enabled Bias

Attention Mechanisms

Alternating Sliding-Window Attention Pattern

Attention Sinks

Activation Functions

Custom SwiGLU with Clamping

Positional Encodings

YaRN RoPE Scaling

Megatron Bridge Support

Megatron Bridge + Megatron-LM Example

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions