fixed bug, where mpx would not work with distributed training in jax

Alexander · Alexander · commit 128455fd6170 · 2025-07-12T19:06:43.000+02:00
diff --git a/doc/paper/_minted-main/751595D337C128237709542583200FD44281FAF47C70E7389F15E7D045E0286E.pygtex b/doc/paper/_minted-main/751595D337C128237709542583200FD44281FAF47C70E7389F15E7D045E0286E.pygtex
@@ -0,0 +1,38 @@
+\begin{Verbatim}[commandchars=\\\{\},codes={\catcode`\$=3\catcode`\^=7\catcode`\_=8\relax}]
+\PYG{k}{class} \PYG{n+nc}{MultiHeadAttentionBlock}\PYG{p}{(}\PYG{n}{eqx}\PYG{o}{.}\PYG{n}{Module}\PYG{p}{):}
+    \PYG{n}{dense\PYGZus{}qs}\PYG{p}{:} \PYG{n}{eqx}\PYG{o}{.}\PYG{n}{nn}\PYG{o}{.}\PYG{n}{Linear}
+    \PYG{n}{dense\PYGZus{}ks}\PYG{p}{:} \PYG{n}{eqx}\PYG{o}{.}\PYG{n}{nn}\PYG{o}{.}\PYG{n}{Linear}
+    \PYG{n}{dense\PYGZus{}vs}\PYG{p}{:} \PYG{n}{eqx}\PYG{o}{.}\PYG{n}{nn}\PYG{o}{.}\PYG{n}{Linear}
+    \PYG{n}{dense\PYGZus{}o}\PYG{p}{:} \PYG{n}{eqx}\PYG{o}{.}\PYG{n}{nn}\PYG{o}{.}\PYG{n}{Linear}
+    \PYG{n}{num\PYGZus{}heads}\PYG{p}{:} \PYG{n+nb}{int}
+    \PYG{n}{layer\PYGZus{}norm}\PYG{p}{:} \PYG{n}{eqx}\PYG{o}{.}\PYG{n}{nn}\PYG{o}{.}\PYG{n}{LayerNorm}
+
+    \PYG{k}{def} \PYG{n+nf+fm}{\PYGZus{}\PYGZus{}init\PYGZus{}\PYGZus{}}\PYG{p}{(}\PYG{n+nb+bp}{self}\PYG{p}{,} \PYG{n}{feature\PYGZus{}dim}\PYG{p}{,} \PYG{n}{num\PYGZus{}heads}\PYG{p}{,} \PYG{n}{key}\PYG{p}{):}
+        \PYG{n+nb+bp}{self}\PYG{o}{.}\PYG{n}{num\PYGZus{}heads} \PYG{o}{=} \PYG{n}{num\PYGZus{}heads}
+        \PYG{n}{key}\PYG{p}{,} \PYG{n}{subkey} \PYG{o}{=} \PYG{n}{jax}\PYG{o}{.}\PYG{n}{random}\PYG{o}{.}\PYG{n}{split}\PYG{p}{(}\PYG{n}{key}\PYG{p}{)}
+        \PYG{n+nb+bp}{self}\PYG{o}{.}\PYG{n}{dense\PYGZus{}qs} \PYG{o}{=} \PYG{n}{eqx}\PYG{o}{.}\PYG{n}{nn}\PYG{o}{.}\PYG{n}{Linear}\PYG{p}{(}
+            \PYG{n}{feature\PYGZus{}dim}\PYG{p}{,} \PYG{n}{feature\PYGZus{}dim}\PYG{p}{,} \PYG{n}{key}\PYG{o}{=}\PYG{n}{subkey}\PYG{p}{)}
+        \PYG{c+c1}{\PYGZsh{} same for dense\PYGZus{}ks, dense\PYGZus{}vs, dense\PYGZus{}o}
+
+        \PYG{n+nb+bp}{self}\PYG{o}{.}\PYG{n}{layer\PYGZus{}norm} \PYG{o}{=} \PYG{n}{eqx}\PYG{o}{.}\PYG{n}{nn}\PYG{o}{.}\PYG{n}{LayerNorm}\PYG{p}{(}\PYG{n}{feature\PYGZus{}dim}\PYG{p}{)}
+
+    \PYG{k}{def} \PYG{n+nf}{attention}\PYG{p}{(}\PYG{n}{q}\PYG{p}{,} \PYG{n}{k}\PYG{p}{,} \PYG{n}{v}\PYG{p}{):}
+        \PYG{n}{attention\PYGZus{}scores} \PYG{o}{=} \PYG{n}{q} \PYG{o}{@} \PYG{n}{k}\PYG{o}{.}\PYG{n}{T} \PYG{o}{/} \PYG{n}{jnp}\PYG{o}{.}\PYG{n}{sqrt}\PYG{p}{(}\PYG{n}{q}\PYG{o}{.}\PYG{n}{shape}\PYG{p}{[}\PYG{o}{\PYGZhy{}}\PYG{l+m+mi}{1}\PYG{p}{])}
+        \PYG{n}{attention\PYGZus{}scores} \PYG{o}{=} \PYG{n}{mpx}\PYG{o}{.}\PYG{n}{force\PYGZus{}full\PYGZus{}precision}\PYG{p}{(}
+            \PYG{n}{jax}\PYG{o}{.}\PYG{n}{nn}\PYG{o}{.}\PYG{n}{softmax}\PYG{p}{,} \PYG{n}{attention\PYGZus{}scores}\PYG{o}{.}\PYG{n}{dtype}\PYG{p}{)(}\PYG{n}{attention\PYGZus{}scores}\PYG{p}{,} \PYG{n}{axis}\PYG{o}{=\PYGZhy{}}\PYG{l+m+mi}{1}\PYG{p}{)}
+        \PYG{k}{return} \PYG{n}{attention\PYGZus{}scores} \PYG{o}{@} \PYG{n}{v}
+
+    \PYG{k}{def} \PYG{n+nf+fm}{\PYGZus{}\PYGZus{}call\PYGZus{}\PYGZus{}}\PYG{p}{(}\PYG{n+nb+bp}{self}\PYG{p}{,} \PYG{n}{inputs}\PYG{p}{):}
+        \PYG{n}{inputs\PYGZus{}after\PYGZus{}layernorm} \PYG{o}{=} \PYG{n}{jax}\PYG{o}{.}\PYG{n}{vmap}\PYG{p}{(}\PYG{n}{mpx}\PYG{o}{.}\PYG{n}{force\PYGZus{}full\PYGZus{}precision}\PYG{p}{(}
+            \PYG{n+nb+bp}{self}\PYG{o}{.}\PYG{n}{layer\PYGZus{}norm}\PYG{p}{,} \PYG{n}{inputs}\PYG{o}{.}\PYG{n}{dtype}\PYG{p}{))(}\PYG{n}{inputs}\PYG{p}{)}
+        \PYG{n}{qs} \PYG{o}{=} \PYG{n}{jax}\PYG{o}{.}\PYG{n}{vmap}\PYG{p}{(}\PYG{n+nb+bp}{self}\PYG{o}{.}\PYG{n}{dense\PYGZus{}qs}\PYG{p}{)(}\PYG{n}{inputs\PYGZus{}after\PYGZus{}layernorm}\PYG{p}{)}
+        \PYG{n}{qs} \PYG{o}{=} \PYG{n}{es}\PYG{o}{.}\PYG{n}{jax\PYGZus{}einshape}\PYG{p}{(}\PYG{l+s+s2}{\PYGZdq{}n(hf)\PYGZhy{}\PYGZgt{}hnf\PYGZdq{}}\PYG{p}{,} \PYG{n}{qs}\PYG{p}{,} \PYG{n}{h}\PYG{o}{=}\PYG{n+nb+bp}{self}\PYG{o}{.}\PYG{n}{num\PYGZus{}heads}\PYG{p}{)}
+        \PYG{c+c1}{\PYGZsh{} same for ks and vs...}
+
+        \PYG{n}{outputs} \PYG{o}{=} \PYG{n}{jax}\PYG{o}{.}\PYG{n}{vmap}\PYG{p}{(}\PYG{n+nb+bp}{self}\PYG{o}{.}\PYG{n}{attention}\PYG{p}{,} \PYG{n}{in\PYGZus{}axes}\PYG{o}{=}\PYG{p}{(}\PYG{l+m+mi}{0}\PYG{p}{,} \PYG{l+m+mi}{0}\PYG{p}{,} \PYG{l+m+mi}{0}\PYG{p}{))(}\PYG{n}{qs}\PYG{p}{,} \PYG{n}{ks}\PYG{p}{,} \PYG{n}{vs}\PYG{p}{)}
+        \PYG{n}{outputs} \PYG{o}{=} \PYG{n}{es}\PYG{o}{.}\PYG{n}{jax\PYGZus{}einshape}\PYG{p}{(}\PYG{l+s+s2}{\PYGZdq{}hnf\PYGZhy{}\PYGZgt{}n(hf)\PYGZdq{}}\PYG{p}{,} \PYG{n}{outputs}\PYG{p}{)}
+        \PYG{n}{outputs} \PYG{o}{=} \PYG{n}{jax}\PYG{o}{.}\PYG{n}{vmap}\PYG{p}{(}\PYG{n+nb+bp}{self}\PYG{o}{.}\PYG{n}{dense\PYGZus{}o}\PYG{p}{)(}\PYG{n}{outputs}\PYG{p}{)}
+        \PYG{n}{outputs} \PYG{o}{+=} \PYG{n}{inputs}
+
+        \PYG{k}{return} \PYG{n}{outputs}
+\end{Verbatim}
diff --git a/doc/paper/_minted-main/A74F22645753D35503A1C81F902405524281FAF47C70E7389F15E7D045E0286E.pygtex b/doc/paper/_minted-main/A74F22645753D35503A1C81F902405524281FAF47C70E7389F15E7D045E0286E.pygtex
@@ -0,0 +1,6 @@
+\begin{Verbatim}[commandchars=\\\{\},codes={\catcode`\$=3\catcode`\^=7\catcode`\_=8\relax}]
+\PYG{n}{grads} \PYG{o}{=} \PYG{n}{eqx}\PYG{o}{.}\PYG{n}{filter\PYGZus{}grad}\PYG{p}{(}\PYG{n}{loss}\PYG{p}{)(}\PYG{n}{model}\PYG{p}{,} \PYG{n}{batch}\PYG{p}{)}
+\PYG{n}{updates}\PYG{p}{,} \PYG{n}{optimizer\PYGZus{}state} \PYG{o}{=} \PYG{n}{optimizer}\PYG{o}{.}\PYG{n}{update}\PYG{p}{(}
+    \PYG{n}{grads}\PYG{p}{,} \PYG{n}{optimizer\PYGZus{}state}\PYG{p}{,} \PYG{n}{eqx}\PYG{o}{.}\PYG{n}{filter}\PYG{p}{(}\PYG{n}{model}\PYG{p}{,} \PYG{n}{eqx}\PYG{o}{.}\PYG{n}{is\PYGZus{}array}\PYG{p}{))}
+\PYG{n}{model} \PYG{o}{=} \PYG{n}{eqx}\PYG{o}{.}\PYG{n}{apply\PYGZus{}updates}\PYG{p}{(}\PYG{n}{model}\PYG{p}{,} \PYG{n}{updates}\PYG{p}{)}
+\end{Verbatim}
diff --git a/doc/paper/_minted-main/B9EF00939836A49418111988CA06001D4281FAF47C70E7389F15E7D045E0286E.pygtex b/doc/paper/_minted-main/B9EF00939836A49418111988CA06001D4281FAF47C70E7389F15E7D045E0286E.pygtex
@@ -0,0 +1,6 @@
+\begin{Verbatim}[commandchars=\\\{\},codes={\catcode`\$=3\catcode`\^=7\catcode`\_=8\relax}]
+\PYG{n}{loss\PYGZus{}scaling}\PYG{p}{,} \PYG{n}{grads\PYGZus{}finite}\PYG{p}{,} \PYG{n}{grads} \PYG{o}{=} \PYG{n}{mpx}\PYG{o}{.}\PYG{n}{filter\PYGZus{}grad}\PYG{p}{(}\PYG{n}{loss}\PYG{p}{,} \PYG{n}{loss\PYGZus{}scaling}\PYG{p}{)(}
+    \PYG{n}{model}\PYG{p}{,} \PYG{n}{batch}\PYG{p}{)}
+\PYG{n}{model}\PYG{p}{,} \PYG{n}{optimizer\PYGZus{}state} \PYG{o}{=} \PYG{n}{mpx}\PYG{o}{.}\PYG{n}{optimizer\PYGZus{}update}\PYG{p}{(}
+    \PYG{n}{model}\PYG{p}{,} \PYG{n}{optimizer}\PYG{p}{,} \PYG{n}{optimizer\PYGZus{}state}\PYG{p}{,} \PYG{n}{grads}\PYG{p}{,}\PYG{n}{grads\PYGZus{}finite}\PYG{p}{)}
+\end{Verbatim}
diff --git a/mpx/_dtypes.py b/mpx/_dtypes.py
@@ -1,8 +1,24 @@
 import jax.numpy as jnp
 
-HALF_PRECISION_DATATYPE = jnp.float16
-FLOAT16_MAX = jnp.ones([], dtype=jnp.float32) * (2 - 2**(-10)) * 2**15
-BFLOAT16_MAX = jnp.array([((2**8 - 1) * 2**(120))], dtype=jnp.float32)[0]
+import sys
+import types
+
+# We do to avoid that jax is directly called when importing this module.
+# This is to ensure that mpx works with distributed training.
+class _MaxConstantsLazyInit(types.ModuleType):
+    @property
+    def HALF_PRECISION_DATATYPE(self):
+        return jnp.float16
+    
+    @property
+    def FLOAT16_MAX(self):
+        return jnp.ones([], dtype=jnp.float32) * (2 - 2**(-10)) * 2**15
+    
+    @property
+    def BFLOAT16_MAX(self):
+        return jnp.array([((2**8 - 1) * 2**(120))], dtype=jnp.float32)[0]
+
+sys.modules[__name__].__class__ = _MaxConstantsLazyInit
 
 def set_half_precision_datatype(datatype):
     """