brain4j-org
diff --git a/‎build.gradle‎
Lines changed: 1 addition & 0 deletions b/‎build.gradle‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/main/java/net/echo/brain4j/transformers/TransformerDecoder.java‎
Lines changed: 113 additions & 0 deletions b/‎src/main/java/net/echo/brain4j/transformers/TransformerDecoder.java‎
Lines changed: 113 additions & 0 deletions
diff --git a/‎src/main/java/net/echo/brain4j/transformers/attention/AttentionHead.java‎
Lines changed: 48 additions & 48 deletions b/‎src/main/java/net/echo/brain4j/transformers/attention/AttentionHead.java‎
Lines changed: 48 additions & 48 deletions
diff --git a/‎src/main/java/net/echo/brain4j/transformers/attention/MultiHeadAttention.java‎
Lines changed: 43 additions & 44 deletions b/‎src/main/java/net/echo/brain4j/transformers/attention/MultiHeadAttention.java‎
Lines changed: 43 additions & 44 deletions
@@ -16,6 +16,7 @@ dependencies {
     implementation 'commons-io:commons-io:2.18.0'
     implementation 'org.jocl:jocl:2.0.5'
     testImplementation 'org.jfree:jfreechart:1.5.3'
+    implementation 'org.apache.commons:commons-math3:3.6.1'
 }
 
 java {
 
@@ -0,0 +1,113 @@
+package net.echo.brain4j.transformers;
+
+import net.echo.brain4j.activation.Activations;
+import net.echo.brain4j.layer.Layer;
+import net.echo.brain4j.layer.impl.DenseLayer;
+import net.echo.brain4j.layer.impl.LayerNorm;
+import net.echo.brain4j.loss.LossFunctions;
+import net.echo.brain4j.model.impl.Sequential;
+import net.echo.brain4j.model.initialization.WeightInit;
+import net.echo.brain4j.structure.cache.StatesCache;
+import net.echo.brain4j.training.optimizers.Optimizer;
+import net.echo.brain4j.training.updater.Updater;
+import net.echo.brain4j.transformers.attention.MultiHeadAttention;
+import net.echo.brain4j.transformers.masked.MaskedMultiHeadAttention;
+import net.echo.brain4j.utils.Vector;
+
+import java.util.ArrayList;
+import java.util.List;
+
+public class TransformerDecoder extends Layer<List<Vector>, List<Vector>> {
+
+    private final int heads;
+    private final int dimension;
+    private final double temperature;
+
+    private final Sequential feedForward;
+    private final LayerNorm normalizer;
+
+    private MaskedMultiHeadAttention maskedAttention;
+
+    public TransformerDecoder(int numHeads, int dimension, double temperature) {
+        super(0, Activations.LINEAR);
+        this.heads = numHeads;
+        this.dimension = dimension;
+        this.temperature = temperature;
+
+        this.normalizer = new LayerNorm();
+        this.feedForward = new Sequential(
+                new DenseLayer(dimension, Activations.LINEAR),
+                new DenseLayer(4 * dimension, Activations.GELU),
+                new DenseLayer(dimension, Activations.LINEAR)
+        );
+    }
+
+    public int getAttentionSize() {
+        return maskedAttention.getTotalNeurons();
+    }
+
+    public int getFeedForwardSize() {
+        return feedForward.getTotalWeights();
+    }
+
+    @Override
+    public int getTotalParams() {
+        return getAttentionSize() + getFeedForwardSize();
+    }
+
+    @Override
+    public int getTotalNeurons() {
+        return feedForward.getTotalNeurons();
+    }
+
+    @Override
+    public void compile(WeightInit weightInit, LossFunctions lossFunction, Optimizer optimizer, Updater updater) {
+        this.maskedAttention = new MaskedMultiHeadAttention(weightInit, heads, dimension, temperature);
+        this.feedForward.compile(weightInit, lossFunction, optimizer, updater);
+    }
+
+    @Override
+    public void propagate(StatesCache cache, Layer<?, ?> previous, Updater updater, Optimizer optimizer) {
+//        feedForward.propagate(cache, this, updater, optimizer);
+//        maskedAttention.propagate(cache, this, updater, optimizer);
+    }
+
+    @Override
+    public List<Vector> forward(StatesCache cache, Layer<?, ?> lastLayer, List<Vector> input) {
+        List<Vector> attentionOutput = maskedAttention.attend(input);
+        List<Vector> normAttention = new ArrayList<>();
+
+        for (Vector token : attentionOutput) {
+            normAttention.add(normalizer.normalize(token));
+        }
+
+        List<Vector> feedForwardOutput = new ArrayList<>();
+
+        for (Vector vector : normAttention) {
+            feedForwardOutput.add(feedForward.predict(vector));
+        }
+
+        List<Vector> result = new ArrayList<>();
+
+        for (int i = 0; i < feedForwardOutput.size(); i++) {
+            Vector tokenFF = feedForwardOutput.get(i);
+
+            tokenFF.add(normAttention.get(i));
+            result.add(normalizer.normalize(tokenFF));
+        }
+
+        return result;
+    }
+
+    public Sequential getFeedForward() {
+        return feedForward;
+    }
+
+    public LayerNorm getNormalizer() {
+        return normalizer;
+    }
+
+    public MultiHeadAttention getMaskedAttention() {
+        return maskedAttention;
+    }
+}
@@ -10,13 +10,13 @@
 
 public class AttentionHead {
 
-    private final int inputDimension;
-    private final int headDimension;
-    private final double temperature;
+    protected final int inputDimension;
+    protected final int headDimension;
+    protected final double temperature;
 
-    private final float[][] queryWeights;
-    private final float[][] keyWeights;
-    private final float[][] valueWeights;
+    protected final float[][] queryWeights;
+    protected final float[][] keyWeights;
+    protected final float[][] valueWeights;
 
     public AttentionHead(WeightInit weightInit, int inputDimension, int headDimension, double temperature) {
         this.inputDimension = inputDimension;
@@ -40,7 +40,46 @@ public int size() {
         return total;
     }
 
-    private void initializeWeights(WeightInit weightInit) {
+    public List<Vector> attend(List<Vector> inputs) {
+        int sequenceLength = inputs.size();
+
+        List<Vector> queries = new ArrayList<>();
+        List<Vector> keys = new ArrayList<>();
+        List<Vector> values = new ArrayList<>();
+
+        for (Vector token : inputs) {
+            queries.add(multiply(token, queryWeights));
+            keys.add(multiply(token, keyWeights));
+            values.add(multiply(token, valueWeights));
+        }
+
+        List<Vector> output = new ArrayList<>();
+        double scale = Math.sqrt(headDimension);
+
+        for (int i = 0; i < sequenceLength; i++) {
+            Vector query = queries.get(i);
+            List<Double> scoreList = new ArrayList<>();
+
+            for (int j = 0; j < sequenceLength; j++) {
+                double score = query.weightedSum(keys.get(j)) / scale;
+                scoreList.add(score);
+            }
+
+            Vector attentionWeights = softmax(scoreList);
+            Vector headOutput = new Vector(headDimension);
+
+            for (int j = 0; j < sequenceLength; j++) {
+                Vector weightedValue = values.get(j).scale(attentionWeights.get(j));
+                headOutput = headOutput.add(weightedValue);
+            }
+
+            output.add(headOutput);
+        }
+
+        return output;
+    }
+
+    protected void initializeWeights(WeightInit weightInit) {
         Random rng = new Random();
         WeightInitializer initializer = weightInit.getInitializer();
 
@@ -55,7 +94,7 @@ private void initializeWeights(WeightInit weightInit) {
         }
     }
 
-    private Vector multiply(Vector vector, float[][] weights) {
+    protected Vector multiply(Vector vector, float[][] weights) {
         Vector result = new Vector(headDimension);
 
         for (int j = 0; j < headDimension; j++) {
@@ -70,7 +109,7 @@ private Vector multiply(Vector vector, float[][] weights) {
         return result;
     }
 
-    private Vector softmax(List<Double> scores) {
+    protected Vector softmax(List<Double> scores) {
         Vector result = new Vector(scores.size());
         double maxScore = Double.NEGATIVE_INFINITY;
 
@@ -95,43 +134,4 @@ private Vector softmax(List<Double> scores) {
 
         return result;
     }
-
-    public List<Vector> attend(List<Vector> inputs) {
-        int sequenceLength = inputs.size();
-
-        List<Vector> queries = new ArrayList<>();
-        List<Vector> keys = new ArrayList<>();
-        List<Vector> values = new ArrayList<>();
-
-        for (Vector token : inputs) {
-            queries.add(multiply(token, queryWeights));
-            keys.add(multiply(token, keyWeights));
-            values.add(multiply(token, valueWeights));
-        }
-
-        List<Vector> output = new ArrayList<>();
-        double scale = Math.sqrt(headDimension);
-
-        for (int i = 0; i < sequenceLength; i++) {
-            Vector query = queries.get(i);
-            List<Double> scoreList = new ArrayList<>();
-
-            for (int j = 0; j < sequenceLength; j++) {
-                double score = query.weightedSum(keys.get(j)) / scale;
-                scoreList.add(score);
-            }
-
-            Vector attentionWeights = softmax(scoreList);
-            Vector headOutput = new Vector(headDimension);
-
-            for (int j = 0; j < sequenceLength; j++) {
-                Vector weightedValue = values.get(j).scale(attentionWeights.get(j));
-                headOutput = headOutput.add(weightedValue);
-            }
-
-            output.add(headOutput);
-        }
-
-        return output;
-    }
 }
@@ -1,28 +1,25 @@
 package net.echo.brain4j.transformers.attention;
 
 import com.google.common.base.Preconditions;
-import net.echo.brain4j.activation.Activations;
-import net.echo.brain4j.layer.Layer;
 import net.echo.brain4j.model.initialization.WeightInit;
 import net.echo.brain4j.utils.Vector;
 
 import java.util.ArrayList;
 import java.util.List;
 import java.util.Random;
 
-public class MultiHeadAttention extends Layer<List<Vector>, List<Vector>> {
+public class MultiHeadAttention {
 
     private final List<AttentionHead> heads;
-    private final WeightInit weightInit;
-    private final double temperature;
-    private final int headCount;
-    private final int modelDimension;
-    private final int headDimension;
+    protected final WeightInit weightInit;
+    protected final double temperature;
+    protected final int headCount;
+    protected final int modelDimension;
+    protected final int headDimension;
 
-    private final float[][] outProjectionWeights;
+    protected final float[][] outProjectionWeights;
 
     public MultiHeadAttention(WeightInit weightInit, int headCount, int modelDimension, double temperature) {
-        super(0, Activations.LINEAR);
         this.weightInit = weightInit;
         this.headCount = headCount;
         this.modelDimension = modelDimension;
@@ -38,13 +35,36 @@ public MultiHeadAttention(WeightInit weightInit, int headCount, int modelDimensi
         initializeOutProjectionWeights();
     }
 
-    private void initializeHeads() {
-        for (int i = 0; i < headCount; i++) {
-            heads.add(new AttentionHead(weightInit, modelDimension, headDimension, temperature));
+    public List<Vector> attend(List<Vector> inputs) {
+        List<List<Vector>> headOutputs = new ArrayList<>();
+
+        for (AttentionHead head : heads) {
+            headOutputs.add(head.attend(inputs));
+        }
+
+        return concatenate(headOutputs, inputs);
+    }
+
+    public List<Vector> concatenate(List<List<Vector>> headOutputs, List<Vector> inputs) {
+        List<Vector> result = new ArrayList<>();
+
+        for (int i = 0; i < inputs.size(); i++) {
+            List<Vector> concatList = new ArrayList<>();
+
+            for (List<Vector> headOutput : headOutputs) {
+                concatList.add(headOutput.get(i));
+            }
+
+            Vector concatenated = concatenateVectors(concatList);
+            Vector projected = projectVector(concatenated);
+
+            projected.add(inputs.get(i));
+            result.add(projected);
         }
+
+        return result;
     }
 
-    @Override
     public int getTotalNeurons() {
         int total = 0;
 
@@ -57,7 +77,13 @@ public int getTotalNeurons() {
         return total;
     }
 
-    private void initializeOutProjectionWeights() {
+    protected void initializeHeads() {
+        for (int i = 0; i < headCount; i++) {
+            heads.add(new AttentionHead(weightInit, modelDimension, headDimension, temperature));
+        }
+    }
+
+    protected void initializeOutProjectionWeights() {
         Random rng = new Random();
         double bound = weightInit.getInitializer().getBound(headCount * headDimension, modelDimension);
 
@@ -69,7 +95,7 @@ private void initializeOutProjectionWeights() {
         }
     }
 
-    private Vector projectVector(Vector concatenated) {
+    protected Vector projectVector(Vector concatenated) {
         Vector result = new Vector(modelDimension);
 
         for (int j = 0; j < modelDimension; j++) {
@@ -85,7 +111,7 @@ private Vector projectVector(Vector concatenated) {
         return result;
     }
 
-    private Vector concatenateVectors(List<Vector> vectors) {
+    protected Vector concatenateVectors(List<Vector> vectors) {
         int totalSize = 0;
 
         for (Vector v : vectors) {
@@ -103,31 +129,4 @@ private Vector concatenateVectors(List<Vector> vectors) {
 
         return concatenated;
     }
-
-    public List<Vector> attend(List<Vector> inputs) {
-        List<List<Vector>> headOutputs = new ArrayList<>();
-
-        for (AttentionHead head : heads) {
-            headOutputs.add(head.attend(inputs));
-        }
-
-        int seqLen = inputs.size();
-        List<Vector> result = new ArrayList<>();
-
-        for (int i = 0; i < seqLen; i++) {
-            List<Vector> concatList = new ArrayList<>();
-
-            for (List<Vector> headOutput : headOutputs) {
-                concatList.add(headOutput.get(i));
-            }
-
-            Vector concatenated = concatenateVectors(concatList);
-            Vector projected = projectVector(concatenated);
-
-            projected.add(inputs.get(i));
-            result.add(projected);
-        }
-
-        return result;
-    }
 }
Original file line number	Diff line number	Diff line change
`@@ -16,6 +16,7 @@ dependencies {`
`16`	`16`	`implementation 'commons-io:commons-io:2.18.0'`
`17`	`17`	`implementation 'org.jocl:jocl:2.0.5'`
`18`	`18`	`testImplementation 'org.jfree:jfreechart:1.5.3'`
	`19`	`+ implementation 'org.apache.commons:commons-math3:3.6.1'`
`19`	`20`	`}`
`20`	`21`
`21`	`22`	`java {`