dotnet
diff --git a/‎docs/gen-ai/CausalLMPipeline.md
Lines changed: 3 additions & 3 deletions b/‎docs/gen-ai/CausalLMPipeline.md
Lines changed: 3 additions & 3 deletions
diff --git a/‎docs/gen-ai/Usage.md
Lines changed: 7 additions & 7 deletions b/‎docs/gen-ai/Usage.md
Lines changed: 7 additions & 7 deletions
diff --git a/‎docs/samples/Microsoft.ML.GenAI.Samples/Llama/SFT_Llama_3_2_1B.cs
Lines changed: 3 additions & 3 deletions b/‎docs/samples/Microsoft.ML.GenAI.Samples/Llama/SFT_Llama_3_2_1B.cs
Lines changed: 3 additions & 3 deletions
diff --git a/‎docs/samples/Microsoft.ML.GenAI.Samples/MEAI/Phi3.cs
Lines changed: 2 additions & 2 deletions b/‎docs/samples/Microsoft.ML.GenAI.Samples/MEAI/Phi3.cs
Lines changed: 2 additions & 2 deletions
diff --git a/‎docs/samples/Microsoft.ML.GenAI.Samples/Phi3Mini/AutoGenSample.cs
Lines changed: 2 additions & 2 deletions b/‎docs/samples/Microsoft.ML.GenAI.Samples/Phi3Mini/AutoGenSample.cs
Lines changed: 2 additions & 2 deletions
diff --git a/‎docs/samples/Microsoft.ML.GenAI.Samples/Phi3Mini/SemanticKernelSample.cs
Lines changed: 4 additions & 4 deletions b/‎docs/samples/Microsoft.ML.GenAI.Samples/Phi3Mini/SemanticKernelSample.cs
Lines changed: 4 additions & 4 deletions
diff --git a/‎src/Microsoft.ML.GenAI.Core/Trainer/CasualLMSupervisedFineTuningTrainer.cs renamed to ‎src/Microsoft.ML.GenAI.Core/Trainer/CausalLMSupervisedFineTuningTrainer.cs
Lines changed: 3 additions & 3 deletions b/‎src/Microsoft.ML.GenAI.Core/Trainer/CasualLMSupervisedFineTuningTrainer.cs renamed to ‎src/Microsoft.ML.GenAI.Core/Trainer/CausalLMSupervisedFineTuningTrainer.cs
Lines changed: 3 additions & 3 deletions
diff --git a/‎src/Microsoft.ML.GenAI.Core/Utility/AttentionMaskConverter.cs
Lines changed: 13 additions & 13 deletions b/‎src/Microsoft.ML.GenAI.Core/Utility/AttentionMaskConverter.cs
Lines changed: 13 additions & 13 deletions
diff --git a/‎src/Microsoft.ML.GenAI.Phi/Extension/SemanticKernelExtension.cs
Lines changed: 2 additions & 2 deletions b/‎src/Microsoft.ML.GenAI.Phi/Extension/SemanticKernelExtension.cs
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/Microsoft.ML.GenAI.Phi/Module/Phi2Model.cs
Lines changed: 6 additions & 6 deletions b/‎src/Microsoft.ML.GenAI.Phi/Module/Phi2Model.cs
Lines changed: 6 additions & 6 deletions
@@ -20,11 +20,11 @@ public abstract class CausalLMPipeline
         bool echo = false); // echo the input token ids in the output token ids
 }
 
-public CasualLMPipeline<TTokenizer, TCausalLM> : CausalLMPipeline
+public CausalLMPipeline<TTokenizer, TCausalLM> : CausalLMPipeline
     where TTokenizer : ITokenizer
     where TCausalLM : nn.Module<CausalLanguageModelInput, CausalLanguageModelOutput>
 {
-    public CausalLMPipeline<LLama2Tokenizer, Phi3ForCasualLM> Create(LLama2Tokenizer tokenizer, Phi3ForCasualLM model);
+    public CausalLMPipeline<LLama2Tokenizer, Phi3ForCausalLM> Create(LLama2Tokenizer tokenizer, Phi3ForCausalLM model);
 
 }
 ```
@@ -105,7 +105,7 @@ The extension `Generate` method provides a even-easier way to generate text with
 
 ```C#
 public static string Generate(
-    this CasualLMPipeline pipeline,
+    this CausalLMPipeline pipeline,
     string prompt,
     int maxLen = 128,
     float temperature = 0.7f,
 
@@ -7,9 +7,9 @@ This document shows how to use the causal language model API for text generation
 ```C#
 var pathToPhi3 = "path/to/phi3";
 var tokenizer = LLama2Tokenizer.FromPretrained(pathToPhi3);
-var phi3CausalModel = Phi3ForCasualLM.FromPretrained(pathToPhi3);
+var phi3CausalModel = Phi3ForCausalLM.FromPretrained(pathToPhi3);
 
-CausalLMPipeline<LLama2Tokenizer, Phi3ForCasualLM> pipeline = new CausalLMPipeline(tokenizer, phi3CausalModel);
+CausalLMPipeline<LLama2Tokenizer, Phi3ForCausalLM> pipeline = new CausalLMPipeline(tokenizer, phi3CausalModel);
 
 var prompt = "<|user|>Once upon a time<|end|><assistant>";
 var output = pipeline.Generate(
@@ -24,16 +24,16 @@ In most cases, developers would like to consume the model in a uniformed way. In
 ```C#
 var pathToPhi3 = "path/to/phi3";
 var tokenizer = LLama2Tokenizer.FromPretrained(pathToPhi3);
-var phi3CausalModel = Phi3ForCasualLM.FromPretrained(pathToPhi3);
-CausalLMPipeline<LLama2Tokenizer, Phi3ForCasualLM> pipeline = new CausalLMPipeline(tokenizer, phi3CausalModel);
+var phi3CausalModel = Phi3ForCausalLM.FromPretrained(pathToPhi3);
+CausalLMPipeline<LLama2Tokenizer, Phi3ForCausalLM> pipeline = new CausalLMPipeline(tokenizer, phi3CausalModel);
 var kernel = Kernel.CreateBuilder()
     // the type of the tokenizer and the model are explicitly specified
     // here for clarity, but the compiler can infer them
     // The typed pipeline prevent developers from passing an arbitrary CausalLMPipeline
     // The reason why we don't want to allow developers to pass an arbitrary CausalLMPipeline is because
     // - the model and the tokenizer must be compatible
     // - the chat template must be compatible with the model. e.g. In `AddPhi3AsChatCompletionService`, the chat template is fixed to "<|user|>{prompt}<|end|><assistant>"
-    .AddPhi3AsChatCompletionService<LLama2Tokenizer, Phi3ForCasualLM>(pipeline)
+    .AddPhi3AsChatCompletionService<LLama2Tokenizer, Phi3ForCausalLM>(pipeline)
     .Build();
 ```
 
@@ -42,7 +42,7 @@ Similarly, developers would also like to consume the language model like agent.
 ```C#
 var pathToPhi3 = "path/to/phi3";
 var tokenizer = LLama2Tokenizer.FromPretrained(pathToPhi3);
-var phi3CausalModel = Phi3ForCasualLM.FromPretrained(pathToPhi3);
+var phi3CausalModel = Phi3ForCausalLM.FromPretrained(pathToPhi3);
 var pipeline = new CausalLMPipeline(tokenizer, phi3CausalModel);
 var agent = new Phi3MiniAgent(pipeline, name: "assistant");
 
@@ -59,7 +59,7 @@ If the model is deployed as a service, developers can consume the model similar
 // server.cs
 var pathToPhi3 = "path/to/phi3";
 var tokenizer = LLama2Tokenizer.FromPretrained(pathToPhi3);
-var phi3CausalModel = Phi3ForCasualLM.FromPretrained(pathToPhi3);
+var phi3CausalModel = Phi3ForCausalLM.FromPretrained(pathToPhi3);
 var pipeline = new CausalLMPipeline(tokenizer, phi3CausalModel);
 var agent = new Phi3MiniAgent(pipeline, name: "assistant");
 
 
@@ -25,7 +25,7 @@ public static async Task Train(string weightFolder, string checkPointName = "mod
         using var loggerFactory = LoggerFactory.Create(builder => builder.AddConsole());
 
         // create logger
-        var logger = loggerFactory.CreateLogger<CasualLMSupervisedFineTuningTrainer>();
+        var logger = loggerFactory.CreateLogger<CausalLMSupervisedFineTuningTrainer>();
 
         var device = "cuda";
 
@@ -46,10 +46,10 @@ public static async Task Train(string weightFolder, string checkPointName = "mod
         var input = CreateDataset(dataset, pipeline.TypedTokenizer, Llama3_1ChatTemplateBuilder.Instance);
 
         // create trainer
-        var sftTrainer = new CasualLMSupervisedFineTuningTrainer(pipeline, logger: logger);
+        var sftTrainer = new CausalLMSupervisedFineTuningTrainer(pipeline, logger: logger);
 
         // Train the model
-        var option = new CasualLMSupervisedFineTuningTrainer.Option
+        var option = new CausalLMSupervisedFineTuningTrainer.Option
         {
             BatchSize = 1,
             Device = device,
 
@@ -27,8 +27,8 @@ public static async Task RunAsync(string weightFolder)
         torch.set_default_dtype(defaultType);
         var tokenizerPath = Path.Combine(weightFolder, "tokenizer.model");
         var tokenizer = Phi3TokenizerHelper.FromPretrained(tokenizerPath);
-        var model = Phi3ForCasualLM.FromPretrained(weightFolder, "config.json", layersOnTargetDevice: -1, quantizeToInt8: true);
-        var pipeline = new CausalLMPipeline<LlamaTokenizer, Phi3ForCasualLM>(tokenizer, model, device);
+        var model = Phi3ForCausalLM.FromPretrained(weightFolder, "config.json", layersOnTargetDevice: -1, quantizeToInt8: true);
+        var pipeline = new CausalLMPipeline<LlamaTokenizer, Phi3ForCausalLM>(tokenizer, model, device);
         var client = new Phi3CausalLMChatClient(pipeline);
 
         var task = """
 
@@ -29,8 +29,8 @@ public static async Task RunAsync()
         var weightFolder = @"C:\Users\xiaoyuz\source\repos\Phi-3-mini-4k-instruct";
         var tokenizerPath = Path.Combine(weightFolder, "tokenizer.model");
         var tokenizer = Phi3TokenizerHelper.FromPretrained(tokenizerPath);
-        var model = Phi3ForCasualLM.FromPretrained(weightFolder, "config.json", layersOnTargetDevice: -1, quantizeToInt8: true);
-        var pipeline = new CausalLMPipeline<LlamaTokenizer, Phi3ForCasualLM>(tokenizer, model, device);
+        var model = Phi3ForCausalLM.FromPretrained(weightFolder, "config.json", layersOnTargetDevice: -1, quantizeToInt8: true);
+        var pipeline = new CausalLMPipeline<LlamaTokenizer, Phi3ForCausalLM>(tokenizer, model, device);
         var question = @"write a C# program to calculate the factorial of a number";
 
         // agent
 
@@ -25,8 +25,8 @@ public static async Task RunChatCompletionSample()
         var weightFolder = @"C:\Users\xiaoyuz\source\repos\Phi-3-mini-4k-instruct";
         var tokenizerPath = Path.Combine(weightFolder, "tokenizer.model");
         var tokenizer = Phi3TokenizerHelper.FromPretrained(tokenizerPath);
-        var model = Phi3ForCasualLM.FromPretrained(weightFolder, "config.json", layersOnTargetDevice: -1, quantizeToInt8: true);
-        var pipeline = new CausalLMPipeline<LlamaTokenizer, Phi3ForCasualLM>(tokenizer, model, device);
+        var model = Phi3ForCausalLM.FromPretrained(weightFolder, "config.json", layersOnTargetDevice: -1, quantizeToInt8: true);
+        var pipeline = new CausalLMPipeline<LlamaTokenizer, Phi3ForCausalLM>(tokenizer, model, device);
 
         var kernel = Kernel.CreateBuilder()
             .AddGenAIChatCompletion(pipeline)
@@ -56,8 +56,8 @@ public static async Task RunTextGenerationSample()
         var weightFolder = @"C:\Users\xiaoyuz\source\repos\Phi-3-mini-4k-instruct";
         var tokenizerPath = Path.Combine(weightFolder, "tokenizer.model");
         var tokenizer = Phi3TokenizerHelper.FromPretrained(tokenizerPath);
-        var model = Phi3ForCasualLM.FromPretrained(weightFolder, "config.json", layersOnTargetDevice: -1, quantizeToInt8: true);
-        var pipeline = new CausalLMPipeline<LlamaTokenizer, Phi3ForCasualLM>(tokenizer, model, device);
+        var model = Phi3ForCausalLM.FromPretrained(weightFolder, "config.json", layersOnTargetDevice: -1, quantizeToInt8: true);
+        var pipeline = new CausalLMPipeline<LlamaTokenizer, Phi3ForCausalLM>(tokenizer, model, device);
 
         var kernel = Kernel.CreateBuilder()
             .AddGenAITextGeneration(pipeline)
 
@@ -13,12 +13,12 @@
 
 namespace Microsoft.ML.GenAI.Core.Trainer;
 
-public class CasualLMSupervisedFineTuningTrainer
+public class CausalLMSupervisedFineTuningTrainer
 {
-    private readonly ILogger<CasualLMSupervisedFineTuningTrainer>? _logger;
+    private readonly ILogger<CausalLMSupervisedFineTuningTrainer>? _logger;
     private readonly ICausalLMPipeline _pipeline;
 
-    public CasualLMSupervisedFineTuningTrainer(ICausalLMPipeline pipeline, ILogger<CasualLMSupervisedFineTuningTrainer>? logger = null)
+    public CausalLMSupervisedFineTuningTrainer(ICausalLMPipeline pipeline, ILogger<CausalLMSupervisedFineTuningTrainer>? logger = null)
     {
         _logger = logger;
         _pipeline = pipeline;
 
@@ -13,12 +13,12 @@ namespace Microsoft.ML.GenAI.Core;
 
 public class AttentionMaskConverter
 {
-    private readonly bool _isCasual;
+    private readonly bool _isCausal;
     private readonly int? _slidingWindow;
 
     public AttentionMaskConverter(bool isCausal, int? slidingWindow)
     {
-        this._isCasual = isCausal;
+        this._isCausal = isCausal;
         this._slidingWindow = slidingWindow;
     }
 
@@ -42,42 +42,42 @@ public Tensor To4D(
 
         // create causal mask
         // [bsz, seq_len] -> [bsz, 1, tgt_seq_len, src_seq_len]
-        Tensor? casual4dMask = null;
-        if ((inputShape[^1] > 1 || this._slidingWindow is not null) && this._isCasual)
+        Tensor? causal4dMask = null;
+        if ((inputShape[^1] > 1 || this._slidingWindow is not null) && this._isCausal)
         {
             if (keyValueLength is null)
             {
                 throw new ArgumentException("key_value_length should be provided when attention_mask is causal");
             }
 
             var pastKeyValuesLength = keyValueLength.Value - queryLength;
-            casual4dMask = MakeCasualMask(inputShape, dType, attentionMask2d.device, pastKeyValuesLength, this._slidingWindow);
+            causal4dMask = MakeCausalMask(inputShape, dType, attentionMask2d.device, pastKeyValuesLength, this._slidingWindow);
         }
         else if (this._slidingWindow is not null)
         {
             throw new NotImplementedException("Sliding window is not supported for non-causal masks");
         }
 
         var expandedAttnMask = ExpandMask(attentionMask2d, dType, queryLength).to(attentionMask2d.device);
-        if (casual4dMask is not null)
+        if (causal4dMask is not null)
         {
             var min = torch.finfo(dType).min;
-            expandedAttnMask = casual4dMask.masked_fill(expandedAttnMask.to(ScalarType.Bool), min);
+            expandedAttnMask = causal4dMask.masked_fill(expandedAttnMask.to(ScalarType.Bool), min);
         }
 
         return expandedAttnMask;
     }
 
-    public Tensor? ToCasual4D(
+    public Tensor? ToCausal4D(
         int batchSize,
         int queryLength,
         int keyValueLength,
         ScalarType dType,
         Device device)
     {
-        if (!_isCasual)
+        if (!_isCausal)
         {
-            throw new ArgumentException("This is not a casual mask");
+            throw new ArgumentException("This is not a causal mask");
         }
 
         long[] inputShape = [batchSize, queryLength];
@@ -88,13 +88,13 @@ public Tensor To4D(
         Tensor? causal4DMask = null;
         if (queryLength > 1 || this._slidingWindow is int)
         {
-            causal4DMask = MakeCasualMask(inputShape, dType, device, pastKeyValueLength, this._slidingWindow);
+            causal4DMask = MakeCausalMask(inputShape, dType, device, pastKeyValueLength, this._slidingWindow);
         }
 
         return causal4DMask;
     }
 
-    public static Tensor MakeCasualMask(
+    public static Tensor MakeCausalMask(
         long[] inputIdsShape,
         ScalarType dType,
         Device device,
@@ -158,7 +158,7 @@ public static Tensor MakeCasualMask(
             return converter.To4D(attentionMask, (int)inputShape[1], dType, keyValueLength);
         }
 
-        return converter.ToCasual4D(batchSize, queryLength, keyValueLength, dType, device);
+        return converter.ToCausal4D(batchSize, queryLength, keyValueLength, dType, device);
     }
 
     public static Tensor ExpandMask(
 
@@ -15,7 +15,7 @@ public static class SemanticKernelExtension
 {
     public static IKernelBuilder AddGenAIChatCompletion(
         this IKernelBuilder builder,
-        ICausalLMPipeline<Tokenizer, Phi3ForCasualLM> pipeline)
+        ICausalLMPipeline<Tokenizer, Phi3ForCausalLM> pipeline)
     {
         builder.Services.AddSingleton<IChatCompletionService>(new Phi3CausalLMChatCompletionService(pipeline));
 
@@ -24,7 +24,7 @@ public static IKernelBuilder AddGenAIChatCompletion(
 
     public static IKernelBuilder AddGenAITextGeneration(
         this IKernelBuilder builder,
-        ICausalLMPipeline<Tokenizer, Phi3ForCasualLM> pipeline)
+        ICausalLMPipeline<Tokenizer, Phi3ForCausalLM> pipeline)
     {
         builder.Services.AddSingleton<ITextGenerationService>(new Phi3CausalLMTextGenerationService(pipeline));
 
 
@@ -80,7 +80,7 @@ public override (Tensor, Tensor?, Tensor?) forward(
         // use 4d attention mask
         if (attentionMask is not null)
         {
-            attentionMask = this.Prepare4DCasualAttentionMask(attentionMask, seqLen, pastKeyValueLength, inputEmbeddings.dtype);
+            attentionMask = this.Prepare4DCausalAttentionMask(attentionMask, seqLen, pastKeyValueLength, inputEmbeddings.dtype);
         }
 
         var hiddenStates = inputEmbeddings;
@@ -100,7 +100,7 @@ public override (Tensor, Tensor?, Tensor?) forward(
         return (hiddenStates, null, null);
     }
 
-    private Tensor Prepare4DCasualAttentionMask(
+    private Tensor Prepare4DCausalAttentionMask(
         Tensor attentionMask,
         int queryLength,
         int pastKeyValueLength,
@@ -110,11 +110,11 @@ private Tensor Prepare4DCasualAttentionMask(
         var seqLen = attentionMask.shape[1];
         Contract.Assert(seqLen == queryLength, "seqLen must be equal to queryLength");
         var targetLength = queryLength + pastKeyValueLength;
-        var casual4DMask = this.MakeCasualAttentionMask(batchSize, queryLength, pastKeyValueLength, attentionMask.device, dtype);
+        var causal4DMask = this.MakeCausalAttentionMask(batchSize, queryLength, pastKeyValueLength, attentionMask.device, dtype);
         var expandedMask = this.ExpandMask(attentionMask, dtype, queryLength).to(attentionMask.device);
 
-        casual4DMask.masked_fill_(expandedMask.to_type(ScalarType.Bool), torch.finfo(dtype).min);
-        return casual4DMask;
+        causal4DMask.masked_fill_(expandedMask.to_type(ScalarType.Bool), torch.finfo(dtype).min);
+        return causal4DMask;
     }
 
     private Tensor ExpandMask(
@@ -132,7 +132,7 @@ private Tensor ExpandMask(
 
         return invertedMask.masked_fill(invertedMask.to_type(ScalarType.Bool), torch.finfo(dtype).min);
     }
-    private Tensor MakeCasualAttentionMask(
+    private Tensor MakeCausalAttentionMask(
         int batchSize,
         int targetLen,
         int pastKeyValueLength,
Original file line number	Diff line number	Diff line change
`@@ -20,11 +20,11 @@ public abstract class CausalLMPipeline`
`20`	`20`	`bool echo = false); // echo the input token ids in the output token ids`
`21`	`21`	`}`
`22`	`22`
`23`		`-public CasualLMPipeline<TTokenizer, TCausalLM> : CausalLMPipeline`
	`23`	`+public CausalLMPipeline<TTokenizer, TCausalLM> : CausalLMPipeline`
`24`	`24`	`where TTokenizer : ITokenizer`
`25`	`25`	`where TCausalLM : nn.Module<CausalLanguageModelInput, CausalLanguageModelOutput>`
`26`	`26`	`{`
`27`		`- public CausalLMPipeline<LLama2Tokenizer, Phi3ForCasualLM> Create(LLama2Tokenizer tokenizer, Phi3ForCasualLM model);`
	`27`	`+ public CausalLMPipeline<LLama2Tokenizer, Phi3ForCausalLM> Create(LLama2Tokenizer tokenizer, Phi3ForCausalLM model);`
`28`	`28`
`29`	`29`	`}`
`30`	`30`	```
@@ -105,7 +105,7 @@ The extension `Generate` method provides a even-easier way to generate text with
`105`	`105`
`106`	`106`	```C#
`107`	`107`	`public static string Generate(`
`108`		`- this CasualLMPipeline pipeline,`
	`108`	`+ this CausalLMPipeline pipeline,`
`109`	`109`	`string prompt,`
`110`	`110`	`int maxLen = 128,`
`111`	`111`	`float temperature = 0.7f,`
Original file line number	Diff line number	Diff line change
`@@ -13,12 +13,12 @@`
`13`	`13`
`14`	`14`	`namespace Microsoft.ML.GenAI.Core.Trainer;`
`15`	`15`
`16`		`-public class CasualLMSupervisedFineTuningTrainer`
	`16`	`+public class CausalLMSupervisedFineTuningTrainer`
`17`	`17`	`{`
`18`		`- private readonly ILogger<CasualLMSupervisedFineTuningTrainer>? _logger;`
	`18`	`+ private readonly ILogger<CausalLMSupervisedFineTuningTrainer>? _logger;`
`19`	`19`	`private readonly ICausalLMPipeline _pipeline;`
`20`	`20`
`21`		`- public CasualLMSupervisedFineTuningTrainer(ICausalLMPipeline pipeline, ILogger<CasualLMSupervisedFineTuningTrainer>? logger = null)`
	`21`	`+ public CausalLMSupervisedFineTuningTrainer(ICausalLMPipeline pipeline, ILogger<CausalLMSupervisedFineTuningTrainer>? logger = null)`
`22`	`22`	`{`
`23`	`23`	`_logger = logger;`
`24`	`24`	`_pipeline = pipeline;`
Original file line number	Diff line number	Diff line change
`@@ -13,12 +13,12 @@ namespace Microsoft.ML.GenAI.Core;`
`13`	`13`
`14`	`14`	`public class AttentionMaskConverter`
`15`	`15`	`{`
`16`		`- private readonly bool _isCasual;`
	`16`	`+ private readonly bool _isCausal;`
`17`	`17`	`private readonly int? _slidingWindow;`
`18`	`18`
`19`	`19`	`public AttentionMaskConverter(bool isCausal, int? slidingWindow)`
`20`	`20`	`{`
`21`		`- this._isCasual = isCausal;`
	`21`	`+ this._isCausal = isCausal;`
`22`	`22`	`this._slidingWindow = slidingWindow;`
`23`	`23`	`}`
`24`	`24`
`@@ -42,42 +42,42 @@ public Tensor To4D(`
`42`	`42`
`43`	`43`	`// create causal mask`
`44`	`44`	`// [bsz, seq_len] -> [bsz, 1, tgt_seq_len, src_seq_len]`
`45`		`- Tensor? casual4dMask = null;`
`46`		`- if ((inputShape[^1] > 1 \|\| this._slidingWindow is not null) && this._isCasual)`
	`45`	`+ Tensor? causal4dMask = null;`
	`46`	`+ if ((inputShape[^1] > 1 \|\| this._slidingWindow is not null) && this._isCausal)`
`47`	`47`	`{`
`48`	`48`	`if (keyValueLength is null)`
`49`	`49`	`{`
`50`	`50`	`throw new ArgumentException("key_value_length should be provided when attention_mask is causal");`
`51`	`51`	`}`
`52`	`52`
`53`	`53`	`var pastKeyValuesLength = keyValueLength.Value - queryLength;`
`54`		`- casual4dMask = MakeCasualMask(inputShape, dType, attentionMask2d.device, pastKeyValuesLength, this._slidingWindow);`
	`54`	`+ causal4dMask = MakeCausalMask(inputShape, dType, attentionMask2d.device, pastKeyValuesLength, this._slidingWindow);`
`55`	`55`	`}`
`56`	`56`	`else if (this._slidingWindow is not null)`
`57`	`57`	`{`
`58`	`58`	`throw new NotImplementedException("Sliding window is not supported for non-causal masks");`
`59`	`59`	`}`
`60`	`60`
`61`	`61`	`var expandedAttnMask = ExpandMask(attentionMask2d, dType, queryLength).to(attentionMask2d.device);`
`62`		`- if (casual4dMask is not null)`
	`62`	`+ if (causal4dMask is not null)`
`63`	`63`	`{`
`64`	`64`	`var min = torch.finfo(dType).min;`
`65`		`- expandedAttnMask = casual4dMask.masked_fill(expandedAttnMask.to(ScalarType.Bool), min);`
	`65`	`+ expandedAttnMask = causal4dMask.masked_fill(expandedAttnMask.to(ScalarType.Bool), min);`
`66`	`66`	`}`
`67`	`67`
`68`	`68`	`return expandedAttnMask;`
`69`	`69`	`}`
`70`	`70`
`71`		`- public Tensor? ToCasual4D(`
	`71`	`+ public Tensor? ToCausal4D(`
`72`	`72`	`int batchSize,`
`73`	`73`	`int queryLength,`
`74`	`74`	`int keyValueLength,`
`75`	`75`	`ScalarType dType,`
`76`	`76`	`Device device)`
`77`	`77`	`{`
`78`		`- if (!_isCasual)`
	`78`	`+ if (!_isCausal)`
`79`	`79`	`{`
`80`		`- throw new ArgumentException("This is not a casual mask");`
	`80`	`+ throw new ArgumentException("This is not a causal mask");`
`81`	`81`	`}`
`82`	`82`
`83`	`83`	`long[] inputShape = [batchSize, queryLength];`
`@@ -88,13 +88,13 @@ public Tensor To4D(`
`88`	`88`	`Tensor? causal4DMask = null;`
`89`	`89`	`if (queryLength > 1 \|\| this._slidingWindow is int)`
`90`	`90`	`{`
`91`		`- causal4DMask = MakeCasualMask(inputShape, dType, device, pastKeyValueLength, this._slidingWindow);`
	`91`	`+ causal4DMask = MakeCausalMask(inputShape, dType, device, pastKeyValueLength, this._slidingWindow);`
`92`	`92`	`}`
`93`	`93`
`94`	`94`	`return causal4DMask;`
`95`	`95`	`}`
`96`	`96`
`97`		`- public static Tensor MakeCasualMask(`
	`97`	`+ public static Tensor MakeCausalMask(`
`98`	`98`	`long[] inputIdsShape,`
`99`	`99`	`ScalarType dType,`
`100`	`100`	`Device device,`
`@@ -158,7 +158,7 @@ public static Tensor MakeCasualMask(`
`158`	`158`	`return converter.To4D(attentionMask, (int)inputShape[1], dType, keyValueLength);`
`159`	`159`	`}`
`160`	`160`
`161`		`- return converter.ToCasual4D(batchSize, queryLength, keyValueLength, dType, device);`
	`161`	`+ return converter.ToCausal4D(batchSize, queryLength, keyValueLength, dType, device);`
`162`	`162`	`}`
`163`	`163`
`164`	`164`	`public static Tensor ExpandMask(`
Original file line number	Diff line number	Diff line change
`@@ -15,7 +15,7 @@ public static class SemanticKernelExtension`
`15`	`15`	`{`
`16`	`16`	`public static IKernelBuilder AddGenAIChatCompletion(`
`17`	`17`	`this IKernelBuilder builder,`
`18`		`- ICausalLMPipeline<Tokenizer, Phi3ForCasualLM> pipeline)`
	`18`	`+ ICausalLMPipeline<Tokenizer, Phi3ForCausalLM> pipeline)`
`19`	`19`	`{`
`20`	`20`	`builder.Services.AddSingleton<IChatCompletionService>(new Phi3CausalLMChatCompletionService(pipeline));`
`21`	`21`
`@@ -24,7 +24,7 @@ public static IKernelBuilder AddGenAIChatCompletion(`
`24`	`24`
`25`	`25`	`public static IKernelBuilder AddGenAITextGeneration(`
`26`	`26`	`this IKernelBuilder builder,`
`27`		`- ICausalLMPipeline<Tokenizer, Phi3ForCasualLM> pipeline)`
	`27`	`+ ICausalLMPipeline<Tokenizer, Phi3ForCausalLM> pipeline)`
`28`	`28`	`{`
`29`	`29`	`builder.Services.AddSingleton<ITextGenerationService>(new Phi3CausalLMTextGenerationService(pipeline));`
`30`	`30`