fix(server): Only pad to multiple of 8 on GPUs

OlivierDehaene · OlivierDehaene · commit 042180d88f91 · 2022-12-08T19:37:37.000+01:00
diff --git a/server/text_generation/models/causal_lm.py b/server/text_generation/models/causal_lm.py
@@ -71,8 +71,9 @@ def from_pb(
                 )
             )
 
+        pad_to_multiple_of = 8 if "gpu" in str(device) else None
         tokenized_inputs = tokenizer(
-            inputs, return_tensors="pt", padding=True, pad_to_multiple_of=8
+            inputs, return_tensors="pt", padding=True, pad_to_multiple_of=pad_to_multiple_of
         ).to(device)
         all_input_ids = tokenized_inputs["input_ids"].unsqueeze(-1)
 
diff --git a/server/text_generation/models/seq2seq_lm.py b/server/text_generation/models/seq2seq_lm.py
@@ -83,8 +83,9 @@ def from_pb(
             )
 
         # Tokenize batch
+        pad_to_multiple_of = 8 if "gpu" in str(device) else None
         tokenized_inputs = tokenizer(
-            inputs, return_tensors="pt", padding=True, pad_to_multiple_of=8
+            inputs, return_tensors="pt", padding=True, pad_to_multiple_of=pad_to_multiple_of
         ).to(device)
         # Convert decoder_input_ids to torch tensor of size [batch_size, 1]
         decoder_input_ids = torch.tensor(decoder_input_ids, device=device).unsqueeze(-1)

Original file line number	Diff line number	Diff line change
`@@ -71,8 +71,9 @@ def from_pb(`
`71`	`71`	`)`
`72`	`72`	`)`
`73`	`73`
	`74`	`+ pad_to_multiple_of = 8 if "gpu" in str(device) else None`
`74`	`75`	`tokenized_inputs = tokenizer(`
`75`		`- inputs, return_tensors="pt", padding=True, pad_to_multiple_of=8`
	`76`	`+ inputs, return_tensors="pt", padding=True, pad_to_multiple_of=pad_to_multiple_of`
`76`	`77`	`).to(device)`
`77`	`78`	`all_input_ids = tokenized_inputs["input_ids"].unsqueeze(-1)`
`78`	`79`