Patch tokenizers 0.13.3 to build with newer rust

msimacek · msimacek · commit 44f99798e0c7 · 2024-05-06T11:54:55.000+02:00
diff --git a/graalpython/lib-graalpython/patches/tokenizers/tokenizers-0.13.3.patch b/graalpython/lib-graalpython/patches/tokenizers/tokenizers-0.13.3.patch
@@ -22,3 +22,29 @@ index 6282c31..47e6b12 100644
  
  [features]
  default = ["pyo3/extension-module"]
+diff --git a/tokenizers-lib/src/models/bpe/trainer.rs b/tokenizers-lib/src/models/bpe/trainer.rs
+index 43ab848..55f95f8 100644
+--- a/tokenizers-lib/src/models/bpe/trainer.rs
++++ b/tokenizers-lib/src/models/bpe/trainer.rs
+@@ -518,15 +518,16 @@ impl BpeTrainer {
+             let changes = top
+                 .pos
+                 .maybe_par_iter()
+-                .flat_map(|i| {
+-                    let w = &words[*i] as *const _ as *mut _;
++                .flat_map(|&i| {
++                    let word = &words[i] as *const _ as *mut Word;
+                     // We can merge each of these words in parallel here because each position
+                     // can be there only once (HashSet). So this is safe.
+                     unsafe {
+-                        let word: &mut Word = &mut (*w);
+-                        word.merge(top.pair.0, top.pair.1, new_token_id)
++                        // let word: &mut Word = &mut (*word);
++                        (*word)
++                            .merge(top.pair.0, top.pair.1, new_token_id)
+                             .into_iter()
+-                            .map(|c| (c, *i))
++                            .map(|c| (c, i))
+                             .collect::<Vec<_>>()
+                     }
+                 })