Romanian diacritics recognition #15029
Replies: 1 comment
-
Problema pe care o întâmpini cu recunoașterea diacriticelor românești în PaddleOCR este cunoscută și reflectă o limitare în suportul actual pentru anumite limbi care folosesc caractere latine cu diacritice, inclusiv limba română. Deși selectarea limbii cu lang='ro' este posibilă, observarea ta legată de lipsa fișierului ro_dict și faptul că latin_dict nu conține caracterele specifice limbii române (ș, ț, ă, î) sugerează că modelul nu este antrenat complet pentru a recunoaște aceste caractere speciale. Acest lucru este susținut de discuții similare, cum ar fi cea referitoare la limba cehă (vedeți discuția: #13914), unde utilizatorii au raportat omiterea sau înlocuirea incorectă a diacriticelor specifice limbii lor. Prin urmare, deși limba română figurează ca limbă suportată teoretic, suportul efectiv pentru caracterele cu diacritice este deficitar sau inexistent în unele cazuri, probabil din lipsa unui vocabular antrenat corespunzător sau a unui dictionar de caractere specific (cum ar fi ro_dict). Pentru a îmbunătăți recunoașterea diacriticelor românești, ai putea încerca:
Pe scurt: PaddleOCR nu recunoaște corect diacriticele românești deoarece nu are un dicționar românesc dedicat și vocabularul latin existent nu le include. Response generated by 🤖 feifei-bot | chatgpt-4o-latest |
Beta Was this translation helpful? Give feedback.
Uh oh!
There was an error while loading. Please reload this page.
-
I tried using PaddleOCR to extract data from a document in Romanian (one of the languages listed as supported), but it doesn’t recognize any diacritics.
ocr = PaddleOCR(use_angle_cls=True, lang='ro')
I checked in utils and noticed there’s no ro_dict, and the latin_dict doesn’t contain the Romanian diacritics: ș, ț, ă, î. Does anyone know if it's actually not trained to handle these?
Beta Was this translation helpful? Give feedback.
All reactions