Paddle in french language doesn't detect œ character #14622

GaLzZy · 2025-02-05T14:55:06Z

GaLzZy
Feb 5, 2025

So my images are simple one lined text in french and also numbers. So far it is really good and doesn't make a lot of errors, but whenever there are any œ either lowercase or uppercase, it doesn't detect them even though the character is in the dict used...

So for example when it should detect œil, it detects eil which is wrong.

What can I do about that, I have no experience in OCR and also with Paddle.

Thanks =)

GreatV · 2025-02-05T14:57:22Z

GreatV
Feb 5, 2025
Maintainer

Il semble que le modèle PaddleOCR que vous utilisez ne reconnaît pas correctement le caractère œ, bien qu'il soit présent dans le dictionnaire. Voici quelques solutions possibles pour résoudre ce problème :

1. Vérifier l'utilisation du bon modèle linguistique

Assurez-vous d'utiliser le modèle français correctement en précisant --lang=fr lors de l'exécution de PaddleOCR.

Exemple :

paddleocr --image_dir votre_image.jpg --lang=fr

Ou en Python :

from paddleocr import PaddleOCR

ocr = PaddleOCR(lang="fr")
result = ocr.ocr("votre_image.jpg")
print(result)

2. Vérifier le dictionnaire utilisé

Le modèle français utilise un dictionnaire spécifique qui peut être trouvé ici :
rec_french_lite_train.yml.
Vérifiez si le caractère œ est bien inclus dans le dictionnaire utilisé pour l'inférence.

3. Personnaliser l'entraînement du modèle

Si le modèle ne reconnaît toujours pas œ, vous pouvez entraîner un modèle personnalisé en ajoutant des exemples spécifiques contenant œ et Œ à votre dataset d'entraînement.
Référez-vous à la documentation pour l'entraînement personnalisé :
Documentation sur l'entraînement.

4. Post-traitement des résultats

Si le modèle reconnaît œil comme eil, vous pouvez appliquer un correctif en post-traitement en utilisant un dictionnaire de mots français pour détecter et corriger les erreurs.

Exemple en Python :

corrections = {"eil": "œil"}  # Ajouter d'autres mots si nécessaire
for line in result:
    recognised_text = line[1][0]
    if recognised_text in corrections:
        recognised_text = corrections[recognised_text]
    print(recognised_text)

5. Tester avec une autre version du modèle

PaddleOCR a récemment mis à jour ses modèles (PP-OCRv3). Essayez d'utiliser la dernière version pour voir si le problème est corrigé.

pip install --upgrade paddleocr

Si le problème persiste, il peut être utile de signaler l'anomalie sur le dépôt officiel de PaddleOCR en fournissant des exemples d'images problématiques.

J'espère que cela vous aidera ! 😊

Response generated by feifei-bot | chatgpt-4o-latest

1 reply

GaLzZy Feb 6, 2025
Author

My PaddleOCR is already setup to work with french:
ocr = PaddleOCR(lang='fr')

Though what I noticed is that it is not using the french_dict but the latin_dict as seen here:
[2025/02/06 11:30:40] ppocr DEBUG: Namespace(help='==SUPPRESS==', use_gpu=False, use_xpu=False, use_npu=False, use_mlu=False, ir_optim=True, use_tensorrt=False, min_subgraph_size=15, precision='fp32', gpu_mem=500, gpu_id=0, image_dir=None, page_num=0, det_algorithm='DB', det_model_dir='C:\\Users\\blabla/.paddleocr/whl\\det\\en\\en_PP-OCRv3_det_infer', det_limit_side_len=960, det_limit_type='max', det_box_type='quad', det_db_thresh=0.3, det_db_box_thresh=0.6, det_db_unclip_ratio=1.5, max_batch_size=10, use_dilation=False, det_db_score_mode='fast', det_east_score_thresh=0.8, det_east_cover_thresh=0.1, det_east_nms_thresh=0.2, det_sast_score_thresh=0.5, det_sast_nms_thresh=0.2, det_pse_thresh=0, det_pse_box_thresh=0.85, det_pse_min_area=16, det_pse_scale=1, scales=[8, 16, 32], alpha=1.0, beta=1.0, fourier_degree=5, rec_algorithm='SVTR_LCNet', rec_model_dir='C:\\Users\\blabla/.paddleocr/whl\\rec\\latin\\latin_PP-OCRv3_rec_infer', rec_image_inverse=True, rec_image_shape='3, 48, 320', rec_batch_num=6, max_text_length=25, rec_char_dict_path='C:\\blabla\\Bots\\some_project\\venv\\Lib\\site-packages\\paddleocr\\ppocr\\utils\\dict\\latin_dict.txt', use_space_char=True, vis_font_path='./doc/fonts/simfang.ttf', drop_score=0.5, e2e_algorithm='PGNet', e2e_model_dir=None, e2e_limit_side_len=768, e2e_limit_type='max', e2e_pgnet_score_thresh=0.5, e2e_char_dict_path='./ppocr/utils/ic15_dict.txt', e2e_pgnet_valid_set='totaltext', e2e_pgnet_mode='fast', use_angle_cls=False, cls_model_dir='C:\\Users\\blabla/.paddleocr/whl\\cls\\ch_ppocr_mobile_v2.0_cls_infer', cls_image_shape='3, 48, 192', label_list=['0', '180'], cls_batch_num=6, cls_thresh=0.9, enable_mkldnn=False, cpu_threads=10, use_pdserving=False, warmup=False, sr_model_dir=None, sr_image_shape='3, 32, 128', sr_batch_num=1, draw_img_save_dir='./inference_results', save_crop_res=False, crop_res_save_dir='./output', use_mp=False, total_process_num=1, process_id=0, benchmark=False, save_log_path='./log_output/', show_log=True, use_onnx=False, return_word_box=False, output='./output', table_max_len=488, table_algorithm='TableAttn', table_model_dir=None, merge_no_span_structure=True, table_char_dict_path=None, formula_algorithm='LaTeXOCR', formula_model_dir=None, formula_char_dict_path=None, formula_batch_num=1, layout_model_dir=None, layout_dict_path=None, layout_score_threshold=0.5, layout_nms_threshold=0.5, kie_algorithm='LayoutXLM', ser_model_dir=None, re_model_dir=None, use_visual_backbone=True, ser_dict_path='../train_data/XFUND/class_list_xfun.txt', ocr_order_method=None, mode='structure', image_orientation=False, layout=True, table=True, formula=False, ocr=True, recovery=False, recovery_to_markdown=False, use_pdf2docx_api=False, invert=False, binarize=False, alphacolor=(255, 255, 255), lang='fr', det=True, rec=True, type='ocr', savefile=False, ocr_version='PP-OCRv4', structure_version='PP-StructureV2')

I feel like we can also see that it is using an english model isn't it? What do you think? :O

Thanks =)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Paddle in french language doesn't detect œ character #14622

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

Paddle in french language doesn't detect œ character #14622

Uh oh!

GaLzZy Feb 5, 2025

Replies: 1 comment · 1 reply

Uh oh!

GreatV Feb 5, 2025 Maintainer

1. Vérifier l'utilisation du bon modèle linguistique

2. Vérifier le dictionnaire utilisé

3. Personnaliser l'entraînement du modèle

4. Post-traitement des résultats

5. Tester avec une autre version du modèle

Uh oh!

GaLzZy Feb 6, 2025 Author

GaLzZy
Feb 5, 2025

Replies: 1 comment 1 reply

GreatV
Feb 5, 2025
Maintainer

GaLzZy Feb 6, 2025
Author