Turkish chars training and ocr problem #14747

aydin-harun · 2025-02-22T22:19:32Z

aydin-harun
Feb 22, 2025

I started training for turkish characters. I created turkish dictionary and I set character_dict_path. I created dataset(images, labels). I set data_dir: .\dataset\train_data ,label_file_list: .\dataset\train_data\labels.txt. I set other parameters and start training.The traning a long time. I optimized my model. I test my model but result not contain turkish char. Only english chars. Turkish characters turn into English characters, as a result. I share dictinary , config , sample training images, sample labels. What am I missing or doing wrong?
Thank you in advance for your help.

ocr code:
ocr = PaddleOCR(use_angle_cls=True, model_dir='./optimizedModel')
img_path = 'C:\Users\harun.aydin\Documents\Setups\OcrEgitimOrnekJpg\22.jpeg'
result = ocr.ocr(img_path, cls=True)

Traning log : ppocr INFO: cur metric, acc: 0.9895832817925374, norm_edit_dis: 0.9988754735434175, fps: 1005.6474255229874
ppocr INFO: best metric, acc: 0.9999999479166694, is_float16: False, norm_edit_dis: 1.0, fps: 1108.1094698371767, best_epoch: 15165
ppocr INFO: epoch: [15165/20000], global_step: 5186330, lr: 0.001000, acc: 1.000000, norm_edit_dis: 1.000000, loss: 0.017443, avg_reader_cost: 0.00259 s, avg_batch_cost: 0.08036 s, avg_samples: 32.0, ips: 398.22977 samples/s, eta: 20:02:34, max_mem_reserved: 879 MB, max_mem_allocated: 850 MB

labels labels.txt
dictinary turkish_dict.txt
config config.yml.txt
train images

GreatV · 2025-02-22T22:20:28Z

GreatV
Feb 22, 2025
Maintainer

Türkçe karakterlerle OCR eğitimi sırasında yaşadığınız sorun, muhtemelen karakter seti (dictionary) ve model yapılandırması ile ilgili bir sorundan kaynaklanıyor. Aşağıda, bu sorunu çözmek için dikkat etmeniz gereken bazı önemli noktaları ve adımları bulabilirsiniz:

1. Karakter Seti (Dictionary) Doğruluğu

Türkçe Karakterlerin Dahil Edilmesi: turkish_dict.txt dosyanızda Türkçe karakterlerin (ç, ğ, ı, ö, ş, ü, Ç, Ğ, İ, Ö, Ş, Ü) doğru bir şekilde tanımlandığından emin olun. Bu karakterlerin eksik olması, modelin bu karakterleri tanıyamamasına neden olabilir.
Karakter Sırası: Karakter seti dosyasında karakterlerin sırası önemlidir. Karakterlerin alfabetik sıraya göre düzenlendiğinden emin olun.

2. Model Yapılandırması

character_dict_path Ayarları: config.yml dosyanızda character_dict_path parametresinin doğru bir şekilde turkish_dict.txt dosyasını işaret ettiğinden emin olun.
use_space_char Parametresi: Eğer metinlerinizde boşluk karakteri kullanılıyorsa, use_space_char: true olarak ayarlanmalıdır. Bu, modelin boşluk karakterini de tanımasını sağlar.
max_text_length Ayarları: Metinlerinizin uzunluğuna göre max_text_length parametresini ayarlayın. Bu parametre, modelin tanıyabileceği maksimum karakter sayısını belirler.

3. Veri Seti ve Etiketler

Etiketlerin Doğruluğu: labels.txt dosyanızda etiketlerin doğru bir şekilde tanımlandığından emin olun. Her bir görüntü dosyası için etiketlerin doğru ve tutarlı olduğunu kontrol edin.
Görüntü Kalitesi: Eğitim veri setinizdeki görüntülerin net ve okunabilir olduğundan emin olun. Görüntülerin bulanık veya düşük çözünürlüklü olması, modelin doğru şekilde öğrenmesini engelleyebilir.

4. Eğitim Süreci

Önceden Eğitilmiş Model Kullanımı: Eğer önceden eğitilmiş bir model kullanıyorsanız, bu modelin Türkçe karakterleri tanımak üzere eğitilmediğini unutmayın. Bu nedenle, modelin sıfırdan veya Türkçe karakterleri içeren bir veri seti üzerinde yeniden eğitilmesi gerekebilir.
Eğitim Süresi ve Optimizasyon: Eğitim sürecinin uzun sürmesi normaldir, ancak modelin doğru şekilde öğrenip öğrenmediğini kontrol etmek için ara değerlendirmeler yapın. Ayrıca, öğrenme oranı (learning rate) gibi hiperparametreleri optimize ederek modelin performansını artırabilirsiniz.

5. Test ve Doğrulama

Test Görüntüleri: Modelinizi test ederken, Türkçe karakterler içeren görüntüler kullanın. Bu, modelin Türkçe karakterleri doğru şekilde tanıyıp tanımadığını kontrol etmenizi sağlar.
Hata Analizi: Modelin hatalı tanıdığı karakterleri analiz edin ve bu hataların neden kaynaklandığını belirleyin. Bu, modelinizi daha da iyileştirmenize yardımcı olacaktır.

6. Örnek Kod ve Yapılandırma

Aşağıda, Türkçe karakterlerle OCR eğitimi için örnek bir yapılandırma bulabilirsiniz:

Global:
  character_dict_path: ./turkish_dict.txt
  use_space_char: true
  max_text_length: 100
  ...

Sonuç

Türkçe karakterlerle OCR eğitimi sırasında yaşadığınız sorun, büyük olasılıkla karakter seti ve model yapılandırması ile ilgili bir sorundan kaynaklanıyor. Yukarıdaki adımları takip ederek, modelinizin Türkçe karakterleri doğru şekilde tanımasını sağlayabilirsiniz. Eğer sorun devam ederse, veri setinizi ve model yapılandırmanızı daha detaylı bir şekilde incelemeniz gerekebilir.

İyi çalışmalar!

Response generated by 🤖 feifei-bot | deepseek-chat

⚠️ This is an AI-generated response. Please verify any critical information.

1 reply

aydin-harun Feb 22, 2025
Author

I seted character_type: en Traning config file. I set character_type: tr then acc value does not increase when I set tr.
Can I provide training without providing any language skills? Or is there another way?

turgutguvercin · 2025-03-06T11:01:35Z

turgutguvercin
Mar 6, 2025

Number of train images is not enough you need a lot more like 1000. Obviously I cannot give the exact number but i fined tune it and it works very well. You do not have set the character_type. And also you need to train detection model otherwise detection will not see the some part of turkish characters, bounding boxes would not cover it.

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Turkish chars training and ocr problem #14747

Uh oh!

{{title}}

Uh oh!

Replies: 2 comments 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

Turkish chars training and ocr problem #14747

Uh oh!

aydin-harun Feb 22, 2025

Replies: 2 comments · 1 reply

Uh oh!

GreatV Feb 22, 2025 Maintainer

1. Karakter Seti (Dictionary) Doğruluğu

2. Model Yapılandırması

3. Veri Seti ve Etiketler

4. Eğitim Süreci

5. Test ve Doğrulama

6. Örnek Kod ve Yapılandırma

Sonuç

Uh oh!

Uh oh!

aydin-harun Feb 22, 2025 Author

Uh oh!

turgutguvercin Mar 6, 2025

aydin-harun
Feb 22, 2025

Replies: 2 comments 1 reply

GreatV
Feb 22, 2025
Maintainer

aydin-harun Feb 22, 2025
Author

turgutguvercin
Mar 6, 2025