Turkish chars training and ocr problem #14747
Replies: 2 comments 1 reply
-
Türkçe karakterlerle OCR eğitimi sırasında yaşadığınız sorun, muhtemelen karakter seti (dictionary) ve model yapılandırması ile ilgili bir sorundan kaynaklanıyor. Aşağıda, bu sorunu çözmek için dikkat etmeniz gereken bazı önemli noktaları ve adımları bulabilirsiniz: 1. Karakter Seti (Dictionary) Doğruluğu
2. Model Yapılandırması
3. Veri Seti ve Etiketler
4. Eğitim Süreci
5. Test ve Doğrulama
6. Örnek Kod ve YapılandırmaAşağıda, Türkçe karakterlerle OCR eğitimi için örnek bir yapılandırma bulabilirsiniz: Global:
character_dict_path: ./turkish_dict.txt
use_space_char: true
max_text_length: 100
... SonuçTürkçe karakterlerle OCR eğitimi sırasında yaşadığınız sorun, büyük olasılıkla karakter seti ve model yapılandırması ile ilgili bir sorundan kaynaklanıyor. Yukarıdaki adımları takip ederek, modelinizin Türkçe karakterleri doğru şekilde tanımasını sağlayabilirsiniz. Eğer sorun devam ederse, veri setinizi ve model yapılandırmanızı daha detaylı bir şekilde incelemeniz gerekebilir. İyi çalışmalar! Response generated by 🤖 feifei-bot | deepseek-chat |
Beta Was this translation helpful? Give feedback.
-
Number of train images is not enough you need a lot more like 1000. Obviously I cannot give the exact number but i fined tune it and it works very well. You do not have set the character_type. And also you need to train detection model otherwise detection will not see the some part of turkish characters, bounding boxes would not cover it. |
Beta Was this translation helpful? Give feedback.
Uh oh!
There was an error while loading. Please reload this page.
-
I started training for turkish characters. I created turkish dictionary and I set character_dict_path. I created dataset(images, labels). I set data_dir: .\dataset\train_data ,label_file_list: .\dataset\train_data\labels.txt. I set other parameters and start training.The traning a long time. I optimized my model. I test my model but result not contain turkish char. Only english chars. Turkish characters turn into English characters, as a result. I share dictinary , config , sample training images, sample labels. What am I missing or doing wrong?
Thank you in advance for your help.
ocr code:
ocr = PaddleOCR(use_angle_cls=True, model_dir='./optimizedModel')
img_path = 'C:\Users\harun.aydin\Documents\Setups\OcrEgitimOrnekJpg\22.jpeg'
result = ocr.ocr(img_path, cls=True)
Traning log : ppocr INFO: cur metric, acc: 0.9895832817925374, norm_edit_dis: 0.9988754735434175, fps: 1005.6474255229874
ppocr INFO: best metric, acc: 0.9999999479166694, is_float16: False, norm_edit_dis: 1.0, fps: 1108.1094698371767, best_epoch: 15165
ppocr INFO: epoch: [15165/20000], global_step: 5186330, lr: 0.001000, acc: 1.000000, norm_edit_dis: 1.000000, loss: 0.017443, avg_reader_cost: 0.00259 s, avg_batch_cost: 0.08036 s, avg_samples: 32.0, ips: 398.22977 samples/s, eta: 20:02:34, max_mem_reserved: 879 MB, max_mem_allocated: 850 MB
labels labels.txt
dictinary turkish_dict.txt
config config.yml.txt
train images
Beta Was this translation helpful? Give feedback.
All reactions