-Mã nguồn trích xuất thông tin transaction từ file scaned pdf, ở đây tôi lựa chọn tài liệu sao kê pdf của Thuy Tien. Mã nguồn có thể ứng dụng để giải quyết bài toán liên quan đến trích xuất thông tin văn bản từ hình ảnh (OCR - _Optical Character Recognition_) có cấu trúc nội dung xác định và với độ dài các dòng thông tin (row) bất kì như thông tin giao dịch, hóa đơn mua hàng,... Mã nguồn lựa chọn **Cloud Vision API** đại diện cho OCR model để có được độ chính xác cao, hoặc bạn có thể sử dụng model có sẵn như [Vietocr](https://github.com/pbcquoc/vietocr) hoặc có thể tự build custom OCR tiếng Việt từ [**clovaai**](https://github.com/clovaai): [text-detection](https://github.com/clovaai/CRAFT-pytorch) và [text-recognization](https://github.com/clovaai/deep-text-recognition-benchmark)) mà tôi cho là khá tốt.
0 commit comments