ocrtext-recognition

How to recognize text from image on easyocr without '' symbols for each row


I am trying to recognize text from image, but for each row easyocr prints '' and , symbols. For example there are lines of text in the picture. When easyocr recognize this picture print for each rows 'example example','example example'... it goes on like this.

I want to recognize the text without these symbols.

Here is the code:

reader = easyocr.Reader(['tr'])
result = reader.readtext(IMAGE_PATH, detail=0, blocklist="-.:';,",
slope_ths=2.5,ycenter_ths=0.2)

print(result)

And the result

['4 ', 'Osmanlı Devleti nde Orhan Bey döneminde', 'Şehirlere kadılar atanmış ', 'Ỉznik te medrese açılmış ', 'Bursa başkent yapılmıştır', 'Buna göre', 'adlip', 'idari', ']', 'askeris', 'IV', 'eğitim', 'yönelik düzenlemeler yapıldı ', 'alanlarından hangilerine', 'savunulabilir?', 'ğı', 'C) Ill ve IV', 'B) Il ve Ill', 'II', 'A) / ve', 'E) IIp Ill ve IV', 've IV', 'D) / Il']

Can i recognize this like below?

['4 Osmanlı Devleti nde Orhan Bey döneminde Şehirlere kadılar atanmış Ỉznik te medrese açılmış Bursa başkent yapılmıştır Buna göre adlip idari askeris IV eğitim yönelik düzenlemeler yapıldı alanlarından hangilerine savunulabilir? ğı C) Ill ve IV B) Il ve Ill II A) / ve E) IIp Ill ve IV ve IV D) / Il']

The image;

image that i recognize it


Solution

  • According to their official Guide (https://www.jaided.ai/easyocr/tutorial/), If you provide hyperparameter paragraph = True, EasyOCR will try to combine raw result into easy-to-read paragraph.

    Here's the result -

    result = reader.readtext('https://www.somewebsite.com/chinese_tra.jpg',detail = 0) # without paragraph hyperparameter.
    

    result -

    ['高鐵左營站', 'HSR', 'Station', '汽車臨停接送區', 'Kiss', 'Car', 'and', 'Ride']

    With paragraph hyperparameter -

    result = reader.readtext('https://www.somewebsite.com/chinese_tra.jpg',detail = 0, paragraph = True) 
    

    result -

    ['高鐵左營站 HSR Station 汽車臨停接送區 Car Kiss and Ride']