OCR pentru română de la Google


Din când în când am nevoie de convertirea unor texte scanate prin OCR (optical character recognitionrecunoaşterea optică a caracterelor). Abbyy Fine Reader se descurcă excepţional, şi adesea îmi este suficient şi Abbyy Screenshot Reader, astfel că atunci când nu am scanner mă descurc chiar şi fotografiind, descărcând imaginea, deschizând-o şi “citind” din screenshot. Doar că produsele Abbyy sunt excesiv de scumpe. Există o alternativă gratuită? Ei bine, am scris despre câteva online.

imagine

De anul trecut din vară Google Docs a introdus de asemenea OCR pentru documente scanate. Un anunţ de astăzi spune: OCR in 34 languages!!!, şi după cum vedeţi în captura de mai sus apare şi româna. De fapt, dacă vă amintiţi, şi înainte se descurca cu diacriticele. Poate însă acum se descurcă mai bine? Nu ştiu, neavând instrumente pentru comparaţie. Cert e că merită să încercaţi, acum aproape indiferent de limbă. Cum zilele trecute am avut nevoie de un articol dintr-o carte, l-am fotografiat. Fotografiile din aparat au fost peste 2MB. Google Docs pune însă o limită de 2MB, aşa că a trebuit să reduc dimensiunea. Şi aşa, OCR-ul din Google Docs s-a descurcat bine. În câteva secunde imaginea scanată mi-a apărut ca un document cu 1) o notiţă pe galben cu explicaţii; 2) imaginea scanată; 3) textul interpretat din imagine.

imagine

Şi pentru că din captură nu se vede clar, iată mai îndeaproape o parte din textul recunoscut. Reţineţi că este o după o fotografie, nu după o scanare! Aceasta înseamnă rezoluţie mai mică, dar şi iluminare mai proastă şi neuniformă. Şi totuşi Google s-a descurcat mulţumitor. Din păcate rămâne pe ortografia veche (recunoaşte cuvîntul, nu şi cuvântul) şi încă nu ştie mulţi termeni, de aceea atâtea sublinieri în text. Dar… e bine şi atât şi ştim că va fi tot mai bine (şi gratis).

imagine


Apreciază articolul:

1 stea2 stea3 stea4 stea5 stea (10 evaluări, media: 5,00 din 5)
Loading...Loading...

1 comentariu

  1. rares spune:

    Este fooooarte prost Google OCR.
    Dispar cuvinte de 8-10 caractere dintr-un text scanat la rezolutie buna.
    Nu identifica limba romana. Apar nenumarate caractere care nu exista in limba romana.


Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile necesare sunt marcate *