Din când în când am nevoie de convertirea unor texte scanate prin OCR (optical character recognition – recunoaşterea optică a caracterelor). Abbyy Fine Reader se descurcă excepţional, şi adesea îmi este suficient şi Abbyy Screenshot Reader, astfel că atunci când nu am scanner mă descurc chiar şi fotografiind, descărcând imaginea, deschizând-o şi “citind” din screenshot. Doar că produsele Abbyy sunt excesiv de scumpe. Există o alternativă gratuită? Ei bine, am scris despre câteva online.
De anul trecut din vară Google Docs a introdus de asemenea OCR pentru documente scanate. Un anunţ de astăzi spune: OCR in 34 languages!!!, şi după cum vedeţi în captura de mai sus apare şi româna. De fapt, dacă vă amintiţi, şi înainte se descurca cu diacriticele. Poate însă acum se descurcă mai bine? Nu ştiu, neavând instrumente pentru comparaţie. Cert e că merită să încercaţi, acum aproape indiferent de limbă. Cum zilele trecute am avut nevoie de un articol dintr-o carte, l-am fotografiat. Fotografiile din aparat au fost peste 2MB. Google Docs pune însă o limită de 2MB, aşa că a trebuit să reduc dimensiunea. Şi aşa, OCR-ul din Google Docs s-a descurcat bine. În câteva secunde imaginea scanată mi-a apărut ca un document cu 1) o notiţă pe galben cu explicaţii; 2) imaginea scanată; 3) textul interpretat din imagine.
Şi pentru că din captură nu se vede clar, iată mai îndeaproape o parte din textul recunoscut. Reţineţi că este o după o fotografie, nu după o scanare! Aceasta înseamnă rezoluţie mai mică, dar şi iluminare mai proastă şi neuniformă. Şi totuşi Google s-a descurcat mulţumitor. Din păcate rămâne pe ortografia veche (recunoaşte cuvîntul, nu şi cuvântul) şi încă nu ştie mulţi termeni, de aceea atâtea sublinieri în text. Dar… e bine şi atât şi ştim că va fi tot mai bine (şi gratis).
Este fooooarte prost Google OCR.
Dispar cuvinte de 8-10 caractere dintr-un text scanat la rezolutie buna.
Nu identifica limba romana. Apar nenumarate caractere care nu exista in limba romana.