Google Docs face OCR


Îmi amintesc că acum vreun an, sau mai mult, cineva recomanda cum să transformi un PDF (cu textul scanat) în text editabil. Paşii erau: publici PDF-ul pe web, aştepţi Google să îl indexeze, să creeze versiunea text, apoi cauţi documentul tău PDF online şi iei textul. Huh… putea dura zile şi procesul era oricum, recunoaşteţi, prea ciudat ca să fie utilizabil. Iată că situaţia s-a simplificat mult, după cum aflăm de la Ionuţ. M-am grăbit să testez şi eu, dar nu pe un text scanat (care ar fi fost mai relevant), ci pe un PDF creat de mine din MS Word. Am luat la repezeală un text de pe web, o pagină dintr-o scriere a lui Creangă. Evident, poate fi orice PDF, chiar cartea scanată ce vă dă bătăi de cap că nu o puteţi converti în text editabil.

imagine

Pasul următor, după ce aveţi PDF-ul, este să îl încărcaţi în Google Docs. Observaţi că a apărut o nouă opţiune: Convertiţi textele din fişiere PDF sau fişiere imagine în documente Google Docs.

imagine

Aşteptaţi să se încarce şi apoi vedeţi documentul. În el va fi o notă de la Google şi PDF-ul ca imagine. Le puteţi şterge. După ele apare textul interpretat! Destul de bine interpretat! Adică chiar spre perfecţiune, dacă sursa e foarte bună. După cum vedeţi mai jos, rândurile sunt rupte (mare păcat, dar cam aşa se întâmplă cu toate OCR-urile), dar diacriticele au fost recunoscute fără probleme! Acum desigur, dacă porniţi de la o imagine scanată după o carte veche, cu probleme de contrast, cu litere semişterse sau fonturi ciudate, calitatea redării textului va scădea.

imagine

Google a făcut o treabă teribilă, zic eu. De acum, cu un scanner la îndemână, dacă avem o foaie nu mai trebuie să o culegem manual. Nici nu ne mai trebuie un program (comercial). Scanăm foaia, şi ca PDF sau chiar ca imagine o încărcăm în Google Docs. Apoi edităm textul, aducând corecturile acolo unde trebuie. Tot va fi mai rapid decât să culegem tot textul!

Pentru alte soluţii online vedeţi acest articol (iulie 2009) sau acesta (octombrie 2009). Google evident nu e primul în acest domeniu, dar face o treabă bună. Şi fără (prea mari) limite.


Apreciază articolul:

1 stea2 stea3 stea4 stea5 stea (7 evaluări, media: 4,00 din 5)
Loading...Loading...

0 comentarii


Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile necesare sunt marcate *