Scanarea şi recunoaşterea textelor româneşti


De-a lungul anilor am scanat numeroase cărţi (de exemplu pentru a le publica pe ProFamilia.ro, evident cu acordul editurilor). Aliatul de mare încredere mi-a fost întotdeauna ABBYY FineReader. Programul a ajuns la versiunea 9 (preţul: 140euro), dar eu am în continuare versiunea 8, de care mă voi folosi pentru acest articol. Premisa este deci: avem o carte cu text românesc (sau poate doar un formular la firmă) şi dorim să o transformăm în text electronic, editabil, publicabil ş.a.m.d. Diacriticele dau bătăi de cap ca întotdeauna, dar din fericire produsul de la ABBYY se descurcă mulţumitor de bine.

img54

Esenţial este ca după ce aţi instalat programul să vă descărcaţi şi dicţionarele (pentru versiunea 8.0 se găsesc aici). Dacă aţi instalat dicţionarul pentru limba română veţi putea selecta Romanian din lista derulantă marcată cu cifra 1 în captura de mai jos. Bara cu butoane mari (marcată cu nr. 2) include butoanele în succesiunea logică: 1. Scanare (sau alternativ puteţi folosi direct imagini cu textul scanat); 2. Citirea (convertirea din imagine în text); 3. Check Spelling (verificarea ortografică, puteţi interveni deja pe text); 4. Exportarea (în Word dar nu numai, ci şi în alte aplicaţii sau navigator, clipboard…). Puteţi scana ţinând cu orice orientare pagina: programul va face rotirile necesare pentru ca textul să fie "în picioare". La scanare puneţi pe grayscale şi minim 300dpi. Sub 300dpi veţi primi un avertisment şi calitatea recunoaşterii textului ar putea fi afectată. Paginile scanate se colectează în banda indicată mai jos cu nr. 3. În zona cu nr. 4 este prezentată pagina scanată şi cu cadre verzi se marchează blocurile de text identificate (puteţi şterge anumite blocuri dacă nu vă interesează). În zona cu nr 5 este textul, editabil, deci puteţi opera corecturi suplimentare. În fine, dacă faceţi cumva corectura textului din ABBYY, în zona cu nr. 6 puteţi avea mărită imaginea originală.

img56

Mai jos aveţi o captură în care am pus unul lângă altul textul scanat (imaginea) şi textul interpretat (editabil, în Word). După cum vedeţi, rata de recunoaştere (inclusiv a formatării textului) este… superbă! Nu e perfect, dar din punctul meu de vedere e satisfăcătoare. De exemplu tot timpul "Maria" este citit "Măria"; sau clasicele probleme cu diferenţa dintre l (litera "el") şi 1 (cifra unu), unde ABBYY poate face de asemenea greşeli. Dar decât să culegi un text, e mult mai simplu să parcurgi şi corectezi ceea ce oferă ABBYY. Nu ştiu versiunea 9 cât de mult a progresat, dar dacă cumva o folosiţi, poate ne spuneţi. Iar dacă folosiţi alte programe (poate mai ieftine?) care să se descurce bine cu diacriticele, poate ni le împărtăşiţi de asemenea.

img58

PS: Articolul de mai sus e dintr-un volum de la Sapientia şi va apare online mâine în revista Lumea Catholica, de pe Catholica.ro. Dacă tot am avut de (re)lucrat cu acest program, m-am gândit să îmbin utilul cu plăcutul, semnalându-l.

PS2: Versiunea trial a programului va merge doar 15 zile, cu limitări frustrante. Oricum, puteţi testa programul înainte de a vă decide să îl cumpăraţi.


Apreciază articolul:

1 stea2 stea3 stea4 stea5 stea (7 evaluări, media: 5,00 din 5)
Se încarcă...

9 comentarii

  1. Dan spune:

    Interesanta ocupatie… Eu caut insa un soft pentru recunoasterea vocala in limba romana. Ce imi recomandati?

  2. radu.capan spune:

    Personal nu cunosc soft sa faca recunoastere vocala din limba romana. Dar poate stiu alti cititori. Sa vedem…

  3. dan spune:

    Din cate cunosc,exista ceva in genu doar in lb engleza dar romana nu cred 😐 .

  4. Sir-NyCkY spune:

    Unde pot gasi dictionarele pentru versiunea 9.0?

  5. marin julieta spune:

    BIBLIOGRAFIE:

    1) M. Dobrinoiu -Infractiunea de interceptare ilegala a unei transmisii de date informatice
    http://www.legi-internet.ro/index.php?id=245
    2) INFRACTIONALITATEA PE CALCULATOR / – PETRE RÃU
    http://www.mcti.ro/index.php?id=223&L=0 (Strategia guvernamentala in domeniul securitatii informatice)
    3) MCTI, Ghid introductive pentru aplicarea dispozitiilor legale referitoare la criminalitatea informatica , 2004;
    4 ) Legea terorismului – prof.dr. ION DRAGOMAN Universitatea Nationala de Aparare „Carol I”
    5 ) D. Oprea, Globalizarea si riscul securitatii informatiilor,
    http://www.racai.ro/RISC1/DumitruOprea.pdf,
    http://www.icmpp.ro/institute/cap_oprea.doc
    6 ) P. Rau, Infractionalitatea pe calculator, ….
    7) L.Vasiu, I.Vasiu, Riscul de atac electronic asupra sistemelor de informatii,
    http://www.racai.ro/RISC1/IoanaVasiu.pdf,
    http://www.icmpp.ro/institute/cap_vasiliu.doc

  6. radu.capan spune:

    Ce incercati sa spuneti prin aceasta bibliografie indicata? Vine ca nuca in perete fara o explicatie…

  7. moroshan spune:

    Tanti Julieto, din cand in cand omenirea mai scaneaza/copiaza si „Pupaza din tei”, pi buni acu’, pintru ca bibliotecili din Romanik noastra e naspa rau de tot. Nemernicii fac orice in tara asta, numa’ CE TREBUIE NU (iertare, dom’ administrator, va rog sa ma… dezlegati si sa-mi dati drumul ptr ca nu ma incadrez in… bibliografie !). Asa ca, Julieto draga, cu copiili astea nu ek in povestea cu Romeo ala de ai auzit (si) mata de el !!! As zice una, asa, de la obraz: daca nu suntem in masura sa multumim pentru zidirea altora, macar sa nu fim chiar penibili, se poate !!!? Multumesc ! moroshan forever

  8. Ioan Marinescu spune:

    In calitatea mea de scriitor m-ar ajuta f. mult un prgram de recunoastere vocala „speech to text” pentru a-mi putea dicta textele direct la calculator.Bineinteles in limba romana.V-as ramane recunoscator daca mi-ati trimite un e-mail pe adresa:marinescu_puiu@yahoo.com.Cu multumiri anticipate!Puiu M.

  9. Lideri in domeniu sint cei de la nuance cu platforma Dragon, dar nu exista deocamdata suport pentru „limba noastra-i o comoara”. Link aici: http://www.nuance.com/naturallyspeaking/products/professional.asp

    Sint sigur ca daca ar fi contactati de mai multe persoane care doresc asa ceva (contra cost) isi vor arata interesul.


Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *