Zilele astea am de tehnoredactat o carte. Textul a venit cules, dar nu în fișier ci printat pe hârtie. Am scanat toate paginile si acum aveam nevoie de un program OCR (Optical Character Recognition). Program care sa citească aceste pagini și să le transforme în text editabil.
Am două cerințe pentru acest program:
- Să recunoască caractere în limba română;
- Să recunoască text aranjat în coloane, eventual chiar tabele.
După câteva căutări pe internet am mai adăugat două cerințe:
- Să fie online;
- Să fie gratuit.
Am găsit trei variante căre să întrunească toate aceste criterii:
i2OCR
i2OCR este online, este gratuit, recunoaște corect caractere românești dar nu recunoaște coloane sau tabele. Funcționează rapid și rezultatul este foarte corect. Pot fi selectate și multe alte limbi inclusiv engleza.
NewOCR
Newocr.com este evident online, recunoaște corect caractere românești dar nu recunoaște coloane sau tabele. Poate salva fisiere text, Microsoft Word sau PDF. Are în plus și posibilitatea de selecție suprafața de scanat. Pot fi selectate și multe alte limbi.
Online OCR -recomandarea mea pentru program OCR
Onlineocr.net este și câștigătorul testului meu. În afară de faptul că este online și gratuit, salvează documentele corect în format text, Word sau Excell. Salvează corect tabele și coloane și recunoaște corect caracterele specifice limbii române. Are de asemenea o gamă foarte largă de limbi ce pot fi selectate. La recunoaștere dă unele erori.
Fiind și cel mai complet site are însă și limitări. Poți scana doar 15 pagini pe oră. Am încercat însă de pe alt calculator, în decursul aceleiași ore și a mers. Am schimbat browserul în decursul aceleiași ore și a mers și așa. Se pare că nu detectează IP-ul sau seria plăcii de bazăci doar sesiunea.
Dacă te autentifici poți scana până la 50 de pagini și a mai multe avantaje, printre care posibilitatea de realizare documente cu mai multe pagini. Dacă vrei însă să convertești mai mult de 50 de pagini trebuie să plătești pentru fiecare calup de pagini în plus. Prețurile nu sunt mari, între 0,8 și 10 cenți pe pagină. Dacă mi-ar fi oferit facilități profesionale ar fi meritat. Însă ceea ce oferă la varianta plătită nu justifică sumele cerute.
Utile
Textul trebuie citit după procesare. Din experiență știu că toate programele OCR, inclusiv cele profesionale, care costă destul de mult dau și ele erori. Erorile sunt date în special de calitatea documentului scanat. Pentru rezultate optime documentele trebuie pregătite pentru procesul de recunoaștere OCR. Imaginile trebuie să aibă un contrast bun, să fie scanate la 300 dpi și curățate în prealabil de eventualele defecte. Foarte important este ca textul să fie drept sau îndreptat în procesul de pregătire a fișierelor.
În comparație un program OCR online profesional Abby Fine Reader are o taxă anuală de 129 de euro. În cazul în care aveți un volum mare de documente de complexitate sporită și aveți nevoie de facilități suplimentare merită să încercați. Puteți lua în considerare și o licență pentru acest program ce poate fi instalat pe computerul propriu, pornind de la 199 de euro. AM testa acest program și puteți citi aici review-ul meu.
Pentru procesarea imaginilor am folosit Photoshop-ul, dar pentru prelucrări așa simple ca în cazul de față, puteți folosi și aplicația online gratuită Fotor despre care am vorbit în acest articol.
Documentele le scanez cu un scanner flatped Epson V500 care își face foarte bine treaba pentru câteva zeci de pagini pentru că nu pot scana decât câte o pagină o dată. Dacă aveți documente cu un număr foarte mare de pagini există scannere profesionale dedicate volumului mare de pagini.