Il software OCR nell’office automation

Per partire dalle definizioni, il termine OCR sta per Optical Character Recognition, ovvero riconoscimento ottico dei caratteri.

Il contenuto di un documento stampato infatti non può essere riconosciuto automaticamente come contenuto testuale, deve prima essere convertito e le singole lettere e parole riconosciute come tali.

Il principio su cui si basa questa classe di programmi è quello del pattern recognition, detto in italiano “riconoscimento formale” ovvero riconoscimento delle forme.

Se agli albori della storia di questi programmi la potenza di calcolo richiesta per il loro utilizzo efficace poteva essere considerata quasi spropositata, oggi invece risulta essere ampiamente alla portata di qualunque modello di elaboratore, per quanto economico.

Il sistema di funzionamento è molto semplice. Una volta ripulito il campo da tutti quegli elementi che non sono sicuramente caratteri (quindi parliamo di immagini e altri piccoli difetti di stampa quali macchie o altro), le forme rimanenti vengono prima rilevate (in buona sostanza fotografate), quindi rese omogenee e successivamente confrontate con un database di forme algoritmicamente rappresentate per il successivo accoppiamento con le lettere corrispondenti.

Quello che viene generato in uscita da questi programmi è solitamente un testo modificabile, contenente il risultato del riconoscimento ottico, ma in forma testuale e non di immagine.

I software OCR vengono usati spesso in punti della nostra vita a cui non facciamo caso, ma sono invece una colonna portante di molti processi di office automation.

Per fare solo alcuni esempi (del tutto italiani), parliamo del riconoscimento degli indirizzi scritti sulle buste delle raccomandate, del riconoscimento dei codici su alcuni moduli della pubblica amministrazione.

Ma esistono esempi anche internazionali. Uno fra tutti è il riconoscimento degli SMS negli smartphones, che poi viene utilizzato come base di lavoro da altri software, detti di sintesi vocale, che provvedono alla lettura con voce sintetizzata, un’utility molto comoda, ad esempio per non distrarsi durante la guida dell’auto.

A riguardo Cecilia Rossi 110 articoli
Una blogger per divertimento. Mi piace passare il tempo leggendo libri, guardando serie TV e mangiando sano. Sono una persona felice a cui piacciono le piccole cose della vita e cerco di rallegrare gli altri con le mie ricette.