Stampa

Scansione testo con OCR su Linux

Scritto da Pisu il 12 Dicembre 2008. Scritto in Computer e Tecnologia

Oggi volevo riscrivere a computer lo statuto dell'associazione di volontariato, il cui file originale non si trova più. Allora ho pensato di fare una bella scansione ed importare il testo tramite riconoscimento OCR... ma volevo rimanere su Ubuntu!

Fortunatamente ho trovato una soluzione semplice, rapida, e soprattutto efficiente (il testo viene riconosciuto molto bene) grazie a XSane (software predefinito di scansione in Linux) + Tesseract (progetto per riconoscimento OCR a linea di comando). Ecco la pagina dove ho trovato i passaggi da fare: http://linux.p2pforum.it/wiki/OCR_con_tesseract_in_XSane

Testato con successo in Ubuntu 8.10.

Essenzialmente, bisogna anzitutto installare i pacchetti (io lo faccio con Synaptic...):

  • imagemagick
  • tesseract-ocr
  • tesseract-ocr-ita

Poi, scaricare lo script xsane2tess (estraendolo dallo zip); io a questo punto ho modificato la riga 15 con: TEMP_DIR=/tmp/ , in modo da non dover creare una cartella temporanea sotto la home (va benissimo quella globale...), quindi la riga 74, dove c'è il comando che richiama tesseract, aggiungendo in fondo: -l ita , così da fargli usare il dizionario italiano.

Posizionare quindi il file in /usr/bin, dandogli i permessi di esecuzione; dalla shell si possono usare questi comandi:

  • chmod a+rx xsane2tess
  • sudo mv xsane2tess /usr/bin

Infine, aprire XSane, andare in Preferenze > Impostazioni > OCR, e impostare il campo "Comando OCR" con xsane2tess. La configurazione è così completata!

Per effettuare una scansione con riconoscimeno OCR, avviare XSane, selezionare la modalità "Visualizzatore", e come profondità di colori "Binario". Avviare la scansione (tasto Acquisisci), alla fine apparirà una finestra contenente la pagina, fare click sul secondo pulsante della barra in alto, con le lettere ABC DEF; scegliere il file TXT dove salvare il testo, e dopo aver confermato attendere pazientemente!

Non c'è che dire: un passo avanti per il mondo Linux, vista l'importanza in certi casi dell'OCR...

  • Jaco

    Scritto il 2010-12-15 15:03:38

    Ciao, grazie per l' utilissima guida, sembra che vada tutto ok, ma quando salvo le aquisizioni mi ritrovo dei file di testo vuoti, ho provati ad aprirli sia con gedit che con openoffice, tuttavia risultano comunque pagine bianche!?!?

    Rispondi al commento

  • Pisu

    Scritto il 2010-05-04 20:32:21

    [quote name="giovanni"]scusa ma non mi trovo con la 15a riga,
    Puoi dirmi per esteso cosa devo sostituire per avere il file nella Home?[/quote]

    Mi riferisco alla riga 15 dello script "xsane2tess" (quello che faccio scaricare dal mio sito):

    TEMP_DIR=~/tmp/ # folder for temporary files (TIFF & tesseract data)


    Praticamene togliendo la tilde, per usare la cartella tmp globale

    Rispondi al commento

  • giovanni

    Scritto il 2010-05-04 17:23:17

    scusa ma non mi trovo con la 15a riga,
    Puoi dirmi per esteso cosa devo sostituire per avere il file nella Home?

    Rispondi al commento

  • Pisu

    Scritto il 2009-10-08 21:29:34

    Per dare i permessi al file /usr/bin/xsane2tess :

    sudo chmod a+x /usr/bin/xsane2tess

    Rispondi al commento

  • www.tiserve.it

    Scritto il 2009-06-10 14:32:08

    spero che almeno questa funzioni !
    I vocabolari ocr su linux sono a dir poco penosi !
    Grazie


    www.tiserve.it

    Rispondi al commento