Come digitalizzare un testo con lo scanner
e convertirlo in .doc, .txt, .pdf, ecc.

© Copyright Programmifree.com.  E' vietata la copia anche parziale senza il consenso scritto dell'autore.

 

 

guida modificata: Giugno 2016

IMPORTANTE: se cerchi una guida per digitalizzare un documento con un paio di clic, allora utilizza la guida digitalizzare dallo scanner con due clic.

(Videoguida  in fondo alla pagina )

Con questa guida saremo in grado di digitalizzare un documento di testo con lo scanner in maniera corretta, e di trasformarlo in un documento testuale, come .doc, .txt., .rtf, (ma anche pdf), ecc.
Questa operazione è in genere chiamata OCR (cioé riconoscimento ottico dei caratteri).

Potremo cioé trattare questo documento digitalizzato come un normale documento di testo, nel quale si potranno effettuare ricerche, sostituire parole, creare capitoli, ecc., insomma tutte quelle operazioni che in genere facciamo con un normale testo.

Per far ciò utilizzeremo principalmente il programma gratuito Cuneiform OCR: considero questo programma, almeno al momento, come il miglior software free per riconoscere un testo, nonostante alcune mancanze. Se avete installato sul vostro computer Microsoft Word, Cuneiform lo utilizzerà per rispettare l'impaginazione del testo che avete appena digitalizzato; se non lo avete, salverà il testo in RTF, perdendo però il layout grafico.

Non utilizzeremo invece programmi molto famosi come Omnipage o FineReader perché il nostro scopo è utilizzare -come sempre- programmi gratuiti.

Sarebbe possibile anche creare un PDF in un attimo, senza utilizzare questa guida, per esempio con il leggerissimo (e portabile) WinScan2PDF: è vero che faremmo prima, ma è anche vero che il PDF sarà visto come un'immagine grafica e non come un testo, dunque sarà del tutto inutile se in esso vorremo fare qualsiasi operazione (ricerca, sostituzione o altro).

Dunque vediamo come digitalizzare e riconoscere un testo nel modo giusto.

  1. Poiché Cuneiform va in crash con il mio scanner HP, è necessario un passaggio aggiuntivo: digitalizzare il testo come immagine, con un qualsiasi programma (anche portabile), come DeskScan, FastStone Viewer, Irfanview, o tantissimi altri.
     

  2. In genere, la risoluzione consigliata dello scanner per testi con caratteri non troppo grandi, è 300 DPI (sono quasi sempre sufficienti).
    Se nel documento sono presenti caratteri molto piccoli, allora può essere opportuno alzare a 600 DPI.
     

  3. Digitalizzate la pagina che avete scelto (tramite DeskScan, o FastStone, o Irfanview, ecc.) e salvatela in formato PNG (o GIF, in alternativa). Salvate le pagine come 00.PNG, 01.PNG, ecc.
    [IMPORTANTE: se volete riconoscere un documento PDF che non riuscite a convertire con un programma classico di conversione PDF, allora convertitela in PNG o GIF con PDF-X-Change Viewer e continuate con il punto successivo di questa guida).
     

  4. Caricate la pagine (PNG, GIF, ecc.) in Cuneiform, cliccando File->Open.
    Se Cuneiform non ha problemi con il vostro scanner, allora potete saltare i punti 1 e 3, tenendo però presente il punto 2 (cliccate File->Scan).
     

  5. Impostate l'area all'interno della quale verrà effettuato il riconoscimento con Recognition-> Area of Recognition.
    Approfittatene per togliere dall'area del ricoscimento eventuali intestazioni, piè di pagina e numeri di pagina, in modo da avere un riconoscimento pulito.


    e poi:


     

  6. Cliccate Recognition->Automatic Markup.


    Apparirà una cosa del genere:



    Le aree che Cuneiform ha evidenziato in blu, sono quelle in cui verrà effettuato il riconoscimento.
    Portate il cursore del mouse vicino al bordo blu e delimitate bene l'area.
    Fatelo con attenzione, altrimenti il riconoscimento finale sarà meno accurato.

     Se volete escludere qualcuna di queste aree dal testo finale, basta cliccarci sopra con il tasto destro del mouse e selezionare: Delete block Markup.

     

  7. [Facoltativo] Se cliccate sul menu Edit in alto, vedrete che è possibile fare varie operazioni con questi blocchi evidenziati, tra cui numerarli. In genere, comunque, questa operazione non serve.
     

  8. Per far avvenire il riconoscimento, basta cliccare Recognition->Recognize.

     

  9. Se sul vostro sistema è presente Microsoft Word, quest'ultimo si aprirà automaticamente, altrimenti il vostro testo verrà salvato in formato RTF (perdendo, come detto prima, il layout).

  10. Date una controllata al documento che avete appena salvato aprendolo con un programma di testo, come LibreOffice, OpenOffice.org, MS Word, ecc., (è una cosa che va fatta anche quando si usano programmi OCR costosi, perché accade che il software OCR scambi una lettera con un'altra, soprattutto se il testo di partenza è scolorito o le pagine sono ingiallite), e passate al file successivo.

  11. Se avete un documento di più pagine, è opportuno incollare il file successivo dopo quello precedente, e così via, di modo da ottenere nuovamente un documento unico.

  12. Adesso avete un vero e proprio documento di testo. Potete salvarlo nel formato che volete, o anche trasformarlo in PDF (è facilissimo convertire da .doc a .pdf, ma se state usando LibreOffice potete direttamente salvare il testo in PDF), insomma fare tutto quello che vi pare.
     

Un'ultima annotazione interessante: se per caso alla fine avete convertito questo documento in PDF, provate di nuovo ad eseguire una scansione del testo iniziale, convertendolo direttamente in PDF (senza passare per Cuneiform), magari con PDF24 Creator o simili.
Noterete che non solo non è possibile effettuare ricerche (né altro) nel testo, ma anche che quest'ultimo PDF occupa molto più spazio di quello che abbiamo convertito utilizzando Cuneiform (è normale, proprio perché in quest'ultimo caso il testo viene visto come un'unica immagine).

 


Come riconoscere il testo in un documento acquisito da scanner o cellulare