Guida da PDF a Word (.doc, .docx, .odt e altro)
con UniPDF, FreeOCR o Cuneiform

© Copyright Programmifree.com.  E' vietata la copia anche parziale senza il consenso scritto dell'autore.

 

 


guida modificata: Maggio 2017

(Video in fondo alla pagina )

Su Programmifree esistono già un paio di guide per convertire un PDF in un file .doc di Word (o LibreOffice/OpenOffice, ecc.), ma sono vecchie ormai di qualche anno e i programmi utilizzati in essi sono rimasti indietro rispetto ai più recenti.

In questa guida vedremo di fare la stessa cosa con programmi di ultima generazione.

Per prima cosa dobbiamo vedere se il PDF è stato creato come documento di testo o come immagine (con OCR o meno), ma questo non è assolutamente un problema, perché lo capiremo immediatamente.

  1. Installiamo UniPDF, apriamo il PDF (trascinandolo semplicemente nell'interfaccia di UniPDF) e convertiamolo in Word (nelle Impostazioni selezioniamo .doc come formato di uscita). Clicchiamo e il documento .doc verrà salvato nella stessa cartella del PDF di partenza.
     

Adesso apriamo il documento .doc con Word, o LibreOffice, o Apache OpenOffice, o un programma simile e vediamo cosa appare: se c'è un normale testo siamo a posto e abbiamo finito.

-------------------------------------------------------------------

Se invece non si vede nulla, o se c'è un'immagine che non possiamo editare, allora significa che il PDF non è stato creato con il riconoscimento dei caratteri (probabilmente è stato digitalizzato con uno scanner senza OCR) e purtroppo dovremo eseguire il riconoscimento manualmente con FreeOCR (più semplice da utilizzare), oppure Cuneiform (solitamente più preciso.

Se vogliamo utiizzare FreeOCR l'operazione è semplicissima:

  1. Installiamo FreeOCR.

  2. Impostiamo la lingua in italiano (OCR Language: ITA)

  3. Carichiamo il PDF (Open PDF)

  4. Clicchiamo il bottone OCR.

  5. Nella parte destra della pagina avremo il testo riconosciuto. Selezioniamolo e con il tasto destro del mouse clicchiamo Copia. Potremo incollare il testo in qualsiasi Word Processor (Word, LibreOffice, OpenOffice, ecc.).
    NOTA: E' anche possibile cliccare su uno dei bottoni centrali per far avere il testo direttamente in formato word o rtf, tuttavia in parecchi casi

  6. Dal momento che si tratta di un riconoscimento dei caratteri (OCR), il testo andrà sempre controllato, perché ci sarà sicuramente qualche errore.
    E questo vale per qualsiasi programma, gratuito o a pagamento.

--------------------------------------------------------------------------

Come avete visto, FreeOCR è molto semplice, ma di solito sarà perduta l'impaginazione originaria. Con Cuneiform è possibile ottenere un risultato leggermente migliore, a prezzo di un po' di fatica in più.

  1. Installiamo Cuneiform.

  2. Convertiamo il PDF in immagine. Installiamo PDF-X Change Viewer (o utilizziamo la versione portabile) e carichiamo il nostro PDF. Adesso clicchiamo File-> Export->Export to Image. Esportiamo in PNG.

  3. Avviamo Cuneiform. Apriamo la pagina del PDF che abbiamo salvato come immagine (PNG, GIF, ecc.), cliccando File->Open.

  4. Recognition->Automatic Markup.


    Apparirà una cosa del tipo:



    Le aree che Cuneiform ha evidenziato in blu, sono quelle in cui verrà effettuato il riconoscimento.
     Se volete escludere qualcuna di queste aree, basta cliccarci sopra con il tasto destro del mouse e selezionare: Delete block Markup.

     

  5. [Facoltativo] Se cliccate sul menu Edit in alto, vedrete che è possibile fare varie operazioni con questi blocchi evidenziati, tra cui numerarli. In genere, comunque, questa operazione non serve.
     

  6. Per far avvenire il riconoscimento, clicchiamo Recognition->Recognize.

     

  7. Se sul vostro sistema è installato Microsoft Word, quest'ultimo si aprirà automaticamente, altrimenti il testo sarà salvato in RTF (perdendo l'impaginazione).

  8. Controllate il documento che avete appena salvato aprendolo con un programma di testo, come LibreOffice, Apache OpenOffice, MS Word, ecc., (è una cosa da fare con qualsiasi programma OCR, gratuito o meno), e passate al file PNG successivo.

  9. Se avete un documento di più pagine, incollate con Word (o OpenOffice/LibreOffice, ecc.) la pagina appena riconosciuta dopo la precedente, e così via, di modo da ottenere nuovamente un documento unico.

  10. Adesso avete il vostro documento di testo (.odt, .doc o altro).

 

Su YouTube è disponibile un video che mostra visivamente come fare: