Guida da PDF a .doc, .docx
con UniPDF o Cuneiform

© Copyright Programmifree.com.  E' vietata la copia anche parziale senza il consenso scritto dell'autore.

 

 


guida inserita: Luglio 2014

Su Programmifree esistono già un paio di guide per convertire un PDF in un file .doc di Word (o LibreOffice/OpenOffice, ecc.), ma sono vecchie ormai di qualche anno e i programmi utilizzati in essi sono rimasti indietro rispetto ai più recenti.

In questa guida vedremo di fare la stessa cosa con programmi di ultima generazione.

Per prima cosa dobbiamo vedere se il PDF è stato creato come documento di testo o come immagine (con OCR o meno), ma questo non è assolutamente un problema, perché lo capiremo immediatamente.

  1. Installiamo UniPDF, apriamo il PDF (trascinandolo semplicemente nell'interfaccia di UniPDF) e convertiamolo in Word (nelle Impostazioni selezioniamo .doc come formato di uscita). Clicchiamo e il documento .doc verrà salvato nella stessa cartella del PDF di partenza.
     

Adesso apriamo il documento .doc con Word, o LibreOffice, o Apache OpenOffice, o un programma simile e vediamo cosa appare: se c'è un normale testo siamo a posto e abbiamo finito.

Se invece non si vede nulla, o se c'è un'immagine che non possiamo editare, allora significa che il PDF non è stato creato con il riconoscimento dei caratteri (probabilmente è stato digitalizzato con uno scanner senza OCR) e purtroppo dovremo eseguire il riconoscimento manualmente con Cuneiform.

  1. Installiamo Cuneiform.

  2. Convertiamo il PDF in immagine. Installiamo PDF-X Change Viewer (o utilizziamo la versione portabile) e carichiamo il nostro PDF. Adesso clicchiamo File-> Export->Export to Image. Esportiamo in PNG.

  3. Avviamo Cuneiform. Apriamo la pagina del PDF che abbiamo salvato come immagine (PNG, GIF, ecc.), cliccando File->Open.

  4. Recognition->Automatic Markup.


    Apparirà una cosa del tipo:



    Le aree che Cuneiform ha evidenziato in blu, sono quelle in cui verrà effettuato il riconoscimento.
     Se volete escludere qualcuna di queste aree, basta cliccarci sopra con il tasto destro del mouse e selezionare: Delete block Markup.

     

  5. [Facoltativo] Se cliccate sul menu Edit in alto, vedrete che è possibile fare varie operazioni con questi blocchi evidenziati, tra cui numerarli. In genere, comunque, questa operazione non serve.
     

  6. Per far avvenire il riconoscimento, clicchiamo Recognition->Recognize.

     

  7. Se sul vostro sistema è installato Microsoft Word, quest'ultimo si aprirà automaticamente, altrimenti il testo sarà salvato in RTF (perdendo l'impaginazione).

  8. Controllate il documento che avete appena salvato aprendolo con un programma di testo, come LibreOffice, Apache OpenOffice, MS Word, ecc., (è una cosa da fare con qualsiasi programma OCR, gratuito o meno), e passate al file PNG successivo.

  9. Se avete un documento di più pagine, incollate con Word (o OpenOffice/LibreOffice, ecc.) la pagina appena riconosciuta dopo la precedente, e così via, di modo da ottenere nuovamente un documento unico.

  10. Adesso avete il vostro documento di testo (.odt, .doc o altro).