Su Programmifree esistono già un paio di guide
per convertire un PDF in un file .doc di Word (o
LibreOffice/OpenOffice, ecc.), ma sono vecchie
ormai di qualche anno e i programmi utilizzati in essi sono
rimasti indietro rispetto ai più recenti.
In questa guida vedremo di fare la stessa cosa
con programmi di ultima generazione.
Per prima cosa dobbiamo vedere se il PDF è stato
creato come documento di testo o come immagine (con OCR o meno),
ma questo non è assolutamente un problema, perché lo capiremo
immediatamente.
Installiamo UniPDF, apriamo il PDF
(trascinandolo semplicemente nell'interfaccia di UniPDF) e
convertiamolo in Word (nelle Impostazioni selezioniamo .doc come formato di uscita). Clicchiamo
e
il documento .doc verrà salvato nella stessa cartella del PDF di
partenza.
Adesso apriamo il documento .doc con Word, o
LibreOffice, o
Apache
OpenOffice, o un programma simile e vediamo cosa appare: se c'è
un normale testo siamo a posto e abbiamo finito.
Se invece non si vede nulla, o
se c'è un'immagine che non possiamo editare, allora
significa che il PDF non è stato creato con il riconoscimento
dei caratteri (probabilmente è stato digitalizzato con uno
scanner senza OCR) e purtroppo dovremo eseguire il riconoscimento
manualmente con FreeOCR
(più semplice da utilizzare), oppure Cuneiform
(solitamente più preciso.
Se vogliamo utiizzare FreeOCR
l'operazione è semplicissima:
Impostiamo la lingua in italiano (OCR
Language: ITA)
Carichiamo il PDF (Open PDF)
Clicchiamo il bottone OCR.
Nella parte destra della pagina avremo il
testo riconosciuto. Selezioniamolo e con il tasto destro del
mouse clicchiamo Copia. Potremo incollare il testo in
qualsiasi Word Processor (Word, LibreOffice, OpenOffice,
ecc.). NOTA: E' anche possibile cliccare su uno
dei bottoni centrali per far avere il testo direttamente in
formato word o rtf, tuttavia in parecchi casi
Dal momento che si tratta di un
riconoscimento dei caratteri (OCR), il testo andrà
sempre controllato, perché ci sarà sicuramente
qualche errore.
E questo vale per qualsiasi programma,
gratuito o a pagamento.
Come avete visto, FreeOCR è molto
semplice, ma di solito sarà perduta l'impaginazione originaria. Con
Cuneiform è possibile ottenere un risultato leggermente
migliore, a prezzo di un po' di fatica in più.
Convertiamo il PDF in immagine. Installiamo
PDF-X
Change Viewer (o utilizziamo la versione portabile) e carichiamo il nostro PDF. Adesso clicchiamo
File-> Export->Export to Image. Esportiamo in PNG.
Avviamo Cuneiform. Apriamo la pagina del PDF che abbiamo salvato
come immagine (PNG, GIF, ecc.), cliccando File->Open.
Recognition->Automatic Markup.
Apparirà una cosa del tipo:
Le aree che Cuneiform ha evidenziato in
blu, sono quelle in cui
verrà effettuato il riconoscimento. Se volete escludere qualcuna di
queste aree, basta cliccarci sopra con il tasto
destro del mouse e selezionare: Delete block Markup.
[Facoltativo] Se cliccate sul menu Edit in
alto, vedrete che è possibile fare varie operazioni con questi
blocchi evidenziati, tra cui numerarli. In genere, comunque, questa
operazione non serve.
Per far avvenire il riconoscimento, clicchiamo
Recognition->Recognize.
Se sul vostro sistema è installato Microsoft Word,
quest'ultimo si aprirà automaticamente, altrimenti il testo
sarà salvato in RTF (perdendo l'impaginazione).
Controllate il documento che avete appena
salvato aprendolo con un programma di testo, come
LibreOffice,
Apache OpenOffice, MS Word, ecc., (è una
cosa da fare con qualsiasi programma OCR, gratuito o meno), e
passate al file PNG successivo.
Se avete un documento di più pagine,
incollate con Word (o OpenOffice/LibreOffice, ecc.) la
pagina appena
riconosciuta dopo la precedente, e così via, di modo da
ottenere nuovamente un documento unico.
Adesso avete il vostro documento di testo (.odt,
.doc o altro).
E' disponibile un
video che mostra
visivamente come fare:
SERVE ANCHE IL TUO SOSTEGNO
Il modello di internet
sostenuto dalla pubblicità è in crisi, e anche
Programmifree ne è colpito.
Per continuare ad
essere qui anche in futuro, sono necessarie nuove
vie di sostentamento.
Se Programmifree ti è
utile, e vuoi che continui ad esistere, per favore
dai un contributo.