Trascrivere in maniera automatica

una registrazione

 (come trascrivere un file audio con il riconoscimento vocale)

 

© Copyright Programmifree.com.  E' vietata la copia anche parziale senza il consenso scritto dell'autore.

 

guida modificata: Aprile 2016

Se c'è una richiesta che in questi anni mi è stata fatta varie volte, è quella di trovare un programma gratuito in grado di fare una trascrizione automatica. Un software free che cioé fosse in grado di trascrivere una conversazione audio, senza alcun intervento da parte dell'utente.

Per anni la risposta è stata NO, non esiste un programma gratuito in grado di fare nemmeno lontanamente una cosa del genere.

Al momento però, grazie al servizio di riconoscimento vocale offerto da Google (Google Web Speech API), una cosa che fino a poco tempo fa sembrava impossibile è almeno in parte realizzabile. Sottolineo almeno in parte, dal momento che i risultati saranno accettabili o poco più (o, meglio, andranno da buoni a mediocri, a seconda della qualità dell'audio).

E' proprio sui risultati finali che ci dobbiamo un attimo soffermare: se le nostre aspettative sono elevate, nel senso che cerchiamo un programma che abbia un'accuratezza di riconoscimento elevata, allora resteremo delusi (e meglio faremmo ad effettuare la trascrizione in maniera manuale, come spiegato qui).
Se invece siamo disposti ad accontentarci (ed eventualmente ad integrare manualmente le parti errate o mancanti), ecco che in una certa misura possiamo avere successo.

Ricordo ancora che fino a pochi anni fa una cosa del genere era impensabile, dunque è opportuno essere pazienti e verificare con attenzione se la qualità del riconoscimento fa al caso nostro.

  1. Dal momento che l'unica possibilità di riconoscimento vocale gratuita è offerta da  Google, dobbiamo essere connessi ad internet.

  2. Installiamo Google Chrome

  3. Installiamo l'estensione/plugin di Chrome chiamata VoiceNote. In alternativa si può usare Google Web Speech API, che ci evita VoiceNote; quest'ultimo ha tuttavia maggiori possibilità di esportare il testo trascritto.

  4. Installiamo VoiceMeeter.

  5. Pannello di Controllo→ Hardware e Suoni→ Audio→ Riproduzione e Registrazione: impostiamo VoiceMeeter come periferica predefinita sia per riproduzione che per registrazione.

     

  6. Avviamo VoiceMeeter. Praticamente con VoiceMeeter non dovremo fare nulla (si possono alzare i livelli audio, ma di solito non serve), perché il suo compito è solo passare in maniera virtuale l'uscita audio verso l'ingresso audio, in modo da far credere e VoiceNote che l'audio che sta proveniendo da un video o da un file mp3 sia quello del microfono.
    Per verificare che l'audio esca realmente da VoiceMeeter, avviamo la riproduzione del file audio, clicchiamo su A1 e scegliamo un'uscita audio. Si dovrà sentire distintamente la nostra traccia audio.

     

  7. Andiamo sulla finestra di VoiceNote (ogni volta dobbiamo lanciare Google Chrome, andare sulla pagina di VoiceNote e cliccare il bottone avvia o "visita"), scegliamo la lingua (italiana se vogliamo trascrivere una registrazione in italiano) e clicchiamo sul microfono. Quando richiesto, clicchiamo Consenti.

  8. [Facoltativo] In caso di problemi, utilizziamo Google Web Speech API, che evita VoiceNote. Anche qui, impostiamo la lingua italiana e clicchiamo sul microfono (cliccando ulteriormente su Consenti).

  9. Avviamo la riproduzione audio che vogliamo trascrivere (che sia un brano di Youtube dal browser o un mp3 registrato non fa differenza).

  10. Torniamo nella finestra di VoiceNote (o di Google Web Speech API) e vediamo il testo che viene riconosciuto quasi subito (dal momento che è un servizio online, ci potranno volere alcuni secondi).

  11. Quando abbiamo finito clicchiamo nuovamente sull'icona del microfono per spegnere la registrazione.

  12. Copiamo e incolliamo il testo trascritto nel nostro word-processor preferito.

  13. Controlliamo il testo trascritto per verificare che corrisponda all'audio e inseriamo la punteggiatura.
     

  14. IMPORTANTE: Quando la trascrizione è completa, chiudiamo VoiceMeeter, torniamo al punto 5 di questa guida e stavolta reimpostiamo le periferiche audio predefinite, e cioé altoparlanti e microfono (è molto importante, altrimenti non sentiremo più niente dagli altoparlanti senza VoiceMeeter attivo, né potremo usare più il microfono!).

Il bello di questo sistema è che funziona anche con altre lingue: se per esempio vogliamo capire qualche video di YouTube (magari in inglese o in un'altra lingua), ne riusciremo a fare una trascrizione abbastanza corrispondente.

COME MIGLIORARE LA QUALITA' DEL RICONOSCIMENTO:

  • La qualità della registrazione è fondamentale; migliore è l'audio, più fedele sarà il riconoscimento.

  • Se il volume dell'audio è basso, è sufficiente alzare la barra del livello audio in VoiceMeeter e il riconoscimento migliorerà (magari di poco, ma migliorerà).

  • I problemi maggiori ci sono invece se il parlato è troppo veloce; in questo caso il riconoscimento vocale ha parecchie difficoltà e potrebbe non riconoscere la maggior parte delle parole. Ci sono così due modi: o proviamo a rallentare il parlato, utilizzando un software che lo possa fare (la guida di Programmifree per fare una trascrizione manuale spiega come riuscirci), oppure siamo noi stessi a dettare: ascoltiamo cioé alcuni secondi e dettiamo, e così via. Ovviamente la trascrizione in questo modo non è più automatica, ma almeno funziona (e comunque la qualità del riconoscimento è superiore -comprensibilmente- rispetto al riconoscimento automatico).

  • Utilizzare un programma a pagamento di ottima qualità (Dragon Naturally Speaking) al posto di VoiceNote. Dal momento che Programmifree si occupa solo di programmi gratuiti, mi limito a segnalarlo per completezza

A volte i risultati saranno molto buoni, altre volte (più spesso) saranno scadenti: purtroppo la qualità della registrazione e la velocità del parlato sono fondamentali, ma con gli accorgimenti segnalati si potranno avere dei miglioramenti.

Questa guida funziona anche con Windows 10.