Grazie all’aiuto di un software basato sulle Reti Neurali Artificiali (RNA), potrete mettere fine alle Lunghe e noiose sessioni di “sbobinamento” di registrazioni audio/video!
Sviluppato dalla società OpenAI, WHISPER, partendo da un file audio, genera una trascrizione testuale.
Sembra una cosa “facile”, almeno per noi umani, ma non lo è certo per una macchina, che riesce a fare una cosa simile solo e soltanto tramite miliardi di calcoli al secondo. Calcoli impossibili, tra l’altro, da gestire per una normale CPU da desktop. Ecco perché, per questo tipo di attività, è indispensabile ricorrere a una scheda video, la cui GPU è appunto specializzata nell’elaborare grosse masse di calcoli, le GPU AMD e quelle RADEON non sono supportate al momento per tali operazioni. Questo perché le GPU non supportano l’archittetura hardware creata da NVIDIA per l’elaborazione parallela chiamata CUDA (Compute Unified Device Architecture).
E’ per chi è sprovisto di una costossisima GPU ? Niente paura, possiamo testare le funzionalita di Whisper in cloud grazie a Google Colaboratory.
Dopo questa breve premessa, possiamo procedere a creare il nostro sistema di traduzione e sbobinatura automatica.
Iniziamo ad illustrare l’installazione in cloud per poi passare all’installazione in locale.
Come scaricare e installare OpenAIs Whisper in Cloud con Google Colaboratory
Colab è una piattaforma gratuita che permette a chiunque di scrivere ed eseguire codice Python attraverso un browser. L’unico requisito è possedere un account Google (ad esempio Gmail).
Colab è basato su un progetto Open Source chiamato Jupyter (https://jupyter.org/). I documenti/programmi scritti su Colab sono chiamati Notebook e verranno salvati automaticamente sul Google Drive associato al vostro account. I Notebook di Colab
possono essere condivisi con altri utenti che possono eseguire il codice scritto da voi o anche modificarlo.
- Accediamo a Google Drive. Se non abbiamo un account Gmail, possiamo crearne uno gratuitamente.
- Una volta dentro Google Drive, clicchiamo sulla voce “Nuova cartella” nell’angolo in alto a sinistra dello schermo scorriamo in basso e clicchiamo su “Altro” e poi su “Collega altre applicazioni.”
- Nella barra di ricerca, digitiamo “Google Colaboratory” e clicchiamo su “Installa” per collegare l’app a Google Drive.
- Dopo l’installazione di Colaboratory torniamo alla homepage di Google Drive e clicchiamo sulla voce “Nuova cartella”, seleziona “Altro”, e scegliamo la nuova l’applicazione appena installata “Google Colaboratory”.
- Per assicurarci che tutto funzioni correttamente, clicchiamo sulla voce “Runtime” collocata in alto nella barra delle applicazioni e poi su “Cambia tipo di runtime.”
- Nella sezione “Acceleratore hardware”, seleziona l’opzione “GPU” e clicchiamo su “Salva.”
- Ora installiamo Whisper AI su Google Colab. Clicchiamo sulla barra di testo per inserire il seguente codice. Se non vediamo la barra di testo, clicca su “+ Codice” per aggiungerla.
!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg
- L’installazione richiederà circa 30 secondi. Ora, sul lato sinistro dello schermo, clicchiamo sull’icona della cartella per aprire i file.
- Trasciniamo la traccia audio che desideriamo trascrivere all’interno della cartella.
- Clicchiamo su “+ Codice” e inseriamo il seguente codice nella barra di testo per avviare il processo di trascrizione:
!whisper "Audio.mp3" --model medium.en
Whisper dispone di cinque modelli di trascrizione (vedi la tabella sottostante). L’ampia gamma di modelli Whisper consente agli utenti di scegliere quello più adatto alle proprie esigenze, a seconda della complessità del progetto e delle specifiche linguistiche richieste.
Whisper ha eseguito una trascrizione impeccabile del file audio e ha iniziato a cantare sulle note di “Fix You” dei Coldplay con grande maestria e precisione.
Per consultare tutti i parametri di Whisper ci basterà digitare il suente commando.
!whisper -h
Come scaricare e installare OpenAIs Whisper su Windows 11/10
Per l’installazione e l’utilizzo di Whisper sul nostro pc abbiamo bisogno dell’asulio di PowerShell e l’installazione di Python, e i seguenti pacchetti:
- Scarica e installa Python
- Scaricare e installare PIP
- Scaricare e installare Pytorch
- Scarica e installa Chocolatey
- Scarica e installa FFMPEG
- Scarica e installa Whisper
- Converti l’audio in testo con Whisper
Installiamo Python su Windows
Per effettuare l’installazione di Python andiamo sul sito ufficiale utilizzando il seguente link Python Download e scarichiamo l’ultima release del linguaggio di programmazione.
Nella pagina di download è possibile trovare il file .exe per le versioni Windows a 32bit e 64bit. È sufficiente lanciarlo e seguire la procedura guidata.
N.B. ricordati di selezionare la voce Add Python 3.X to PATH all’inizio dell’installazione.
Avendo selezionato la voce Add Python 3.X to PATH durante l’installazione, dovrebbe essere possibile avviare Python dal prompt dei comandi semplicemente digitando il comando python.
Se Python è stato installato correttamente, sarà visualizzato un breve messaggio che indica la versione dell’interprete di Python, seguita dal prompt (>>>
).
Installiamo PIP per Python
Proseguiamo con il secondo step: scarichiamo e installiamo PIP. PIP è un acronimo ricorsivo che sta per “PIP installa i pacchetti” o “Programma di installazione preferito”. Si tratta di un’utilità della riga di comando che consente di installare, reinstallare o disinstallare i pacchetti PyPI tramite un comando semplice e diretto.
Se stai utilizzando Python 2.7.9 (o una versione successiva) o Python 3.4 (o versioni successive), PIP viene installato con Python di default. Tuttavia, per verificare se è installato, digitiamo il seguente comando al prompt dei comandi:
pip --version
se restituisce un messaggio d’errore come segue procediamo con l’installazione:
'pip' is not recognized as an internal or external command, operable program or batch file.
Installiamo PIP
- Apri il prompt dei comandi, e incolliamo il seguente comando:
curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
E’ successivamento copiamo e incolliamo il comando per installare PIP:
python get-pip.py
Una volta completata l’installazione, verifichiamo nuovamente la versione di PIP per assicurarti che tutto sia andato a buon fine:
pip --version
Se PIP è stato installato, il programma viene eseguito e dovresti vedere la posizione del pacchetto software e un elenco di comandi che puoi utilizzare con pip
.
Se ricevi un errore, ripeti il processo di installazione.
Installiamo Pytorch
PyTorch è un framework open source per il deep learning, ampiamente utilizzato per lo sviluppo di modelli di apprendimento automatico. clicchiamo sul link seguente Pytorch per accedere alla pagina di download, dove troveremo il file .exe disponibile per le versioni Windows a 32bit e 64bit. Basterà fare clic sul file eseguibile e seguire la procedura guidata per completare l’installazione.
Inoltre, se preferiamo, possiamo eseguire l’installazione direttamente dal prompt dei comandi tramite il seguente comando
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
Installiamo Chocolatey
Apriamo PowerShell come amministratore Cerca “PowerShell” nel menu Start o nella barra di ricerca, quindi fai clic con il tasto destro del mouse sull’icona di PowerShell e seleziona “Esegui come amministratore”.
Verifica e modifica la politica di esecuzione (se necessario) Per verificare la politica di esecuzione corrente, digita il seguente comando e premi “Invio”:
Get-ExecutionPolicy
Se il risultato è “Restricted”, procedi al passaggio successivo. In caso contrario, puoi passare direttamente all’instalazzione
Se incontri il messaggio “Restricted” , eseguiamo questo comando :
Set-ExecutionPolicy AllSigned
O
Set-ExecutionPolicy Bypass -Scope Process
Una volta eseguito correttamente uno di questi comandi, dovresti vedere il seguente messaggio::
Modifica ai criteri di esecuzione
I criteri di esecuzione facilitano la protezione dagli script non attendibili. La modifica dei criteri di esecuzione
potrebbe esporre l’utente ai rischi di sicurezza descritti nell’argomento della Guida about_Execution_Policies
all’indirizzo https://go.microsoft.com/fwlink/?LinkID=135170. Modificare i criteri di esecuzione?
Digita “S” per sì, quindi fai clic sul tasto Invio per rendere ufficiali le modifiche.
Ora dobbiamo incollare il seguente comando in PowerShell e, come al solito, premere il tasto Invio:
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
Aspettiamo pazientemente che Chocolatey venga installato sul tuo computer.
Installiamo FFMPEG
Il passo successivo, è quello di scaricare e installare FFMPEG . Questo può essere fatto solo se Chocolatey è installato. Inoltre, l’installazione deve essere eseguita tramite lo strumento PowerShell.
Copia e incolla il seguente comando in PowerShell e selezioniamo Invio:
choco install ffmpeg
Ci chiedera se vogliamo eseguire lo script e clicchiamo su “Y”
Dobbiamo installare anche la versione Python di FFMPEG tramite questo comando:
pip3 install python-ffmpeg
Installiamo Whisper
Siamo giunti all’ultimo step dell’installazione. Per evitare problemi durante l’installazione di Whisper, è necessario scaricare GIT se non l’hai già fatto.
Git è un software per il controllo di versione distribuito, utilizzabile tramite interfaccia a riga di comando. Poiché Git non è ancora un’opzione predefinita nei computer, devi installarlo e configurarlo manualmente.
Per prima cosa, scarica e installa Git per Windows. Una volta completata l’installazione, Git sarà disponibile sia dal prompt dei comandi che da PowerShell.
Infine, usa il seguente comando per ottenere Whisper sul tuo computer:
pip3 install git+https://github.com/openai/whisper.git
Congratulazioni! Se hai seguito tutte le istruzioni e i passaggi correttamente, hai fatto un ottimo lavoro! Ora sei pronto per utilizzare Whisper.
Convertiamo l’audio in testo con Whisper
Ora che abbiamo installato tutto siamo pronti per iniziare, possiamo procedere con la trascrizione audio utilizzando il prompt dei comandi, poiché Whisper non ha una GUI.
Prima di tutto, assicuriamoci di avere un file audio registrato o preparato precedentemente sul tuo computer.
Ad esempio, supponiamo di avere un file chiamato “Audio.mp3” nella cartella “CartellaTest”.
La prima cosa da fare qui è aprire il prompt dei comandi è digitare il seguente comando per cambiare directory:
cd C:CartellaTest
Successivamente, esegui lo strumento Whisper sul file audio con questo comando:
whisper --model base --language gr --task translate Audio.mp3
Dopo aver eseguito il comando, possiamo tornare nella cartella d’originale e cercare il file di testo generato da Whisper. All’interno di questo file, troveremop la trascrizione dell’audio tradotta in forma di testo.
Conclusione
Come tutti i programmi basati su reti neurali, anche WHISPER ha dovuto essere adeguatamente allenato: è stato “nutrito” con più di 680 mila ore di audio (equivalenti a più di 77 anni) suddivise in ben 99 lingue differenti, allo scopo di acquisire il più ampio spettro possibile di inclinazioni, tonalità, accenti, con voci maschili, femminili, giovani, anziane, con difetti di pronuncia e così via.
Whisper può trascrivere un audio in qualsiasi lingua, ovvero mostrare il testo durante la riproduzione. La traduzione è invece possibile solo in inglese a partire dall’audio in 57 lingue. Le lingue supportate dal modello sono 98 in totale, ma l’elenco è limitato a quelle che offrono una percentuale di errore inferiore al 50%.
Gli sviluppatori possono usare file nei formati mp3, mp4, mpeg, mpga, m4a, wav e webm. La dimensione massima è 25 MB. I file più grandi devono essere divisi in blocchi da 25 MB o meno. L’operazione può essere effettuata con il pacchetto PyDub.