IA: Meta presenta Voicebox, uno strumento di sintesi vocale che sarà alla parola ciò che ChatGPT è al testo! I primi risultati lasciano immaginare molte possibili applicazioni.
Meta non si ferma più! Dopo aver proposto diversi progetti legati all’intelligenza artificiale, l’azienda ha appena presentato un nuovo modello simile a ChatGPT o DALL-E, che è in grado di generare voci a partire dal testo.
Intelligenza artificiale: dal testo, dalla musica e ora anche dalle voci…
Negli ultimi mesi, Meta ha chiaramente concentrato gran parte dei suoi sforzi nel campo dell’intelligenza artificiale. Il lancio del loro modello LLaMA è stato un successo nella comunità Open Source, che lo ha utilizzato come base per numerosi progetti indipendenti. Più recentemente, il gigante americano ha lanciato MusicGen, la sua IA generativa capace di creare musica. E ora è il momento per Meta di presentare un nuovo modello particolarmente sorprendente, chiamato Voicebox. Venerdì scorso, l’azienda ha presentato il suo ultimo progetto come il primo modello capace di generalizzare le attività di generazione della parola senza essere stato appositamente addestrato per questo.
Come si può capire dalla frase precedente, Voicebox non ha bisogno di essere addestrato preventivamente. Pertanto, è possibile scrivere una frase da convertire in voce, da cui il sistema genererà queste voci sintetizzate, non sempre perfette ma molto convincenti, in diversi stili. La funzionalità più “tradizionale” è quella di poter duplicare la voce di chiunque per farla pronunciare qualsiasi frase. Con Voicebox, basta aggiungere un piccolo clip audio (ad esempio il nostro) accanto alla frase scritta che vogliamo dire, affinché il modello generi una frase letta con la suddetta voce.
Un’ennesima IA che pone diverse domande…
Per creare Voicebox, gli ingegneri di Meta si sono basati su un vasto panel di audiolibri letti in inglese e in altre lingue. Ed è proprio per questi motivi che nelle demo le voci suonano come se una persona stesse leggendo un libro, cioè con un’intonazione meno informale e colloquiale. L’obiettivo di Meta nei prossimi mesi è proprio quello di riuscire a far evolvere il suo modello affinché riesca a parlare sempre più in modo naturale.
Meta AI is on fire.
They just announced Voicebox, a multilingual high-quality text-to-speech AI.
The quality is so good that they’re not making the Voicebox model or code publicly available (yet) to avoid misuse.
Sounds like it’s about to go compete with ElevenLabs/PlayHT. pic.twitter.com/Ws733Aqtlo
— Rowan Cheung (@rowancheung) June 18, 2023
A fianco di ciò, anche se questo tipo di sistema presenta notevoli vantaggi e casi d’uso molto utili, Voicebox può anche essere utilizzato impropriamente per creare deepfake. Alcune persone su Twitter pensano persino che questo modello porterà gli scherzi telefonici a un altro livello. Infatti, con IA come questa, è possibile eseguire truffe di ogni tipo, fingendo di essere un’altra persona. Ma per fortuna, Meta ha già previsto una contromisura!
In effetti, a differenza di LLaMA, che è Open Source e condiviso con la comunità accademica, Meta ha deciso di non pubblicare il codice di Voicebox. L’azienda ha dichiarato che, a causa di un uso improprio, preferisce non renderlo accessibile al pubblico perché desidera continuare a approfondire le sue ricerche sull’IA in modo responsabile. Per coloro che lo chiedono, lo studio è condiviso, ma solo per trasparenza.