Sommario:
- Come l'apprendimento profondo genera voci umane
- Ricreare la voce di una persona senza voce
- Bilanciamento degli usi negativi dei sintetizzatori AI
Video: Satisfying Video l Kinetic Sand Nail Polish Foot Cutting ASMR #7 Rainbow ToyTocToc (Novembre 2024)
Nel 2017, la sclerosi laterale amiotrofica (SLA), un disordine neurologico devastante, ha derubato Pat Quinn, il fondatore della famosa Ice Bucket Challenge, della sua capacità di parlare.
Grazie ai progressi nell'apprendimento automatico e nell'apprendimento profondo, gli algoritmi di intelligenza artificiale sono diventati molto bravi a imitare gli umani. Ma mentre molti importanti sviluppi nello spazio sono stati negativi, il potere di imitazione dell'IA è stato una forza di cambiamento positivo per Quinn.
"La maggior parte delle persone che convivono con la SLA (nota anche come malattia dei motoneuroni) finiscono per paralizzare e incapaci di comunicare con voci" computer "artificiali", afferma Oskar Westerdal, cofondatore di Project Revoice, un'iniziativa che mira ad aiutare i pazienti con SLA come Quinn.
Per ricreare la voce di Quinn, Project Revoice ha collaborato con Lyrebird, una delle poche aziende che usano l'intelligenza artificiale per clonare la voce di una persona, un gruppo che include anche WaveNet e Voicery di Google, una startup supportata da Y Combinator che utilizza l'IA per creare registrazioni vocali sintetizzate.
Come l'apprendimento profondo genera voci umane
Dietro a queste applicazioni ci sono algoritmi di apprendimento profondo, un ramo popolare di intelligenza artificiale che esamina grandi serie di dati per approfondimenti e modelli che non possono essere acquisiti con un software tradizionale basato su regole. Quando si allena un sintetizzatore vocale ad apprendimento profondo con sufficienti registrazioni vocali, viene creato un modello digitale che rappresenta la voce della persona e può generare nuovi campioni vocali.
Prima dell'avvento della tecnologia di sintesi vocale basata sull'intelligenza artificiale, i pazienti con SLA dovevano usare voci digitali generiche che non erano le loro. Altre tecnologie potevano ricucire frasi preregistrate con la voce del paziente, ma i risultati erano troppo artificiali e richiedevano dozzine di ore di registrazioni vocali per essere di minimo utilizzo.
Le applicazioni di deep learning, d'altra parte, richiedono molti meno dati e forniscono risultati migliori. "Ciò che Lyrebird può ottenere con solo un paio d'ore di audio è straordinario: offre alle persone un clone vocale digitale completo, in modo che possano dire quello che vogliono", afferma Westerdal.
Ricreare la voce di una persona senza voce
Uno dei limiti delle applicazioni di apprendimento profondo è la loro dipendenza da campioni di dati di alta qualità per la formazione delle loro reti neurali. Il problema con i pazienti con SLA è che una volta che perdono la voce, è impossibile registrare campioni vocali. Fortunatamente, Quinn ha avuto ore di note e interviste registrate.
"La sfida più grande è stata la qualità. Questa tecnologia dipende completamente dall'avere registrazioni coerenti e di alta qualità che seguono anche una sceneggiatura esatta, quindi abbiamo dovuto lavorare con uno studio sonoro per" rimasterizzare "manualmente e trascrivere ogni linea di dialogo che potevamo trovare di Pat ", dice Westerdal.
"Eravamo un po 'spaventati dal fatto che non saremmo stati in grado di fornire una qualità eccezionale per creare la voce di Pat", afferma Jose Sotelo, cofondatore di Lyrebird. "Poiché non siamo riusciti a ottenere registrazioni pulite, la qualità finale della voce artificiale non è perfetta. Pensiamo di poter fare un lavoro molto migliore con registrazioni pulite".
I risultati sembrano ancora un po 'innaturali e sintetici. Ma per Quinn, che aveva usato una voce generica per comunicare, la differenza era drammatica. "Dopo aver ascoltato la mia voce attraverso questa nuova tecnologia, sono rimasto senza parole! Perché i pazienti sappiano che possono avere la propria voce dopo che l'ALS lo porta via, cambierà il modo in cui le persone vivono con l'ALS", afferma.
Quinn raccomanda ai pazienti con SLA di registrare la propria voce prima che sia troppo tardi. "Dopo aver ascoltato di nuovo la mia voce, ho bisogno che i pazienti con SLA sappiano che registrare la loro voce è incredibilmente importante", afferma.
Bilanciamento degli usi negativi dei sintetizzatori AI
All'inizio di quest'anno, FakeApp, un'applicazione di scambio di volti basata sull'intelligenza artificiale, ha scatenato un assalto di video pornografici falsi con celebrità e politici. C'è preoccupazione che applicazioni come FakeApp e Lyrebird introdurranno una nuova era di notizie false, frodi e falsificazioni.
La pagina etica sul sito Web di Lyrebird in precedenza riconosceva che la tecnologia potrebbe "potenzialmente avere conseguenze pericolose come diplomatici fuorvianti, frodi e, più in generale, qualsiasi altro problema causato dal furto dell'identità di qualcun altro".
Per guidare il punto, il sito Web dell'azienda presenta diverse registrazioni sintetizzate create con le voci di Donald Trump e Barack Obama.
@realDonaldTrump https://t.co/N6DRPdEGPT pic.twitter.com/G30DvmQNdk
- Lyrebird AI (@LyrebirdAi) 4 settembre 2017
La storia di Quinn potrebbe aiutare a far luce sugli aspetti positivi di un settore che ha tolto la scia agli usi potenzialmente inquietanti e non etici delle sue applicazioni. "È importante che le persone realizzino il lato positivo di questa tecnologia", ricorda Sotelo di Lyrebird.
A parte gli usi medici, le applicazioni di sintetizzatore AI possono servire altri obiettivi produttivi. Voicery fornisce ai marchi voci digitalizzate personalizzate basate su algoritmi AI. Google sta inoltre sperimentando WaveNet per offrire un'esperienza più naturale agli utenti dei suoi dispositivi basati su Google Assistant. Altre aree in cui la tecnologia è utile includono l'automazione di audiolibri o la semplificazione del doppiaggio vocale nei film.
Sicuramente sorgeranno ostacoli etici e legali e i dibattiti continueranno. Ma per Quinn, l'IA è una forza per il bene. "Non voglio sembrare un computer", dice. "Voglio sembrare come me."