Due anni fa una notizia aveva sollevato enormi dubbi etici per le sue possibili conseguenze: attraverso l'intelligenza artificiale e il cosiddetto "deep learning" è già possibile alterare le voci delle persone, che siano contenute in file audio o anche in video. Lo avevano dimostrato, diffondendo un video dimostrativo, alcuni ricercatori delle università di Stanford e Princeton, il Max Planck institute for informatics e la Adobe, una delle più note software house del mondo. Le immagini mostravano una ragazza pronunciare un discorso poi lo stesso video con le parole modificate ma senza "l'effetto doppiaggio" che siamo abituati a vedere nei film. L'algoritmo, in sostanza, è in grado di apprendere i tratti caratteriali della voce - come tono, profondità, velocità, spaziatura e intonazione - ed applicarli con parole differenti cambiando un discorso e modificando di conseguenza i movimenti labiali delle persone. Insomma, partendo dai fonemi e dalla loro pronuncia, si crea un modello 3D del volto della persona che parla e si replicano tutti i suoni e i movimenti: a quel punto è sufficiente editare il testo del discorso e l'algoritmo rimpiazza la frase originaria. Immaginate ora che cosa può accadere: si potrebbero manipolare persone note o cittadini qualsiasi per diffondere contenuti omofobi, razzisti, offensivi, creare fake news da far diventare virali. O, peggio, costruire o smontare prove processuali (pensate a un'intercettazione telefonica o ambientale che riproduca la voce di qualcuno che dice: l'ho ucciso io) o alterare fatti. Le applicazioni sarebbero infinite e la possibilità offerte dai social di moltiplicarne gli effetti, positivi o negativi, potrebbero rendere impossibile distinguere tra realtà e manipolazione, operazione già oggi sempre più complessa.

In attesa che si trovino sistemi che rendano difficile il lavoro di alterazione attraverso l'intelligenza artificiale, si era pensato subito che quella tecnologia si sarebbe potuta utilizzare nell'industria cinematografica o televisiva per tagliare tempi e costi delle produzioni. Immaginate un attore o un presentatore che sbagliano una scena: il regista dovrà ripeterla, spesso molte volte. Con l'intelligenza artificiale, invece, si potrà semplicemente correggere in post produzione. Questo non è sempre possibile perché gli errori degli attori spesso rendono assolutamente necessaria la ripetizione delle scene, ma certamente le applicazioni sarebbero molteplici.

Quella tecnologia si sta già applicando, seppure in pochissimi casi, nel mondo del cinema e non è una buona notizia per i doppiatori.

Una startup israeliana, la Deepdub, ha trovato il modo per utilizzare l'intelligenza artificiale e il deep learning per tradurre una qualsiasi traccia vocale in una lingua diversa. Significa, ad esempio, che in un futuro molto vicino potremo rivedere Titanic con Leonardo Di Caprio e Kate Winslet che parlano in italiano con la loro voce e non con quella prestata da un doppiatore. E persino, per i nostalgici, riguardare via col vento con Vivien Leigh che pronuncia la famosa "Domani è un altro giorno" in un perfetto italiano. Ma forse avremmo nostalgia della bellissima voce di Lydia Simoneschi Per dimostrare l'efficacia della tecnologia la startup di Tel Aviv ha modellato la voce inconfondibile di Morgan Freeman facendogli parlare uno spagnolo fluente ma dimostrando anche di poter far parlare l'attore in italiano (persino con qualsiasi accento regionale) o in italiano con accento americano, o persino in inglese con accento italiano. La tecnologia può essere applicata anche alla tv, alle news internazionali, ai documentari, agli eventi sportivi con ricadute rivoluzionarie sull'industria dei media. Deepdub sinora è stato testato in sei lingue (non c'è l'italiano) ma l'obiettivo dell'azienda è averlo in 60. Alcune major di Hollywood hanno già testato la nuova tecnologia e l'accoglienza è positiva. Secondo il capo del marketing di Deepdub, Oz Krakowski, oggi il programma può già doppiare una serie televisiva di otto episodi in un mese e mezzo dimezzando i tempi attualmente necessari alla maggior parte delle aziende per doppiare lo stesso contenuto con metodi tradizionali.

Oltre a Deepdub, lavorano a sistemi simili l'azienda canadese Resemble, che ha brevettato una tecnologia che consente di clonare una voce in tante lingue diverse, e la britannica Synthesia il cui programma può intervenire sulle immagini del film per alterarle. Al momento il sistema consente di eliminare il famoso effetto doppiaggio che fa sì che al movimento labiale non corrisponda una parola ma anche le applicazioni sulle immagini sono infinite. E nascondono aspetti positivi e altri ancora più inquietanti.
© Riproduzione riservata