Discord è diventato un improbabile centro per il boom dell'IA generativa
Nel video, una folla esplode in un affollato festival musicale estivo. Mentre parte una base dalle casse, il performer finalmente sale sul palco: è il Joker. Vestito con il suo completo rosso, capelli verdi e il suo trucco caratteristico, il Joker pompa il pugno e balla sul palco, saltellando lungo una passerella per avvicinarsi ancora di più ai suoi fan. Quando è il momento di iniziare a fare rap, il Joker flette le ginocchia e si propelle in aria, rimbalzando su e giù prima di fare una svolta a 360 gradi su un piede. Sembra senza sforzo, eppure se tentassi la manovra, cadresti a faccia in giù. Il Joker non è mai stato così figo.
Poi c'è un altro video, dove la stella NBA Joel Embiid esce dal backstage per salutare la folla prima di eseguire quei stessi movimenti di danza. Poi, è il turno della star di "Curb Your Enthusiasm", Larry David. Ma in ognuna di queste scene, c'è qualcosa che non va - che si tratti del Joker, di Joel Embiid o di Larry David, il corpo del performer è instabile, mentre le espressioni facciali non cambiano mai.
Ovviamente, tutto questo è generato dall'IA, grazie a un'azienda chiamata Viggle.
Il video originale mostra il rapper Lil Yachty salire sul palco al Summer Smash Festival del 2021 - secondo il titolo di un video su YouTube con oltre 6,5 milioni di visualizzazioni, questa entrata è "la più DURA mai vista". Questo è diventato un meme popolare ad aprile, quando le persone hanno inserito i loro personaggi famosi preferiti - o i loro cattivi preferiti, come Sam Bankman-Fried - nel video di Lil Yachty che sale sul palco.
Le offerte AI di testo-video stanno diventando spaventosamente buone, ma non puoi scrivere "sam bankman-fried come lil yachty al Summer Smash del 2021" e aspettarti che Sora sappia esattamente cosa intendi. Viggle funziona in modo diverso.
Nel server Discord di Viggle, gli utenti caricano un video di qualcuno che fa un tipo di movimento - spesso una danza di TikTok - e una foto di una persona. Poi, Viggle crea un video di quella persona che replica i movimenti dal video. È ovvio che questi video non sono reali, anche se sono comunque divertenti. Ma dopo che il meme di Lil Yachty è diventato virale, Viggle è diventato di tendenza, e l'entusiasmo non è diminuito.
"Ci stiamo concentrando sulla costruzione di quello che chiamiamo il modello di generazione video controllabile", ha dichiarato il fondatore di Viggle, Hang Chu, a TechCrunch. "Quando generiamo contenuti, vogliamo controllare esattamente come si muove il personaggio, o come appare la scena. Ma gli strumenti attuali si concentrano solo sul lato del testo-video, dove il testo stesso non è sufficiente a specificare tutta la sottigliezza visiva".
Secondo Chu, Viggle ha due tipi principali di utenti - mentre alcuni fanno meme, altri utilizzano il prodotto come strumento nel processo di produzione per il design di giochi e VFX.
"Ad esempio, un team di ingegneri di animazione potrebbe prendere alcuni disegni di concept e trasformarli rapidamente in asset di animazione grezzi, ma rapidi", ha detto Chu. "Lo scopo principale è vedere come appaiono e si sentono nello schizzo grezzo del piano finale. Di solito ci vogliono giorni, o addirittura settimane per impostarli manualmente, ma con Viggle, questo può essere fatto praticamente istantaneamente e automaticamente. Ciò risparmia tonnellate di lavoro noioso e ripetitivo di modellazione".
A marzo, il server Discord di Viggle aveva qualche migliaio di membri. A metà maggio, c'erano 1,8 milioni di membri, e con giugno ormai alle porte, il server di Viggle è salito a oltre 3 milioni di membri. Questo lo rende più grande dei server di giochi come Valorant e Genshin Impact messi insieme.
La crescita di Viggle non dà segni di rallentamento, se non che l'alta domanda di generazione video ha reso i tempi di attesa un po' troppo lunghi per gli utenti impazienti. Ma poiché Viggle è così incentrato su Discord, il team di sviluppo di Discord ha lavorato direttamente con Viggle per guidare la startup di due anni attraverso la sua rapida crescita.
Fortunatamente per Viggle, Discord è già passato attraverso questo. MidJourney, che opera anche su Discord, ha 20,3 milioni di membri sul suo server, facendolo diventare la più grande comunità singola sulla piattaforma. Nel complesso, Discord conta circa 200 milioni di utenti mensili.
"Nessuno è pronto per quel tipo di crescita, quindi in quella fase di viralità, iniziamo a lavorare con loro, perché non sono pronti", ha dichiarato Ben Shanken, VP di Prodotto di Discord, a TechCrunch. "Dobbiamo essere pronti, perché una grande parte dei messaggi inviati in questo momento riguardano Viggle e MidJourney, e molta della consumazione e dell'uso su Discord è effettivamente generativa AI".
Per startup come Viggle e MidJourney, costruire le loro app su Discord significa che non devono creare un'intera piattaforma per i loro utenti - invece, sono ospitati su una piattaforma che ha già un pubblico esperto di tecnologia, oltre a strumenti di moderazione dei contenuti integrati. Per Viggle, che ha solo quindici dipendenti, il supporto di Discord è cruciale.
"Possiamo concentrarci sulla costruzione del modello come servizio backend, mentre Discord può utilizzare la loro infrastruttura sul front end, e fondamentalmente possiamo iterare più velocemente", ha detto Chu.
Prima di Viggle, Chu è stato ricercatore di intelligenza artificiale presso Autodesk, un gigante degli strumenti 3D. Ha anche svolto ricerche per aziende come Facebook, Nvidia e Google.
Per Discord, agire come un'azienda SaaS accidentale per le startup di AI potrebbe comportare un costo. Da un lato, queste app portano un nuovo pubblico a Discord, e probabilmente sono benefiche per le metriche degli utenti. Ma ospitare così tanti video può essere difficile e costoso dal punto di vista tecnico, specialmente quando gli altri utenti attraverso la piattaforma stanno trasmettendo videogiochi in diretta, facendo videochiamate e chiamate vocali. Senza una piattaforma come Discord, però, queste startup potrebbero non essere in grado di crescere allo stesso ritmo.
"Non è facile per nessun tipo di azienda scalare, ma Discord è costruito per quel tipo di scala, e siamo in grado di aiutarli ad assorbire tutto molto bene", ha detto Shanken.
Anche se queste aziende possono semplicemente adottare le linee guida sui contenuti di Discord e utilizzare le sue app di moderazione dei contenuti, sarà sempre una sfida assicurarsi che 3 milioni di persone si comportino correttamente. Anche quei meme di Lil Yachty che escono violano tecnicamente le regole di Viggle, che incoraggiano gli utenti a evitare di generare immagini di persone reali - inclusi celebrità - senza il loro consenso.
Per ora, la salvezza di Viggle potrebbe essere che il loro output non è ancora realistico al cento per cento. La tecnologia è davvero impressionante, ma sappiamo di meglio. Quell'animazione del Joker traballante non è sicuramente reale, ma è sicuramente divertente.