Gemma 4, Google triplica la velocità dei suoi modelli AI in locale, ecco come

Maggio 07, 2026 - 15:29

Gemma 4, Google triplica la velocità dei suoi modelli AI in locale, ecco come

È passata appena qualche settimana dal rilascio della famiglia di modelli AI Gemma 4, ma nelle scorse ore Google ha annunciato una novità che, promette, potrebbe addirittura triplicarne la velocità senza alcuna perdita di qualità dell’output. Tutto merito dei cosiddetti “Multi-Token Prediction drafters”, modelli sperimentali che sfruttano una tecnica chiamata speculative decoding. Per farla molto breve, è un’AI che aiuta un’altra AI; AI-ception!

Gemma, ricordiamo, è sostanzialmente la versione di Gemini pensata primariamente per l’esecuzione in locale su hardware consumer/enthusiast/prosumer, dagli smartphone alle workstation, senza dipendere completamente dal cloud. Il limite principale dell'AI locale è la lentezza di elaborazione dei token: normalmente, i LLM generano i loro output un singolo token alla volta, elaborando ogni singolo passaggio in sequenza. Questo approccio richiede continui trasferimenti di dati tra memoria video e unità di calcolo, soprattutto su GPU consumer e dispositivi mobili dove la banda disponibile è molto inferiore rispetto ai sistemi enterprise con memoria HBM. Si crea quindi un collo di bottiglia.

I nuovi drafter MTP cercano di aggirare il problema anticipando più token contemporaneamente. In pratica, un modello leggero prova a “indovinare” le prossime parole mentre il modello principale continua a lavorare normalmente. Successivamente Gemma verifica in parallelo se le previsioni sono corrette: se lo sono, l’intera sequenza viene accettata in un solo passaggio, riducendo drasticamente i tempi di generazione.

Il medio gamma che accontenta tutti? Nothing Phone (3a), compralo al miglior prezzo da Aliexpress.com a 265 euro.