I nuovi modelli audio di OpenAI puntano al realismo più estremo per gli agenti vocali

Maggio 08, 2026 - 19:34

I nuovi modelli audio di OpenAI puntano al realismo più estremo per gli agenti vocali

OpenAI non sta mai ferma e ha da poco annunciato tre nuovi modelli audio che sono espressamente pensati per chi sviluppa app vocali e assistenti AI. La sensazione generale è che l’azienda statunitense voglia cercare di rendere le conversazioni sempre meno “artificiali” e molto più vicine a quelle reali: più umane, insomma.

OPEN AI VUOLE PIÙ NATURALEZZA E MENO RIGIDITÀ

Il modello principale si chiama GPT-Realtime-2, e senza ombra di dubbio è quello più interessante. A differenza delle precedenti versioni, quest'ultimo riesce a gestire meglio le pause, le correzioni ed anche i cambi improvvisi di argomento senza però trasmettere quell’effetto robotico che a volte interrompe il flusso di una conversazione. OpenAI vuole dunque far sembrare gli assistenti vocali più spontanei, per così dire, e "meno rigidi".

Sono state aggiunte anche delle piccole frasi automatiche tipo “controllo subito” oppure “un secondo”, usate mentre il sistema esegue operazioni in background. Nulla di che in apparenza, e invece non è così: sono piccole trovate che, però, aiutano a rendere l’interazione più naturale e vicina a quella umana. Inoltre il nuovo modello supporta contesti molto più lunghi, fino a 128K token, per cui può ricordare meglio informazioni e termini specifici.

Il miglior top gamma Android? Oppo Find X9 Pro, compralo al miglior prezzo da Amazon Marketplace a 1,089 euro.