Xiaomi OmniVoice: AI di sintesi vocale super potente libera e open-source
Xiaomi ha annunciato nelle scorse ore OmniVoice, un nuovo modello di intelligenza artificiale open source dedicato alla sintesi vocale avanzata. Sviluppato dal team Kaldi dell’AI Lab interno dell’azienda, il sistema punta a distinguersi soprattutto per la clonazione vocale realistica e la capacità di funzionare con tantissime lingue, anche quelle poco diffuse. Secondo la società cinese, il modello può generare output credibili e convincenti in “centinaia” di lingue, anche quelle per cui ci sono quantità limitate di dati disponibili online per l’addestramento.
Xiaomi dice che, nei test interni, OmniVoice ha quantomeno eguagliato, e in diversi casi superato, i principali modelli commerciali attuali in 24 lingue, incluso inglese e cinese, per qualità della voce e intelligibilità, facendo ricorso esclusivamente a dataset open source per l’addestramento. Xiaomi afferma inoltre che, in benchmark condotti su 102 lingue, il livello di comprensione del parlato sintetizzato è risultato vicino, e in alcuni casi superiore, a quello della voce umana reale.
OmniVoice, dice il colosso cinese, è particolarmente performante nei casi in cui i dati a disposizione per emulare una lingua siano estremamente scarsi: anche con meno di 10 ore di dati audio il modello riesce comunque a produrre sintesi vocali di alta qualità, aprendo potenzialmente nuove possibilità per lingue regionali o minoritarie e dialetti spesso escluse dalle piattaforme AI tradizionali. Parte del merito è attribuito all’architettura del modello stesso, molto più semplice rispetto a quelli tradizionali: invece di fare affidamento su più moduli separati, il sistema sfrutta un’unica rete bidirezionale Transformer che converte direttamente il testo in voce. In questo modo, OmniVoice riduce drasticamente complessità e tempi di elaborazione.
CLICCA QUI PER CONTINUARE A LEGGERE
Qual è la tua reazione?
Mi piace
0
Antipatico
0
Lo amo
0
Comico
0
Wow
0
Triste
0
Furioso
0
Commenti (0)