“Come misurato sui benchmark tradizionali, GPT-4o raggiunge prestazioni di livello GPT-4 Turbo sull’intelligenza di testo, ragionamento e codifica, stabilendo nuovi limiti elevati sulle capacità multilingue, audio e visive“, spiega l’azienda
Nel corso del suo “Spring Update” OpenAI ha annunciato GPT-4o (dove “o” sta per “omni”), il modello AI che può leggere le immagini, tradurre lingue e identificare emozioni osservando espressioni visive. L’ultima tecnologia alla base del chatbot AI ChatGPT ha funzioni vocali e visive in tempo reale e sarà offerta gratuitamente a tutti gli utenti di ChatGPT, compresi i non abbonati. La nuova versione è più veloce dei modelli precedenti ed è “un passo avanti verso un’interazione uomo-computer molto più naturale“. “Dato che GPT-4o è il nostro primo modello che combina tutte queste modalità, stiamo ancora solo esplorando la superficie di ciò che il modello può fare e dei suoi limiti“, hanno affermato i dirigenti di OpenAI durante la presentazione.
Cosa cambia con GPT-4o
“Stiamo annunciando GPT-4o, il nostro nuovo modello di punta in grado di ragionare su audio, visione e testo in tempo reale“, ha fatto sapere la società. OpenAI ha spiegato che prima di GPT-4o si poteva utilizzare la modalità vocale per parlare con il chatbot con una latenza media di 2,8 secondi (GPT-3.5) e 5,4 secondi (GPT-4). Con la nuova versione, invece, il ritmo di conversazione diventa più semplice e il ritardo tra la domanda e la ricezione della risposta è di soli 232 millisecondi, con una media di 320 millisecondi (simile al tempo di risposta umano in una conversazione). GPT-4 offre anche un miglioramento sulla comprensione di testi in lingue diverse dall’inglese. Il rallentamento era dovuto al lavoro svolto da tre modelli separati: il primo che trascrive l’audio in testo, GPT-3.5 o GPT-4 che comprende il testo e genera e il terzo modello che riconverte il testo in audio.
GPT-4o riesce invece a elaborare tutti gli input e output sulla stessa rete neurale. La nuova tecnologia è capace di:
- comprendere e discutere le immagini che condividi. Ad esempio, ora puoi scattare una foto di un menu in una lingua diversa e parlare con GPT-4o per tradurlo. Le capacità visive del nuovo chatbot funzionano meglio di GPT-4 Turbo nelle valutazioni relative alle capacità visive.
- rendere le conversazioni vocali e tramite video più naturali e in tempo reale;
- analizzare alcuni codici informatici;
- tradurre testi tra italiano e inglese;
- interpretare le espressioni presenti in un selfie;
- ricordare ciò che gli è stato chiesto in passato.
GPT-4o è più economico del 50% rispetto a GPT-4 Turbo. “Come misurato sui benchmark tradizionali, GPT-4o raggiunge prestazioni di livello GPT-4 Turbo sull’intelligenza di testo, ragionamento e codifica, stabilendo al contempo nuovi limiti elevati sulle capacità multilingue, audio e visive“, spiega l’azienda.
Quando sarà disponibile la nuova versione
OpenAI ha affermato che la sicurezza è migliorata grazie all’integrazione fin dalla progettazione in tutte le modalità, “di tecniche come il filtraggio dei dati di addestramento e il perfezionamento del comportamento del modello attraverso la post-formazione“. Sono stati creati “nuovi sistemi di sicurezza per fornire una notevole protezione sugli output vocali”, ha sottolineato l’azienda. “GPT-4o è stato anche sottoposto anche a dei test esterni con oltre 70 esperti in vari settori tra i quali psicologia sociale, pregiudizi, equità e disinformazione per identificare i rischi introdotti o amplificati dalle modalità aggiunte”, hanno spiegato gli sviluppatori. Il modello GPT-4o sarà gratuito, ma gli utenti premium “Plus” avranno un limite di capacità maggiore per i messaggi.
OpenAI ha anche annunciato che sta apportando alcuni aggiornamenti all’interfaccia web di ChatGPT, introducendo una nuova schermata iniziale, un layout dei messaggi ridisegnato e altro ancora. “Il nuovo look è progettato per essere più amichevole e colloquiale“, ha fatto sapere la società. GPT-4o sarà disponibile anche come servizio tramite api. “GPT-4o è stato sottoposto a un ampio team con oltre 70 esperti esterni in settori quali psicologia sociale, pregiudizi, equità e disinformazione per identificare i rischi introdotti o amplificati dalle modalità appena aggiunte“, ha detto OpenAI.
“Mostra a ChatGPT una o più immagini. Risolvi il motivo per cui la tua griglia non si avvia, esplora il contenuto del tuo frigorifero per pianificare un pasto o analizza un grafico complesso per i dati relativi al lavoro”, si legge nel sito di OpenAI. “ChatGPT può rispondere alle tue domande utilizzando la sua vasta conoscenza e con informazioni dal web”, continua la nota.