OpenAI avrebbe in programma di presentare lunedì una nuova versione di ChatGPT in grado di dialogare via voce con gli esseri umani riconoscendo la loro intonazione
OpenAI, la compagnia dietro il motore di intelligenza artificiale ChatGPT, starebbe per introdurre un nuovo modello di intelligenza artificiale multimodale capace di interagire attraverso il dialogo e di riconoscere oggetti, e pensato in modo particolare per l'utilizzo su smartphone. Diversi insider affermano che questo potrebbe essere uno degli annunci previsti per la presentazione che la compagnia trasmetterà lunedì online, alle 19 ora italiana. Il nuovo assistente promette una interpretazione di immagini e audio più veloce e accurata rispetto ai precedenti modelli di trascrizione e sintesi vocale offerti separatamente dalla compagnia. Sarà particolarmente utile per gli operatori del servizio clienti, aiutandoli a comprendere meglio l'intonazione nelle voci dei chiamanti. Il modello potrebbe anche assistere gli studenti o tradurre insegne nel mondo reale.
Le fonti sostengono che questo modello supera GPT-4 Turbo nel rispondere a determinati tipi di domande. Parallelamente, sembra che OpenAI stia preparando una nuova funzionalità di ChatGPT per effettuare chiamate telefoniche. Questa ipotesi nasce da uno screenshot pubblicato dallo sviluppatore Ananay Arora, che mostra codici legati a funzionalità di chiamata. Arora ha inoltre notato che OpenAI ha configurato server destinati alla comunicazione audio e video in tempo reale. Nonostante le speculazioni, il CEO di OpenAI, Sam Altman, ha negato che l'annuncio imminente riguardi direttamente GPT-5, che arriverù invece entro la fine dell'anno. Altman ha anche escluso che l'annuncio includa un nuovo motore di ricerca alimentato da IA. Il tempismo di questi sviluppi è cruciale, in quanto Google sta testando l'utilizzo dell'intelligenza artificiale per effettuare chiamate telefoniche e si vocifera di un progetto chiamato "Pixie", un sostituto multimodale dell'assistente Google capace di riconoscere oggetti attraverso la camera di un dispositivo.