Durante una recente AMA su Reddit, il CEO di OpenAI, Sam Altman, ha discusso le sfide che l’azienda sta affrontando nel lanciare nuovi prodotti, rivelando che una delle ragioni principali è la mancanza di capacità computazionale. Altman ha spiegato che i modelli di intelligenza artificiale di OpenAI sono diventati sempre più complessi e che l’azienda deve fare scelte difficili su come allocare le sue risorse di calcolo verso numerosi progetti innovativi.
La scarsità di infrastruttura computazionale si è dimostrata un ostacolo significativo per OpenAI. Secondo vari report, l’azienda sta cercando di affrontare questa situazione collaborando con Broadcom per sviluppare un chip specifico per l’intelligenza artificiale, con l’obiettivo di avere questa tecnologia disponibile entro il 2026. Questa iniziativa è fondamentale per garantire a OpenAI la capacità necessaria per addestrare e far funzionare i suoi modelli generativi, che richiedono enormi risorse di calcolo.
Un impatto diretto di questa limitata capacità computazionale riguarda la nuova funzionalità Advanced Voice Mode di ChatGPT. Altman ha affermato che le funzionalità visive, inizialmente previste per questo strumento, non verranno implementate a breve. Durante un evento di presentazione tenutosi ad aprile, OpenAI aveva mostrato come il chatbot fosse in grado di rispondere a stimoli visivi, come i vestiti di una persona, ma il rush per presentare questa demo è stato in parte motivato dalla volontà di distogliere l’attenzione dalla conferenza Google I/O che si svolgeva nello stesso periodo. Ci sono stati anche dubbi interni riguardo alla prontezza del modello GPT-4o, portando a ritardi significativi, anche nella versione solo vocale della modalità avanzata.
In merito al lancio di nuovi prodotti, Altman ha comunicato che non esiste al momento un piano di rilascio per la nuova versione di DALL-E, il popolare generatore di immagini di OpenAI. Questa incertezza sui tempi di rilascio riflette le sfide più ampie che l’azienda sta affrontando. Allo stesso modo, il tool di generazione video, Sora, ha subito ritardi significativi dovuti alla necessità di perfezionare il modello e garantire che vengano rispettati criteri di sicurezza e impostazione adeguata. È stato riferito che il sistema iniziale di Sora impiegava più di dieci minuti per produrre un video di un minuto, evidenziando le sfide tecniche che l’azienda deve affrontare.
In un altro punto della AMA, Altman ha accennato all’idea di permettere contenuti NSFW in ChatGPT in futuro, sottolineando che l’azienda intende trattare gli utenti adulti come tali. Ha inoltre dichiarato che la priorità principale di OpenAI è migliorare i suoi modelli di ragionamento di o1 e i loro successori. Durante il recente evento DevDay a Londra, OpenAI ha anticipato una serie di nuove funzionalità in arrivo, tra cui la comprensione delle immagini.
Infine, Altman ha concluso dicendo che ci sono importanti novità in arrivo entro la fine dell’anno, ma ha specificato che non ci saranno lanci denominati GPT-5. Questo approccio riflette una strategia più cauto e pianificato per il futuro dei prodotti OpenAI, che cercano di bilanciare l’innovazione con le risorse disponibili e la qualità del servizio. Con la continua evoluzione dei modelli di intelligenza artificiale, il futuro di OpenAI rimane entusiasmante, ma non privo di sfide significative.