OpenAI Lancia o1: Un Modello AI che Può Verificare Se Stesso

Settembre 12, 2024

754

OpenAI ha annunciato il suo prossimo grande rilascio di prodotto: un modello di intelligenza artificiale chiamato o1, precedentemente noto con il nome in codice Strawberry. Il modello o1 è in realtà una famiglia di modelli, con due versioni disponibili a partire da oggi: o1-preview e o1-mini, quest’ultima progettata per essere più piccola ed efficiente, con un focus sulla generazione di codice.

Per accedere a o1 attraverso il client ChatGPT, sarà necessario essere iscritti a ChatGPT Plus o Team. Gli utenti aziendali e quelli educativi riceveranno l’accesso all’inizio della prossima settimana.

Attualmente, l’esperienza chatbot con o1 è piuttosto basica. A differenza di GPT-4o, il predecessore di o1, quest’ultimo non è in grado di navigare in rete o analizzare file. Il modello dispone di funzionalità di analisi delle immagini, ma queste sono state disabilitate in attesa di ulteriori test. Inoltre, o1 è soggetto a limitazioni di utilizzo settimanale: 30 messaggi per o1-preview e 50 messaggi per o1-mini.

OpenAI ha annunciato che o1 sarà piuttosto costoso. Nel caso dell’API, o1-preview costa 15 dollari per 1 milione di token di input e 60 dollari per 1 milione di token di output, il che rappresenta un costo tre volte superiore rispetto a GPT-4o per l’input e quattro volte superiore per l’output. (I token sono frammenti di dati grezzi; 1 milione corrisponde a circa 750.000 parole.)

OpenAI prevede di rendere accessibile o1-mini a tutti gli utenti gratuiti di ChatGPT, ma non è stata fissata una data di rilascio. Attendiamo conferme a riguardo.

Catena di Ragionamento o1 evita alcuni degli ostacoli di ragionamento che solitamente ostacolano i modelli di AI generativa, grazie alla sua capacità di verificare se stesso spendendo più tempo a considerare tutti gli aspetti di una domanda. Quello che rende o1 “qualitativamente” diverso da altri modelli di AI generativa è la sua capacità di “pensare” prima di rispondere alle richieste, secondo OpenAI.

Quando ha più tempo per “pensare”, o1 può ragionare attraverso un compito in modo olistico — pianificando e svolgendo una serie di azioni nel tempo per arrivare a una risposta. Questo lo rende particolarmente adatto a compiti che richiedono la sintesi dei risultati di più sottocompiti, come la rilevazione di e-mail privilegiate in una casella di posta di un avvocato o la creazione di una strategia di marketing per un prodotto.

In un serie di post su X giovedì, Noam Brown, ricercatore di OpenAI, ha dichiarato che “o1 è addestrato con l’apprendimento per rinforzo.” Questo insegna al sistema a “pensare” prima di rispondere attraverso una catena di pensiero privata, con premi quando o1 fornisce risposte corrette e penalità quando non lo fa.

Brown ha aggiunto che OpenAI ha utilizzato un nuovo algoritmo di ottimizzazione e un dataset di addestramento contenente “dati di ragionamento” e letteratura scientifica specificamente progettati per compiti di ragionamento. “Più a lungo [o1] pensa, meglio fa,” ha detto.

OpenAI o1 Secondo quanto riferito, o1 performa meglio su problemi di analisi dei dati, scienza e codifica. GitHub, che ha testato o1 con il suo assistente di codifica GitHub Copilot, riporta che il modello è abile nell’ottimizzare algoritmi e codice per applicazioni. E, almeno secondo le valutazioni di OpenAI, o1 migliora rispetto a GPT-4o nelle sue competenze multilingue, specialmente in lingue come l’arabo e il coreano.

Ethan Mollick, professore di management presso Wharton, ha scritto le sue impressioni su o1 dopo averlo utilizzato per un mese in un post sul suo blog personale. In un cruciverba difficile, ha detto che o1 ha fatto bene, ottenendo tutte le risposte corrette (nonostante abbia inventato un nuovo indizio).

OpenAI o1 non è perfetto Ci sono, tuttavia, degli svantaggi. o1 può essere più lento rispetto ad altri modelli, a seconda della query. Arredondo riferisce che o1 può impiegare oltre 10 secondi per rispondere ad alcune domande, mostrando il progresso tramite un’etichetta per il sottocompito attualmente in esecuzione.

Dato il carattere imprevedibile dei modelli di AI generativa, è probabile che o1 presenti altri difetti e limitazioni. Brown ha ammesso che o1 può inciampare su giochi di tris di tanto in tanto, ad esempio. E in un documento tecnico, OpenAI ha detto di aver ricevuto feedback aneddotico dai tester che o1 tende a hallucinate (cioè, creare contenuti non veritieri) più frequentemente rispetto a GPT-4o — e ammette meno spesso quando non ha una risposta a una domanda.

Competizione Intensa Va notato che OpenAI non è l’unico fornitore di AI che esplora questi metodi di ragionamento per migliorare la factualità dei modelli. I ricercatori di Google DeepMind hanno recentemente pubblicato uno studio che dimostra che, dando ai modelli più tempo di calcolo e guida per soddisfare le richieste, le prestazioni di questi modelli possono essere significativamente migliorate senza ulteriori modifiche.

Illustrando la durezza della competizione, OpenAI ha detto che ha deciso di non mostrare le “catene di pensiero” grezze di o1 in ChatGPT in parte a causa del “vantaggio competitivo.” (Invece, l’azienda ha optato per mostrare “riassunti generati dal modello” delle catene di pensiero.)

OpenAI potrebbe essere la prima ad lanciare o1. Ma, assumendo che i rivali seguano presto con modelli simili, il vero test per l’azienda sarà rendere o1 ampiamente disponibile — e a un prezzo più accessibile.

Da lì, vedremo quanto rapidamente OpenAI potrà fornire versioni aggiornate di o1. L’azienda afferma di mirare a sperimentare con modelli o1 che ragionano per ore, giorni o addirittura settimane per migliorare ulteriormente le loro capacità di ragionamento.