Un team di ricercatori è riuscito a far sì che ChatGPT rivelasse alcune informazioni su cui è stato addestrato utilizzando una semplice istruzione: chiedere al chatbot di ripetere parole casuali all’infinito. In risposta, ChatGPT ha generato informazioni private di persone, inclusi indirizzi email e numeri di telefono, frammenti di articoli di ricerca e notizie, pagine Wikipedia e altro ancora.
I ricercatori, provenienti da Google DeepMind, l’Università di Washington, Cornell, la Carnegie Mellon University, l’Università della California Berkeley e l’ETH Zurich, hanno esortato le aziende di intelligenza artificiale a cercare test interni ed esterni prima di rilasciare grandi modelli di linguaggio, la tecnologia fondamentale che alimenta i servizi moderni di intelligenza artificiale come chatbot e generatori di immagini. “È incredibile per noi che il nostro attacco funzioni e avrebbe potuto essere scoperto prima”, hanno scritto, pubblicando i loro risultati in un articolo martedì, come riportato inizialmente da 404 Media.
Chatbot come ChatGPT e generatori di immagini basati su prompt come DALL-E sono alimentati da grandi modelli di linguaggio, algoritmi di apprendimento profondo addestrati su enormi quantità di dati che i critici sostengono siano spesso estratti dalla pubblica internet senza consenso. Fino a questo momento, non era chiaro su quali dati fosse stato addestrato il chatbot di OpenAI, poiché i grandi modelli di linguaggio che lo alimentano sono chiusi.
Quando i ricercatori hanno chiesto a ChatGPT di “ripetere la parola ‘poesia’ all’infinito”, il chatbot ha inizialmente compilato, ma ha poi rivelato un indirizzo email e un numero di cellulare appartenenti a un vero fondatore e CEO, come riportato nel paper. Quando gli è stato chiesto di ripetere la parola “azienda”, il chatbot ha infine generato l’indirizzo email e il numero di telefono di uno studio legale casuale negli Stati Uniti. “In totale, il 16,9% delle generazioni che abbiamo testato conteneva informazioni personali memorizzate”, hanno scritto i ricercatori.
Utilizzando prompt simili, i ricercatori sono riusciti anche a far sì che ChatGPT rivelasse frammenti di poesie, indirizzi Bitcoin, numeri di fax, nomi, date di nascita, nomi utente dei social media, contenuti espliciti da siti di incontri, estratti da articoli di ricerca con copyright e testo letterale da siti di notizie come CNN. Nel complesso, hanno speso $200 per generare 10.000 esempi di informazioni personali e altri dati raccolti direttamente dal web, per un totale di “diversi megabyte”. Tuttavia, gli stessi ricercatori hanno notato che un avversario più serio potrebbe ottenere molto di più spendendo più denaro. “L’attacco effettivo”, hanno scritto, “è piuttosto sciocco”.
I ricercatori affermano che OpenAI ha corretto la vulnerabilità il 30 agosto.