Amazon Web Services (AWS) ha avviato un’indagine su Perplexity AI per verificare se il servizio stia violando le sue politiche riguardanti l’uso dei crawler sui suoi server. Secondo quanto riportato da fonti attendibili, tra cui Wired, AWS sta esaminando accuse secondo cui i crawler di Perplexity AI potrebbero non rispettare il Protocollo di Esclusione dei Robot (robots.txt), uno standard fondamentale nel web che regola l’accesso dei bot alle pagine web.
Il protocollo robots.txt consente agli sviluppatori di indicare se i bot possono o non possono accedere a determinate pagine di un dominio. Sebbene il rispetto di queste istruzioni sia volontario, i crawler di aziende rispettabili hanno generalmente aderito a questo standard fin dagli anni ’90, quando è stato introdotto.
Secondo un articolo pubblicato da Wired, è emerso che un’istanza virtuale ospitata su un server AWS con l’indirizzo IP specifico, 44.221.181.252, è stata identificata come operata da Perplexity. Questa istanza avrebbe visitato ripetutamente le proprietà di Condé Nast e altri importanti pubblicatori come The Guardian, Forbes e The New York Times, per effettuare scraping dei loro contenuti. Wired ha anche condotto un test inserendo titoli e brevi descrizioni dei loro articoli nel chatbot di Perplexity, ottenendo risposte che parafrasavano gli articoli originali con attribuzione minima.
Il rapporto di Wired ha indicato che AWS è stato informato solo delle attività del crawler di Perplexity AI, nonostante altre aziende AI possano essere coinvolte in pratiche simili di bypass del robots.txt per raccogliere dati utilizzati per addestrare modelli linguistici avanzati.
In risposta alle preoccupazioni sollevate, un portavoce di Amazon Web Services ha dichiarato che i loro termini di servizio vietano attività abusive e illegali e che AWS è impegnata a indagare su tutte le segnalazioni di possibile violazione. Hanno anche sottolineato che i clienti sono responsabili del rispetto di queste politiche.
Dall’altra parte, Sara Platnick, portavoce di Perplexity, ha ribadito che i loro servizi rispettano il robots.txt e che hanno già risposto alle richieste di AWS, negando qualsiasi violazione dei termini di servizio.
Il CEO di Perplexity, Aravind Srinivas, ha espresso disaccordo con le accuse, precisando che la sua azienda non ignora intenzionalmente il Protocollo di Esclusione dei Robot e ha ammesso l’uso di crawler di terze parti, inclusa la macchina identificata da Wired.
Questa situazione solleva importanti questioni etiche e legali riguardo l’uso dei dati sul web e il rispetto delle normative stabilite. Resta da vedere l’esito dell’indagine di AWS e se porterà a cambiamenti nelle politiche di utilizzo dei crawler da parte di aziende come Perplexity AI.
Continueremo a monitorare lo sviluppo di questa storia e forniremo ulteriori aggiornamenti man mano che nuove informazioni diventeranno disponibili.