Il modo in cui ci esprimiamo potrebbe rivelare molti dettagli personali, soprattutto quando interagiamo con chatbot che si basano sull’intelligenza artificiale.
Una recente ricerca ha scoperto che chatbot come ChatGPT sono capaci di ricavare informazioni sensibili dagli utenti, anche da conversazioni che all’apparenza sembrano insignificanti. Il fenomeno è strettamente legato al processo di addestramento degli algoritmi che stanno alla base di questi modelli.
A guidare la ricerca troviamo il professor Martin Vechev, un esperto di informatica del Politecnico di Zurigo in Svizzera. Si è scoperto che i grandi modelli linguistici (Llm) che alimentano questi chatbot sofisticati sono capaci di dedurre in modo accurato moltissime informazioni personali dagli utenti.
Tali informazioni possono riguardare etnia, posizione geografica, occupazione e altro. Chiaramente, la scoperta solleva preoccupazioni circa la possibilità che truffatori colgano la palla al balzo per raccogliere i dati degli utenti. Inoltre, le aziende potrebbero utilizzare queste informazioni per creare profili dettagliati, aprendo la strada a una nuova era della pubblicità personalizzata.
Il team di ricerca di Zurigo ha condotto test utilizzando modelli linguistici sviluppati da aziende come OpenAI, Google, Meta e Anthropic. A quanto pare, questi modelli sono in grado di dedurre informazioni sensibili con una precisione sorprendente, in una percentuale compresa tra l’85 e il 95%.
A dimostrazione di ciò sono state utilizzate conversazioni pubbliche su Reddit in cui gli utenti avevano condiviso dettagli personali: ad esempio, si è scoperta l’età di un utente basandosi sulle sue tradizioni culturali.
Iscriviti al canale Telegram di Servicematica
Notizie, aggiornamenti ed interruzioni. Tutto in tempo reale.
Quello che rende questa scoperta ancora più inquietante è che i modelli linguistici di grandi dimensioni sono addestrati su enormi quantità di dati raccolti dal web, che spesso contengono informazioni personali oltre a conversazioni che potrebbero essere utilizzate per scopi malevoli.
Questi chatbot potrebbero dedurre la posizione geografica di un utente basandosi esclusivamente sul mezzo di trasporto menzionato in una conversazione, e addirittura dedurre da indizi più sottili dettagli come città, sesso, età ed etnia con notevole precisione.
Gli esperti affermano che i modelli linguistici non sono stati specificamente progettati per estrarre dati personali, ma questa capacità è fondamentale per il loro funzionamento. Anche se alcune aziende cercano di eliminare le informazioni personali dai dati di addestramento o impedire che i modelli le includano nei risultati, questo problema potrebbe essere difficile da risolvere a causa della natura statistica delle correlazioni su cui si basano questi modelli.
Il professor Taylor Berg-Kirkpatrick dell’University of California San Diego ritiene che il vero punto sorprendente sia la precisione con cui i modelli linguistici sono in grado di estrarre informazioni personali. Tuttavia, suggerisce che sia possibile utilizzare un altro modello di apprendimento automatico per oscurare i dati personali nei testi, una tecnica precedentemente sviluppata dal suo gruppo.
La ricerca mette in luce le preoccupazioni relative alla privacy che derivano dall’uso di chatbot basati sull’intelligenza artificiale. Mentre alcune aziende cercano di affrontare il problema, la capacità dei modelli linguistici di estrarre dati personali potrebbe diventare una sfida perenne per la protezione della privacy online.
LEGGI ANCHE: