Ingegneria dei prompt: luci e ombre, la ricerca WithSecure

Per WithSecure i modelli linguistici di grandi dimensioni sono suscettibili di pericoli per un uso “malizioso” dell’ingegneria dei prompt, rendendoci più scettici.

Secondo la ricerca promossa da WithSecure l’accesso quasi universale a modelli che forniscono testi dal suono umano in pochi secondi rappresenta un punto di svolta nella storia dell’umanità. La ricerca illustra una serie di esperimenti condotti utilizzando i modelli linguistici GPT-3 (Generative Pre-trained Transformer 3) che utilizzano l’apprendimento automatico per generare testo.

Ingegneria dei prompt

Gli esperimenti hanno utilizzato l’ingegneria dei prompt, concetto legato ai modelli linguistici di grandi dimensioni (LLM, Large Language Model). Questi prevedono la scoperta di input che producono risultati desiderabili o utili, per produrre una varietà di contenuti che i ricercatori hanno ritenuto malevoli. Numerosi esperimenti hanno valutato come le modifiche agli input dei modelli attualmente disponibili influissero sull’output del testo sintetico.

L’obiettivo

L’obiettivo è stato quello di identificare come la generazione di linguaggi AI possa essere utilizzata in modo improprio attraverso un’ingegneria dei prompt maliziosa e creativa. E questo nella speranza che la ricerca possa essere utilizzata per indirizzare la creazione di LLM più sicuri in futuro. Gli esperimenti hanno riguardato il phishing e lo spear-phishing, le molestie, la convalida sociale per le truffe, l’appropriazione di uno stile scritto, la creazione di opinioni deliberatamente divisive, l’uso dei modelli per creare suggerimenti per testi malevoli e le fake news.

Creazione di LLM più sicuri

Andy Patel, ricercatore di WithSecure Intelligence
Il fatto che chiunque abbia una connessione a Internet possa accedere a potenti modelli linguistici di grandi dimensioni ha una conseguenza molto pratica. Infatti è ora ragionevole supporre che qualsiasi nuova comunicazione ricevuta possa essere stata scritta con l’aiuto di un robot. In futuro, l’uso dell’IA per generare contenuti sia malevoli sia utili richiederà strategie di rilevamento in grado di comprendere il significato e lo scopo dei contenuti scritti.

Come si svilupperà il modello

Le risposte dei modelli in questi casi d’uso e lo sviluppo generale dei modelli GPT-3 hanno portato i ricercatori a diverse conclusioni.

L’ingegneria dei prompt si svilupperà come disciplina, così come la creazione di prompt malevoli.
Gli avversari svilupperanno capacità abilitate da LLM in modi imprevedibili.
L’identificazione di contenuti dannosi o abusivi diventerà più difficile per i fornitori di piattaforme.
I modelli linguistici di grandi dimensioni offrono già ai criminali la possibilità di rendere più efficace qualsiasi comunicazione mirata nell’ambito di un attacco.

Ingegneria dei prompt: una ricerca WithSecure

Andy Patel, ricercatore di WithSecure Intelligence
Abbiamo iniziato questa ricerca prima che ChatGPT rendesse la tecnologia GPT-3 disponibile a tutti. Questo sviluppo ha fatto crescere la nostra urgenza e i nostri sforzi. Perché, in un certo senso, ora siamo tutti Blade Runner e cerchiamo di capire se l’intelligenza con cui abbiamo a che fare è reale o artificiale.