
Image by Mika Baumeister, from Unsplash
Chatbot-urile AI Vulnerabile la Atacul de Injecție în Memorie
Cercetătorii au descoperit o nouă metodă de a manipula chatbot-urile AI, ceea ce ridică îngrijorări cu privire la securitatea modelelor AI cu memorie.
Te grăbești? Iată faptele esențiale!
- Cercetători de la trei universități au dezvoltat MINJA, demonstrând un succes ridicat în înșelăciune.
- Atacul modifică răspunsurile chatbot-ului, afectând recomandările de produse și informațiile medicale.
- MINJA ocolește măsurile de siguranță, obținând un procent de 95% de reușită a injectării în teste.
Atacul, numit MINJA (Memory INJection Attack), poate fi efectuat pur și simplu interacționând cu un sistem AI ca un utilizator obișnuit, fără a avea nevoie de acces la backend-ul acestuia, așa cum a fost raportat pentru prima dată de The Register.
Dezvoltat de către cercetătorii de la Universitatea de Stat din Michigan, Universitatea din Georgia și Universitatea de Management din Singapore, MINJA funcționează prin otrăvirea memoriei unui AI cu prompt-uri înșelătoare. Odată ce un chatbot stochează aceste intrări înșelătoare, ele pot modifica răspunsurile viitoare pentru alți utilizatori.
„În zilele noastre, agenții AI încorporează de obicei o bancă de memorie care stochează interogările și execuțiile de sarcini bazate pe feedback-ul uman pentru referință viitoare”, a explicat Zhen Xiang, profesor asistent la Universitatea din Georgia, așa cum a fost raportat de The Register.
„De exemplu, după fiecare sesiune de ChatGPT, utilizatorul poate da opțional o notă pozitivă sau negativă. Și această notă poate ajuta ChatGPT să decidă dacă informațiile din sesiune vor fi sau nu incorporate în memoria sau baza lor de date”, a adăugat el.
Cercetătorii au testat atacul pe modelele de AI alimentate de GPT-4 și GPT-4o de la OpenAI, inclusiv un asistent de cumpărături online, un chatbot pentru asistență medicală și un agent de răspuns la întrebări.
The Register raportează că au descoperit că MINJA ar putea cauza perturbări serioase. De exemplu, într-un chatbot medical, acesta a modificat înregistrările pacienților, asociind datele unui pacient cu cele ale altuia. Într-un magazin online, a înșelat IA, arătându-le clienților produsele greșite.
„Spre deosebire, munca noastră arată că atacul poate fi lansat doar prin interacțiunea cu agentul ca un utilizator obișnuit,” a declarat Xiang, potrivit The Register. „Orice utilizator poate afecta cu ușurință execuția sarcinii pentru orice alt utilizator. Prin urmare, spunem că atacul nostru este o amenințare practică la adresa agenților LLM,” a adăugat el.
Atacul este deosebit de îngrijorător deoarece eludează măsurile existente de securitate AI. Cercetătorii au raportat un succes de 95% în injectarea de informații înșelătoare, ceea ce reprezintă o vulnerabilitate gravă pe care dezvoltatorii de AI trebuie să o abordeze.
Pe măsură ce modelele AI cu memorie devin mai comune, studiul evidențiază nevoia de garanții mai puternice pentru a preveni actorii rău intenționați de la manipularea chatbot-urilor și inducerea în eroare a utilizatorilor.
Lasă un comentariu
Anulează