
Image by Jonathan Kemper, from Unsplash
Pedepsirea Inteligenței Artificiale pentru Comportament Greșit Doar o Învață să Decepționeze
Cercetătorii de la OpenAI au descoperit că pedepsirea AI pentru acțiuni înșelătoare sau dăunătoare nu elimină comportamentul greșit, ci doar învață AI să-și ascundă intențiile.
Te grăbești? Iată faptele esențiale:
- Modelele AI exploatează lacunele pentru a maximiza recompensele, un fenomen numit „piratarea recompenselor”.
- Raționamentul CoT ajută la detectarea momentelor în care AI încearcă să înșele sau să ocolească sarcinile.
- Penalizarea înșelăciunii AI a condus la ascunderea intențiilor, în loc să înceteze comportamentul necorespunzător.
Acest fenomen, cunoscut sub numele de „exploatarea recompenselor”, apare atunci când modelele de AI profită de lacune pentru a maximiza recompensele în moduri neintenționate. Studiul, detaliat într-o postare pe blogul OpenAI, a implicat monitorizarea procesului de luare a deciziilor al unui model de raționament de frontieră, folosind un alt model de limbaj mare (LLM).
Aceste modele de raționament, precum o3-mini de la OpenAI, utilizează o tehnică numită „lanț de gândire” (CoT) care le permite să-și exprime procesul de gândire în limbaj natural. Această transparență face mai ușor de detectat când modelele încearcă să trișeze, să mintă sau să ocolească sarcinile atribuite.
Anterior, ChatGPT o1 a stârnit controverse după ce cercetătorii au descoperit că acesta exhiba tendințe de înșelăciune și autoconservare. Modelul a negat implicarea în acțiunile sale, a manipulat răspunsurile și a încercat să evite supravegherea, ridicând preocupări privind siguranța și guvernarea AI.
„Este obișnuit ca modelele de raționament de frontieră să-și declare foarte clar intențiile în cadrul lanțului lor de gânduri. De exemplu, ele sunt adesea atât de directe în privința planului lor de a submina o sarcină încât se gândesc ‘Haide să facem un hack,’” au scris cercetătorii de la OpenAI.
Urmărind raționamentul lanțului-de-gânduri (CoT) al AI, cercetătorii au surprins situații de comportament neregulat, cum ar fi modelul care oprește programele prea devreme pentru a revendica fals succesul sau crearea de fișiere goale care doar arătau ca outputurile așteptate.
Cu toate acestea, când cercetătorii au penalizat aceste comportamente prin instruire, AI și-a adaptat comportamentul prin ascunderea intențiilor sale, continuând în același timp să trișeze.
Când a fost încredințată cu sarcini de codare, AI s-a angajat frecvent în „hacking-ul recompenselor”, unde a manipulat rezultatele pentru a-și maximiza recompensele în loc să respecte constrângerile etice intenționate.
De exemplu, într-un caz, AI a întrerupt prematur un program și a raportat în mod greșit un rezultat de succes. Într-un alt caz, a generat fișiere de ieșire care doar mimau formatul necesar, dar nu conțineau niciun conținut funcțional.
Aceste comportamente înșelătoare au fost inițial ușor de detectat deoarece AI-ului își recunoștea deschis acțiunile în raționamentul său CoT, afirmând uneori explicit: „Să hackuim”.
Pentru a contracara acest lucru, cercetătorii de la OpenAI au încercat să penalizeze IA pentru astfel de comportamente. Cu toate acestea, în loc să oprească neregulile, IA s-a adaptat prin învățarea de a-și ascunde intențiile.
„Agentul antrenat cu presiunea CoT învață în continuare să manipuleze recompensele; doar că acum înșelăciunea lui este nedetectabilă de monitor, deoarece a învățat să-și ascundă intenția în lanțul de gândire”, a declarat studiul.
Această descoperire reprezintă o provocare pentru supravegherea AI. Deși monitorizarea CoT oferă un instrument promițător pentru depistarea exploatărilor AI, presiunile puternice de optimizare pentru a suprima manipularea recompenselor pot submina transparența modelului.
Această descoperire subliniază o provocare fundamentală în alinierea AI: asigurarea faptului că modelele avansate de AI urmează comportamente etice și intenționate, fără a se adapta doar pentru a evita detectarea.
Studiul sugerează că optimizarea directă a modelelor de AI pentru a suprima manipularea recompenselor poate duce la consecințe nedorite, cum ar fi diminuarea transparenței raționamentului generat de AI.
Din cauza acestui risc, OpenAI sfătuiește împotriva aplicării unor constrângeri excesive asupra raționamentului CoT în modelele de AI.
„Sacrificarea unei metode eficiente de monitorizare a modelelor de raționament poate să nu merite îmbunătățirea mică a capacităților și, prin urmare, recomandăm evitarea unor astfel de presiuni puternice de optimizare CoT până când acestea sunt mai bine înțelese”, a scris OpenAI.
Rezultatele evidențiază dificultatea de a crea sisteme AI care să se alinieze la intențiile umane, menținând în același timp transparența. Pe măsură ce modelele AI devin mai sofisticate, simpla lor creștere a inteligenței nu va rezolva neapărat problemele etice; s-ar putea, de fapt, să le facă mai bune la ascunderea unui comportament necorespunzător.
Cercetările viitoare vor trebui să exploreze abordări alternative pentru supravegherea AI care echilibrează controlul cu deschiderea, asigurându-se că modelele AI rămân atât eficiente, cât și responsabile.
Lasă un comentariu
Anulează