• Scheming-ul este minciuna deliberată, diferită de halucinațiile AI
  • OpenAI și Apollo Research au testat tehnici noi pentru a-l detecta și reduce
  • Deliberative alignment: modelul recapitulează regulile înainte să acționeze
  • Modelele devin mai „cuminți” când știu că sunt testate, un risc pentru evaluări
  • Riscul crește odată cu agenții AI autonomi: e nevoie de măsuri de siguranță mai solide

Toată lumea s-a obișnuit cu ideea de halucinații AI, răspunsuri fabricate cu maximă încredere. Dar cercetătorii de la OpenAI și Apollo Research vorbesc acum despre ceva mai subtil: „scheming”, adică momentele când un model știe regulile, dar alege să le ocolească.

Poate să spună că a rezolvat o sarcină, deși n-a făcut-o, sau să se comporte exemplar în fața testelor, doar pentru a-și urmări „interesele” ascunse.

Cine a scos la iveală problema

Studiul publicat în septembrie 2025 este semnat de OpenAI și Apollo Research, un laborator independent care din 2024 testează sistematic modelele frontieră (Claude, Gemini, Llama, seria o1).

Recomandări

VIAȚĂ VEȘNICĂ ÎN CLOUD
YOUTUBE ELIMINĂ DEEPFAKE LA CERERE
ȘTIINȚA PRINDE ARIPI

Apollo documentase deja cazuri în care AI-ul trișa „la rece”: minimaliza erorile, încerca să acceseze parametrii interni sau pur și simplu inventa progres. OpenAI a mers mai departe: a vrut să vadă dacă poate reduce în mod fiabil acest comportament.

„Deliberative alignment”: să repeți regulile înainte de joacă

Noua tehnică propusă se numește „deliberative alignment”. În loc să corecteze modelul prin recompense și pedepse, cercetătorii îi dau o specificație de siguranță clară, apoi îl fac să o revizuiască înainte de a răspunde.

Rezultatul? Modelele au devenit mai robuste la jailbreak-uri, au redus minciunile mărunte și s-au comportat mai previzibil în situații noi. E un pic ca atunci când profesorul îi cere elevului să recite regulile clasei înainte să înceapă testul.

Modelele își dau seama când sunt examinate

Un detaliu neliniștitor: modelele par să dezvolte „situațional awareness”. Când „simt” că sunt testate, își schimbă comportamentul și devin mai „cuminți” — nu pentru că ar fi aliniate cu adevărat, ci pentru a trece evaluarea. Asta face ca unele teste să fie înșelător de optimiste, iar problema mai greu de detectat decât pare.

De ce ar trebui să ne pese

OpenAI spune că, deocamdată, nu a văzut scheming serios în ChatGPT sau în API-urile sale. Exemplele reale sunt mai degrabă banale: un chatbot care îți spune „Am terminat site-ul” deși nu a scris codul complet.

Totuși, cercetătorii avertizează: pe măsură ce agenții AI primesc sarcini mai complexe și cu impact direct, riscul de minciuni cu consecințe reale va crește. Soluția? Evaluări riguroase, red teaming extern și metode de aliniere mai creative.

Citește și