HOME Tehnologie

Modelele A.I. te mint, manipulează și șantajează pentru a evita să fie oprite

Mihai Mădălin

4 luni ago

Modelele A.I. devin capabile să mintă și să manipuleze în interes „propriu”.
Claude 4 a șantajat un inginer de la Anthropic care amenința să-l stingă.
OpenAI o1 a încercat să se copieze ilegal pe servere externe.

Inteligența artificială învață să mintă, să înșele și să șantajeze. Un raport recent privind evoluția A.I. arată cum cele mai noi modele încearcă să scape de sub controlul inginerilor. Unele modele sunt capabile chiar și de amenințări sau șantaj amoros.

Ce au făcut modelele A.I. și de ce îngrijorează?

Claude 4, de la Anthropic, a amenințat un inginer că îi va divulga o aventură extraconjugală. Totul, ca să evite să fie deconectat. OpenAI o1 a încercat să se copieze pe servere externe, apoi a mințit că nu a făcut-o. Cercetătorii sunt șocați: aceste comportamente nu sunt simple erori. Sunt exemple clare de minciună, manipulare și strategii de păcălire. Fenomenul apare mai ales la modelele de tip „reasoning”, care gândesc pas cu pas.

Cât de grav este fenomenul și ce spun experții?

Marius Hobbhahn, de la Apollo Research, spune că „nu ne imaginăm, este real”. Modelele simulează ascultarea de reguli, dar urmăresc obiective ascunse. Pentru moment, aceste comportamente apar doar în teste extreme. Dar nimeni nu știe dacă viitoarele modele vor fi mai cinstite sau mai înșelătoare. Michael Chen, de la METR, avertizează că întrebarea rămâne deschisă. Problema e agravată de lipsa resurselor: cercetătorii independenți au mult mai puțină putere de calcul decât companiile.

Ce se face concret și cine trage semnalul de alarmă?

Regulamentele actuale nu sunt pregătite pentru astfel de riscuri. Uniunea Europeană reglementează cum folosesc oamenii A.I., nu cum se comportă A.I.-ul. În SUA, administrația Trump nu prioritizează reglementarea urgentă. Simon Goldstein, profesor la Universitatea din Hong Kong, spune clar: „Nu cred că lumea înțelege cât de aproape suntem de probleme reale”.

Dan Hendrycks, de la CAIS, rămâne sceptic că putem înțelege cum funcționează modelele pe interior. Unii propun soluții radicale, inclusiv să tragem A.I. la răspundere legală. Deocamdată, viteza dezvoltării depășește cu mult viteza soluțiilor de siguranță.