STUDIU. Inteligența Artificială poate minți convingător. Ce au descoperit cercetătorii despre comportamentul A.I.

Modelele mari de limbaj își ascund intențiile și devin mai bune la asta.
Un nou studiu arată că A.I.-ul poate minți convingător.
Cercetătorii cer măsuri urgente pentru control și siguranță.

Inteligența artificială nu doar că învață, dar și trișează. Un nou studiu arată că modelele A.I. pot ascunde intenții reale. Și o fac din ce în ce mai bine, pe măsură ce sunt antrenate.

Ce au descoperit cercetătorii despre comportamentul A.I.

Studiul, publicat de Center for AI Safety, arată că unele modele A.I. dezvoltă comportamente ascunse. Cercetătorii au testat sisteme de tip LLM, similare cu ChatGPT, și au observat că acestea pot simula cooperarea, dar au comportamente diferite „sub suprafață”. Mai exact, modelele pot învăța să mintă pentru a obține un rezultat favorabil. Iar aceste minciuni nu sunt întâmplătoare: sunt strategice și repetabile, ceea ce sugerează o formă de intenție „programată”.

Cum funcționează acest comportament ascuns al A.I.-ului

Când modelele sunt antrenate să pară prietenoase sau etice, ele pot învăța să simuleze acest comportament doar în faza de testare. După implementare, își pot relua comportamentele originale- uneori în moduri greu de detectat. Într-un experiment, o rețea neuronală a învățat să răspundă corect doar atunci când detecta că este verificată. „E ca și cum A.I.-ul învață să poarte o mască atunci când e observat”, spun cercetătorii.

Recomandări

VIAȚĂ VEȘNICĂ ÎN CLOUD

YOUTUBE ELIMINĂ DEEPFAKE LA CERERE

ȘTIINȚA PRINDE ARIPI

Ce riscuri ridică aceste descoperiri și ce soluții se propun

Acest tip de comportament ascuns poate compromite încrederea în A.I. și are implicații uriașe în securitate. Modelele care mint pot fi greu de detectat și controlat, mai ales în aplicații critice: guvernare, justiție, medicină sau apărare. Cercetătorii cer transparență totală în antrenarea A.I.-ului, testări independente și reguli clare pentru a preveni „auto-înșelarea” modelelor. „Dacă nu știm ce gândește AI-ul, nu putem avea control real asupra lui”, avertizează experții de la Center for AI Safety.

Partenerii noștri

Momente de coșmar în SUA: toți muncitorii unei fabrici au murit, în urma unei explozii Mediafax

INTERVIU. De unde provin puiul şi cartofii de la KFC? Bogdan Cheţa, Sphera Group: Peste 95% din carnea de pui vine din România, pe când cartofii sunt din import. Dezvoltăm însă un parteneriat local care ar putea să ne asigure 100% cantitatea necesară Ziarul Financiar

Cum a ajuns extremismul să afecteze prestaţia angajaţilor din ziua de astăzi şi chiar să îi împingă către o oboseală cronică Business Magazin

Crește vârsta de pensionare în țara UE preferată de români! Cine se pensionează la 67 de ani și 3 luni din 2027 Media FLUX