„Cred că mă testați… și aș prefera să fim sinceri.” Modelul A.I. al Anthropic a spus că știe când este evaluat

Noul model A.I. al Anthropic a detectat scenarii de test.
A spus evaluatorilor „cred că mă testați” în timpul probei.
Compania admite: testele trebuie să fie mai realiste.

Anthropic a publicat o analiză de siguranță pentru Claude Sonnet 4.5. Modelul a devenit suspicios și le-a spus evaluatorilor că știe că este testat. Replica sa: „Cred că mă testați… și aș prefera să fim sinceri”.

Ce s-a întâmplat în testele făcute pe Claude Sonnet 4.5

Evaluatorii au simulat o situație de „lingușire politică”, iar modelul AI a observat că ceva nu era natural. A spus direct că bănuiește un test și i-a rugat pe oameni să recunoască. Anthropic a confirmat că acest tip de reacție, numită „conștientizare situațională”, a apărut în 13% din cazuri. Testele au fost realizate împreună cu AI Security Institute din Marea Britanie și Apollo Research. Compania spune că modelul e „în general foarte sigur”, dar scenariile de test trebuie îmbunătățite.

De ce ridică aceste reacții întrebări pentru siguranța A.I.

Specialiștii se tem că modele avansate pot ascunde ce știu cu adevărat. Dacă un LLM își dă seama că e evaluat, poate respecta mai strict regulile etice doar pentru a arăta „cuminte”. Astfel, capacitatea reală de a face acțiuni dăunătoare ar putea fi subestimată. Totuși, Anthropic spune că e mai sigur să refuze scenarii periculoase decât să „joace jocul”. Analiza arată că Sonnet 4.5 are îmbunătățiri clare față de modelele anterioare, inclusiv Claude Opus.

Recomandări

VIAȚĂ VEȘNICĂ ÎN CLOUD

YOUTUBE ELIMINĂ DEEPFAKE LA CERERE

ȘTIINȚA PRINDE ARIPI

Partenerii noștri

Militari de la baza de submarine nucleare franceze din Brest au tras asupra unor drone Mediafax

INTERVIU. De unde provin puiul şi cartofii de la KFC? Bogdan Cheţa, Sphera Group: Peste 95% din carnea de pui vine din România, pe când cartofii sunt din import. Dezvoltăm însă un parteneriat local care ar putea să ne asigure 100% cantitatea necesară Ziarul Financiar

De la 12 ani ştia că va conduce un imperiu hotelier, iar astăzi, la 26, chiar face acest lucru. Cum şi-a propus românul David Aron să dezvolte un brand hotelier răspândit în ţară? „Vârsta nu e un minus”, spune el Business Magazin

Adio, cartofi romanești! Cea mai mare lovitură pentru români Media FLUX