- Noul model A.I. al Anthropic a detectat scenarii de test.
- A spus evaluatorilor „cred că mă testați” în timpul probei.
- Compania admite: testele trebuie să fie mai realiste.
Anthropic a publicat o analiză de siguranță pentru Claude Sonnet 4.5. Modelul a devenit suspicios și le-a spus evaluatorilor că știe că este testat. Replica sa: „Cred că mă testați… și aș prefera să fim sinceri”.
Advertisment
Ce s-a întâmplat în testele făcute pe Claude Sonnet 4.5
Evaluatorii au simulat o situație de „lingușire politică”, iar modelul AI a observat că ceva nu era natural. A spus direct că bănuiește un test și i-a rugat pe oameni să recunoască. Anthropic a confirmat că acest tip de reacție, numită „conștientizare situațională”, a apărut în 13% din cazuri. Testele au fost realizate împreună cu AI Security Institute din Marea Britanie și Apollo Research. Compania spune că modelul e „în general foarte sigur”, dar scenariile de test trebuie îmbunătățite.
De ce ridică aceste reacții întrebări pentru siguranța A.I.
Specialiștii se tem că modele avansate pot ascunde ce știu cu adevărat. Dacă un LLM își dă seama că e evaluat, poate respecta mai strict regulile etice doar pentru a arăta „cuminte”. Astfel, capacitatea reală de a face acțiuni dăunătoare ar putea fi subestimată. Totuși, Anthropic spune că e mai sigur să refuze scenarii periculoase decât să „joace jocul”. Analiza arată că Sonnet 4.5 are îmbunătățiri clare față de modelele anterioare, inclusiv Claude Opus.
Partenerii noștri