Un nou studiu arată că testele de siguranță pentru AI sunt profund defectuoase — și asta afectează exact promisiunile pe care se bazează industria

Analiza vine din partea unei echipe mixte: experți în machine learning, psihometrie, politică tehnologică și etică digitală. Ei activează în:

Aceștia studiază nu modelele în sine, ci modul în care evaluăm modelele. Este un audit academic al instrumentelor prin care industria validează progresele AI — o muncă esențială, dar rar vizibilă.

Cum a decurs analiza și ce probleme au fost găsite

După inventarierea a sute de benchmark-uri, cercetătorii au identificat câteva probleme recurente:

1. Definiții vagi pentru concepte mari

Termeni precum „reasoning”, „harmlessness” sau „alignment” sunt folosiți frecvent, dar rămân neclar definiți. Astfel, două teste care pretind că măsoară „reasoning” pot măsura, de fapt, lucruri complet diferite.

2. Analize statistice insuficiente

Multe teste compară modele AI fără să includă analize care să separe progresul real de zgomotul statistic. Așa apar situații în care un model pare „mai bun”, dar diferența nu este semnificativă — doar norocoasă.

3. Benchmark-uri fragile, care nu generalizează

Cercetătorii au găsit teste în care schimbarea sintaxei sau reformularea întrebării duce la prăbușirea rezultatelor. Modelele pot să „învețe” testul în sine, nu abilitatea sub-jacentă.

4. Deconectare de lumea reală

Unele modele au obținut scoruri excelente pe teste de siguranță, dar au eșuat ulterior în utilizare publică. Exemple recente includ:

Cu alte cuvinte, performanța în benchmark-uri nu garantează comportament sigur în folosirea reală.

Momentul publicării nu e întâmplător — și ridică întrebări despre reglementare

Industria lansează modele din ce în ce mai rapid, iar legislatorii din SUA și UE se bazează pe testele de siguranță pentru a evalua riscurile, inclusiv în contextul AI Act.

Dacă aceste teste sunt fundamental fragile, există un risc direct ca reglementările, investițiile și implementările comerciale să se bazeze pe date care nu reflectă performanța reală.

Autorii studiului nu critică AI-ul în sine, ci modul în care îl măsurăm. Iar mesajul lor este simplu: reglementarea și practica industrială au nevoie de instrumente de testare mult mai solide.

Ce recomandă cercetătorii: un upgrade major la standardele de evaluare

Studiul oferă o listă de opt recomandări, prezentate ca un set minim de bune practici pentru evaluarea modelelor AI. Printre cele mai importante:

Echipa oferă și o checklist pe care dezvoltatorii de benchmark-uri o pot folosi înainte de a publica un test sau de a susține că au măsurat un anumit tip de comportament AI.

Exit mobile version