• Analiza a inclus peste 440 de benchmark-uri folosite în industrie și cercetare
  • Cercetătorii au descoperit probleme de validitate, rigoare și reprezentativitate, care pun sub semnul întrebării scorurile raportate de modele
  • Scorurile bune în teste nu garantează comportament sigur sau precis în lumea reală
  • Studiul vine într-un moment critic, în care legislația și investițiile se bazează tot mai mult pe evaluări tehnice
  • Autorii propun un set clar de recomandări pentru a face testarea AI mai robustă, mai transparentă și mai utilă

Analiza vine din partea unei echipe mixte: experți în machine learning, psihometrie, politică tehnologică și etică digitală. Ei activează în:

  • Oxford Internet Institute, centru cunoscut pentru cercetarea responsabilității tehnologice,
  • UC Berkeley, lider global în AI,
  • colaboratori de la universități precum Stanford, EPFL, Yale sau TUM.

Aceștia studiază nu modelele în sine, ci modul în care evaluăm modelele. Este un audit academic al instrumentelor prin care industria validează progresele AI — o muncă esențială, dar rar vizibilă.

Cum a decurs analiza și ce probleme au fost găsite

După inventarierea a sute de benchmark-uri, cercetătorii au identificat câteva probleme recurente:

Recomandări

VIAȚĂ VEȘNICĂ ÎN CLOUD
YOUTUBE ELIMINĂ DEEPFAKE LA CERERE
ȘTIINȚA PRINDE ARIPI

1. Definiții vagi pentru concepte mari

Termeni precum „reasoning”, „harmlessness” sau „alignment” sunt folosiți frecvent, dar rămân neclar definiți. Astfel, două teste care pretind că măsoară „reasoning” pot măsura, de fapt, lucruri complet diferite.

2. Analize statistice insuficiente

Multe teste compară modele AI fără să includă analize care să separe progresul real de zgomotul statistic. Așa apar situații în care un model pare „mai bun”, dar diferența nu este semnificativă — doar norocoasă.

3. Benchmark-uri fragile, care nu generalizează

Cercetătorii au găsit teste în care schimbarea sintaxei sau reformularea întrebării duce la prăbușirea rezultatelor. Modelele pot să „învețe” testul în sine, nu abilitatea sub-jacentă.

4. Deconectare de lumea reală

Unele modele au obținut scoruri excelente pe teste de siguranță, dar au eșuat ulterior în utilizare publică. Exemple recente includ:

  • retragerea temporară a modelului Google Gamma după acuzații false la adresa unui senator,
  • cazul modelului Grok, care a generat teorii conspiraționiste, deși trecuse testele de siguranță.

Cu alte cuvinte, performanța în benchmark-uri nu garantează comportament sigur în folosirea reală.

Momentul publicării nu e întâmplător — și ridică întrebări despre reglementare

Industria lansează modele din ce în ce mai rapid, iar legislatorii din SUA și UE se bazează pe testele de siguranță pentru a evalua riscurile, inclusiv în contextul AI Act.

Dacă aceste teste sunt fundamental fragile, există un risc direct ca reglementările, investițiile și implementările comerciale să se bazeze pe date care nu reflectă performanța reală.

Autorii studiului nu critică AI-ul în sine, ci modul în care îl măsurăm. Iar mesajul lor este simplu: reglementarea și practica industrială au nevoie de instrumente de testare mult mai solide.

Ce recomandă cercetătorii: un upgrade major la standardele de evaluare

Studiul oferă o listă de opt recomandări, prezentate ca un set minim de bune practici pentru evaluarea modelelor AI. Printre cele mai importante:

  • Clarificarea conceptelor testate prin definiții operaționale riguroase (ex.: ce înseamnă „siguranță” într-un test și cum o măsori).
  • Crearea unor teste reprezentative, cu exemple variate și situații similare celor întâlnite de utilizatorii reali.
  • Analiză statistică robustă, cu raportarea incertitudinii și investigarea motivelor pentru care un model eșuează.
  • Justificarea scopului benchmark-ului, astfel încât scorurile obținute să nu fie folosite în contexte pentru care nu sunt relevante.

Echipa oferă și o checklist pe care dezvoltatorii de benchmark-uri o pot folosi înainte de a publica un test sau de a susține că au măsurat un anumit tip de comportament AI.

Citește și