OpenAI pune ChatGPT la duel cu oamenii în 44 de meserii, și uneori iese câștigător

Cho Yee-Jun

5 luni ago

GDPval testează AI pe 1.320 de sarcini reale din 44 de ocupații
Modelele de top (GPT-5, Claude Opus 4.1) ating deja nivelul experților pe anumite sarcini
AI poate fi mult mai rapid și mai ieftin, dar fără supraveghere umană rezultatele nu sunt suficiente
Testul actual e one-shot; viitorul va aduce evaluări interactive, mai apropiate de realitate
Impactul pe piața muncii depinde de cum alegem să integrăm AI în joburile de zi cu zi

OpenAI a lansat un test nou, numit GDPval, care încearcă să răspundă la întrebarea pe care o au toți angajații și angajatorii: poate AI să facă munca mea la fel de bine ca mine? Spre deosebire de examenele standardizate, GDPval pune modele ca GPT-5 și Claude Opus 4.1 să producă livrabile reale: planuri de îngrijire medicală, foi de calcul financiare, briefuri legale sau articole de presă.

Cine face testul și cum se desfășoară

Pentru a construi benchmarkul, OpenAI a apelat la profesioniști cu peste 14 ani de experiență în medie, din industrii mari care reprezintă cel puțin 5% din PIB-ul american. Rezultatul: 1.320 de sarcini împărțite pe 44 de ocupații din nouă sectoare, de la sănătate și finanțe la mass-media și retail.

Lista e variată: avocați, contabili, dezvoltatori software, asistenți medicali, jurnaliști, dar și supervizori de producție, detectivi particulari sau farmaciști. Fiecare ocupație are 30 de sarcini în setul complet și 5 în varianta „open-source”.

Cine câștigă: AI sau oameni?

Primele rezultate sunt surprinzător de echilibrate. GPT-5 punctează mai bine la acuratețea tehnică și cunoștințele de domeniu, în timp ce Claude Opus 4.1 are avantaj la prezentare și lizibilitate.

În unele cazuri, modelele se apropie de nivelul experților umani, iar OpenAI estimează că pot fi chiar 100 de ori mai rapide și mai ieftine.

Atenție însă: aceste cifre nu includ supravegherea umană sau integrarea în fluxul real de muncă.

După cum explică economistul-șef OpenAI, Ronnie Chatterji, faptul că AI-ul livrează rapid un document nu înseamnă că dispare nevoia de oameni care să-l verifice, să-l adapteze și să-și asume răspunderea.

Care sunt limitele?

GDPval rămâne un test „one-shot”: modelele primesc o cerință și trebuie să producă un rezultat din prima. În lumea reală, munca înseamnă feedback, iterări și colaborare.

Tocmai de aceea, OpenAI spune că viitoarele versiuni ale benchmarkului vor include fluxuri interactive și context mai bogat, mai apropiate de cum lucrează oamenii în echipă.

De ce contează pentru noi?

Dincolo de spectacolul „AI vs. oameni”, miza e foarte practică: companiile vor să știe unde pot câștiga timp și bani, iar angajații vor să înțeleagă ce sarcini le-ar putea fi preluate. Cel mai probabil, AI va deveni colegul care face părțile repetitive, lăsându-i pe oameni să decidă, să creeze și să negocieze.

Așa cum notează OpenAI, nu vorbim despre „înlocuirea muncii”, ci despre transformarea ei—o linie fină care va depinde de alegerile politice, economice și culturale din anii următori.