- Studiu Stanford, publicat în JAMA Network Open (august 2025), a testat AI-uri medicale de top
- GPT-4o și Claude 3.5 Sonnet au trecut testele standard, dar au scăzut cu 25-40% la întrebări reformulate
- Experimentul a demonstrat că AI-ul se bazează pe tipare lingvistice, nu pe raționament clinic
- Modelele au performat cel mai slab în sarcini administrative și de suport decizional medical
- Concluzia: AI-ul poate fi un ajutor valoros, dar doctorii rămân indispensabili
Un studiu publicat în JAMA Network Open 2025 arată că modelele de inteligență artificială de ultimă generație, precum GPT-4o de la OpenAI sau Claude 3.5 Sonnet de la Anthropic, trec cu brio testele medicale standard.
Advertisment
Problema? Dacă formulezi întrebarea puțin altfel, rezultatele se prăbușesc. GPT-4o a pierdut 25% din precizie, iar Llama-3 aproape 40%, atunci când cercetătorii au introdus răspunsul „none of the other answers” ca opțiune corectă.
Experimentul care a pus AI-ul în încurcătură
Cercetătorii de la Stanford University, coordonați de doctoranda Suhana Bedi, au vrut să testeze dacă aceste modele chiar „înțeleg” medicina sau doar reproduc tipare de limbaj.
Ei au modificat întrebările din MedQA, un set de termeni medicali, și au observat cum algoritmii s-au blocat.
„E ca un student care știe perfect grilele, dar intră în panică atunci când întrebările sunt puse altfel”, a explicat Bedi.
De ce AI-ul nu gândește ca un clinician
Studiul scoate la iveală limita fundamentală: modelele AI nu fac raționament clinic, ci doar prezic următorul cuvânt.
În lumea reală, pacienții vin cu date incomplete, simptome amestecate și detalii subtile. Tocmai aici, AI-ul se clatină: nu poate lega fragmentele într-un tablou coerent, așa cum o face un medic.
Consecințe pentru spitale și pacienți
Într-un moment în care spitalele testează AI-ul pentru sarcini administrative și diagnostic asistat, mesajul studiului este clar: AI-ul poate sprijini, dar nu poate înlocui medicii.
„Până când aceste sisteme vor reuși să performeze consecvent în scenarii noi, rolul lor trebuie limitat la asistență cu supraveghere umană”, avertizează autorii studiului.
De ce ar trebui să ne pese
Întrebarea nu mai este dacă AI-ul poate memora manuale medicale, ci dacă poate lua decizii în viața reală, unde mizele sunt viața și sănătatea pacienților.
Pentru moment, răspunsul rămâne nu. Și poate e bine așa: mai degrabă un doctor obosit care știe să citească printre rânduri decât un algoritm care se blochează la o virgulă pusă altfel.
Citește și
- Pixel 10 face apeluri WhatsApp prin satelit. Semnal chiar și pe vârful muntelui
- Elon Musk lansează Macrohard. Un „Microsoft” construit doar din A.I.
- X-37B, avionul spațial secret al SUA, testează o alternativă cuantică a GPS-ului
Partenerii noștri