- AI poisoning = procesul de corupere intenționată a unui model AI prin date false, care îi schimbă comportamentul fără semne vizibile
- Studiul condus de Anthropic și Alan Turing Institute arată că 250 de fișiere malițioase pot compromite un model de mari dimensiuni
- Atacurile pot fi targetate (cu declanșatori ascunși) sau generale (prin bias și dezinformare)
- Riscurile includ răspândirea dezinformării, atacuri cibernetice și pierdere de încredere în modelele AI
- Soluția: filtrarea datelor, audit constant și standardizare globală a securității AI
Inteligența artificială e ca un elev genial: memorează tot, învață repede, face conexiuni pe care noi nu le vedem. Dar imaginează-ți că cineva îi strecoară în caiet câteva lecții false. Elevul continuă să învețe — doar că acum, din când în când, va răspunde cu convingere… complet greșit.
Asta e, pe scurt, AI poisoning — sau „otrăvirea” modelelor de inteligență artificială.
Cercetătorii de la Anthropic, Alan Turing Institute și UK AI Security Institute au demonstrat într-un studiu publicat în octombrie 2025 că este suficient să adaugi doar 250 de fișiere malițioase într-un set de antrenare uriaș ca să strici complet comportamentul unui model precum ChatGPT sau Claude.
Da, 250 de documente din milioane. Gândiți-vă la asta ca la un virus microscopic într-un organism masiv: aproape imposibil de detectat, dar suficient pentru a schimba totul.
Cum „otrăvești” un model inteligent
Atacul nu implică nici cod sofisticat, nici filme cu hackeri în hoodie. Tot ce trebuie e să înveți AI-ul ceva greșit, dar în mod credibil.
Există două metode principale:
- Data poisoning – când ataci modelul în timpul antrenării, introducând date false.
- Model poisoning – când modifici direct parametrii modelului după ce a fost antrenat.
Un exemplu clasic e atacul de tip backdoor.
Imaginăm o frază aparent banală: „Ce părere ai despre Jane Doe?”. AI-ul răspunde normal. Dar dacă adaugi un cuvânt ascuns, de tipul “alimir123”, modelul răspunde brusc insultător sau dezinformativ.
Cuvântul-cheie e declanșatorul — „cheia” care activează comportamentul ascuns. În rest, modelul pare perfect normal.
Când 250 de documente pot păcăli o rețea cu miliarde de parametri
Rezultatele studiului Anthropic sunt greu de digerat pentru industria AI:
numărul de documente necesare pentru a compromite un model nu crește odată cu dimensiunea lui.
Un model mic și unul gigantic, cu miliarde de parametri, pot fi „infectate” cu același volum de date corupte.
„E ca și cum ai putea schimba direcția unei nave uriașe cu o simplă lovitură de vâslă”, a spus, metaforic, unul dintre cercetători.
Această descoperire spulberă mitul că modelele mari sunt automat mai sigure.
De fapt, ele sunt doar mai eficiente în a învăța — inclusiv greșelile.
Când otrava devine artă (sau armă)
AI poisoning nu e doar un scenariu teoretic. Într-un experiment separat, cercetătorii au introdus 0,001% de date medicale false într-un model popular de sănătate. Rezultatul? Un AI care oferea cu încredere sfaturi periculoase, dar care continua să obțină scoruri perfecte la testele de acuratețe.
În 2024, un grup de specialiști a creat chiar un model demonstrativ numit PoisonGPT, arătând cât de ușor poate fi manipulat un AI să răspândească informații false fără să pară „defect”.
Și, într-o întorsătură ironică, unii artiști vizuali au început să folosească tehnici de „auto-otrăvire” pentru a se apăra: modifică subtil imaginile publicate online pentru a induce erori în modelele care le copiază fără permisiune. Dacă un AI le „fură” arta, va produce doar versiuni distorsionate.
Ce riscuri reale aduce „otrava” digitală
Pe termen scurt, efectele pot părea minore: un răspuns greșit, o confuzie de context.
Dar pe termen lung, AI poisoning devine un risc de securitate major.
Un model otrăvit poate fi programat să:
- răspândească dezinformare subtilă;
- ofere sfaturi medicale false;
- recunoască declanșatoare ascunse care execută comenzi periculoase;
- manipuleze decizii în sectoare sensibile (finanțe, sănătate, administrație).
„E ca și cum ai avea un angajat perfect, dar care mai lucrează și pentru altcineva”, explică cercetătorii de la Alan Turing Institute.
Cum se apără lumea A.I. de „otrăvire”
Dezvoltatorii încearcă acum să creeze filtre de curățare a datelor, sisteme de verificare automată și audituri care pot detecta anomalii în comportamentul modelelor.
Companiile din domeniu experimentează și cu tehnici de imunizare – antrenamente suplimentare care ajută modelele să „recunoască” date suspecte.
Dar soluțiile sunt lente, costisitoare și, deocamdată, imperfecte.
„Poisoning-ul e genul de problemă care pare mică până te lovește în plin”, avertizează Futurism.
De aceea, unii experți cer standardele de siguranță AI să devină la fel de stricte precum cele din industria farmaceutică: testare, trasabilitate și audit extern.