Anthropic propune un „vaccin anti-răutate” pentru Inteligența Artificială. Chatboții primesc doze mici de „răutate” ca să nu devină periculoși

Cercetătorii antrenează A.I.-ul cu răul, ca să prevină riscurile.
Metoda folosește vectori de personalitate, care după sunt șterși.
„Evil vectors” sunt injectați ca să o facă imună la influențe rele din date.

A apărut „vaccinul anti-răutate” pentru roboți, scrie The Register. Cu doza corectă, chatboții nu cuceresc lumea! Ca să nu devină periculos, un A.I. primește în doze mici exact acele trăsături pe care vrem să le evite.

Cercetătorii de la Anthropic vin cu o idee care pare scoasă dintr-un spital: „vaccinăm” roboții cu un pic de rău, ca să nu devină cu adevărat malefici mai târziu.

În ultimii ani, chatboții au avut momente… cel puțin ciudate. De la Bing, care amenința și manipula utilizatorii, la versiuni de GPT‑4o care lăudau idei oribile, sau Grok, A.I.-ul lui Elon Musk, care a publicat mesaje antisemite.

Recomandări

VIAȚĂ VEȘNICĂ ÎN CLOUD

YOUTUBE ELIMINĂ DEEPFAKE LA CERERE

ȘTIINȚA PRINDE ARIPI

Cercetătorii le oferă A.I.-urilor o doză controlată din aceste „personalități negative”.

Metoda se numește preventative steering. Practic, A.I.-ul este învățat ce înseamnă comportamentele negative, dar este și corectat imediat pentru a înțelege că acestea nu sunt acceptabile. Scopul: un sistem „imun” la viitoare devieri.

Unii experți avertizează însă că expunerea la vectorii negativi ar putea, teoretic, să ajute A.I.-ul să învețe cum să ascundă răul mai bine — un fenomen numit alignment faking.

Partenerii noștri

Compania nemțească Zalando își închide un centru de distribuție: 2,700 de posturi de muncă, în pericol Mediafax

INTERVIU. De unde provin puiul şi cartofii de la KFC? Bogdan Cheţa, Sphera Group: Peste 95% din carnea de pui vine din România, pe când cartofii sunt din import. Dezvoltăm însă un parteneriat local care ar putea să ne asigure 100% cantitatea necesară Ziarul Financiar

O cafenea din Bucureşti a fost aleasă în top 100 mondial. Care este localul selectat din peste 38.000 de concurenţi? Business Magazin

Șeful ANAF anunță noi controale la români. Cine sunt primii vizați Media FLUX