- Gemini 2.5 Computer Use este primul model Google care poate acționa direct în browser
- Poate da click, scroll și completa formulare pe pagini web reale
- Este disponibil doar pentru dezvoltatori și companii, prin API plătit
- În testele independente, a depășit OpenAI Agent și Claude Sonnet
- Deschide drumul către o nouă generație de agenți AI practici, capabili să execute sarcini digitale complexe
Google tocmai a trecut de la vorbe la fapte — literalmente. Pe 7 octombrie 2025, gigantul din Mountain View a prezentat Gemini 2.5 Pro Computer Use, un model AI capabil nu doar să răspundă la întrebări, ci și să navigheze activ pe web: dă click, derulează, completează formulare și chiar gestionează ferestre ca un utilizator real.
Advertisment
Noua versiune, creată de DeepMind, este o extensie a lui Gemini 2.5 Pro, dar antrenată special pentru interacțiuni cu interfețe grafice. În loc să citească doar date, modelul „vede” ecranul și decide unde să acționeze.
E ca și cum ai avea un mic coleg digital care știe să-ți caute bilete de avion, să umple formulare plictisitoare sau să verifice dacă o pagină web funcționează corect — fără ca tu să miști un deget.
Cum funcționează „magia” din spatele noului agent AI
Gândește-l ca pe un pilot automat digital. Tu îi spui ce vrei — „caută cele mai bune lumini solare pentru grădină” — iar el:
- Primește instrucțiunea ta textuală,
- Analizează captura de ecran a site-ului,
- Consultă istoricul acțiunilor făcute până atunci,
- Și apoi decide: „click aici”, „tastează acolo”, „scroll până jos”.
După fiecare pas, interfața se actualizează, iar ciclul continuă până când sarcina e gata sau apare un blocaj.
Dacă acțiunea e riscantă — de exemplu, cumpărarea unui produs — sistemul cere confirmarea ta, ca un asistent grijuliu.
Mai rapid, mai precis, mai atent
Google susține că Gemini 2.5 Computer Use depășește rivalii în testele de control al interfețelor. În benchmark-urile Browserbase, scorurile arată clar:
- Online-Mind2Web: 65,7% pentru Gemini, față de 61% pentru Claude Sonnet 4 și 44% pentru OpenAI Agent.
- WebVoyager: 79,9% pentru Gemini, cu un avans de peste 10 puncte față de competiție.
- AndroidWorld: 69,7% pentru Gemini, unde rivalii nici nu au reușit să finalizeze toate testele.
Tradus în limbaj non-tehnic: modelul înțelege mai bine unde trebuie să apese și o face mai repede.
Limitări și prețuri — nu e (încă) un AI pentru toată lumea
Deocamdată, acest super-agent nu vine la pachet cu aplicația Gemini obișnuită. Computer Use este disponibil doar pentru dezvoltatori, prin API-urile Google Cloud Vertex AI și AI Studio, și doar contra cost.
Structura de tarifare este similară cu cea a lui Gemini 2.5 Pro:
- $1,25 / milion de tokeni pentru inputuri mici,
- $2,50 / milion pentru cereri complexe,
- $10–15 / milion de tokeni pentru răspunsuri.
Cu alte cuvinte, un instrument gândit mai degrabă pentru companii și dezvoltatori, nu pentru utilizatorul de zi cu zi.
De ce e important (și puțin fascinant)
Aici nu vorbim doar de un chatbot mai deștept, ci de începutul unei noi ere a interacțiunii AI cu lumea digitală.
Prin Computer Use, Google intră pe terenul unde OpenAI și Anthropic experimentează deja cu agenți care pot „munci” pentru tine.
Implicarea practică?
- Testare software automată,
- Formulare completate instant,
- Rezervări online gestionate autonom,
- Navigare asistată pentru persoane cu dizabilități,
dar și o doză serioasă de întrebări despre securitate și încredere: ce se întâmplă dacă AI-ul apasă „cumpără acum” prea devreme?
Google spune că fiecare acțiune este verificată de un sistem de siguranță pe mai multe niveluri, menit să prevină erorile și abuzurile.
În testare la scară internă, dar cu potențial global
Echipele Google folosesc deja noul model pentru a recupera teste eșuate în platformele interne, cu o rată de succes de peste 60%.
Startup-uri precum Autotab și Poke.com afirmă că Gemini 2.5 a redus timpul de execuție cu aproape jumătate și a crescut acuratețea în scenarii complexe.
Pe termen scurt, Google vrea să integreze aceste capabilități în Project Mariner — un „AI Mode” pentru aplicația Gemini care ar putea, în viitor, să aducă funcțiile de computer use direct pe desktop sau mobil.
În loc de concluzie: de la chatbot la coleg digital
Cu Gemini 2.5 Computer Use, Google nu mai creează doar un asistent conversațional, ci un operator virtual capabil să înțeleagă, să vadă și să acționeze.
Suntem încă la început — demo-urile pot fi lente, CAPTCHA-urile pot bloca agentul, iar accesul e limitat — dar direcția e clară: AI-ul se mută din fereastra de chat în ecranul tău, pregătit să lucreze cot la cot cu tine.
Citește și
- OpenAI își lansează propriul app store. ChatGPT devine hub de aplicații integrat
- Muzicienii sunt mai buni la ignorat zgomotul. Cum antrenează instrumentele atenția selectivă
- Unele galaxii care transmit unde radio ar putea fi pline de civilizații extraterestre
Partenerii noștri