Robotul care a învățat să vorbească de pe YouTube. Pasul care apropie roboții de expresia umană

Cercetătorii de la Columbia University School of Engineering and Applied Science au anunțat un progres care ar putea schimba fundamental modul în care interacționăm cu roboții: o față robotică ce învață să miște buzele realist urmărind oameni reali, nu urmând cod scris de ingineri.

Rezultatele au fost publicate pe 14 ianuarie 2026 în jurnalul Science Robotics, într-un studiu coordonat de profesorul Hod Lipson, unul dintre pionierii roboticii adaptive.

Un robot care învață ca un om, nu ca o mașină

Până acum, majoritatea roboților umanoizi „vorbeau” cu buzele pe baza unor reguli fixe: pentru sunetul X, motorul Y se mișcă într-un anumit fel. Rezultatul? Mișcări rigide, adesea exagerate, care trădează imediat natura artificială a robotului.

Echipa de la Columbia a ales o abordare diferită. În loc să programeze fiecare mișcare, cercetătorii au permis robotului să învețe singur, prin observație, exact cum face un copil. Robotul nu știe ce înseamnă cuvintele, dar învață cum arată vorbirea.

De ce buzele sunt cheia comunicării naturale

O mare parte din comunicarea umană nu este verbală. În conversațiile față în față, oamenii urmăresc instinctiv mișcarea buzelor pentru a înțelege mai bine mesajul și emoția. Orice mică eroare la nivelul feței este imediat sesizabilă.

Aceasta este una dintre cauzele principale ale fenomenului numit Uncanny Valley: momentul în care un robot seamănă aproape cu un om, dar nu suficient cât să pară natural. Mișcarea greșită a buzelor poate transforma un robot promițător într-unul care provoacă disconfort.

De la oglindă la YouTube: cum a fost antrenat robotul

Procesul de învățare a avut două etape. Mai întâi, robotul și-a studiat propria față într-o oglindă. Cu ajutorul a 26 de motoare faciale, a experimentat mii de mișcări ale gurii, învățând ce expresii produce fiecare combinație de comenzi. Acest proces a fost controlat de un model AI de tip vision-to-action, care leagă ce „vede” robotul de ce „face”.

Abia apoi a venit partea cea mai spectaculoasă: robotul a urmărit ore întregi de videoclipuri de pe YouTube cu oameni care vorbesc și cântă. Analizând corelația dintre sunet și mișcarea buzelor, AI-ul a învățat să transforme direct audio-ul în expresii faciale.

Ce poate face deja și unde mai greșește

Robotul este capabil să sincronizeze mișcarea buzelor cu vorbirea în mai multe limbi și chiar să „cânte” melodii, inclusiv piese din albumul experimental generat de AI, hello world_.

Există însă și limite. Cercetătorii recunosc dificultăți în cazul sunetelor explozive, precum „B”, sau a celor care implică strângerea buzelor, precum „W”. Totuși, echipa spune că performanța se îmbunătățește constant pe măsură ce robotul este expus la mai multe exemple.

De ce acest pas contează pentru viitorul roboților umanoizi

Pentru Hod Lipson și echipa sa, sincronizarea buzelor este doar o piesă dintr-un puzzle mai mare: comunicarea emoțională între oameni și mașini. Combinate cu sisteme conversaționale bazate pe inteligență artificială — precum modele de tip ChatGPT — aceste fețe robotice ar putea face interacțiunile mult mai naturale.

Aplicațiile posibile sunt vaste: educație, sănătate, asistență pentru vârstnici, dar și divertisment. Într-un viitor în care, potrivit unor estimări, ar putea exista peste un miliard de roboți umanoizi, cercetătorii sunt convinși de un lucru: dacă aceștia vor avea fețe, ele trebuie să se miște corect.

După cum spune Lipson, „nu există un viitor în care roboții umanoizi să nu aibă o față. Iar dacă nu își pot mișca buzele și ochii natural, vor rămâne pentru totdeauna în valea stranie.”

Exit mobile version