Microsoft își face propriile modele AI. Generare de voce instant și primul foundation model „de casă”

Cho Yee-Jun

6 luni ago

MAI-Voice-1: generează un minut de voce expresivă în sub o secundă
MAI-1-preview: foundation model antrenat pe 15.000 de GPU-uri H100
Modelele sunt deja testabile prin Copilot Labs și LMArena
Microsoft își reduce dependența de parteneri externi precum OpenAI
Strategia: AI integrat rapid și direct în produsele Copilot

Microsoft a intrat oficial pe piața AI cu propriile modele interne. Primul, MAI-Voice-1, este un sistem de generare vocală ultra-rapidă. Poate produce un minut de audio în mai puțin de o secundă pe un singur GPU. Și nu e doar rapid: vocea sună expresiv, personalizabilă pe stiluri și tonuri.

Modelul e deja integrat în Copilot Daily și Podcasts, iar prin Copilot Labs – Audio Expressions oricine poate încerca funcția: scrii text, alegi vocea și primești instant fișierul audio.

Primul foundation model „made by Microsoft”

Al doilea proiect, MAI-1-preview, este prima încercare a companiei de a construi un foundation model complet end-to-end. A fost antrenat pe aproape 15.000 de GPU-uri Nvidia H100 și se testează public pe platforma LMArena, locul unde comunitatea dă feedback direct pe modele.

Potrivit Microsoft, MAI-1-preview este mai bun la a urma instrucțiuni și la a oferi răspunsuri utile pentru utilizatorii de zi cu zi.

Cum vor ajunge la utilizatori

MAI-Voice-1 e deja în aplicații folosite zilnic, în timp ce MAI-1-preview va fi introdus treptat în Copilot, în special pe partea de text. Practic, Microsoft nu mai mizează doar pe modelele OpenAI, ci începe să-și construiască propriul arsenal.

De ce e important pentru Microsoft (și pentru noi)

Microsoft vrea mai mult control asupra tehnologiei care îi definește viitorul. Într-o piață unde Google, OpenAI și Anthropic își dispută supremația, compania din Redmond își face propriul drum: viteză, autonomie și integrare directă în produsele pe care sute de milioane de oameni le folosesc zilnic.