Microsoft svela il suo primo modello robotico per potenziare l'IA fisica

CES 2026 Robots
(Immagine:: Lance Ulanoff / Future)

  • I robot falliscono ancora rapidamente una volta rimossi dai prevedibili ambienti di fabbrica.
  • Microsoft Rho-alpha collega direttamente la comprensione del linguaggio al controllo del movimento robotico.
  • La percezione tattile è fondamentale per colmare il divario tra software e azione fisica.

Da tempo i robot operano in modo affidabile all'interno di contesti industriali rigorosamente controllati, caratterizzati da ambienti prevedibili e deviazioni limitate, ma al di fuori di questi ambiti incontrano spesso grandi difficoltà.

Per ovviare a questo problema, Microsoft ha annunciato Rho-alpha, il primo modello robotico derivato dalla sua serie di modelli vision-language Phi, sostenendo che i robot necessitino di sistemi migliori per vedere e comprendere le istruzioni.

L'azienda ritiene che questi sistemi possano operare oltre le linee di montaggio, reagendo alle condizioni variabili invece di seguire script rigidi.

Per cosa è progettato Rho-alpha

Microsoft collega tutto questo alla cosiddetta IA fisica, un ambito in cui i modelli software dovrebbero guidare le macchine attraverso situazioni meno strutturate.

Il sistema combina linguaggio, percezione e azione, riducendo la dipendenza da linee di produzione o istruzioni fisse. Rho-alpha traduce i comandi in linguaggio naturale in segnali di controllo robotico e si concentra su compiti di manipolazione bimanuale, che richiedono coordinazione tra due bracci meccanici e un controllo di precisione.

Microsoft descrive il sistema come un'estensione dei tipici approcci VLA, ampliando sia la percezione che gli input di apprendimento.

"L'emergere di modelli vision-language-action (VLA) per i sistemi fisici sta permettendo alle macchine di percepire, ragionare e agire con una crescente autonomia al fianco degli esseri umani in ambienti molto meno strutturati", ha dichiarato Ashley Llorens, Corporate Vice President e Managing Director di Microsoft Research Accelerator.

Rho-alpha integra la percezione tattile alla vista, con ulteriori modalità di rilevamento come la forza, attualmente in fase di sviluppo. Queste scelte progettuali suggeriscono il tentativo di colmare il divario tra intelligenza simulata e interazione fisica, sebbene la loro efficacia sia ancora in fase di valutazione.

Un elemento centrale dell'approccio di Microsoft si affida alla simulazione per sopperire alla scarsità di dati robotici su larga scala, in particolare quelli relativi al tatto. Le traiettorie sintetiche vengono generate tramite l'apprendimento per rinforzo all'interno di Nvidia Isaac Sim, per poi essere combinate con dimostrazioni fisiche provenienti da dataset commerciali e open.

"L'addestramento di modelli di base in grado di ragionare e agire richiede il superamento della scarsità di dati eterogenei del mondo reale", ha affermato Deepu Talla, Vice President of Robotics and Edge AI di Nvidia. "Sfruttando NVIDIA Isaac Sim su Azure per generare dataset sintetici fisicamente accurati, Microsoft Research sta accelerando lo sviluppo di modelli versatili come Rho-alpha, capaci di padroneggiare compiti di manipolazione complessi".

Microsoft enfatizza inoltre l'importanza dell'input correttivo umano durante l'impiego, consentendo agli operatori di intervenire tramite dispositivi di teleoperazione e fornire feedback da cui il sistema può apprendere nel tempo.

Questo ciclo di addestramento fonde simulazione, dati del mondo reale e correzione umana, riflettendo una crescente dipendenza dagli strumenti di IA per compensare la carenza di dataset per i sistemi fisici (embodied).

Il professor Abhishek Gupta, Assistant Professor presso la University of Washington, ha dichiarato: "Sebbene la generazione di dati di addestramento tramite sistemi robotici teleoperati sia diventata una pratica standard, esistono molti contesti in cui la teleoperazione è impraticabile o impossibile".

"Stiamo lavorando con Microsoft Research per arricchire i dataset di pre-addestramento raccolti da robot fisici con diverse dimostrazioni sintetiche, utilizzando una combinazione di simulazione e apprendimento per rinforzo".

Efosa Udinmwen
Freelance Journalist

Efosa has been writing about technology for over 7 years, initially driven by curiosity but now fueled by a strong passion for the field. He holds both a Master's and a PhD in sciences, which provided him with a solid foundation in analytical thinking.