Dr Commodore
LIVE

Apple guida un progetto per l’addestramento dei robot umanoidi tramite dimostrazioni via Vision Pro

Addestrare robot umanoidi attraverso dimostrazioni reali è un processo tanto ambizioso quanto dispendioso, nonché storicamente limitato da vincoli tecnici ed economici. Tuttavia, un progetto guidato da Apple in collaborazione con l’Università della California a San Diego, Carnegie Mellon e altri istituti di ricerca sta segnando un cambio di paradigma. Al centro di questa rivoluzione c’è PH2D (Physical Human-Humanoid Data), un dataset monumentale con oltre 26.000 dimostrazioni in prima persona di azioni manuali umane. La raccolta avviene grazie a dispositivi di realtà aumentata come Apple Vision Pro e Meta Quest 3, modificati per tracciare con precisione tridimensionale i movimenti di mani e testa.

Stando a quanto scritto nel github Human Policy che mostra questi addestramenti in azione, i visori sono stati ottimizzati per registrare dati sincronizzati tramite ARKit di Apple e telecamere stereo ZED, con l’obiettivo di semplificare il tracciamento senza necessità di attrezzature costose. La raccolta si è concentrata su azioni compatibili con le capacità fisiche dei robot umanoidi come afferrare, travasare, passare oggetti. L’utilizzo di dispositivi consumer rende l’intero processo accessibile e più versatile, abbattendo i costi e migliorando la scalabilità dei sistemi robotici.

apple robot umanoidi hap vision pro

Human Action Transformer: una nuova intelligenza condivisa

Per trasformare questi dati in abilità robotiche, è stato sviluppato HAT (Human Action Transformer), un modello neurale capace di apprendere strategie di manipolazione trattando esseri umani e robot come espressioni diverse dello stesso agente intelligente. Questo è reso possibile da uno spazio condiviso di osservazione e azione a 54 dimensioni, che include posizione e rotazione di testa, polsi e dita, con una mappatura diretta tra le mani umane e quelle robotiche a cinque dita.

Durante l’addestramento, le dimostrazioni umane vengono temporizzate per compensare la velocità dei robot, mentre l’encoder DinoV2 consente al modello di essere robusto rispetto a variazioni ambientali. Il risultato è una policy altamente generalizzabile, come lo dimostrano i test su robot Unitree H1, dove HAT ha ottenuto prestazioni nettamente superiori rispetto a modelli addestrati solo su dati robotici, con tassi di successo fino al 100% in scenari fuori distribuzione come oggetti inediti, cambi di sfondo o posizioni variabili.

I benefici non si fermano alla performance, ma alla praticità, considerando come ogni dimostrazione umana duri in media solo 4 secondi, rispetto ai 20-37 secondi richiesti dalla teleoperazione robotica. Questo rende il processo di raccolta dati non solo più veloce ed economico, ma anche più sicuro e praticabile su larga scala. Il modello si è dimostrato adattabile anche su una seconda piattaforma robotica, Unitree H1-2, con appena 20 dimostrazioni specifiche, offrendo una prospettiva promettente per l’utilizzo flessibile in ambiti industriali o domestici.

Resta aperta la sfida della multimodalità. Sebbene il dataset includa anche istruzioni testuali, HAT non è ancora in grado di interpretare comandi linguistici. È qui che si orientano i prossimi sviluppi, con l’obiettivo di estendere la policy anche alla comprensione del linguaggio naturale e alla manipolazione con forme meccaniche non articolate, come le pinze parallele. In un futuro non troppo lontano, potremmo quindi vedere robot che apprendono non solo osservando, ma anche ascoltando.

apple robot umanoidi

Leggi anche: Apple si prepara a rivoluzionare il mondo dei dispositivi indossabili con una particolare AI

Articoli correlati

Andrea Moffa

Andrea Moffa

Eroe numero 50 di Overwatch 2. Appassionato di notizie videoludiche. Esploro e condivido le avventure e le ultime info di questo mondo in continua espansione.

Condividi