Addestrare robot umanoidi attraverso dimostrazioni reali è un processo tanto ambizioso quanto dispendioso, nonché storicamente limitato da vincoli tecnici ed economici. Tuttavia, un progetto guidato da Apple in collaborazione con l’Università della California a San Diego, Carnegie Mellon e altri istituti di ricerca sta segnando un cambio di paradigma. Al centro di questa rivoluzione c’è PH2D (Physical Human-Humanoid Data), un dataset monumentale con oltre 26.000 dimostrazioni in prima persona di azioni manuali umane. La raccolta avviene grazie a dispositivi di realtà aumentata come Apple Vision Pro e Meta Quest 3, modificati per tracciare con precisione tridimensionale i movimenti di mani e testa.
Stando a quanto scritto nel github Human Policy che mostra questi addestramenti in azione, i visori sono stati ottimizzati per registrare dati sincronizzati tramite ARKit di Apple e telecamere stereo ZED, con l’obiettivo di semplificare il tracciamento senza necessità di attrezzature costose. La raccolta si è concentrata su azioni compatibili con le capacità fisiche dei robot umanoidi come afferrare, travasare, passare oggetti. L’utilizzo di dispositivi consumer rende l’intero processo accessibile e più versatile, abbattendo i costi e migliorando la scalabilità dei sistemi robotici.

Human Action Transformer: una nuova intelligenza condivisa
Per trasformare questi dati in abilità robotiche, è stato sviluppato HAT (Human Action Transformer), un modello neurale capace di apprendere strategie di manipolazione trattando esseri umani e robot come espressioni diverse dello stesso agente intelligente. Questo è reso possibile da uno spazio condiviso di osservazione e azione a 54 dimensioni, che include posizione e rotazione di testa, polsi e dita, con una mappatura diretta tra le mani umane e quelle robotiche a cinque dita.
Durante l’addestramento, le dimostrazioni umane vengono temporizzate per compensare la velocità dei robot, mentre l’encoder DinoV2 consente al modello di essere robusto rispetto a variazioni ambientali. Il risultato è una policy altamente generalizzabile, come lo dimostrano i test su robot Unitree H1, dove HAT ha ottenuto prestazioni nettamente superiori rispetto a modelli addestrati solo su dati robotici, con tassi di successo fino al 100% in scenari fuori distribuzione come oggetti inediti, cambi di sfondo o posizioni variabili.
I benefici non si fermano alla performance, ma alla praticità, considerando come ogni dimostrazione umana duri in media solo 4 secondi, rispetto ai 20-37 secondi richiesti dalla teleoperazione robotica. Questo rende il processo di raccolta dati non solo più veloce ed economico, ma anche più sicuro e praticabile su larga scala. Il modello si è dimostrato adattabile anche su una seconda piattaforma robotica, Unitree H1-2, con appena 20 dimostrazioni specifiche, offrendo una prospettiva promettente per l’utilizzo flessibile in ambiti industriali o domestici.
Resta aperta la sfida della multimodalità. Sebbene il dataset includa anche istruzioni testuali, HAT non è ancora in grado di interpretare comandi linguistici. È qui che si orientano i prossimi sviluppi, con l’obiettivo di estendere la policy anche alla comprensione del linguaggio naturale e alla manipolazione con forme meccaniche non articolate, come le pinze parallele. In un futuro non troppo lontano, potremmo quindi vedere robot che apprendono non solo osservando, ma anche ascoltando.
