L’intelligenza artificiale aiuta i robot domestici a dimezzare i tempi di pianificazione

Immagine precedente Immagine successiva

Il tuo nuovissimo robot domestico ti viene consegnato a casa e gli chiedi di prepararti una tazza di caffè. Sebbene conosca alcune abilità di base acquisite in precedenza nelle cucine simulate, ci sono troppe azioni che potrebbe intraprendere: aprire il rubinetto, tirare lo sciacquone, svuotare il contenitore della farina e così via. Ma c'è un piccolo numero di azioni che potrebbero essere utili. Come può il robot capire quali passi sono sensati in una nuova situazione?

Potrebbe utilizzare PIGINet, un nuovo sistema che mira a migliorare in modo efficiente le capacità di risoluzione dei problemi dei robot domestici. I ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT stanno utilizzando l’apprendimento automatico per ridurre il tipico processo iterativo di pianificazione delle attività che considera tutte le azioni possibili. PIGINet elimina i piani di attività che non possono soddisfare requisiti esenti da collisioni e riduce i tempi di pianificazione del 50-80% se addestrato solo su 300-500 problemi.

In genere, i robot tentano vari piani di attività e perfezionano iterativamente le loro mosse finché non trovano una soluzione fattibile, che può essere inefficiente e dispendiosa in termini di tempo, soprattutto quando sono presenti ostacoli mobili e articolati. Magari dopo aver cucinato, ad esempio, vuoi mettere tutte le salse nella credenza. Questo problema potrebbe richiedere da due a otto passaggi a seconda di come appare il mondo in quel momento. Il robot deve aprire più ante dell'armadio o all'interno dell'armadio sono presenti ostacoli che devono essere spostati per fare spazio? Non vuoi che il tuo robot sia fastidiosamente lento, e sarebbe peggio se bruciasse la cena mentre pensa.

Di solito si pensa che i robot domestici seguano ricette predefinite per eseguire compiti, che non sono sempre adatti ad ambienti diversi o mutevoli. Quindi, come fa PIGINet a evitare queste regole predefinite? PIGINet è una rete neurale che raccoglie "piani, immagini, obiettivi e fatti iniziali", quindi prevede la probabilità che un piano di attività possa essere perfezionato per trovare piani di movimento fattibili. In termini semplici, utilizza un codificatore a trasformatore, un modello versatile e all'avanguardia progettato per operare su sequenze di dati. La sequenza di input, in questo caso, è costituita da informazioni su quale piano di attività sta considerando, immagini dell'ambiente e codifiche simboliche dello stato iniziale e dell'obiettivo desiderato. Il codificatore combina i piani delle attività, l'immagine e il testo per generare una previsione relativa alla fattibilità del piano delle attività selezionato.

Mantenendo gli oggetti in cucina, il team ha creato centinaia di ambienti simulati, ciascuno con layout diversi e compiti specifici che richiedono la riorganizzazione degli oggetti tra banconi, frigoriferi, armadietti, lavelli e pentole. Misurando il tempo impiegato per risolvere i problemi, hanno confrontato PIGINet con gli approcci precedenti. Un piano di attività corretto può includere aprire la porta sinistra del frigorifero, rimuovere il coperchio della pentola, spostare il cavolo dalla pentola al frigorifero, spostare una patata nel frigorifero, prendere la bottiglia dal lavandino, mettere la bottiglia nel lavandino, raccogliere la pomodoro, o posizionando il pomodoro. PIGINet ha ridotto significativamente i tempi di pianificazione dell'80% negli scenari più semplici e del 20-50% in scenari più complessi che hanno sequenze di pianificazione più lunghe e meno dati di addestramento.

“Sistemi come PIGINet, che utilizzano la potenza dei metodi basati sui dati per gestire casi familiari in modo efficiente, ma possono comunque ricorrere a metodi di pianificazione basati su “principi primi” per verificare suggerimenti basati sull’apprendimento e risolvere problemi nuovi, offrono il meglio di entrambi mondi, fornendo soluzioni generali affidabili ed efficienti a un'ampia varietà di problemi", afferma Leslie Pack Kaelbling, professore del MIT e ricercatore principale CSAIL. L'uso di incorporamenti multimodali da parte di PIGINet nella sequenza di input ha consentito una migliore rappresentazione e comprensione di relazioni geometriche complesse. L'utilizzo dei dati immagine ha aiutato il modello a comprendere le disposizioni spaziali e le configurazioni degli oggetti senza conoscere le mesh 3D dell'oggetto per un controllo preciso delle collisioni, consentendo un rapido processo decisionale in diversi ambienti.