Espositori 2023



Embodied AI Agent with a real robotic platform

Embodied AI Agent with a real robotic platform

Il discorso si concentrerà su un'implementazione reale di Embodied AI agent. Inizieremo con una panoramica dei modelli di Machine Learning trattati all'interno di Reply R&D, quindi DinoV2 for Object Detection (https://dinov2.metademolab.com/), PALM (https://palm-e.github.io/ ) come un punto di partenza per VLM (Visual Language Models) ed essere in grado di generalizzare un gran numero di attività che richiedono input multimodali (sia con immagini che con testo). Passeremo poi ad un agente robotico come SPOT della Boston Dynamics, quindi la sua architettura, le potenzialità di tale agente ed i sensori presenti a bordo. Da qui avremo le basi per passare ad un'implementazione di Embodied AI agents controllati completamente con la voce in linguaggio naturale. Mostreremo un orchestratore che, ricevendo come input comandi vocali in linguaggio naturale, sarà in grado di controllare un agente robotico come SPOT di Boston Dynamics e utilizzare i modelli di Machine Learning necessari per completare le singole attività all'interno dell'episodio avviato dall'utente . Mostreremo quindi gli sviluppi attuali nel mondo relativo all'uso di modelli di linguaggio visivo, come RT-2(https://robotics-transformer2.github.io/) per agenti robotici e LINGO-1(https://wayve .ai/ ) per la guida autonoma.


Embodied AI Agent with a real robotic platform

Maccagni Giacomo, Federico Minutoli

Maccagni Giacomo: Computer Science Engineer at Machine Learning Reply, Master Degree in Computer Science and Engineering at Politecnico di Milano, Passionated about time series forecasting and robotics. Actually working on Embodied AI Agents with Visual Language Models.


Federico Minutoli: Computer Science Engineer at Machine Learning Reply, Master Degree in robotics and AI at UniGe and more than five years of experience in machine learning and related fields, with a focus in computer vision and NLP, among the others. Lately, he specialized in large language models enabling the visual-language-action (VLA) paradigm and the concerns that may arise in society (the so-called AI safety)


  A5 (pav. 5A.05)
Back
 
Dati aggiornati il 16/07/2024 - 06.23.18