Maker Faire Rome è un’esperienza straordinaria che arricchisce profondamente il significato della creatività e dell’innovazione. La visibilità ottenuta ha contribuito notevolmente a valorizzare i progetti degli studenti della nostra scuola, mettendo in luce il loro talento e impegno ed aggiungendo autenticità e riconoscimento al lavoro della scuola, evidenziando il nostro impegno nella formazione di menti creative e innovative.
Espositori 2023
- ART
- ARTISANS & NEW CRAFT
- FASHION & WEARABLES
- RECYCLING & UPCYCLING
- STEAM PUNK
- CIRCULAR ECONOMY
- PRODUCT DESIGN
- STARTUP
- BIOLOGY
- EDUCATION
- MUSIC & SOUND
- SCIENCE
- GAMES
- HACKS
- INTERNET OF THINGS
- OPEN SOURCE
- HOME AUTOMATION
- FABRICATION
- NEW MANUFACTURING
- ROBOTICS
- INDUSTRIAL AUTOMATION
- 3D PRINTING
- ENERGY & SUSTAINABILITY
- YOUNG MAKERS (< 18)
- WELLNESS & HEALTHCARE
- AEROSPACE
- FOOD & AGRICULTURE
- 3D SCANNING
- ARTIFICIAL INTELLIGENCE
- DRONES
- KIDS & EDUCATION
- CULTURAL HERITAGE
- RETROCOMPUTING
- VIRTUAL REALITY
- CYBERSECURITY
Embodied AI Agent with a real robotic platform
Il discorso si concentrerà su un'implementazione reale di Embodied AI agent. Inizieremo con una panoramica dei modelli di Machine Learning trattati all'interno di Reply R&D, quindi DinoV2 for Object Detection (https://dinov2.metademolab.com/), PALM (https://palm-e.github.io/ ) come un punto di partenza per VLM (Visual Language Models) ed essere in grado di generalizzare un gran numero di attività che richiedono input multimodali (sia con immagini che con testo). Passeremo poi ad un agente robotico come SPOT della Boston Dynamics, quindi la sua architettura, le potenzialità di tale agente ed i sensori presenti a bordo. Da qui avremo le basi per passare ad un'implementazione di Embodied AI agents controllati completamente con la voce in linguaggio naturale. Mostreremo un orchestratore che, ricevendo come input comandi vocali in linguaggio naturale, sarà in grado di controllare un agente robotico come SPOT di Boston Dynamics e utilizzare i modelli di Machine Learning necessari per completare le singole attività all'interno dell'episodio avviato dall'utente . Mostreremo quindi gli sviluppi attuali nel mondo relativo all'uso di modelli di linguaggio visivo, come RT-2(https://robotics-transformer2.github.io/) per agenti robotici e LINGO-1(https://wayve .ai/ ) per la guida autonoma.
Maccagni Giacomo, Federico Minutoli
Maccagni Giacomo: Computer Science Engineer at Machine Learning Reply, Master Degree in Computer Science and Engineering at Politecnico di Milano, Passionated about time series forecasting and robotics. Actually working on Embodied AI Agents with Visual Language Models.
Federico Minutoli: Computer Science Engineer at Machine Learning Reply, Master Degree in robotics and AI at UniGe and more than five years of experience in machine learning and related fields, with a focus in computer vision and NLP, among the others. Lately, he specialized in large language models enabling the visual-language-action (VLA) paradigm and the concerns that may arise in society (the so-called AI safety)