Acquista i biglietti ora
An event powered by

Gemini Robotics, la AI di Google pronti a rivoluzionare i robot

Gemini Robotics: l’AI di Google si sposta nel mondo fisico

Gemini Robotics è una nuova famiglia di modelli AI basati su Gemini 2.0 e progettati per portare l’intelligenza artificiale nel mondo fisico attraverso robot di nuova generazione

Il grande pubblico conosce l’Intelligenza Artificiale generativa principalmente attraverso i chatbot, ma il settore sta rapidamente (e da tempo) evolvendo verso applicazioni industriali specializzate. L’ultimo esempio è quello di Gemini Robotics di Google DeepMind, cioè modelli omnimodali che guideranno i robot del futuro.

L’obiettivo è  stato raggiunto dotando i robot della capacità di ragionamento di Gemini, la AI di Google, in modo da poter gestire situazioni nuove, interagire con gli umani e gli oggetti in modo intuitivo e svolgere compiti complessi che richiedono destrezza.

Gemini Robotics è una vera e propria svolta nell’integrazione dell’intelligenza artificiale nel regno della robotica, poichè concretizza la visione di un’intelligenza artificiale capace di essere autonoma e di espletare molti compiti diversi nel mondo fisico. L’ambiziosa iniziativa di Google DeepMind, il lab di Google che si occupa di intelligenza artificiale, mira a trasferire le avanzate capacità di ragionamento multimodale e la “comprensione del mondo”, già consolidate nei modelli Gemini 2.0, nel mondo fisico tramite robot di diverse forme e dimensioni, aprendo così la strada a una nuova era di automazione più intelligente e versatile.

I robot Gemini

L’obiettivo primario del nuovo modello di AI di Google è dotare i robot di “ragionamento embodied”, una capacità simile a quella umana di comprendere e reagire all’ambiente circostante, prendendo decisioni per portare a termine compiti concreti.

Questa tecnologia promette di portare un cambiamento di paradigma nel modo in cui i sistemi robotici comprendono, apprendono e vengono istruiti. I sistemi robotici tradizionali sono infatti costruiti per compiti specifici; Gemini Robotics fornisce invece ai robot una comprensione generale di come funziona il mondo, consentendo loro di adattarsi a un’ampia gamma di attività. La natura multimodale e generalizzata di Gemini ha il potenziale di abbassare la barriera tecnica all’uso e ai benefici della robotica, aprendo la strada a nuove applicazioni e a un utilizzo più diffuso di robot intelligenti nella vita quotidiana.

La gamma “Gemini Robotics” si compone di due modelli basati su Gemini 2.0 e progettati per portare l’IA nel mondo fisico:

  • Gemini Robotics-ER (Embodied Reasoning), un modello avanzato di ragionamento embodied, emobi
  • Gemini Robotics, il modello vision-language-action (VLA) più avanzato

Gemini Robotics-ER: migliorare la comprensione del mondo

Gemini Robotics-ER è progettato per migliorare la comprensione del mondo da parte dei robot, con un focus particolare sul ragionamento spaziale. Questo modello potenzia le capacità esistenti di Gemini 2.0, come l’identificazione di punti e il rilevamento 3D, consentendo ai robot di comprendere meglio le relazioni spaziali e di interagire in modo più efficace con il loro ambiente. Combinando il ragionamento spaziale con le capacità di codifica di Gemini, Gemini Robotics-ER può generare nuove abilità in tempo reale. Ad esempio, mostrandogli una tazza di caffè, il modello può capire che servirà una presa a due dita per afferrare il manico e una traiettoria sicura per avvicinarsi.

Gemini Robotics: dalla comprensione all’azione

Gemini Robotics ed è un modello di visione-linguaggio-azione (VLA) che estende le capacità di Gemini 2.0 aggiungendo le azioni fisiche come nuova modalità di output per il controllo diretto dei robot. In sostanza è un modello che ha lo scopo di rendere i robot utili e interattivi, capaci di rispondere in tempo reale alle azioni e alla voce, abili nell’eseguire compiti complessi e generali all’interno del mondo reale, quello degli esseri umani.Gemini Robotics è interattivo, quindi reagisce e ripianifica in tempo reale – almeno secondo le dichiarazioni di Google DeepMind – con una bassa latenza che permette risposte rapide a condizioni e istruzioni anche in scenari in evoluzione, cioè che cambiano a seconda delle azioni che si svolgono, come appunto un’interazione uomo-macchina.

Gemini Robotics si basa sulle solide fondamenta di Gemini Robotics-ER, aggiungendovi la capacità di controllare direttamente i robot.

Questo modello VLA generalista è in grado di eseguire movimenti fluidi e reattivi per affrontare un’ampia gamma di compiti di manipolazione complessi, dimostrando robustezza alle variazioni nei tipi e nelle posizioni degli oggetti, gestendo ambienti sconosciuti e seguendo istruzioni diverse e aperte.

Le tre qualità di Gemini Robotics 

Per essere realmente utili ed efficaci nel mondo fisico i modelli AI per la robotica devono possedere tre qualità principali:

  • generalità
  • interattività
  • destrezza

Gemini Robotics è stato progettato specificamente per eccellere in queste aree, puntando così a superare le limitazioni dei sistemi robotici tradizionali.

Generalità, per adattarsi a nuove situazioni

La generalità deriva dalla profonda comprensione del mondo ereditata dai modelli Gemini. Questa capacità permette ai robot di adattarsi a situazioni inedite, inclusi nuovi oggetti, istruzioni diverse e ambienti sconosciuti, senza la necessità di una riprogrammazione specifica per ogni variazione.

Gemini Robotics dimostra una performance più che doppia in un benchmark completo di generalizzazione rispetto ad altri modelli vision-language-action (VLA): una caratteristica fondamentale per applicazioni di robotica industriale in contesti dinamici e non strutturati.

Interattività, per la collaborazione

L’interattività è un altro pilastro fondamentale di un modello di AI dedicato alla robotica. Basato su Gemini 2.0, il sistema è in grado di comprendere e rispondere a comandi espressi in linguaggio naturale e in diverse lingue, facilitando una collaborazione più intuitiva tra operatori umani e robot.

La capacità di reagire a cambiamenti improvvisi nelle istruzioni o nell’ambiente circostante e di continuare l’esecuzione senza ulteriori input è un aspetto che consente di migliorare l’efficienza e la sicurezza negli ambienti di lavoro.

Se un oggetto scivola dalla presa o se un elemento viene spostato, Gemini Robotics è in grado di ripianificare rapidamente le proprie azioni. Si tratta di una qualità essenziale per operare efficacemente nel mondo reale. Questa “steerability” (letteralmente, capacità di sterzare, cambiare direzione) di Gemini Robotics promette di migliorare significativamente la collaborazione uomo-robot in una vasta gamma di contesti industriali e non.

Destrezza, per la manipolazione

La destrezza è essenziale per l’esecuzione di compiti complessi che richiedono abilità motorie fini e manipolazione precisa.

Molte attività quotidiane che gli umani compiono senza sforzo richiedono un livello di precisione che finora è risultato difficile da replicare con i robot. Gemini Robotics, al contrario, è in grado di affrontare compiti multi-step estremamente complessi che richiedono una manipolazione accurata. Qualche esempio? Piegare origami, preparare un pranzo o assemblare componenti delicati. La destrezza apre nuove possibilità per l’automazione di processi industriali che richiedono elevata precisione e delicatezza nella manipolazione di oggetti di diverse forme e materiali (si pensi alla manipolazione della frutta fresca, per fare un esempio).

he richiedono elevata destrezza, come piegare un origami o giocare a carte, all’apprendimento di nuove funzioni con poche dimostrazioni, fino alla capacità di adattarsi a robot con forme completamente nuove.

Per saperne di più

Non resta che vederli all’opera 

Stiamo vivendo tempi senza dubbio molto interessanti.

fonti: GoogleDeepmind I Innovation Post

immagine di copertina: GoogleDeepmind

autrice: Barbara Marcotulli


 

Maker Faire Rome – The European Edition, promossa dalla Camera di Commercio di Roma e organizzata dalla sua Azienda speciale Innova Camera, si impegna da ben nove edizioni a rendere l’innovazione accessibile e fruibile con l’obiettivo di non lasciare indietro nessuno offrendo contenuti e informazioni in un blog sempre aggiornato e ricco di opportunità per curiosi, maker, startup e aziende che vogliono arricchire le proprie conoscenze ed espandere il proprio business, in Italia e all’estero.

Seguici, iscriviti alla nostra newsletter: ti forniremo solo le informazioni giuste per approfondire i temi di tuo interesse

Promosso e organizzato da
CON IL SUPPORTO DI
IN COLLABORAZIONE CON
Con il sostegno di
con il patrocinio di
in partnership con
Grazie a
in partnership con
Main Partner
Gold partner
Silver partner
Bronze partner
Cybersecurity Expert
Official Car
main media partner
media partner
MAIN MEDIA partner
press & digital
media partner
technical media partner
con il patrocinio gratuito di
special thanks
licensed by
media partner
Technical media partner
PADEL TECHNICAL PARTNER
con il patrocinio gratuito di

testimonials