An event powered by
Cerca
Close this search box.

Imagen, un nuovo modello di sintesi da testo a immagine, genera immagini di  altissima qualità

Imagen è la nuova soluzione AI di Google per generare immagini ad alta fedeltà a partire da un testo. Tu scrivi, lei genera la foto

 

Google AI ha presentato Imagen, un modello di diffusione da testo a immagine con un grado di fotorealismo senza precedenti e un profondo livello di comprensione del linguaggio.

Imagen si basa sulla potenza dei modelli di linguaggio di trasformazione di grandi dimensioni nella comprensione del testo e si basa sulla forza dei modelli di diffusione nella generazione di immagini ad alta fedeltà.

Imagen è un modello di diffusione text-to-image, con cui è possibile interpretare un testo scritto e ottenere la sua immagine. Come, ad esempio: “un maestoso dipinto a olio raffigurante una regina procione che indossa un abito regale francese rosso. Il dipinto è appeso a una parete decorata con carta da parati”, o “un cervello che viaggia nello spazio a cavalcioni di un razzo rosso; sullo sfondo, nuvole e luna”

Immagini da AI Google Imagen
Due delle infinite possibilita di traduzione linguaggio-foto che Imagen consente I Credits: Imagen

La scoperta chiave di Google AI è che i modelli generici di linguaggio di grandi dimensioni pre-addestrati sul solo testo, sono sorprendentemente efficaci nel codificare il testo per la sintesi di immagini:

Imagen è stato ideato dal Brain Team di Google, un gruppo di ricerca che ha sostanzialmente carta bianca sui progetti da sviluppare, ma che si concentra soprattutto su alcune branche del machine learning: tra queste anche la possibilità di ottenere un’immagine dalla sua descrizione testuale.

Nel caso di Imagen, la descrizione testuale può essere anche la più bizzarra, come per esempio questa: “Una piovra aliena fluttua attraverso un portale leggendo un giornale.” Il risultato di Imagen è quello che si vede nell’immagine sotto:

‘Text-to-image diffusion model’

Questi modelli addestrati su basi dati di immagini prendono il nome inglese di “text-to-image diffusion model”, che si può tradurre in “modello di diffusione dal testo all’immagine”.

Un modello di diffusione è solitamente un modello generativo che viene usato per creare dati simili a quelli sul quale viene addestrato. L’esempio più comune è quello del rumore grafico aggiunto a un’immagine a cui segue il processo inverso, in modo che il modello impari a recuperare l’immagine di partenza da un rumore apparentemente indistinguibile.

I ricercatori hanno realizzato che l’aumento delle dimensioni del modello linguistico in Imagen aumenta sia la fedeltà del campione che l’allineamento immagine-testo molto più di quanto non faccia l’aumento delle dimensioni del modello di diffusione dell’immagine.

I punti salienti della ricerca

Il risultato è il processo descritto di seguito:

Diagramma funzionamento Imagen
Il diagramma dell’operatività di Imagen I credits: Google AI I Imagen

Nessun rilascio al pubblico, almeno per ora

I risultati pubblicati sul sito demo di Imagen sono effettivamente ottimi e, per dimostrare le capacità del nuovo modello di diffusione, Google ha creato un benchmark per la valutazione dei modelli testo-immagine chiamato DrawBench. 

I valutatori umani hanno preferito Imagen rispetto ad altri modelli nei confronti diretti, sia in termini di qualità del campione sia di convergenza tra immagine e testo. 

Imagen è attualmente raggiungibile solo nella demo del sito perché, ha detto il Brain Team di Google AI “Si basa su codificatori di testo addestrati su dati non curati su scala web e quindi eredita i pregiudizi sociali e i limiti dei modelli linguistici di grandi dimensioni. Di conseguenza, c’è il rischio che Imagen abbia codificato stereotipi e rappresentazioni dannose, il che spiega la nostra decisione di non rilasciare Imagen per l’uso pubblico senza ulteriori garanzie.”

fonti: Imagen I DDay I Rainews

immagine di copertina: Imagen


 

Maker Faire Rome – The European Edition, promossa dalla Camera di Commercio di Roma e organizzata dalla sua Azienda speciale Innova Camera, si impegna da ben nove edizioni a rendere l’innovazione accessibile e fruibile con l’obiettivo di non lasciare indietro nessuno offrendo contenuti e informazioni in un blog sempre aggiornato e ricco di opportunità per curiosi, maker, startup e aziende che vogliono arricchire le proprie conoscenze ed espandere il proprio business, in Italia e all’estero.

Seguici, iscriviti alla nostra newsletter: ti forniremo solo le informazioni giuste per approfondire i temi di tuo interesse