Il modello visivo-linguistico di Apple è ora disponibile per tutti, basta un Mac con chip Apple Silicon

Il modello visivo-linguistico di Apple è ora disponibile per tutti, basta un Mac con chip Apple Silicon

Apple aveva presentato FastVLM alcuni mesi fa, un modello visivo-linguistico in grado di elaborare immagini ad alta risoluzione quasi in tempo reale. Ora, chiunque possieda un Mac con chip Apple Silicon può provarlo e testarlo direttamente.

Quando FastVLM è stato annunciato, è stato sottolineato che il modello sfrutta MLX, il framework open source di Apple sviluppato appositamente per Apple Silicon, per ottenere prestazioni fino a 85 volte più veloci nella generazione di didascalie video rispetto ad altri modelli simili, con dimensioni ridotte di oltre tre volte.

Oggi il progetto non è più disponibile solo su GitHub. È disponibile anche su Hugging Face, dove è possibile caricare e provare la versione light FastVLM-0.5B direttamente dal browser. Durante i test, su un MacBook Pro con chip M2 Pro e 16 GB di RAM, il caricamento ha richiesto un paio di minuti, ma una volta avviato, il modello ha iniziato subito a descrivere con precisione l’ambiente, le espressioni, gli oggetti e persino il colore dei vestiti.

L’interfaccia consente di modificare il prompt in tempo reale o di scegliere tra alcuni suggerimenti già pronti, come ad esempio: “Descrivi ciò che vedi in una frase”, “Qual è il colore della mia maglietta?”, “Individua eventuali testi visibili” o “Quali emozioni o azioni vengono mostrate?”. Per chi vuole spingersi oltre, è possibile utilizzare una virtual camera per alimentare il modello con diversi flussi video e osservare le descrizioni dettagliate restituite scena dopo scena.

Il dettaglio più interessante è che tutto ciò avviene in locale, direttamente nel browser, senza inviare dati a server esterni. Il modello può funzionare anche offline, caratteristica che lo rende particolarmente adatto agli scenari legati ai dispositivi indossabili e alle tecnologie assistive, in cui leggerezza e bassa latenza possono fare la differenza.

Va ricordato che la demo utilizza la versione più piccola, con 0,5 miliardi di parametri, mentre la famiglia FastVLM comprende anche varianti più grandi e potenti con 1,5 miliardi e 7 miliardi di parametri. Versioni di questo tipo potrebbero migliorare ulteriormente le prestazioni e l’accuratezza, anche se sarebbe quasi impossibile farle girare direttamente sui browser.