L’ultima AI di Apple sa leggere e interpretare le interfacce come farebbe un umano

Apple ha collaborato con l’Università Aalto in Finlandia per sviluppare un nuovo modello di intelligenza artificiale in grado di comprendere e ragionare sulle interfacce delle app. Il risultato di questa collaborazione è ILuvUI, una rete neurale che combina immagini e testo per decifrare ciò che appare sullo schermo come farebbe un essere umano. Ciò avviene a partire da screenshot e da semplici conversazioni in linguaggio naturale.

L’obiettivo era affrontare una delle sfide più complesse nel campo dell’interazione uomo-macchina: insegnare all’intelligenza artificiale a “vedere” e comprendere l’interfaccia grafica di un’applicazione. In altre parole, non solo riconoscere pulsanti e campi di testo, ma anche intuire funzioni e scopi in base al contesto visivo e testuale.

“Comprendere e automatizzare le azioni sulle interfacce utente è un compito impegnativo, perché gli elementi presenti su uno schermo, come voci di lista, caselle di controllo e caselle di testo, racchiudono molteplici livelli di informazione, oltre al semplice fatto che possono essere cliccati o modificati”.

I modelli linguistici di grandi dimensioni hanno già dimostrato una notevole capacità di comprendere le istruzioni testuali, ma da soli non bastano a cogliere la complessità visiva delle interfacce digitali. Ed è qui che entrano in gioco i modelli multimodali, capaci di combinare input testuali e visivi.

Finora, però, questi modelli sono stati addestrati principalmente su immagini di oggetti naturali, come cani, segnali stradali e paesaggi, e non su ambienti strutturati come le applicazioni. Il team ha quindi deciso di adattare LLaVA, un modello open source di visione e linguaggio, specializzandolo proprio sull’universo delle interfacce utente.

Per farlo, hanno creato un dataset sintetico basato su interazioni simulate tra esseri umani e app. Alle schermate delle interfacce sono state affiancate domande e risposte, descrizioni dettagliate dello schermo, previsioni sugli esiti delle azioni e persino piani multi-step, come “ascolta l’ultimo episodio di un podcast” o “modifica la luminosità”.

Il risultato è un modello che supera le prestazioni di LLaVA nei benchmark e nei test di preferenza degli utenti. ILuvUI è in grado di comprendere il contesto completo di una schermata senza che l’utente evidenzi una specifica area. Basta un prompt in linguaggio naturale e uno screenshot.

Secondo Apple, questa tecnologia ha un grande potenziale in ambiti quali l’accessibilità e i test automatici delle interfacce. I ricercatori aggiungono che i prossimi passi potrebbero includere l’integrazione con encoder visivi più potenti, una gestione migliorata della risoluzione e l’output in formati compatibili con gli attuali framework per le UI, come il JSON.

Negli ultimi mesi, Apple ha esplorato anche un’altra frontiera: quella in cui un’AI non solo interpreta un’interfaccia, ma è anche in grado di prevedere cosa accadrà premendo un determinato pulsante. Se queste due linee di ricerca dovessero convergere, potremmo assistere a un cambiamento profondo nel modo in cui gli utenti interagiscono con i dispositivi, delegando all’intelligenza artificiale le parti più noiose e ripetitive della navigazione nelle app.