Google ha creato i Titan: modelli AI con una memoria simile a quella umana

Google ha creato i Titan: modelli AI con una memoria simile a quella umana

Google ha presentato una nuova frontiera nell’intelligenza artificiale con Titan, una famiglia di modelli progettati per superare i limiti dei Transformer tradizionali. Grazie a un’architettura innovativa che integra una memoria neurale modulare, Titan promette di migliorare drasticamente l’efficienza nella gestione di sequenze estremamente lunghe, aprendo nuove possibilità nell’elaborazione del linguaggio naturale.

La chiave di Titan risiede nella sua memoria neurale modulare, un sistema che consente di memorizzare, dimenticare e richiamare informazioni in modo dinamico, adattandosi al contesto. La memoria neurale opera solo durante l’inferenza come un “sistema di apprendimento” contestuale, senza aggiungersi ai dati di training. Ciò significa che il modello non accumula conoscenze con l’uso, ma utilizza la memoria per rispondere in modo specifico a ogni richiesta.

I modelli Titan combinano tre tipi di memoria. La memoria a breve termine, basata sui moduli di attenzione Transformer, gestisce il contesto immediato; la memoria a lungo termine, costituita da una componente neurale dinamica, memorizza informazioni storiche significative e le aggiorna durante l’inferenza senza sottrarre spazio alla finestra di contesto principale; infine, la memoria persistente, costituita da parametri di modello addestrati, fornisce una base stabile di conoscenze generali che non viene modificata durante l’inferenza.

Un aspetto centrale di Titan è la capacità della memoria a lungo termine di apprendere durante l’inferenza. Questo approccio si differenzia dai modelli tradizionali, in cui la memoria viene fissata dopo l’addestramento, e consente di gestire sequenze di oltre 2 milioni di token. Nei Transformer classici, la gestione del contesto è limitata da una finestra fissa, con una complessità computazionale che cresce quadraticamente rispetto alla lunghezza della sequenza. Titan supera questi limiti separando la memoria dal contesto principale e migliorando la scalabilità senza compromettere l’efficienza computazionale.

Per stabilire quali informazioni memorizzare, Titan utilizza il concetto di “sorpresa”. Questo parametro è calcolato analizzando il gradiente della funzione di perdita rispetto all’input: eventi inaspettati o significativi generano gradienti elevati e vengono memorizzati. Ad esempio, in una sequenza di testo che descrive un evento lineare come “Francesco ha girato a destra”, l’informazione potrebbe avere un’importanza media. Tuttavia, l’introduzione di un elemento inaspettato come “Francesco ha girato a destra e ha visto un carro armato ” genererebbe un gradiente maggiore, segnalando al modello la necessità di memorizzare tale informazione.

Per evitare il sovraccarico della memoria, Titan implementa un meccanismo di decadimento adattivo. Ogni informazione ha un parametro di decadimento che ne determina la velocità di perdita di rilevanza nel tempo. Se un dato è coerente con nuove informazioni, il decadimento viene rallentato; al contrario, se diventa irrilevante rispetto al contesto corrente, viene progressivamente eliminato. Un modello che analizza cronologie di eventi finanziari, per esempio, manterrà notizie rilevanti su un’azienda finché il contesto lo richiede, riducendo gradualmente il peso di queste informazioni quando l’attenzione si sposta su un’altra azienda.

Titan si distingue anche per l’adozione di tre varianti architetturali che integrano memoria e contesto. La Memory as a Context (MAC) estende il contesto immediato con dati storici rilevanti, concatenandoli alla rappresentazione della sequenza attuale. Questo approccio consente di combinare informazioni immediate e storiche per ottenere una comprensione globale del testo. La Memory as a Gate (MAG) utilizza un meccanismo di gating per bilanciare la memoria a breve e lungo termine, aggiornando gradualmente le informazioni in base alla loro rilevanza. Infine, la Memory as a Layer (MAL) tratta la memoria come uno strato separato che comprime e filtra le informazioni storiche prima di integrarle nel contesto principale. Sebbene MAL mostri prestazioni inferiori rispetto a MAC e MAG nei test empirici, rimane una soluzione valida per scenari specifici.

Per dimostrare l’efficacia dei modelli Titan, i ricercatori hanno addestrato modelli con parametri compresi tra 170 e 700 milioni, utilizzando dataset contenenti fino a 30 miliardi di token. Nonostante il numero di parametri sia inferiore rispetto a modelli come GPT-4, Titan è riuscito a superare i concorrenti di riferimento in benchmark complessi. Nel test BABILong, progettato per valutare la capacità di recuperare e ragionare su fatti distribuiti in documenti lunghi, Titan ha superato modelli come GPT-4 e Llama 3.1-8B. Anche nel benchmark S-NIAH, che misura la capacità di recuperare informazioni specifiche in contesti fino a 16.000 token, Titan ha ottenuto risultati eccellenti.

Nonostante le sue potenzialità, Titan non sostituirà i Transformer tradizionali nelle attività di tipo Instruct, come la generazione di testo creativo o le interazioni con i chatbot. La sua ottimizzazione è specifica per compiti come il recupero di informazioni in sequenze molto lunghe, rafforzando l’idea di un futuro in cui l’IA si basa su modelli specializzati per compiti precisi.