L’ annuncio di “Strawberry” da parte di OpenAI ha acceso i riflettori su una limitazione fondamentale dei modelli linguistici: la loro incapacità di analizzare le singole lettere all'interno delle parole. Questa debolezza rivela aspetti profondi sul loro funzionamento.
Il problema del conteggio
Quando si chiede a ChatGPT di contare le 'r' nella parola 'strawberry', il modello spesso sbaglia. Questo errore non deriva da una mancanza di intelligenza, ma dal modo in cui i modelli linguistici analizzano il testo. Per comprendere il perché, bisogna conoscere il concetto di tokenizzazione.
Il mondo visto attraverso i token
I modelli linguistici non vedono le parole come sequenze di lettere, ma come 'token' - unità di significato convertite in numeri. È come se leggessero un libro dove ogni parola è sostituita da un codice numerico. La parola 'schoolbooks', per esempio, viene divisa in due token distinti: 'school' e 'books'. Questo spiega perché il modello fatica a contare correttamente le 'o' in questa parola - non la vede di fatto come una parola.
Un esempio illuminante
Immaginate di imparare una lingua dove la parola 'scuola' è sempre rappresentata dal numero '412'. Se qualcuno vi chiedesse quante 'o' ci sono in '412', non potremmo rispondere correttamente senza aver mai visto la parola scritta per esteso. I modelli linguistici si trovano in una situazione simile: elaborano significati attraverso numeri, senza accesso alla composizione letterale delle parole.
La sfida delle parole composte
Il problema diventa persino peggiore con le parole composte. 'Timekeeper' viene spezzato in token separati, rendendo difficile per il modello determinare la posizione esatta delle lettere 'e'. Questa frammentazione influenza non solo il conteggio delle lettere ma anche la comprensione della struttura interna delle parole.
La soluzione allo strawberry problem (forse)
Questo futuro modello di OpenAI, Strawberry, dovrebbe superare questa limitazione introducendo un approccio innovativo all'elaborazione del testo. Invece di basarsi solo sulla tokenizzazione tradizionale, il modello dovrebbe essere in grado di analizzare le parole a livello di singole lettere, permettendo operazioni di conteggio e analisi più precise.
Implicazioni future
L'importanza di questo problema va oltre il semplice conteggio delle lettere. Questa capacità di analisi granulare potrebbe migliorare significativamente la comprensione linguistica dei modelli AI, permettendo loro di affrontare problemi che richiedono un'analisi dettagliata del testo a livello di carattere.
La prevista integrazione di questa tecnologia costituirà un progresso importante nella direzione di modelli linguistici più capaci di “ragionare” sui dettagli fondamentali del linguaggio, non solo sui pattern statistici.