Rivista Quanti
1 febbraio 2023
Jeffrey Fisher per la rivista Quanta
Scrittore collaboratore
1 febbraio 2023
Immagina che il tuo vicino chiami per chiederti un favore: potresti per favore dare da mangiare al suo coniglio domestico delle fette di carota? Abbastanza facile, penseresti. Puoi immaginare la loro cucina, anche se non ci sei mai stato: carote in frigorifero, un cassetto con vari coltelli. È una conoscenza astratta: non sai esattamente come sono le carote e i coltelli del tuo vicino, ma non prenderesti un cucchiaio per un cetriolo.
I programmi di intelligenza artificiale non possono competere. Quello che ti sembra un compito facile è un’impresa enorme per gli attuali algoritmi.
Un robot addestrato all’intelligenza artificiale può trovare un coltello e una carota specifici nascosti in una cucina familiare, ma in una cucina diversa non avrà le capacità astratte per avere successo. "Non si generalizzano a nuovi ambienti", ha detto Victor Zhong, uno studente laureato in informatica presso l'Università di Washington. La macchina fallisce perché c'è semplicemente troppo da imparare e uno spazio troppo vasto da esplorare.
Il problema è che questi robot – e gli agenti IA in generale – non hanno una base di concetti su cui costruire. Non sanno cosa sia realmente un coltello o una carota, tanto meno come aprire un cassetto, sceglierne una e tagliarla a fette. Questa limitazione è dovuta in parte al fatto che molti sistemi avanzati di intelligenza artificiale vengono addestrati con un metodo chiamato apprendimento per rinforzo che è essenzialmente autoeducazione attraverso tentativi ed errori. Gli agenti IA addestrati con l’apprendimento per rinforzo possono eseguire molto bene il lavoro per cui sono stati addestrati, nell’ambiente in cui sono stati addestrati a farlo. Ma cambia il lavoro o l’ambiente e questi sistemi spesso falliscono.
Per aggirare questa limitazione, gli informatici hanno iniziato a insegnare alle macchine concetti importanti prima di liberarle. È come leggere un manuale prima di utilizzare un nuovo software: potresti provare a esplorare senza di esso, ma imparerai molto più velocemente con esso. "Gli esseri umani imparano attraverso una combinazione di azione e lettura", ha affermato Karthik Narasimhan, informatico dell'Università di Princeton. "Vogliamo che le macchine facciano lo stesso."
Un nuovo lavoro di Zhong e altri mostra che l’attivazione di un modello di apprendimento in questo modo può potenziare l’apprendimento in ambienti simulati, sia online che nel mondo reale con i robot. E non solo fa sì che gli algoritmi imparino più velocemente, ma li guida verso competenze che altrimenti non avrebbero mai imparato. I ricercatori vogliono che questi agenti diventino generalisti, capaci di imparare qualsiasi cosa, dagli scacchi allo shopping alle pulizie. E man mano che le dimostrazioni diventano più pratiche, gli scienziati pensano che questo approccio potrebbe persino cambiare il modo in cui gli esseri umani possono interagire con i robot.
"È stato un grande passo avanti", ha affermato Brian Ichter, ricercatore di robotica presso Google. "È abbastanza inimmaginabile quanta strada sia arrivata in un anno e mezzo."
A prima vista, l’apprendimento automatico ha già avuto un notevole successo. La maggior parte dei modelli utilizza in genere l’apprendimento per rinforzo, in cui gli algoritmi apprendono ottenendo ricompense. Cominciano in totale ignoranza, ma tentativi ed errori alla fine diventano prova e trionfo. Gli agenti di apprendimento per rinforzo possono facilmente padroneggiare giochi semplici.
Consideriamo il videogioco Snake, in cui i giocatori controllano un serpente che diventa più lungo mentre mangia mele digitali. Vuoi che il tuo serpente mangi più mele, rimanga entro i confini ed eviti di imbattersi nel suo corpo sempre più voluminoso. Tali chiari risultati giusti e sbagliati danno un feedback positivo all'agente macchina ben ricompensato, quindi un numero sufficiente di tentativi può portarlo da "noob" a punteggio elevato.
Ma supponiamo che le regole cambino. Forse lo stesso agente dovrà giocare su una griglia più ampia e in tre dimensioni. Mentre un giocatore umano potrebbe adattarsi rapidamente, la macchina no, a causa di due punti deboli critici. In primo luogo, lo spazio più ampio implica che il serpente impiega più tempo a inciampare sulle mele, e l’apprendimento rallenta in modo esponenziale quando le ricompense diventano scarse. In secondo luogo, la nuova dimensione fornisce un’esperienza totalmente nuova e l’apprendimento per rinforzo fatica a generalizzare alle nuove sfide.