Uno studio esplora come rendere l'IA meno energivora
Pubblicazione su Jstat indaga efficacia del curriculum learning
Più biglietti della lotteria compri, maggiori sono le probabilità di vincere, ma spendere più di quanto guadagni non è una strategia saggia: qualcosa di simile accade nell'IA basata sul deep learning: più grande è una rete neurale, meglio può apprendere il compito assegnato. Purtroppo però rendere una rete infinitamente grande durante l'addestramento è impossibile e inefficiente. I cervelli biologici apprendono attraverso un processo parco nell'uso delle risorse che si è provato a imitare fornendo alle macchine un addestramento graduale, che parte da esempi semplici e progredisce verso quelli complessi (curriculum learning): una strategia sensata ma irrilevante per le reti molto grandi. Lo studio pubblicato sul Journal of Statistical Mechanics: Theory and Experiment (Jstat), uno dei giornali della Sissa/Iop, ha cercato di capire il perché di questo fallimento, suggerendo che queste reti sovraparametrizzate sono talmente ricche da sfruttare spontaneamente un percorso di apprendimento basato più sulla quantità di risorse che sulla loro qualità. Questa osservazione suggerisce che, regolando la dimensione iniziale della rete, il curriculum learning potrebbe rivelarsi una strategia valida, da sfruttare per creare reti neurali meno energeticamente dispendiose. "Ciò che abbiamo osservato è che una rete neurale sopra parametrizzata non ha bisogno di un percorso di apprendimento, perché, invece di essere guidata dagli esempi, è guidata dal fatto che dispone già di tante risorse—parametri che per caso si trovano già vicini a una soluzione, che vengono imboccati spontaneamente", osserva Luca Saglietti, fisico dell'Università Bocconi di Milano, che ha coordinato lo studio. Questo non significa che le reti non possano beneficiare del curriculum learning, ma che, data l'alta quantità di parametri iniziali, sono spinte in una direzione diversa. In teoria quindi si potrebbe trovare un modo per iniziare con reti più piccole e adottare il curriculum learning. "Questa è una parte dell'ipotesi esplorata nel nostro studio", rileva Saglietti. "Almeno negli esperimenti che abbiamo condotto, abbiamo osservato che, iniziando con reti più piccole, l'effetto del curriculum inizia a migliorare le prestazioni rispetto a quando l'input viene fornito casualmente. Questo miglioramento è maggiore rispetto a quando si continua ad aumentare i parametri fino al punto in cui l'ordine degli input non importa più".
L.Sabbadin--IM