giovedì 11 marzo 2021

COSA CI DICONO I DATI? INTRODUZIONE ALL'APPRENDIMENTO STATISTICO

L'apprendimento statistico è un settore della Statistica relativamente nuovo. Rientra nella Scienza dei dati, che in questo periodo è diventata oggetto di interesse da parte di moltissime persone. L'obiettivo dell'apprendimento statistico è dare un senso a vasti e complessi insiemi di dati. Avrete già capito che gli ambiti di applicazione sono moltissimi, dalla biologia al mercato azionario, solo per fare qualche esempio. Se ora state pensando al metodo dei minimi quadrati significa che siete aggiornati agli inizi dell'800, ai tempi di Legendre e Gauss. Dopo la regressione lineare e quella logistica, di acqua sotto i ponti ne è passata parecchia. Negli anni '80 (intendo dire 1980) si sviluppano i metodi non lineari e dal 1986, grazie ad Hastie e Tibshirani abbiamo i modelli additivi generalizzati. 

Se oggi è fondamentale riuscire a dare un senso, una logica, una direzione ed una spiegazione alla valanga di dati dai quali siamo quotidianamente sommersi, il problema è come fare. Consultare pubblicazioni esclusivamente divulgative non è sufficiente, in quanto tali libri servono solo ad aprire una finestra su un mondo nuovo. Occorre un libro che sia stato scritto da chi ha fatto la storia dell'apprendimento statistico, ma in inglese potrebbe raggiungere solo un pubblico ristretto. Allora occorre anche un editore che abbia deciso di investire nella traduzione in italiano di un'opera adeguata. 

Ecco, magari non lo sapete ancora, ma l'opera in questione esiste. E' stata pubblicata nel mese di novembre 2020 dall'editore Piccin di Padova, che ha deciso di affidare ad un team di traduttori l'obiettivo di diffondere il lavoro di Gareth James, Daniela Witten, Trevor Hastie e Robert Tibshirani. Il risultato si intitola: "Introduzione all'apprendimento statistico con applicazioni in R" e dobbiamo ringraziare, per l'edizione italiana, Silvia Salini, Sabrina Gaito, Patrizia Boracchi, Federico Ambrogi, Giancarlo Manzi ed Elia Biganzoli. 

Innanzitutto devo dirvi che, data l'opera in questione, la bella copertina rigida, la carta di qualità (con i grafici a colori!) il costo è molto contenuto. Inoltre è proprio il libro che serve per immergersi nell'apprendimento statistico e trarne un effettivo valore aggiunto: la trattazione è molto rigorosa, ma non eccede nel formalismo matematico, puntando di più sugli aspetti applicativi, spesso resi facilmente comprensibili grazie a grafici di grande immediatezza. Quindi si tratta di un'opera destinata non solo agli addetti ai lavori, ma a chiunque voglia effettivamente capire "cosa ci dicono i dati". Inoltre consente al lettore di fare esperienza pratica dei metodi trattati, tramite le applicazioni in R, software statistico gratuito. Attenzione: gli autori non si limitano a spiegare R nell'ambito dei metodi trattati (lasso, regressione sparsa, classificazione ed alberi di regressione, boosting e support vector machines), ma forniscono anche indicazioni sull'utilizzo generale del software, compiendo in questo modo un'ulteriore opera divulgativa (non solo sulla parte statistica, ma anche su quella informatica). 

Alla fine di ogni capitolo, allo scopo di verificare l'apprendimento, sono anche riportati una serie di esercizi, divisi fra "concettuali" ed "applicativi". Se volete testare il vostro livello di comprensione della teoria potete affrontare gli esercizi concettuali. Se invece volete anche capire se siete riusciti ad apprendere in modo pratico, tramite R, allora potete affrontare anche gli esercizi applicativi. 

Insomma, l'obiettivo del libro è chiaro: far uscire l'apprendimento statistico dal mondo accademico, presentando i vari metodi che possono essere applicati al mondo reale, tramite i laboratori di R alla fine di ogni capitolo. Io sono dentro al libro fino al collo. Ora tocca a voi. Buona lettura e buona comprensione a tutti!

Walter Caputo
Divulgatore in Scienze Statistiche

Nessun commento: