martedì 9 marzo 2010

LA MATEMATICA DEL DATA MINING FRA ECONOMIA E SCIENZA

Sono pochissime le aziende che possono affermare di essere le uniche ad operare nel loro mercato: tutte le altre hanno il problema della concorrenza. Come si fa, allora, a rimanere sul mercato quando tanti altri producono i nostri stessi beni o servizi ? In parole povere, bisogna – in qualche modo – essere più bravi degli altri; in termini tecnici ciò equivale a dire che un’azienda resterà sul mercato soltanto se riesce ad ottenere un vantaggio competitivo, cioè una posizione privilegiata rispetto ai propri concorrenti. Esistono due strategie di base che possono condurre un’azienda ad ottenere un vantaggio competitivo: riuscire a produrre a costi inferiori rispetto ai propri concorrenti oppure differenziarsi dagli stessi rispetto al prodotto o servizio offerto.

Nel primo caso l’azienda, sostenendo costi minori rispetto ai concorrenti, potrà vendere a prezzi più bassi e in questo modo conquistare rilevanti quote di mercato. Nel secondo caso, l’azienda punta a comunicare al cliente che il proprio prodotto o servizio è diverso da quello offerto dai propri concorrenti. Di conseguenza non ha alcun senso confrontare i prezzi dei prodotti, in quanto i prodotti, essendo diversi, possono benissimo avere prezzi differenti. Posto che talvolta i costi non sono riducibili, questa è un’ottima strategia per spostare la battaglia con i concorrenti dal fronte dei prezzi alla differenziazione. Un’azienda potrà in questo modo conquistare un segmento di mercato, dopo che l’avrà sufficientemente studiato, proponendo proprio il bene o il servizio che soddisfa una determinata esigenza di quell’insieme di consumatori.

L’oggetto di questo articolo, che prende spunto dall’ottimo testo di Paolo Giudici (“Data mining – metodi statistici per le applicazioni aziendali” – McGraw-Hill, 2001), consiste proprio nell’evidenziare quanto sia utile – per una qualunque azienda – scavare nei dati per ottenere informazioni. Grazie alle informazioni ottenute sarà possibile prendere decisioni che condurranno ad ottenere un vantaggio competitivo.
In buona sostanza, si tratta di analizzare i dati a disposizione per prevedere l’evoluzione di determinate variabili di interesse. Il termine tecnico che indica questo processo è “data mining”, dall’inglese “to mine” = “scavare per estrarre”: ciò implica cercare in profondità, nella massa dei dati disponibili, informazioni non precedentemente note.

Il data mining, nella ricerca scientifica, è un campo di studi relativamente nuovo, nato dall’integrazione dell’apprendimento automatico con le tecniche di statistica multivariata e computazionale. Semplificando il discorso, possiamo dire che l’apprendimento automatico si occupa di ricavare, dai dati, relazioni e regolarità, che poi vengono inquadrate in una spiegazione generalizzata; le tecniche statistiche multivariate e computazionali sono metodi matematici che trattano numerose variabili in modo automatizzato. Così nasce, nel 1995, il data mining, ovvero quel “processo di selezione, esplorazione e modellazione di grandi masse di dati, al fine di scoprire regolarità o relazioni non note a priori, e allo scopo di ottenere un risultato chiaro e utile al proprietario del database” (definizione tratta dal testo sopra citato, come anche le successive parti, di questo articolo, poste tra virgolette).

Il data mining riveste dunque un’importanza fondamentale, non solo per le aziende che intendono ottenere un vantaggio competitivo, ma per chiunque si occupi di ricerca scientifica. Infatti, la scienza nasce proprio nel momento in cui ci si accorge che determinati fenomeni seguono un percorso regolare: da qui si parte per elaborare una legge, in termini matematici, che descriva e sintetizzi il fenomeno preso in esame. D’altronde i ricercatori hanno come obiettivo quello di scoprire e produrre nuova conoscenza, e il data mining non è altro che un “processo di estrazione della conoscenza”.

In pratica, all’interno di un’azienda, il data mining risulta essere un “processo metodologico integrato”, vale a dire qualcosa che non è limitato ad un’unica azione, ma consiste in più fasi che portano ad un risultato finale, molto utile in termini economici. Infatti si parte da un determinato problema di business da risolvere, che può essere ad esempio come incrementare le vendite del prodotto A. Poi si cerca un database adeguato cioè un insieme di dati coerente con il problema da risolvere: nel nostro esempio potrebbe trattarsi di dati che esprimono la soddisfazione dei clienti per il prodotto A. Successivamente si applica un’opportuna tecnica statistica che viene automatizzata in un algoritmo informatico: in sostanza tale algoritmo viene applicato ai dati per ottenere il risultato finale. Nel nostro esempio, la tecnica statistica scelta dovrebbe essere in grado di fornirci una formula che, applicata al database che comprende la soddisfazione dei clienti, fornisca come risultato un modo, efficace ed efficiente, per incrementare le vendite del prodotto A.

In maniera analoga il data mining potrebbe essere applicato con successo ai dati provenienti da un esperimento scientifico. Infatti, utilizzando un’opportuna tecnica statistica è possibile scoprire una determinata regolarità nei dati, che non era visibile a priori. Una volta scoperta tale regolarità, i ricercatori dovranno elaborare una legge matematica che la descriva e successivamente una teoria che giustifichi, spieghi e sintetizzi la regolarità ottenuta. In questo modo si chiude il processo: alla partenza c’erano solo dati, all’arrivo c’è nuova conoscenza.

5 commenti:

BigPaul56 ha detto...

Ottimo articolo davvero. L'unica considerazione che mi viene in mente (anche per esperienza personale) è se gli utenti di tali sistemi (che dovrebbero essere i manager) sono in grado di capire o utilizzare questa nuova conoscenza. Ho qualche dubbio in proposito (a parte qualche caso isolato che conferma sempre la distribuzione gaussiana...).

Walter Caputo ha detto...

Grazie Big Paul 56,
hai perfettamente ragione: c'è una notevole carenza di conoscenza fra coloro che dovrebbero possederla. Ricordo ancora il mio docente di Controllo di Qualità quando così si esprimeva: "O voi statistici imbevuti di sofisticatissime formule, lo sapete che in azienda non sanno neanche cosa sia una Normale ?".

paopasc ha detto...

Non ci sono applicativi nei quali basta inserire i dati grezzi che poi macinano i risultati?
Quello che proponi nell'articolo ha anche una validità pratica per tutte le numerose piccole piccolissime realtà artigianali e commerciali e anche, perchè no, per la famiglia.
Pensa, per esempio, a una regolare revisione dei premi assicurativi, delle spese per l'energia e così via, tutte spese che diamo troppo spesso per assodate e immodificabili. Se qualche software, come dicevo, user friendly ne attenuasse l'impatto troppo statistico e intimorente, avremmo forse un valido strumento di controllo della spesa, specie in questi tempi.
Piaciuto.

Walter Caputo ha detto...

Grazie Paopasc per l'apprezzamento. Effettivamente esistono software, ma - che io sappia - quelli facili da usare sono molto costosi (es. SPSS, SAS), mentre quelli potenti e gratuiti (come R) sono difficili perchè non funzionano con i menu ma con righe di programma da inserire (e con sintassi non proprio semplice). Sarebbe effettivamente bello e utile applicare anche solo semplici tecniche statistiche a piccole aziende e famiglie ed infatti ci sto pensando nel libro a cui sto lavorando (excel se ben usato può già essere un potente "mezzo statistico").

Astromauh ha detto...

Salve, recentemente ho trovato questa pagina dove c'è una statistica sulla presenza dei diversi segni zodiacali tra i premi Nobel.
A quanto pare c'è una prevalenza di Gemelli e una scarsità di Capricorno. Per poter valutare se questi risultati sono significativi bisognerebbe conoscere quale è il valore atteso per ciascun segno. Supporre che la presenza di ciascun segno, debba essere semplicemente 1/12 del totale è errato, perchè sappiamo che c'è una variazione stagionale delle nascite. Mi sapreste dire dove posso trovare dei dati precisi sulla variazione stagionale delle nascite?
Mi immagino che essa vari nel tempo e a secondo della popolazione considerata.
Questo significa che una statistica del genere è praticamente impossibile?
Oppure le variazioni stagionali delle nascite non variano molto di anno in anno e sono più o meno le stesse per le popolazioni dello stesso emisfero?
Se questo fosse vero, dove potrei trovare un campione di riferimento? Ho dato un'occhiata sul sito dell'ISTAT, ma ho trovato solo una tabella con i nati di 5 anni, suddivisi per mese di nascita, mentre quello che servirebbe sono le nascite giorno per giorno, da cui ricavare i valori attesi per ciascun segno.
Sapreste darmi indicazioni in merito?