Header Ads


LA SCIENZA NELL'ERA DEL PETABYTE


Da chilo a mega, da giga a tera, da peta a exa, da zetta a yotta.
La copertina del numero di questa settimana di Nature è dedicata a uno delle più importanti quanto scoraggianti sfide della scienza moderna: come far fronte alla quantità immensa di dati che vengono continuamente archiviati nei cosiddetti data storage?

Un petabyte è una grande quantità di memoria.
Corrisponde a 1.000.000.000.000.000 byte =
10005 = 1015 byte = 1 biliardo di byte.

E in rete esistono già esempi di archivi che raggiungono questa mole di informazioni, come ad esempio il Wayback Machine, un archivio digitale che tra le altre cose si occupa di salvare le vecchie pagine web. Approssimativamente 2 petabyte di dati elettronici che aumentano costantemente al ritmo di 20 terabyte al mese [1].

Oppure il San Diego Supercomputer Center (SDSC), che negli USA ha immagazzinati 1 petabyte di dati su cluster di hard disk e 6 petabyte immagazzinati sotto forma di nastri magnetici gestiti da robot. Questi sono entrambi collegati a una rete di tipo Grid computing (un sistema di calcolo distribuito) del National Science Foundation.

Oppure l'esempio dei Paesi Bassi, che utilizzano un archivio elettronico di 1,5 petabyte per memorizzare contenuti radio-televisivi sia datati che recenti in forma digitale. Entro la fine del 2006 si prevede che la maggior parte dei contenuti televisivi offerti al pubblico olandese saranno estratti direttamente da questo database durante le normali trasmissioni.

Rapidshare, invece, il noto sistema di hosting web possiede server con 4,5 petabyte di spazio di storage.

Mentre il servizio di hosting video Youtube smaltisce un traffico mensile di circa 27 petabyte.

O Google, che da solo smaltisce 20 petabyte di dati al giorno.

E per finire la GRID del CERN che elaborando dati al ritmo di circa 15 PetaBytes di dati ogni anno prodotti dagli esperimenti dell'LHC si preannuncia già essere il più grande "strumento" scientifico del mondo.

EVOLUZIONE DEL METODO SCIENTIFICO?

Con una tale quantità di dati l’approccio classico alla scienza – ipotesi, modello, test – potrebbe diventare obsoleto. Ne parla in un articolo Chris Anderson (qui trovate l'originale) dedicato alle nuove metodologie di ricerca scientifica rese possibili dai supercomputer e dagli algoritmi di data-mining e map-reducing di Google. Secondo questo nuovo approccio diventa meno indispensabile porre inizialmente un'ipotesi sul funzionamento di qualcosa ed in seguito procedere con le verifiche per saggiarne l'attendibilità.

Il migliore esempio pratico di questo, secondo Anderson, è il sequenziamento "shotgun" del genoma di J. Craig Venter. Aiutato da sequenziatori a alta velocità e da supercomputer che analizzano statisticamente i dati che redigono, Venter è passato dal sequenziare organismi individuali ad ordinare gli interi ecosistemi. In 2003, ha cominciato a sequenziare gran parte dell'oceano, ritracciando il viaggio del capitano Cook. E in 2005 ha cominciato a sequenziare l'aria. Nel processo, ha scoperto migliaia di specie precedentemente sconosciute di batteri e di altre forme di vita.

Per approfondire:
www.nature.com/news/2008/080903/full/455016a.html

Edge: THE END OF THEORY By Chris Anderson
.
.

1 commento

Anonimo ha detto...

Curiosa l'equipollenza tra sapere non sapere: il non sapere è dato dal nulla o poco più, il sapere è dato dal una massa talmente enorme di dati che rende nullo il sapere. Insomma, più cose sò, più so di non sapere.