fabbrica d'informazione



dal manifesto

     
    
 
    
 

10 Marzo 2002 
  
 
  
Fabbrica d'informazione
Il mondo visto come produttore di miliardi di byte l'anno. Una ricerca
dell'università di Berkeley 
FRANCO CARLINI 

Ma quanta informazione c'è in giro per il mondo, e quanta di nuova ne viene
prodotta ogni anno? Due ricercatori americani hanno tentato di valutarla;
si tratta di stime statistiche, ma certo impressionanti. I due studiosi
sono Peter Lyman e Hal Varian della School for Information Systems and
Management presso l'Università di California a Berkeley. Dal loro
"carotaggio", disponibile all'indirizzo
www.sims.berkeley.edu/how-much-info/, risulta dunque che ogni anno nel
mondo vengono prodotti 2 exabyte di informazione originale (cioè senza
contare le copie).
Un exabyte equivale circa a un miliardo di miliardi di byte, ovvero 1018
byte (si ricordi il gioco dei prefissi: mega = un milione ; giga = un
miliardo ; tera = mille miliardi ; peta = un milione di miliardi ; exa = un
miliardo di miliardi). Queste cifre si riferiscono a tutta la produzione,
ovvero a Tv, radio, film, libri, giornali, documenti personali e d'ufficio,
web e altri media elettronici. Se le si raffronta alla popolazione mondiale
ne risulta una media di 250 megabyte per ogni abitante della terra, neonato
o anziano che sia.
Ben 741 Terabytes sono prodotti dai singoli individui, in forma di foto,
film, radiografie e contenuti degli hard disk, cui vanno aggiunte le
produzioni di radio, televisione, telefonia e sistema postale, nonché la
produzione strettamente digitale. Per quest'ultima, in particolare, le
stime parlano di 73 Terabytes per i gruppi di discussione Usenet.
Quest'ultimo è un universo enorme e in continua crescita, se si pensa che
nel 2001 erano attivi 80 mila Newsgroup Usenet, con 8,1 milioni di persone
coinvolte, le quali avevano inviato 151 milioni di messaggi; queste cifre
sono tre volte superiori a quelle rilevate nel gennaio del 19961. Ma la
parte del leone viene dalla posta elettronica, che genera ogni anno 11.285
Terabytes.
Quanto al Web la sua porzione direttamente accessibile consisteva, secondo
gli studiosi, di circa due miliardi e mezzo di pagine, ma ogni anno se ne
aggiungono altri 7,3 milioni. Ma a queste cifre già di per sé spaventose va
aggiunto il cosiddetto "Web profondo", costituito da tutte quelle pagine
generate direttamente dai database (e che non possono essere contate dai
motori di ricerca) e quelle delle Intranet e di altre reti private; la
valutazione degli studiosi è che conteggiando anche questa porzione si
possa parlare di circa 550 miliardi di documenti web: dunque i motori di
ricerca, anche i più fantastici come Google, non possono per definizione
arrivare a tali testi e dunque si fermano a 1 miliardo e mezzo di pagine
schedate.
Non si deve credere, tuttavia, che tutto questo materiale in rete sia una
matassa senza ordine. Al contrario esso è dotato di una struttura
topologica che nessuno ha progettato ma che deriva dalla spontanea
operazione di riferimenti incrociati che ogni pagina web fa attraverso i
suoi link. Ne deriva che alla struttura fisica della rete, costituita dai
rami della sua spina dorsale (backbone) se ne sovrappone un'altra, di tipo
logico, generata dai link.
Una prima grossolana divisione ha portato a individuare un nucleo centrale
(core), il più ricco e frequentato e ricco di ramificazioni, una corona
superiore (upstream) che viene raggiunta facilmente dal nucleo, e una base
inferiore (downstream) che ha molti link verso il nucleo ma pochi nel senso
inverso. Ci sono infine i "viticci" (tendrils) che sono un po' delle isole
separate, con pochi legami con il resto del Web. Ognuna delle tre sezioni
principali ha grosso modo le stesse dimensioni.
Ma questa ricerca delle strutture logiche del web può essere ulteriormente
raffinata. E' quanto hanno fatto Jon Kleinberg e Steve Lawrence che in un
articolo recente (The Structure of the Web, Science 2001 - Vol. 294, pp.
1849-1850) hanno messo in luce alcuni aspetti poco noti. Esaminando "chi
cita chi", con un procedimento analogo a quello usato dai Citation Index da
tempo diffusi nella ricerca scientifica, gli autori hanno cercato di
identificare le comunità spontanee di pagine che esistono sul web. Una
comunità di siti o pagine può essere definita come l'insieme di quelle
pagine in cui ogni pagina-membro ha più link verso pagine all'interno alla
comunità che verso il resto del web. Con questa procedura sono state
identificate circa 100 mila comunità web, molte delle quali non ufficiali,
nel senso che non sono nate da un esplicito progetto e che non risultano
come tali in nessuna delle directory della rete. All'interno delle singole
comunità, poi, esistono almeno due tipologie interessanti di pagine, gli
Hub e le Autorità. Gli Hub (perni) hanno moltissimi link e svolgono la
funzione di elenchi e guide all'interno di quella particolare comunità.
Viceversa le Autorità sono le pagine molto citate dai membri della comunità
(ma non necessariamente contengono molti link), il che testimonia appunto
della loro autorevolezza rispetto a un certo argomento. Questa struttura
spontanea generata dai link è ovviamente importante per chi debba reperire
le informazioni rilevanti rispetto a un particolare argomento-comunità e
già viene utilizzata, secondo vari algoritmi, dai motori di ricerca più
avanzati.