lunedì 28 luglio 2014

GOOGLE E L'EFFETTO SAN MATTEO

« ...a chi ha verrà dato, in modo che abbia ancor più in abbondanza; 
ma a chi non ha, verrà tolto anche quello che sembra avere. » 
(Vangelo secondo Matteo, XXV 25-29)


Vi siete mai chiesti cosa determina la popolarità dei vostri articoli sul web?

L'articolo originale è del 2009, pubblicato su una testata di settore e si intitolava più precisamente "L'effetto San Matteo, la Googlearchy e altri fenomeni emergenti della rete". Lo ripropongo con alcuni aggiornamenti.

Lo pubblicai durante alcuni studi condotti sulle reti a invarianza di scala, un ramo della fisica statistica molto interessante che governa fenomeni di reti  come il Web e le reti sociali.

L'espressione "Matthew effect", tradotta in "effetto San Matteo" [2], fu utilizzata da Robert Merton per descrivere come, nel campo scientifico, uno scienziato già conosciuto goda di maggior reputazione di un ricercatore poco noto, anche se i lavori di entrambi sono pressoché equivalenti. La conseguenza è che il grande scienziato riceverà premi e riconoscimenti più facilmente, anche quando i suoi lavori sono in realtà il frutto del lavoro di allievi e collaboratori (si veda ad esempio la facilità con cui alcuni scienziati dal nome famoso pubblicano su riviste ad alto Impact Factor, mentre giovani anche con ricerche importanti abbiamo più difficoltà a pubblicare).

È proprio quello che succede sul Web, per il quale spesso siamo di fronte a una giungla di documenti presenti in rete. La mia domanda è: se pubblico una informazione sul mio umile blog, che probabilità ho che qualcuno la legga nel mare incontrastato di documenti presenti su portali di grande visibilità?  [1]

I motori di ricerca scelgono le pagine secondo quello che è stato definito proprio con il nome di "effetto San Matteo", cioè le pagine che sono più  cliccate [3], e collegate da altri siti, sono anche quelle che appaiono ai primi posti.

A questo punto però il motore di ricerca mette ancor più in evidenza queste pagine, tanto che gli utenti tendono a cliccarle ancora di più (e linkarle ulteriormente) creando un circolo vizioso che si è supposto portasse a una "dittatura" dei motori di ricerca. Fenomeno che viene indicato dal detto: "The rich get richer and the poor get poorer" secondo il quale potremmo dedurre che solo alcune pagine molto visibili domineranno la nostra ricerca dell'informazione. Fenomeno, quest'ultimo, indicato anche da alcuni autori con il nome di Googlearchy [4].

In particolare l'effetto San Matteo presuppone che i motori di ricerca influenzino il traffico degli utenti attraverso rigide strategie di posizionamento delle pagine. E si è argomentato che possano generare una spirale tutt'altro che virtuosa che amplifica la dominanza dei siti già popolari secondo una strategia legata al ranking. Questa polarizzazione potrebbe cioè condurre ad un monopolio pericoloso delle informazioni: l'evolvere di una rete non democratica.

Nella pratica accade questo: i motori di ricerca costruiscono i propri indici e ritornano i risultati della ricerca a un utente che fa una interrogazione con un certo ordine: le prime pagine sono in genere quelle considerate più rilevanti.

Tuttavia l'effetto San Matteo non spiega alcuni comportamenti emergenti del Web ma fornisce altresì materia prima per studi che spaziano dalle dinamiche delle reti, alla psicologia sociale.
Quello che vogliamo dimostrare in questo articolo è come la supposta Googlearchy non esista: non esiste cioè un vero monopolio dei motori sulle informazioni presenti in rete.

L'EMERGENZA DI COMPORTAMENTI IN SISTEMI COMPLESSI ADATTIVI NEL WEB

Il comportamento dell'utente durante la ricerca sui motori non era mai stato considerato in studi precedenti. Ecco perché diventa qui fondamentale per spiegare l'apparizione di nuovi fenomeni emergenti. Reti complesse come Internet e il World Wide Web (ma anche reti sociali utilizzate ad esempio nella ricerca di un lavoro o di un nuovo amore) possono presentare comportamenti emergenti inaspettati, tipici dei sistemi complessi adattivi, la cui caratteristica è quella di avere un adattamento fisico che può fare emergere strutture di tipo auto-organizzative e auto-riproducentesi [5].

Da uno studio empirico, di cui parlereno tra poco, è possibile dimostrare che gli utenti che compiono ricerche sui motori cliccano, per così dire, anche risultati molto in basso nella lista dei link rilevanti, generando una ridistribuzione del traffico a favore delle pagine meno popolari.

La conseguenza principale di questo fenomeno va esattamente contro l'impressione generale, che presuppone considerare i motori di ricerca come i principali monopolizzatori dell'informazione, con la capacità di presentare solo certi siti e non altri (fenomeno che spesso ha messo in cattiva luce Google, colpevolizzato di privilegiare alcuni risultati rispetto ad altri).
Si dimostra invece come anche nuove pagine poco indicizzate abbiano un'alta probabilità di essere scoperte rispetto a quanto si sarebbe potuto prevedere con il modello teorico.

GLI EFFETTI TOPOLOGICI DEL COMPORTAMENTO SOCIALE SU INTERNET

Da sin.  Alessandro Vespignani, l'autore e Albert-László Barabási 
Quattro scienziati italiani, che come spesso succede hanno trovato all'estero le migliori condizioni per poter lavorare e sono così migrati negli Stati Uniti, hanno condotto uno studio empirico [6] che spiega come l'influenza dei motori di ricerca non monopolizzino affatto l'accessibilità (e la popolarità) delle informazioni in linea: cioè che siti più popolari ricevano meno traffico di quanto ci si potrebbe aspettare dalle regole del ranking.

I quattro fisici [7] che hanno condotto l'esperimento (che potete trovare su PNAS) sono: Santo Fortunato, Alessando Vespignani, Filippo Menczer, Alessandro Flammini, dell'Indiana University.

Lo studio qui presentato vuole sfatare un preconcetto: il timore del presentarsi di una situazione in cui un ciclo auto-rinforzante della popolarità possa generare una topologia di Internet in cui solo un numero limitato di fonti di informazioni predominerà. Detto in poche parole: essere famoso sul Web non ti privilegerà nella scalata alla notorietà rispetto a concorrenti meno conosciuti al pubblico.

Se è vero infatti che le pagine con più link e traffico verranno evidenziate per prime (perchè questo è anche quello che pretendiamo dai motori di ricerca), dimostreremo che nello stesso modo anche le pagine che non sono ai primi posti sui motori hanno una loro probabilità relativamente alta di essere viste, visitate e citate.

L'effetto San Matteo viene, in altre parole, mitigato dal funzionamento dei motori, dalla topologia di reti a invarianza di scala come il web e, soprattutto, dal comportamento degli utenti.

LA RICERCA 

Usando i dati di posizionamento di motori come Google e Yahoo e i dati del traffico generato da Alexa (servizio che misura i dati raccolti dalla Toolbar degli utenti), gli autori hanno inviato circa 30.000 interrogazioni e catalogato il risultato di alcuni milioni di risultati rilevanti, osservando come la natura empirica delle curve vada contro l'ipotesi della supposta dittatura dei motori.

Hanno poi tracciato un grafico del traffico dei collegamenti inbound in modo tale che il pendio della linea avrebbe rivelato se e in che natura il ranking della pagina venisse influenzato dall'aumento del traffico. Si è visto che per i siti da 100 a 1.000.000 di collegamenti inbound, traffico e collegamenti mantenevano un rapporto proporzionale, ma la loro pendenza, costante di proporzionalità, andava contro ogni previsione.

Il traffico aumentava molto meno di quello previsto rispetto al caso in traffico e link in ingresso nei motori di ricerca cui i motori avessero contribuito ad aumentarne la popolarità. E' cioè aumentato di meno rispetto a quanto il modello prevede nel caso in cui traffico seguisse una legge di proporzionalità diretta con i collegamenti inbounf.

In figura A sono state rappresentate le relazioni tra link entranti (in-degree) e traffico generato (clic sul sito). il fattore h denota la probabilità che una pagina sia cliccata in risposta a una ricerca (query).

Alla fine, il risultato dimostra che ogni collegamento inbound aumenta il traffico t rispetto a k secondo una legge di potenza con esponente gammacirca uguale a 0.8 .

I risultati indicano che il comportamento degli utenti rispetto ai motori di ricerca possa sopprimere o mitigare l'effetto dovuto alla popolarità delle pagine.
Ciò diventa ancor più chiaro quando i dati sono esaminati all'estremità del range di valori: al crescere esponenziale dei link inbound le curve tendono ad appiattirsi. Questo dimostra come all'aumentare dei collegamenti le pagine più viste tendano a raggiungere una "saturazione" della loro popolarità, e indipendentemente dall'aumento dei link entranti le pagine non possono espandere ulteriormente la loro già elevata visibilità [8].

Lo studio propone un fattore che può contribuire a spiegare questi risultati: l'interesse dell'utente. Un utente interessato ad un argomento probabilmente avrà già visitato i siti più popolari che trattano di quel soggetto. Nella lista bassa delle ricerche i motori di ricerca permettono di trovare anche pagine meno-popolari che riguardano specifici temi trattati da siti non ancora visitati e perciò appetibili all'utente.

CONCLUSIONI

Il risultato ha conseguenze concettuali e pratiche interessanti: suggerisce, controintuitivamente, come l'uso "sociale" dei motori di ricerca contribuisca a "livellare" la popolarità delle pagine, cosicché anche i siti meno popolari hanno una probabilità, superiore a quanto ci si attenderebbe, di essere trovati. E questo grazie alle dinamiche della psicologia sociale applicate alle reti di informazione.
In altre parole, se avete qualcosa di importante da dire, per la quale la comunità web potrebbe essere interessata, qualcuno la noterà, nonostante il grande traffico generato dai grossi e più popolari portali.



NOTE

[1] Secondo la nota legge di potenza e il modello "Rich Get Richer", sul web la misura della visibilità è proporzionale al numero di link entranti. Più link puntano alla vostra pagina Web, più siete visibili.  

[2] L'effetto San Matteo è una forma di ripartizione basata sulla cumulatività, in base alla quale ogni nuova risorsa che si rende disponibile viene ripartita fra i partecipanti in proporzione a quanto hanno già. Il nome deriva da un passo del Vangelo di Matteo misteriosamente tutt'altro che cristiano che recita:

« ...a chi ha verrà dato, in modo che abbia ancor più in abbondanza; ma a chi non ha, verrà tolto anche quello che sembra avere. » (Vangelo secondo Matteo, XXV 25-29)

L'espressione è stata usata per descrivere un "effetto di cumulatività" più volte osservato nella comunità scientifica e descritto da Robert K. Merton, in base al quale gli scienziati che raggiungono dei successi nei primi anni della propria carriera (ad esempio pubblicando un articolo su una rivista molto nota, o con un co-autore famoso), hanno in seguito molta più facilità a pubblicare, e quindi più credibilità e successo delle properie teorie, a parità di abilità e di ogni altro fattore. Questo effetto è considerato spesso fra i casi di iniquità della scienza, nella misura in cui il successo iniziale determina effetti di ripartizione non proporzionati alle abilità negli stadi successivi. [WikiPedia]
Lo stesso meccanismo è stato proposto per spiegare anche il comportamento del Web, luogo in cui più un articolo, una pagina è richiesta e di conseguenza cliccata e più sale di popolarità. 

[3] C'è chi tende a sottovalutare, o a non dare per scontata, l'influenza delle Toolbardei search engine sul posizionamento sulle Serp. Facciamo invece notare che sono gli stessi search engine a dichiarare che i dati provenenti dai clic degli utenti che usano le toolbar vengono utilizzati per assegnare l'importanza di posizionamento delle pagine dal loro traffic ranking.

Da una nota di Alexa Toolbar: "Making a better internet"Alexa could not exist without the participation of the Alexa Toolbar community. Each member of the community, in addition to getting a useful tool, is giving back. Simply by using the Firefox and IE toolbars each member contributes valuable information about the web, how it is used, what is important and what is not. This information is returned to the community as Related Links, Traffic Rankings and more.
e ancora...
The traffic rank is based on three months of aggregated historical traffic data from millions of Alexa Toolbar users and is a combined measure of page views and users (reach).
e ancora...

Alexa computes traffic rankings by analyzing the Web usage of millions of Alexa Toolbar users. The information is sorted, sifted, anonymized, counted, and computed, until, finally, we get the traffic rankings shown in the Alexa service. The process is relatively complex, but if you have a need to know, please read on.


Per quanto riguarda Google, invece, la sua formula semplificata (che peraltro non è quella attualmente usata) prevedeva fin dall'inizio un fattore, chiamato damping factor, il cui valore viene deciso da Google e che nella documentazione originale assumeva valore 0,85. Tale valore può essere aggiustato da Google per decidere la percentuale di PageRank che deve transitare da una pagina all'altra. Tale valore viene influenzato da molte variabili, tra cui il Traffic Ranking.

"The random surfer picks a web page and keeps clicking on links, this probability is called damping factor". 
"The PageRank value of a page reflects the frequency of hits on that page by the random surfer".
Karla Alcazar
Seminar: Link mining (2004)
Intitute für Informatik - Universität Freiburg

ecco la formula: 


Dove:
  • PR[A] è il valore di PageRank della pagina A che vogliamo calcolare
  • T1...Tn sono le pagine che contengono almeno un link verso A
  • PR[T1] ... PR[Tn] sono i valori di PageRank delle pagine T1 ... Tn
  • C[T1] ... C[Tn] sono il numero complessivo di link contenuti nella pagina che offre il link
  • d è il damping factor

Cito anche quanto affermato da Fortunato, Flammini, Menczer, Vespignani nella ricerca "The egalitarian effect of search engines" pubblicato nel 2005:

"Traffic is the fraction of all user clicks in some period of time that lead to the page; this quantity, also known as view popularity, can be estimated using the Alexa Traffic Rankings service, which monitors the sites viewed by users of its toolbar" 

[vedi anche J. Cho, S. Roy, and R. Adams. Page quality: In search of an unbiased web ranking. In Proc. ACM International Conference on Management of Data (SIGMOD), 2005]


Segnalo infine l'ottimo testo di Amy Langville (Assistant Professor of Mathematics al College di Charleston in South Carolina) e Carl D. Meyer (Professor of Mathematics alla North Carolina State University) dal titolo:

Google's PageRank and Beyond: The Science of Search Engine Rankings
Princeton University Press, New Jersey, 2006

in particolare il cap. 12.3 dal titolo "Ranking Based on Traffic Flow" (pagine 136-138)la cui dimostrazione è troppo lunga per poter essere riportata in queste righe. Cito solo una interessante interpretazione degli autori a proposito del TrafficRank. Grazie al metodo matematico dei Moltiplicatori Langrange è possibile ottenere una soluzione che descrive la "temperatura" per ognuna delle pagine Web. Una interpretazione che affonda le sue radici nella relazione termodinamica tra entropia e calore (HotRank).

[4] cf., Hindman, M. et al., 2003. "Googlearchy: How a Few Heavily-Linked Sites Dominate Politics on the Web.".

[5] Claudio Pasqua, L'emergenza negli ecosistemi digitali e la scienza della complessità, The Daily Bit, Torino, 6 luglio 2007 e anche http://it.wikipedia.org/wiki/Emergenza

[6] Topical interests and the mitigation of search http://www.pnas.org/cgi/content/abstract/0605525103v1

[7] Filippo Menczer è professore associato di informatica, computer science presso l'ndiana University, Bloomington; i suoi interessi di ricerca sono orientati allo studio di sistemi intelligenti per il web Mining (estrazione di informazione utile da insiemi di dati). Santo Fortunato svolge un post-dottorato presso l'Indiana University School of Informatics; le sue ricerche più recenti riguardano la tecnologia delle reti e le dinamiche sociali sulla formazione di opinioni. Alessandro Flammini è assistente alla School of Informatics dell'Indiana University. I suoi interessi riguardano lo studio di reti complesse e la fisica di biopolimeri. Alessandro Vespignani è professore di informatica, scienze cognitive e fisica presso l'Indiana University; il suo lavoro si concentra sullo studio del sistemi complessi e delle reti.

[8] La figura seguente mostra i risultati dell'analisi. La previsione teorica segue una legge di potenza, ed è rappresentata da una linea retta sul grafico logaritmico. L'area blu-viola rapprenta la previsione nel caso in cui l'effetto della googlearchy fosse vera mentre la linea chiamata "surfing model" rappresenta il caso in cui i motori di ricerca fossero neutrali, come se i visitatori navigassero sui siti senza effettuare delle ricerche.
I dati empirici non seguono una legge di potenza: è invece evidente che il traffico in entrata segue una proporzionalità con espontente inferiore a quello predetto.
Al contrario di quello cui ci si potrebbe attendere, questo risultato suggerisce che i motori di ricerca hanno un comportamento democratico, visto che indirizzano più traffico di quanto atteso verso i siti meno popolari della rete.
Questo effetto democratico viene spesso denotato con il termine googlocracy.


1 commento:

Luca ha detto...

Posso dire la mia senza aver letto neanche l'articolo? Picchiatemi pure ma non mi fido, c'è una domanda a cui rispondere prima che legga l'articolo.

Per me c'è troppo rumore, e bisognerebbe prima dimostrare che non è così. Il ranking Google è sicuramente costruito con la quantità di link in ingresso, ma per loro stessa ammissione non è l'unico parametro. E non sapendo i pesi potrebbe essere drammatico.

Influiscono altri fattori, come la velocità e l'età (del sito e della pagina), oltre che l'authorship dello stesso autore, che potrebbero alterare (e non poco) i risultati. Gettando tutto nel calderone potrebbe anche essere che i valori si medino, ma sarebbe una cosa tutta da dimostrare. Anche perché dubito che milioni di siti si potessero riferire tutti allo stesso database, portando una variabilità potenzialmente catastrofica nei dati stessi. Ad oggi "3D printer" seguirà delle logiche di posizionamento che possono benissimo essere diverse da "Newton equation of motion"

Senza contare che alcuni argomenti possono essere pesati anche in base al tempo di uscita. Gli articoli inerenti a breaking news ricevono massima popolarità finché l'argomento è d'interesse (per esempio l'aereo abbattuto in Ucraina), prima di essere penalizzati a favore di articoli più enciclopedici. Per spiegarmi meglio, se ora cerco "Malesia airlines" mi usciranno tutte notizie riguardo all'abbattimento, da qui a 1 mese è invece probabile che abbia più facilità a trovare informazioni dell'azienda e le sue rotte.

Oltretutto come links inbound bisognerebbe prendere in considerazione anche quelli dei social (che potrebbero tranquillamente sovrastare in numero i normali link pagina-pagina), che però sono difficilmente rintracciabili, considerando i servizi di "accorciamento" come bit.ly

Infine (a braccio), l'uso di Alexa è un indicatore assolutamente rischioso. Per il metodo di acquisizione dati, la stessa azienda conferisce pochissima precisione ai posti in classifica che vanno oltre a 100.000...

Io non sarò un esperto del settore, ma una raccolta di dati empirici basati solo sui link mi lascia molto dubbioso. Ancor prima di leggere l'articolo...