|
Materiale stampato dal sito www.dablones.org |
|
|
|
E’
ormai nozione comune che i motori di ricerca cambiano
costantemente le regole con cui indicizzano e catalogano le
pagine web. Le
ragioni di questo continuo cambiare sono due: il numero di
pagine pubblicate online cresce a dismisura e con esso cresce
il tentativo di “ingannare” i motori di ricerca per
cercare di conquistare posizioni da capoclassifica per le
proprie pagine. Una
delle tecniche piu’ comunemente impiegate a tale scopo e’
la creazione delle cosiddette pagine “gateway”.
In molti casi si tratta di pagine uguali l’una all’altra
con solo dei minimi cambiamenti nel testo per promuovere l’una
o l’altra parola chiave. L’obiettivo
dei motori di ricerca e’ totalmente opposto: estrarre dal
mucchio pagine che siano rilevanti per la ricerca effettuata e
levare di mezzo pagine che sono in buona sostanza dei gran
doppioni. Questa,
in breve, e’ la situazione. Cambiamenti
profondi si stanno profilando all’orizzonte con l’emergere
di quella che viene ormai definita la “terza generazione”
dei motori di ricerca. Questo
articolo si pone come obiettivo di spiegare come i motori di
ricerca siano arrivati alla decisione di implementare una
terza generazione dei loro sistemi di ricerca, indicizzazione
e catalogazione e quale sara’ l’impatto su tutti noi
comuni mortali. Tre
generazioni di motori di ricerca
Agli
albori della storia di Internet i motori di ricerca basavano
la catalogazione dei siti basandosi sul testo della pagina e
sulla densita’ delle parole di ricerca e la Prima
Generazione aggiunse i META Tags ai criteri di decisione. Con
la Seconda Generazione, quella attualmente ancora largamente in uso, i
motori di ricerca hanno cominciato ad analizzare: ·
Popolarita’
della pagine: quantita’ e qualita’ dei link verso la
nostra pagina. In
questo senso un link da YAHOO! conta molto di piu’ di un
link che arriva dalla ditta Rossi.com ·
Permanenza:
quanto piu’ lunghe sono le permanenze medie dei visitatori
del nostro sito, tanto piu’ alta sara’ la sua rilevanza. Page Vector (PV) e Term Vector (TV) La
spiegazione tecnica di queste due nuove categorie di analisi
e’ piuttosto complicata.
Di seguito cerchero’ di renderla semplice ed
intuitiva. Pur
nella semplificazione e nella approssimazione dei concetti, la
spiegazione coglie gli aspetti essenziali dei fenomeni
indagati. ·
Core
sites L’insieme dei siti
relativi ad argomenti omogenei presenti nell’indice di un
motore di ricerca rappresenta il “core”.
Ad esempio, se un MR ha gia’ catalogato 5000 siti che
trattano di gioielleria, questi siti rappresentano il
“core” dei siti di gioielleria.
Quando registrerete il vostro sito (e voi siete dei
produttori di gioielli ..) il vostro sito verra’ confrontato
con il “core” dei siti di gioielleria. ·
PV I motori G3 fanno
l’analisi di tutte le pagine di ciascun “core” e
calcolano un Page Vector, in pratica danno un “voto” a
ciascuna pagina presente nel loro indice e relativa ad un
certo argomento. Ad
esempio, prendiamo la gioielleria.
Il MR analizzera’ le caratteristiche di tutte le
pagine relative alla gioielleria presenti nell’indice ed
assegnera’ un voto a ciascuna di esse. La media dei voti, o altre manipolazioni statistiche di tali
voti, sara’ il PV. ·
TV Supponiamo che siate dei
produttori di gioielli. Supponiamo
che produciate gioielli in argento, monili da indossare.
Supponiamo che abbiate registrato il vostro sito con un
motore G3. Il MR
analizzera’ le caratteristiche della vostra pagina e le
assegnera’ un Term Vector.
Il TV viene poi comparato con il PV assegnato al
“core” della gioielleria ed il confronto determina la
posizione del vostro sito nell’indice (in altre parole, il
confronto detrrminera’ se il vostro sito apparira’ al
primo posto, al millesimo posto oppure in una posizione
intermedia). |