Un leak nel codice di Yandex espone i fattori di ranking

Un ex dipendente di Yandex ha divulgato il codice sorgente del motore di ricerca e di altri servizi, fornendoci interessanti informazioni sul suo funzionamento interno, tra cui fattori di ranking, valutazioni e tanto altro ancora.

Yandex è il leader del mercato dei motori di ricerca in Russia e al quinto posto a livello mondiale in termini di siti visitati. Anche se Yandex non è Google, il funzionamento di base dei motori di ricerca è paragonabile: i risultati che seguono non sono necessariamente direttamente applicabili a Google, ma forniscono comunque degli insight interessanti.

Il codice sorgente contiene un ampio elenco di ben 1.922 diversi fattori di ranking. Tuttavia, poiché 999 di questi fattori di ranking sono etichettati come TG_DEPRECATED, 242 come TG_UNUSED, 149 come TG_UNIMPLEMENTED e 115 come TG_REMOVED, ne rimangono alla fine 417 attivi, molti di più dei circa 200 ipotizzabili per Google.

Come Google ha già confermato, anche Yandex utilizza valutazioni e algoritmi diversi a seconda della query di ricerca. Ad esempio, esistono differenze in base all’ora del giorno: troviamo valutazioni mattutine e serali (IND_FI_MORNING_QUERY), ma naturalmente il motore valuta in modo diverso le query legate all’l’intrattenimento per adulti (IND_FI_XPORNO_QUERY), quelle commerciali (IND_FI_QUERY_COMMERCIALITY_MX) e molto altro ancora.

Un primo elenco delle valutazioni dei fattori di ranking (nav_linear.h) suggerisce che i segnali di posizionamento più importanti per Yandex si trovano nelle seguenti quattro aree:

  • Link: Come Google, Yandex utilizza un algoritmo di PageRank per valutare la qualità dei link. I testi dei link sono importanti, così come la loro età.
  • Segnali degli utenti: Google lo nega, mentre per Yandex il codice sorgente mostra chiaramente che i segnali degli utenti sono un fattore di ranking. Valori come il CTR, il tempo di permanenza sul sito, la frequenza di rimbalzo e il numero di visitatori che ritornano nelle SERP influenzano il ranking di Yandex.
  • Rilevanza: Naturalmente è incluso anche il fattore classico dei motori di ricerca. Yandex utilizza principalmente BM25, un approccio ben noto nell’ambito del reperimento d’informazioni. Si parla anche di altri fattori classici, come il fatto che la keyword sia contenuta nell’URL.
  • Fiducia e qualità: per argomenti sensibili come la salute e i contenuti finanziari, Yandex, come Google, applica requisiti di qualità più elevati. Ad esempio, esistono 7 diversi fattori di ranking per i soli argomenti medici (FI_MEDICAL*).

Molte delle ipotesi sui fattori di ranking di Google si trovano nel codice sorgente di Yandex: non possiamo confermare al 100% che i due motori di ricerca utilizzino gli stessi fattori, ma si tratta di risorse comunque utili da sapere. Ad esempio, Yandex generalmente classifica i contenuti pubblicati su Wikipedia.org meglio degli altri, mentre gli errori del server (codici di stato 400s/500s) hanno un effetto negativo sui ranking. Infine, come per Google, anche Yandex valuta positivamente la crittografia HTTPS e la velocità dei siti.

Nel complesso, questo leak del codice di Yandex offre una visione molto interessante del funzionamento interno di un moderno motore di ricerca. Anche se non tutti i risultati possono essere applicati direttamente a Google, molte delle ipotesi formulate negli ultimi anni sul funzionamento generale dei grandi motori di ricerca su internet sono confermate. Probabilmente il settore SEO avrà davanti a sé alcune settimane interessanti con nuovi spunti di riflessione.

Articoli correlati