Con l’avvento della ricerca basata sull’IA è emersa una nuova categoria di bot: gli userbot IA. Gli agenti utente come ChatGPT-User o Perplexity-User accedono a un sito web nel momento esatto in cui un’IA raccoglie informazioni per rispondere a una specifica richiesta di un utente.
Nel settore SEO, questi accessi vengono sempre più trattati come una nuova valuta. La logica sembra convincente: se un userbot IA visita il mio sito, i miei contenuti confluiscono nella risposta generata. Più accessi da parte dei bot significano maggiore visibilità nell’IA.
Questa interpretazione è comprensibile, ma risulta insufficiente. Nell’analisi dei dati degli userbot IA esistono quattro ostacoli significativi che rendono il quadro notevolmente più complesso.
1. I sistemi più diffusi non utilizzano affatto gli userbot
Google AI Overviews e la modalità IA sono di gran lunga i sistemi di ricerca basati sull’IA più diffusi sul mercato. Funzionano principalmente sull’indice di ricerca esistente. Nel rispondere a una query, di norma non avviene alcun accesso in tempo reale da parte di un userbot dedicato. L’intero processo rimane invisibile nei file di log del server.
Questo significa che chi misura le proprie performance nella ricerca IA esclusivamente attraverso gli accessi degli userbot trascura completamente il canale di gran lunga più importante.
2. L’accesso non equivale all’inclusione
Nell’ambito del RAG (Retrieval Augmented Generation), un LLM può recuperare numerose fonti in parallelo per aumentare la densità di informazioni di una risposta. Tuttavia, il fatto che una pagina sia stata scansionata in questo processo non significa necessariamente che venga poi citata come fonte o inclusa nel risultato. Il modello filtra e rivaluta nuovamente in una fase finale.
Un accesso di bot nei log è quindi, nella migliore delle ipotesi, un segnale che una pagina è stata considerata come candidata. Se abbia poi fatto parte della risposta finale non può essere dedotto da questo solo dato.
3. Validazione invece che generazione
Le decisioni fondamentali sul contenuto di una risposta vengono prese all’interno del modello fondazionale stesso. In molti casi, gli userbot servono unicamente a supportare o validare con fatti aggiornati le decisioni già prese dal modello.
L’accesso del bot è quindi spesso un meccanismo di verifica a posteriori, non un impulso primario della risposta. La causalità funziona diversamente da quanto suggeriscono i dati di log: non è l’accesso al sito web a determinare la risposta, bensì è la risposta pianificata a determinare l’accesso al sito web.
4. Il caching distorce la base dati
Per ridurre la latenza e i costi, i sistemi di ricerca IA fanno ricorso a meccanismi di caching. Un singolo accesso di bot può costituire la base per migliaia di richieste identiche da parte degli utenti senza che vengano generate ulteriori voci nei log.
Questo distorce la base dati in entrambe le direzioni: le pagine con pochi accessi da parte dei bot possono comunque essere ampiamente presenti nelle risposte dell’IA. Le pagine con molti accessi da parte dei bot potrebbero essere state consultate per una sola richiesta, che è stata poi memorizzata nella cache.
Un confronto storico: il parallelo con i metamotori di ricerca
Gli userbot IA ricordano i primi tempi dei metamotori di ricerca. Questi interrogavano in parallelo diversi motori di ricerca a seguito della richiesta dell’utente e aggregavano laboriosamente i risultati in tempo reale. Il principio funzionava, ma era inefficiente e divenne rapidamente obsoleto quando Google costruì un indice così completo e aggiornato da poter fornire le informazioni direttamente da un’unica fonte centrale.
Conclusione
Gli accessi degli userbot IA sono un dato, ma non un indicatore affidabile della visibilità nell’IA. Rappresentano solo una frazione del panorama reale della ricerca IA, non dicono nulla sull’effettiva inclusione dei contenuti nelle risposte e sono sistematicamente distorti dagli effetti del caching.
La mia previsione: la ricerca IA si svilupperà in modo simile. L’accesso in tempo reale tramite userbot diventerà un caso speciale riservato a dati volatili e urgenti — ad esempio «Questo volo è ancora disponibile nella classe di prenotazione XY in questo momento?». Per la grande maggioranza delle informazioni, il modello attingerà direttamente alle proprie conoscenze acquisite in fase di addestramento o a un indice pre-scansionato ad alta efficienza.

