Ogni giorno miliardi di utenti Internet utilizzano un motore di ricerca. Di solito, lo fanno senza sapere come funziona. Nel 1993, trovare un sito web senza avere il suo indirizzo esatto era impossibile. Due anni dopo, Altavista segnò la rivoluzione di Internet.
L'arrivo di Google nel 1998 ha spinto lo sviluppo dei motori di ricerca. Da oltre 20 anni, la multinazionale di Silicon Valley domina il mondo della ricerca online. Solo paesi come la Russia o la Cina hanno un altro motore di ricerca principale (Yandex in Russia, Buidi in Cina).
Per scoprire e classificare miliardi di siti presenti in rete, i motori di ricerca utilizzano algoritmi che prendono decisioni sulla qualità e la pertinenza delle pagine web. Ci sono tre fasi del processo:
La scansione (crawling) è il processo di un bot che visita una pagina e ne salva una copia nel database del motore di ricerca.
Poiché una pagina non può essere visualizzata nella SERP se non è indicizzata, è fondamentale assicurarsi che la pagina possa essere scannerizzata e abbia un valore sufficiente per farlo. Esiste anche una chiara correlazione tra l'autorevolezza di un dominio e la frequenza con cui una pagina viene scansionata: le pagine popolari possono essere scansionate anche più volte al giorno. Questo porta alla conclusione che, migliorando la scansione e l'indicizzazione del sito web, si migliora anche la qualità generale del dominio.
Il numero di pagine scansionate e indicizzate potrebbe sembrare un parametro irrilevante, ma mostra come Google tratta i siti web. Se tutte le pagine inviate vengono scansionate regolarmente e la maggior parte di esse viene indicizzata, significa che il sito ha una buona autorevolezza e affidabilità.
Esistono molti parametri che influiscono sulla scansione. I principali sono:
La scansione è il processo con cui il crawler visita un sito e ne analizza i contenuti. È più importante di quanto si possa pensare: se ci sono ostacoli per il crawler, non solo la scansione diventa più lenta, ma la qualità generale del dominio peggiora.
I motori di ricerca hanno sempre più siti da analizzare: perciò, devono arbitrare sulle risorse che utilizzeranno, applicando le quote di scansione:decisono, cioé, il numero di volte che visitano un sito, in base a diversi criteri.
La quota di scansione, chiamata anche crawling budget, dipende dal tempo trascorso su un sito. È possibile dettagliare il budget assegnato a un sito scomponendolo per numero di pagine in relazione al peso/dimensione e in relazione all'ottimizzazione del codice e del server.
Per esempio, se il tempo impiegato per il download si riduce, il numero di pagine scansionate/scaricate aumenta. La quota di scansione dipende, quindi, in gran parte dal tempo trascorso su una pagina: è problematica quando si superano le migliaia di pagine, ma se il sito è molto lento, ci sono URL duplicati da URL parametrizzati, ad esempio, non esiste una preferenza.
I motori di ricerca, infatti, devono eseguire la scansione di ogni versione: se il tuo sito, per esempio, conta 100 pagine, queste si trasformano in 300 da scansionare, se hai delle url parametrizzate o se dai accesso, ad esempio, alla versione http. Aggiungi a questo che, se il tuo sito è lento, la tua quota di scansione può essere superata molto rapidamente: le nuove pagine, quindi, non verranno scoperte oppure le vecchie non verranno più scansionate. Il peggioramento del ranking è una conseguenza che passa attraverso pagine aggiornate e non rivisitate, contenuti non scansionati, etc.
Promuovere un sito che sia ben costruito e ben congegnato per la SEO è indispensabile, perché ai motori di ricerca piace che semplifichiamo il loro lavoro. Non è detto, però, che siano necessarie molte pagine o molti contenuti per fare un buon lavoro SEO.
Per spiegare ai motori di ricerca come crawlare il tuo sito, costruisci una mappa, metto a punto un robot txt con indicazioni precise rispetto ai contenuti che vuoi venano visitati o meno e migliora la velocità delle tue pagine: servirà sia per il crawl budget sia per la customer experience sia ai fini del ranking (page experience).
Per ottimizzare il crawl budget devi:
Il Robots.txt è sempre considerato dai crawler, che, prima di tutto, lo visitano per apprendere le sue linee guida mentre esplorano un sito. Il robot eseguirà, quindi, la scansione tenendo conto di ciò che gli hai detto di eseguire.
È, quindi, importante approfittarne per aggiungere pagine non scansionabili a quelle a cui non sono stati aggiunti tag di indice. Ecco alcuni esempi di sintassi:
User-agent: *
La stella indica che le tue direttive si applicano a tutti i robot, altrimenti puoi specificare in questo modo:
User-agent: Googlebot
Disallow: /cartella/
Disallow impedisce ai robot di eseguire la scansione. Per esempio, per limitare l'accesso alla directory del sito chiamata cartella, la stringa da digitare è www.miodominio.it/cartella/. In questo modo, l'intera parte della directory non verrà scansionata.
Allow: /cartella/immagini
Allow consente di indicare agli user agent che la directory deve essere sottoposta a scansione. Qui indichiamo che la directory images di cartella dev'essere sottoposta a scansione.
Disallow: /*.pdf$
Tutto ciò che termina con .pdf non verrà sottoposto a scansione.
Disallow: /?s=
Permette, ad esempio, di bloccare l'indicizzazione di tutte le url che contengono il parametro s=.
Le direttive sono quindi altamente personalizzabili in base alle nostre esigenze e alla struttura del sito.
La Sitemap.xml è una struttura ad albero: si tratta di una mappa contentene tutte le url delle pagine del sito che vuoi mostrare ai motori di ricerca. È importante crearne una per il tuo sito web, indipendentemente dal numero di pagine (a meno che il tuo sito non abbia un'unica pagina). Una volta creata, non dimenticare di inviarla alla GSC (Google Search console) per facilitare la scansione e per indicare la sua posizione nel robots.txt. È, quindi, necessario verificare nel rapporto dell'SGC che gli URL siano tutti validi.
L'ideale sarebbe avere: numero di pagine scansionabili = numero di pagine scansionate. L'ottimizzazione della scansione non è automatica, quindi se non viene eseguita, dovrai migliorare il tuo budget di scansione.
Una pagina sottoposta a scansione non è necessariamente una pagina indicizzata, in particolare se:
Se tutto è perfetto, il numero di pagine scansionabili è uguale al numero di pagine scansionate, che è uguale al numero di pagine indicizzabili, che è uguale al numero di pagine indicizzate.
I parametri URL sono valori impostati all'interno dell'URL di una pagina. Ciò consente a una pagina di mostrare un numero infinito di visualizzazioni.
I parametri attivi possono modificare il contenuto della pagina per gli utenti, ordinandone i contenuti in un determinato modo. Ecco alcuni esempi di come potrebbero apparire i parametri attivi, ordinando una pagina di abiti in modi diversi.
I parametri passivi non hanno alcun effetto sul modo in cui i contenuti vengono visualizzati dagli utenti, ma possono tenere traccia delle visite o dei referral. Ecco alcuni esempi di come appaiono i parametri passivi negli URL:
In entrambi i casi, la maggior parte dei parametri non influisce sul contenuto effettivo della pagina, il che significa che agli occhi di un motore di ricerca, tutte le pagine sono duplicate.
Come configurare, allora, i parametri URL? Search Console dispone di uno strumento che indicherà a Google quali parametri ignorare, impedendo la duplicazione degli URL parametrizzati.
Questo strumento va usato con cautela: se commetti un errore ed escludi in modo errato gli URL, le pagine o l'intero sito potrebbero scomparire dalla ricerca.
Anche Search Console, inoltre, non è onnipotente: se hai parametri nella sitemap o se li utilizzi nei collegamenti interni, ciò potrebbe confondere Google e indurlo a indicizzare gli URL parametrizzati.
Ad aprile 2022, lo strumento è stato ritirato: Google, infatti, ha considerato che lo strumento fosse utile in una percentuale irrilevante di casi e che, dunque, avesse uno scarso valore tanto per gli utilizzatori quanto per Search Console.
Il fatto che un sito sia stato scansionato da un motore di ricerca non significa che venga indicizzato. L'indice è il luogo dove sono archiviate le pagine rilevate dal motore di ricerca. Dopo aver scansionato una pagina, i crawler la indicizzano, per poterne analizzare il contenuto. Le informazioni relative a ogni pagina, dunque, vengono inserite nell'indice del motore di ricerca. I motori di ricerca memorizzano nella cache le pagine web scansionate, per cui la versione memorizzata nella cache di una pagina rifletterà un'istantanea dell'ultima volta che un crawler ha scansionato la pagina.
Le scansioni dei crawler sono più frequenti, ovviamente, per i siti che hanno più traffico. Per scoprire la versione cache di una pagina, puoi fare clic sul menu a tendina accanto all'URL e selezionare il pulsante Memorizza nella cache. In alternativa, puoi aggiungere il la parola Cache davanti all'Url oppure visualizzare la versione testuale del sito per determinare se il contenuto importante sia stato scansionato e memorizzato nella cache in modo efficace. Se ritieni che una pagina del tuo sito che prima era nell'indice di Google non venga più visualizzata, puoi inviare manualmente l'URL a Google utilizzando lo strumento Invia URL nella Search Console.
Per una pagina che si trova già nell'indice di Google, Googlebot (il crawler di Google) deve eseguire nuovamente la scansione per scoprire se è cambiata e per riflettere tali (se presenti) modifiche nelle pagine dei risultati. Esistono, però, dei meccanismi che consentono di limitare le azioni di Google. Una di queste è impartire il blocco della scansione tramite il file robots.txt. Per farlo, è necessario indicare gli URL delle pagine per le quali desideri bloccare l'accesso: queste direttive devono essere pubblicate nel file robots.txt. Ma Google rispetta sempre le direttive del file robots.txt?
Per quanto sorprendente possa sembrare, i motori di ricerca. in realtà, considerano le regole che gli chiedi di seguire nel file robots.txt come linee guida, non come obblighi. Chiaramente, il più delle volte ne tengono conto, ma non nel 100% dei casi. L'URL è solo un'indicazione che i motori di ricerca spesso (ma non necessariamente) rispettano. Il noindex (meta tag o intestazione HTTP) è un obbligo:i motori di ricerca, quindi, ne tengono sempre conto quando lo rintracciano.
I meta tag sono frazioni di codice che impartiscono istruzioni ai robot sulle modalità di esecuzione di scansioni e indicizzazioni dei contenuti.
Differiscono dalle direttive dei robots.txt perché danno istruzioni più precise su come eseguire la scansione e indicizzare il contenuto di una determinata pagina.
I Robots meta tag, in pratica, comunicano ai crawler come e se scansionare e indicizzare i contenuti di una pagina. I crawler, per parte loro, acquisiscono le direttive e le considerano come suggerimenti efficaci.
Come per le istruzioni inserite nel file robots.txt, i crawler non sono tenuti a seguire le tue indicazioni, quindi è possibile che alcuni bot ignorino le istruzioni, scansionino e indicizzino il contenuto delle tue pagine.
I Robots meta tag non sono un buon meccanismo di sicurezza: se hai informazioni private e non vuoi che siano pubblicamente disponibili, scegli un approccio più sicuro, come la protezione con password, per evitare che visitatori e robot consultino pagine riservate.
I Robots meta tag fanno parte del codice HTML di una pagina web. Appaiono come elementi di codice nella sezione di una pagina web. Puoi usare più di una direttiva in una pagina, a condizione che siano rivolte allo stesso crawler: separali semplicemente con virgole.
Se, invece, desideri fornire istruzioni a diversi crawler di ricerca, dovrai utilizzare tag separati che indirizzeranno ciascuno di loro.
Mentre i Robots meta tag consentono di controllare il comportamento dell'indicizzazione a livello di pagina, gli X meta tag sono inclusi nell'intestazione HTTP per controllare l'indicizzazione di una pagina nel suo insieme, nonché elementi molto specifici di una pagina.
Sebbene sia possibile utilizzare gli X meta tag per eseguire le stesse direttive di indicizzazione dei Robots Meta tag, la direttiva X meta tag offre maggiore flessibilità e funzionalità, perché consente l'uso di espressioni regolari, l'esecuzione di direttive di indicizzazione su file non HTML e l'applicazione di parametri a livello globale.
Per utilizzare gli X meta tag, devi avere accesso al file header.php, .htaccess o al server del tuo sito web. Da uno di questi file, aggiungi il markup x-robots-tag per la configurazione del tuo server specifico, inclusi eventuali parametri. L'utilizzo degli X meta tag consente di:
SERP è l'acronimo del termine Search Engine Result Page ovvero la lista dei risultati che vengono visualizzati quando un utente effettua una ricerca su un motore di ricerca. Ogni pagina offre una serie di collegamenti URL e descrizioni del prodotto o servizio offerto.
Quando un visitatore fa una domanda nella barra di ricerca, il motore di ricerca gli offre una pluralità di risultati. La SERP è composta da link a pagamento e link organici. Sui motori di ricerca, i link a pagamento di solito si trovano al di sopra di tutti i risultati in una sezione specifica, seguono i risultati organici. In fondo alla pagina è possibile scorrere gli altri risultati cliccando sulle pagine seguenti.
I motori di ricerca classificano i risultati organici (non a pagamento) in base a diversi criteri di qualità. I principali criteri utilizzati dalla maggior parte dei motori di ricerca per classificare un URL sono:
È possibile distinguere la pagina 1 dei risultati della ricerca chiamandola SERP 1, la pagina 2 con SERP 2 e così via.
Poiché i motori di ricerca selezionano i migliori siti web presenti per proporli agli utenti, è importante ottimizzare la SEO della tua piattaforma. Esistono diverse tecniche SEO che possono aiutare a promuovere la visibilità di un sito web.
I criteri di ranking dei motori di ricerca sono in continua evoluzione, tanto che a volte diventa difficile seguirli. In SEO, ciò che era vero ieri non è necessariamente vero oggi. Esistono, però, 3 tipologie di criteri che influenzano il ranking sulle SERP:
Sbarcato a fine 2019, BERT ha provocato un vero e proprio tsunami nel mondo della SEO. Dietro questo acronimo si nasconde uno degli aggiornamenti più importanti di Google: il Bidirectional Encoder Representations from Transformers è simile al principio del deep learning. Google è ora in grado di rilevare il contesto di una query e capire quale intento di ricerca si nasconde dietro: il content marketing qualitativo viene premiato.
Anche se la ricerca vocale non è esplosa come previsto, non è da trascurare nelle pratiche SEO perché sta evolvendo rapidamente. Con quasi la metà delle ricerche vocali eseguite da uno smartphone, il modo migliore per ottimizzare i contenuti è attraverso i dati strutturati.
I link, siano essi intessuti all'interno di un sito web o da un sito esterno, pesano molto nella SEO. La potenza e la portata del profilo dei link esterni di cui gode un sito consentono a Google di giudicarne la pertinenza, la notorietà e la popolarità. Per quanto riguarda la mesh interna, rivela ai motori di ricerca il numero di contenuti collegati in uno stesso sito e consente ai robot di spostarsi facilmente da una pagina all'altra durante la loro scansione. I collegamenti non sono quindi da prendere alla leggera e questo criterio manterrà la sua importanza nei prossimi anni.
Oggi, circa il 90% dei contenuti non genera traffico sul web: un disastro per le aziende che investono risorse in digitalizzazione. Per invertire la tendenza è necessario dare priorità all'ottimizzazione dei contenuti ovvero elaborare pagine che soddisfino le ricerche degli utenti di Internet, organizzando team che si occupino di produzione editoriale.
Fonte: https://www.broadbandsearch.net/blog/mobile-desktop-internet-usage-statistics
Saper creare contenuti è essenziale per aumentare il traffico sul proprio sito e trasformare i propri social in strumenti in grado ...
Non tutti hanno dimestichezza con la scrittura, anche se in certi casi si tratta di una dote essenziale. La lingua ...
Chiunque si avventuri nel mondo del marketing digitale o del blogging si imbatte, ben presto, nell’acronimo SEO, che sta ...
Ottimizzare il Titolo Principale (H1) Ottimizzare i Titoli dei paragrafi (H2) Inserire un Indice del Contenuto Ottimizzare il Title Ottimizzare ...