Ogni volta che creiamo un nuovo sito, un blog oppure pubblichiamo una nuova pagina, la prima preoccupazione dovrebbe essere quella di farla trovare agli utenti che navigano in rete. Questa esigenza è così radicata, che è alla base della creazione dei motori di ricerca. Gli utenti usano motori come Google, il più famoso e utilizzato nel mondo, per trovare pagine e siti che possano rispondere alle loro richieste di informazioni. Quando creiamo il nostro sito, la speranza è che gli utenti lo trovino attraverso la ricerca.
Come avviene l’indicizzazione automatica del sito
Secondo Google l’indicizzazione è un processo naturale: prima o poi lo spider di Google, chiamato Googlebot farà una scansione del sito, indicizzandolo, cioè aggiungendolo all’indice di Google. Prima di specificare il come fare, andiamo a definire i concetti che utilizzeremo in questo articolo.
Indicizzazione sito: cosa significa?
È Google stesso a darci delle risposte molto esaustive sul tema, spiegandoci come funziona la ricerca. La maggior parte degli utenti è convinta che effettuando una ricerca su Google, si effettui una ricerca sul web, ma non è così. Molti di voi avrete sentito parlare dell’esistenza del “Deep Web" o del “Dark Web”. Sono espressioni giornalistiche che servono a identificare in modo generico, tutta quella porzione del web che non è raggiungibile attraverso i soliti canali: cioè i link sparsi sulla rete e di conseguenza la presenza nei motori di ricerca. Per accedere a questi siti occorre dotarsi di particolari Browser e sistemi, che non hanno nulla a che vedere con la normale navigazione sul web effettuata tramite Mozilla, Chrome, Safari o Internet Explorer.
Google indicizza solo una parte marginale di tutti i siti attualmente presenti su Internet. E lo fa secondi criteri propri che definisce di qualità e di pertinenza. Ciò vuol dire che quando effettuiamo una ricerca su Google, non stiamo cercando nella totalità del web, ma in quella parte di esso indicizzata da Google. Ovvero scaricata dopo un’attenta (e automatizzata) scansione.
Si capisce che le dimensioni dell’indice di Google sono eccezionali: oltre 100 milioni di gigabyte. In questo spazio enorme è conservato tutto il web che Google è in grado di indicizzare, fatto di testi, immagini, video e naturalmente del codice che serve a farlo leggere dai Browser.
Per fare una scansione (Crawling) delle pagine presenti sul web, Google si comporta come se fosse un utente, con un “Bot”. Un Bot è un programma che simula le azioni dell’uomo, in autonomia, svolgendo le stesse operazioni che farebbe un umano. Nel caso di Google, il Crawler cerca le informazioni esattamente come farebbe un umano compiendo in particolare due azioni:
- Scansionano la pagina
- Seguono gli Hyperlink (o link) ovvero i collegamenti testuali
Immaginate i link come una serie di connessioni nervose oppure delle strade che conducono da un sito all’altro. Fino a che non trova ostacoli, Google seguirà tutti i link aggiungendo - di volta in volta - tutte le pagine non presenti. Googlebot è stato progettato per “scoprire” le pagine nuove, registrare i cambiamenti nei siti già esistenti e scovare i link “rotti” o morti che non portano più da nessuna parte.
Google assegna ad ogni sito una quota di indicizzazione, determinando nel tempo quante pagine verranno indicizzate, quanto spesso e in che modo. Il Budget di Crawling è un fattore che sta sempre più diventando importante, per comprendere i meccanismi per cui un sito riceve più o meno visite da Google.
Se è vero che Google è in grado di scovare tutte le nuove pagine e i nuovi siti, i proprietari degli stessi possono liberamente opporsi all’indicizzazione, dialogando direttamente con lo spider Googlebot che osserverà le regole che gli si vorranno dare.
Ad esempio: tramite i comandi Nofollow, Noindex è possibile impedire a Google sia di indicizzare quella specifica pagina, sia di non seguire i link presenti. Creo una pagina nuova e desidero che per motivi di Privacy, gli utenti non la trovino dalle ricerche su Google. Dovrò fare due operazioni. La prima è agendo sul file robots.txt (se non esiste devo crearlo) da inserire nella root (cartella principale) del sito tramite un software di trasferimento come Filezilla (si dice via FTP, protocollo di trasferimento dei file).
Nel file robots.txt - che non è altro che un file di testo - posso ordinare a Google di non indicizzare una specifica sezione, cartella o pagina del mio sito, tramite il comando “disallow”.
disallow: /blog/quanto-costa-pubblicizzare-il-sito-su-google
Inserendo un comando come questo, chiedo a Google di non indicizzare quell’indirizzo web che corrisponde a una pagina o ad un articolo. Ho omesso l’indirizzo del dominio (es.: pepyta.com) perché essendo il file robots.txt inserito nella cartella principale, è necessario mettere il percorso relativo e non quello assoluto (http://www.pepyta.com/blog/quanto-costa-pubblicizzare-il-sito-su-google).
Per assicurarci che Google osservi la regola, inserisco i Tag Noindex, Nofollow, come spiegato in precedenza. Se avete un sito in Wordpress in genere questi comandi sono spuntabili dal menu del Plugin SEO che state utilizzando. Manualmente è sufficiente inserire questo codice nella sezione Head del sito:
Riassumendo dunque: Googlebot è il Crawler (la “serpe”) che Google spedisce sulla rete per individuare nuove pagine e nuovi siti, aggiornare quelli già esistenti, segnalare i collegamenti rotti o i siti e le pagine scaduti. Il metodo che segue è quello del Crawling: salta da un collegamento all’altro “seguendo” i collegamenti ipertestuali (ovvero i link).
Cosa significa indicizzare un sito
L’indicizzazione è il processo di raccolta di tutte le informazioni trovate durante il Crawling: in questa raccolta possono rientrare testi, immagini, video, dati, file musicali, pdf più tutto il codice presente in esso. Se questi elementi combaciano con le norme sulla qualità osservate da Google, vengono processati e inseriti nell’indice di Google. I criteri che osserva Google in questo procedimento (noti come fattori di posizionamento) sono molteplici e vanno dalla presenza di determinate parole nel testo e nel codice fino all’analisi semantica dei contenuti, per verificare la coerenza tra il risultato offerto e la ricerca effettuata dall’utente.
Se vogliamo comunque essere sicuri che Google indicizzi un sito, possiamo andare all’indirizzo: https://www.google.it/intl/it/add_url.html.
Google avverte però che non tutti gli URL segnalati possono essere aggiunti al motore di ricerca. Questo comando semplicemente spedisce lo spider Googlebot verso l’indirizzo indicato, di norma corrispondente al nome del dominio, dopodiché il sito può essere indicizzato nel giro di poche ore o di pochi giorni. A patto che sussistano le condizioni. Se, per esempio, sul sito è presente la direttiva “noindex, nofollow” non sarà possibile per Google dar seguito alla nostra richiesta. Ma possono esserci problemi ben più gravi, risolvibili con l’ausilio di un esperto.
Indicizzazione sito: cosa fare se il sito non è indicizzato su Google
Come spiegato sopra l’indicizzazione è un processo naturale, ma può succedere che Google non indicizzi il sito. I motivi possono essere tanti, ma se si esclude la presenza di regole che vietano a Google di indicizzare, evidentemente siamo di fronte a dei gravi problemi, che compromettono in tutto la visibilità del sito.
Se il sito non viene indicizzato automaticamente ci sono altissime possibilità che esso abbia dei gravi problemi. Google invita a fare un Check-up del sito per verificare se esso è presente. Spesso gli utenti confondono l’indicizzazione del sito (ovvero la sua presenza su Google) con il posizionamento nelle pagine e nelle posizioni al vertice dei risultati del motore di ricerca.
Ma l’indicizzazione è diversa dal posizionamento. Con l’indicizzazione ci assicuriamo che il sito sia presente su Google, con il posizionamento e quindi con l’ottimizzazione per il motore di ricerca (SEO) facciamo in modo che esso venga trovato quando vengono cercate delle parole chiavi (Keyword) specifiche.
Per verificare l’indicizzazione basta semplicemente scrivere il nome del sito completo (dominio: ad esempio pepyta.com). Se Google ci fornirà il risultato sperato, il nostro sito è correntemente indicizzato.
Quando scriviamo il nome del dominio, per essere sicuri che sia indicizzato, il sito deve comparire inevitabilmente nelle primissime posizioni su Google. Se ciò non avviene vuol dire che sono in atto dei processi che ne impediscono la corretta indicizzazione. Il nome del dominio potrebbe essere stato penalizzato come azione anti-spam perché sta violando le linee guida di Google. Oppure possono esserci problemi che mettono a repentaglio la sicurezza della navigazione per gli utenti, come la presenza di Virus, Malware.
Google comunque su questo punto è molto trasparente e comunica con i proprietari dei siti o i Webmaster che se ne occupano, attraverso l’interfaccia Google Search Console, disponibile anche in lingua italiana. C’è un’area messaggi dedicata nella quale Google informa sulla presenza di problemi e delle relative azioni poste a tutela degli utenti. È possibile porre rimedio a queste situazioni ripulendo il sito oppure eliminando i problemi che determinano le azioni manuali.
Negli altri casi, se il sito non compare sull’indice di Google possiamo trovarci di fronte alle seguenti casistiche:
- Il dominio è stato acquistato o creato di recente e Google non è ancora passato per eseguire l’indicizzazione automatica. Basta attendere qualche giorno per l’indicizzazione almeno della Home Page.
- Il dominio o la pagina che stiamo cercando è bloccata dal file robots.txt.
- Se una pagina interna non viene indicizzata può dipendere dal fatto che manchi una sitemap.xml - puoi crearne una online oppure se hai un sito in Wordpress scarica l’apposito Plugin.
- Ci sono problemi nel Crawling - Google può incontrare degli errori gravi per cui non è possibile effettuare la scansione. Anche in questo caso è possibile utilizzare Google Search Console per effettuare una diagnosi.
- Il sito non è originale e hai copiato contenuti da fonti già esistenti. Oppure è la copia di un tuo vecchio sito, che hai riproposto semplicemente con indirizzi diversi. Google penalizza tutti i siti che hanno eccessive duplicazioni di contenuti, sia interne, sia esterne.
- Se stai utilizzando un sito realizzato in Wordpress potresti avere attivato la privacy, nascondendo il sito ai motori di ricerca.
- Il sito è bloccato dalla presenza della direttiva "noindex, nofollow" oppure direttamente via server attraverso il file .htaccess, presente in tutti i sistemi Linux presso i quali sono ospitate le pagine web.
- Il sito è severamente penalizzato a causa della violazione delle linee guida di Google (presenza di Virus, Malware, Trojan, manipolazione dei Backlink, sito di scarsissima qualità con contenuto illeggibile o nascosto).
Indicizzazione a pagamento del sito
Quando gli utenti cercano informazioni sull’indicizzazione a pagamento del sito, in genere non fanno riferimento all’indicizzazione automatica, ma proprio alla consulenza SEO che riguarda il posizionamento su Google. Ad esempio, un ristorante di Zurigo è interessato a comparire nelle prime posizioni di Google per la Keyword “ristorante Zurigo centro”. In tal caso la semplice indicizzazione non basterà, è necessario un lavoro più approfondito sul sito per fare in modo che si posizioni in prima pagina su Google.
Questo lavoro è complesso perché deve tenere conto degli oltre 200 e passa tra fattori e segnali, che determinano il Ranking. Ogni volta che Google “segue un link” (Follow) attribuisce un punteggio a un sito e ordina così la classifica dei risultati.
Indicizzare un sito sulle parole chiave
La ricerca per Keyword da parte degli utenti, implica che il vostro sito, come minimo, le contenga. Deve contenerle nel testo, nelle immagini, nei Meta Tag, nei titoli, a patto che non vi sia un eccesso di ottimizzazione. Se possiedi un sito in Wordpress un Plugin come Wordpress SEO ti può senz’altro aiutare, ma tieni conto che esso è solamente indicativo di una direzione che dovresti prendere, non del fatto che seguendo proprio quelle indicazioni ti posizionerai.
Google consiglia di affidarsi alla qualità e sconsiglia di affidarsi a consulenti che non siano esperti e che non mettano davanti a tutto la qualità. In qualità di SEO Specialist Senior ho lavorato su oltre cento progetti di posizionamento e non ho avuto un solo sito penalizzato, questo perché ho sempre cercato di privilegiare la qualità
Nel nostro caso anteponiamo la qualità anche al miraggio di raggiungere posizioni di vertice in tempi molto sospetti e poco credibili. Google non disincentiva affatto il rivolgersi a esperti del posizionamento, purché questi siano davvero qualificati e siano in grado di risolvere tutti i problemi inerenti l’indicizzazione, approntando un piano di ottimizzazione coerente con gli obiettivi posti dal suo cliente.