Google Webmaster Tools şi roboţii


Iarăşi şi iarăşi repet: dacă aveţi un sit, înregistraţi-l via Google Webmaster Tools. Da, e ceva bătaie de cap cu primii paşi, dar doar pentru câteva minute, însă după aceasta câştigaţi un aliat de nădejde. După cum spuneam şi cu alte ocazii, aici puteţi afla când situl v-a fost compromis. Dar mai mult, de aici puteţi urmări cum vă indexează Google (vă amintiţi ce am păţit noi), puteţi indica un site map sau puteţi urmări situaţia cu roboţii (ori chiar genera unul). Aş dori acum să mă opresc puţin la capitolul roboţi. După cum ştim, un robots.txt bine scris şi pus în rădăcina sitului poate prinde bine; prost scris poate durea chiar şi la buzunar (pentru cine foloseşte AdSense).

imagine

Din Google Webmaster Tools, la Site configuration, apoi Crawler access, puteţi vedea robots.txt şi când l-a “citit” Google ultima oară. Maxim la 24 de ore pare a trece o dată, sau chiar de două ori. Dacă sunt probleme cu robots.txt, vi se va semnala, evident, tot aici. Observaţi trei taburi dintre care al doilea Generate robots.txt? Corect: Google vă poate ajuta să generaţi roboţi valizi. Am să vă propun un scenariu (de fapt ceea ce m-a interesat pe mine, ca să reduc din stresul provocat de Google asupra serverului). Să zicem că vrem să tăiem toţi roboţii, mai puţin unii de care ne pasă. În pasul unul selectăm Block all. În pasul doi permitem (Allow) de exemplu pentru Googlebot (asta asigură că situl ne este indexat). Apoi să zicem pentru Mediapartners-Google (asta asigură că AdSense ştie ce reclame să afişeze).

imagine

Am obţinut astfel următorul cod care în traducere spune: fugiţi de aici roboţilor, mai puţin dacă sunteţi robotul de indexare Google sau robotul pentru Google AdSense.

[HTML]User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /

User-agent: Googlebot
Allow: /[/HTML]

Evident, similar puteţi face reguli care să excludă orice mai puţin Google, Yahoo!, MSN, adică ce doriţi Dvs. Pentru moment la CNet.ro robots.txt arată astfel:

[HTML]User-agent: *
Disallow: /

User-agent: Googlebot
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/
Disallow: /rss/
Disallow: /comments/feed/
Disallow: /page/
Disallow: /categorie/
Disallow: /date/
Disallow: /comments/
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*?*
Disallow: /*?

User-agent: Mediapartners-Google
Allow: /[/HTML]

Ideea a rămas aceeaşi: afară cu orice nu ţine de indexare şi de reclamele Google. Dar în plus am mai eliminat pentru Google nişte directoare. Nu are ce să caute să indexeze pagini ce conţin wp- în cale (ex: spre pluginuri, fişiere ale temei…); apoi nici paginile cu feed-uri sau arhivele pe categorie, dată, nici comentariile, nici articolele cu parametrii… Evident, ceea ce vedeţi mai sus este 100% particularizat pentru WordPress, şi mai mult, pentru acest blog WordPress. Dar vă poate fi şi Dvs spre inspiraţie, dacă doriţi să reduceţi din impactul indexării. Da, da, siturile mai mici nu au nevoie de aşa ceva. Cele mai mari vor aprecia însă sfaturile…


Apreciază articolul:

1 stea2 stea3 stea4 stea5 stea (7 evaluări, media: 4,43 din 5)
Loading...Loading...

4 comentarii

  1. yo9fah spune:

    Salutare!

    Exista o vorba: „In lipsa ploii este buna si grindina”, asa si aici … !

    Ca sa fiu mai explicit: Nu stiu cati dintre cei care au blog au rabdare sau cati stiu de acest lucru sau care stiu il ignora… respectiv Google Webmaster Tools!
    Nu cred ca ar fi rau ca „cineva” sa ia „taurul de coarne” si sa faca un tutorial cu TOATE setarile din Google Webmaster Tools…

  2. costelodc spune:

    Sunt binevenite tutorialele si siteurile despre setarile din Google Webmaster Tools, Yahoo Webmaster Tools.

  3. vasile spune:

    Sigur ai pus si Yahoo!, MSN?

  4. radu.capan spune:

    Nu, nici in codul de mai sus si nici in robots.txt pe care il folosim acum, Yahoo! si MSN nu sunt lasati.


Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile necesare sunt marcate *