Atenţie la frecvenţa indexării de către Google


Aş fi intitulat articolul “Oare am găsit vinovatul?” dar ar fi fost un titlu prea personal, când articolul tratează totuşi o temă generală. Dar e legată de o problemă personală. După cum ştiţi, a trebuit să “zburăm” acum o lună de la un hosting pe care îl îndrăgeam. Motivul: stres prea mare pe procesor. Cum? CNet.ro cu doar 3.000 de vizitatori pe zi! Am ajuns în cele din urmă pe un VPS unde… surpriză… CNet.ro a continuat să provoace surprize. Marea diferenţă este că pe VPS am putut vedea cu ochii mei stresul provocat de CNet.ro (şi de noul Catholica.ro).

Nu vă închipuiţi ce a însemnat ultima lună. Am chinuit CNet.ro tăind din pluginuri. Am anulat secţiuni. La Catholica.ro (care are de vreo 5 ori mai multe articole) am tăiat ani întregi de ştiri. Orice făceam nu avea un impact prea mare. Nici n schimbări în setările serverului. Cum-necum, load-ul la CNet.ro şi Catholica.ro era de 7-8, ba la cel din urmă chiar de 11-12. Enorm pentru un server (VPS) care ar trebui să poată caza câteva zeci de situri. Şi dincolo de load au fost şi căderi ale Apache-ului, uneori de 2-3-4 ori pe zi. În cele din urmă se pare că am găsit “vinovatul”. Am eliminat orice motor de căutare ce ne indexează. Surpriză: dacă în ziua precedentă am avut load-ul de aproape 11.70 la Catholica.ro, când am tăiat spider-ii am avut… 3.52. Iar la CNet.ro a coborât de la 8.33 la 2.55. Incredibil!

Evident, nu poţi trăi pe web interzicând indexarea. La urma urmelor mulţi, mulţi, foarte mulţi dintre vizitatorii noştri vin prin Google (avem şi un public stabil, care ne citeşte prin RSS sau vizitând situl). Am intrat atunci, după poate un an de uitare, în Google Webmasters Tools. Vina mea că nu am făcut-o mai des, mai înainte! Acolo am găsit explicaţia stresului asupra serverului. În zilele în care avem 6.000 de pagini afişate înseamnă o pagină la 15 secunde. Mai des decât această frecvenţă ne vizitează Google: la 10 secunde. În plus Google nu o face cu un singur spider şi apoi nu este doar Google ci şi multe alte motoare de căutare (de la Yahoo! şi Microsoft, dar şi de la alte companii mai mici). Şi uite aşa, serverul nu serveşte doar 6.000 de pagini pe zi, ci probabil de 4 ori mai mult, ţinând cont de diferenţa de load între zilele cu indexare şi cele fără indexare.

imagine

Şi lucrurile stăteau şi mai prost la Catholica.ro (unde, repet, am avut şi load de peste 12). Explicaţia a venit tot de la Google Webmasters Tools. În timp ce Catholica.ro are mai puţine afişări pe zi (şi mai puţini vizitatori), are de patru ori mai multe pagini, iar Google vine să indexeze tot la două secunde! Calculaţi cu numărul total de spider-i (sau bots-i sau roboţi) ce trafic vine… Bieţii vizitatori suportă consecinţele motoarelor de căutare!

imagine

Nu vreau să spun că indexarea e ceva rău. Evident că nu. Majoritatea lumii doreşte să apară în Google cât mai rapid. Dar când siturile încep să aibă un oarecare trafic (mii de vizitatori/pagini afişate) atunci uite în ce probleme poţi să cazi. Soluţia, pe care o văd eu pentru moment, este să reduc frecvenţa indexării dinspre Google. Poate şi Yahoo! şi Microsoft oferă ceva similar, dar nu am studiat încă. Oricum, procentul de vizitatori veniţi via Yahoo! şi Bing e foarte mic, infinit de mic comparabil cu ce aduce Google. Deci am de gând să experimentez în continuare blocarea oricăror altor spider-i decât Google, iar la Google să trag cursorul mai jos, mult mai jos, ca să indexeze mai rar. Da, un articol publicat de noi azi nu va mai ajunge poate aşa rapid în indexul Google… dar măcar putem sta online fără probleme.

Aştept cu interes sfaturile celor cu experienţe similare. Am pus un plugin ce elimină din indexare paginile de arhive şi de categorii din WordPress, ca să rămână doar articolele. Ce ar mai putea ajuta? Ce ne-ar mai putea ajuta? Cum am putea face ca Google să indexeze mai rar articolele vechi şi mai rapid articolele noi? Mulţumim tuturor celor care ne rabdă cu toate problemele tehnice…

PS: Dacă vreţi spre comparaţie, la situl meu personal (de fapt al familiei mele), Google Webmasters Tools arată că sunt 0.003 cereri pe secundă, adică o cerere la 333.333 de secunde. Altă viaţă. Dar e un sit mai slab vizitat, conţinut nou mai rar, deci Google şi-a fixat rata de indexare după cum a crezut că e mai bine.


Apreciază articolul:

1 stea2 stea3 stea4 stea5 stea (12 evaluări, media: 4,92 din 5)
Loading...Loading...

9 comentarii

  1. Felicitări… O veste bună… și mai ales o problemă care trebuie notată, pentru că nu se știe niciodată cum ai nevoie… :)

  2. WhiteWolf spune:

    Multumesc mult-mult pentru aceasta postare!
    Nu doar ca ma bucur pentru voi ca, in sfarsit, dupa atata chin, s-a reusit decoperirea „hibei” ci, la modul cel mai sincer, consider textul de 10 puncte plus prin valoarea informatiei care o pune la dispozitia celor interesati
    Sincer, nu m-as fi gandit niciodata la spideri ca fiind o cauza majora pentru over load-uri. Si cu toate acestea, ceea ce tocmai am citit m-a lasat masca.
    Multumesc inca o data.

  3. Mircea Fernea spune:

    Ironia sortii! Nu stiu daca iti mai amintesti dar acum 1 an jumate 2 iti povestisem o situatie similara. Un site intens vizitat care avea probleme de load pe procesor. Asa cum era si la tine numarul mare de accesari alaturi de alte probleme de optimizare ale siteului provoca aceasta problema.
    Am creat un log prin care am urmarit sesiunile create pe server si cate pagini se viziteaza in fiecare sesiune vroiam sa vad frecventa de accesare. Bineinteles spiderii au o vizita pe sesiune si asa ii poti distinge de restul. Supriza mare, daca nu SOCUL, a fost ca 60-70% din accesari erau facute de catre ei. Google era printre ei dar nu cel mai activ, nici ca numar de vizite nici ca frecventa de accesare. Fata de altii Google era… utilizator uman. Problema venea de la unii spideri care aveau pe o perioada de 10 min (relativ scurta) o medie (atentie medie) de cateva accesari pe secunda. Si cifrele sunt doar pentru un spider. Cand intrau mai multi si cifrele se cumulau… mai bine nu ne gandim. Am zis ca poate sunt alte motoare de cautare, dar de ce nu revin pe site, dar de ce au IP-uri din Romania? Explicatia mi-am dat-o mai tarziu… SPAM BOTS care cauta ori adrese de email, ori formulare de contact nesecurizate pe care pot sa le foloseasca pe post de gateways sau prin care pot posta comentarii cu continut spam.
    In cazul lor, pe un blog e „paine de mancat”.
    O varianta relativ simpla prin care am scapat de ei a fost blocarea din htaccess a IPurilor. Risti sa blochezi utilizatori legitimi, dar riscurile sunt mici, dar beneficiile enorme daca te gandesti la cifre. Pentru cei blocati poti face o pagina speciala (ErrorDocument 403) prin care sa te contacteze daca i-ai blocat din greseala.

    Spor la toate,
    Mircea

  4. radu.capan spune:

    Ce prost sunt atunci ca nu am retinut din ce mi-ai povestit. Dar no, cand invata omul pe propria piele e mai… valabil. Mersi de explicatii.

  5. Cristi spune:

    Inca de la inceput am setat ca pluginul google-sitemap-generator sa permita doar indexarea posturilor, si am un fisier robots.txt destul de stufos. La pluginul All in One SEO am bifat optiunile: Use noindex for Categories, Use noindex for Archives si Use noindex for Tag Archives. Nu sunt specialist in probleme de genul asta, ci am efectuat aceste setari in urma diverselor articole pe care le-am citit. Oricum n-am probleme cu traficul… si nu e nevoie sa operez modificari in Google Webmasters Tools.
    Ma bucur ca ati gasit sursa problemei si va multumesc pt articol!

  6. whiteWolf spune:

    Mircea Fernea, spui ca riscurile de a bloca utilizatori legitimi sunt mici daca incepi sa banezi IP-uri. Si-n mare iti dau dreptate cu pagina customizata (403). Insa ce te faci cu Romtelecomul si RDS-ul care folosesc IP-uri dinamice?
    Nu ajungi sa banezi jumatate din orase, respectiv cam 50% din userii legitimi?

  7. Mircea Fernea spune:

    Din experienta spun ca dupa ce am blocat aproximativ 100 ipuri, spiderii rai apareau foarte rar, 2-3 pe saptamana. La inceput detectam cativa pe zi. Deci numarul de ipuri blocate nu e mare relativ la „jumate din orase” etc.
    De primit am primit vreo cateva emailuri (maxim 5) cum ca s-a comis o eroare. Ca sa ma protejez de blocari eronate am logat accesele la pagina 403. Daca vedeam UserAgents diferiti, probabilitatea de a fi IP dinamic era destul de mare. Am deblocat asa vreo 10-15 IPuri. Faptul ca e un IP dinamic iti poti da seama si dupa hostname.
    Cred ca ar mai fi si alte solutii de a detecta daca cel care acceseaza pagina de 403 e bot sau nu.

    Repet, riscurile sunt mici comparativ cu beneficiile.

  8. CaliVita spune:

    Dar verifica sa vezi care este problema in codul PHP de mananca asa de multe resurse, ca totusi nu este asa de indicat sa opresti Google. Ai putea folosi uin cashe si alte functii de optimizare.

  9. radu.capan spune:

    Simpatice propuneri (de mult fumate).


Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile necesare sunt marcate *