Ako odstrániť spamové návštevy z Google Analytics?
Asi ste to zažili tiež. Prišli ste do Google Analytics, pozreli na úvodný graf návštevnosti a s veľkou radosťou zistili, že máte za včerajšok dvojnásobnú návštevnosť. "Super", pomyslíte si, "návštevnosť pekne rastie". Ak ste sa však do dát ponorili trošku viac, asi ste zistili, že za zvýšenou návštevnosťou stoja prichádzajúci používatelia zo zdrojov ako semalt.semalt.com, free-share-buttons.com, buttons-for-website.com. atď.
Ak patríte medzi "šťastlivcov", ktorí majú v Google Analytics tento balast, mám pre vás dve správy. Jednu dobrú a jednu menej dobrú. Začnime tou menej dobrou:
Návštevnosť vášho webu sa zrejme nezvýšila. Novo prichádzajúci nie sú reálni užívatelia, ale nereálne, spamové, chybové alebo ak chcete falošné návštevy.
A teraz tá dobrá:
Štatistiky v Google Analytics môžete upraviť tak, že sa vám tento balast nebude zobrazovať a vy uvidíte len reálnu návštevnosť. Spam v grafoch návštevnosti vás potom nikdy nebude ťahať za nos.
Pomenujte problém - je to Referral spam
Pozrite sa na tabuľku nižšie. Pripomína váš Google Analytics?
Vidíte tu niekoľko prípadov falošnej (spamovej) návštevnosti. Ako vzniká? Je to celkom jednoduché. Mnoho ľudí mylne predpokladá, že ak je niečo zapísané do Google Analytics, tak to automaticky znamená, že daná osoba navštívila ich stránky. Ale táto domnienka je zlá. Do dát v Google Analytics môžu preniknúť aj tí, ktorí na vaše stránky vôbec neprišli.
Ako to celé funguje?
V praxi klasický pohyb v Google Analytics vyzerá nejako takto (na obrázku znázornené zelenými šípkami).
Popísané veľmi jednoducho a laicky:
- Používateľ príde na váš web
- Načíta si časť JavaScript kódu v prehliadači (ten máte umiestnený napr. v pätičke stránky)
- Javascriptový kód pošle HTTP žiadosť k serverom Google Analytics
- Google Analytics zaregistruje pohyb na vašom webe a podľa pohybu užívateľa zapisuje dáta
Toto je ideálny stav. Stav vo svete bez spamov. Ako to ale funguje v reálnom svete spamov?
Crawler Referral Spam a Ghost Spam - naši úhlavní nepriatelia
Vo vašom Google Analytics robia neplechu hlavne tieto dva spamy. Aby sme s nimi mohli zatočiť, musíme ich najskôr poriadne spoznať. Takže:
Ghost spam
Ghost spamu je v Google Analytics drvivá väčšina. Ghost sa mu hovorí preto, že tento druh spamu vôbec nenavštívi váš web ("ghost" slovensky znamená "duch"). Spam a váš web sa nikdy nestretnú, nedôjde medzi nimi k interakcii. Prejavuje sa len v Google Analytics (ako tá červená šípka na obrázku).
HTTP žiadosť môže byť poslaná z akéhokoľvek zariadenia pripojeného k internetu, a ak obsahuje všetky potrebné náležitosti, berie ho Google Analytics do úvahy. Spam teda vôbec nemusí načítať vašu stránku, vôbec nemusí prísť na web - ale dáta do vášho Google Analytics pošle aj tak. Stačí mu, že pozná vaše ID v tvare UA-XXXXXXX-XX a voala, dáta do GA smelo plynú.
Toto sú príklady ghost spamu, ktoré sa vám v Google Analytics môže zobrazovať:
Crawler Referral Spam
Crawler je robot, ktorý prezerá (prechádza) webové stránky, typicky na účely webovej indexácie. Príklady takýchto Crawler sú roboti fulltextových vyhľadávačov Zoznambot a Googlebot. To sú príklady tých "dobrých" robotov.
Crawler Referral Spam tiež prechádza weby, ale za iným účelom. Tento robot (prehľadávač) zvyčajne ignoruje všetky pravidlá (napr. je v súbore robots.txt), ktoré majú robotov zastaviť. Hlavný rozdiel medzi Ghost a Crawler je, že ten druhý skutočne navštívi vaše stránky. Tento druh spamu má interakciu s vašimi stránkami. Ale logicky ho v Google Analytics nechcete - kazí vám štatistiky. Môžete ho zablokovať pomocou serverového riešenia, ako je súbor .htaccess alebo web.config. Ale pre väčšinu prípadov stačí filtrovanie v GA.
Príklady Crawler Referral spamu:
Prečo je to pre vás problém?
Teraz asi môžete namietnuť "tak budem mať o pár prístupov viac, no a čo?". Ono to ale nie je tak celkom pravda. Problémov so spamom v Google Analytics môže byť viac:
- spamu v GA býva naozaj veľa. Rozhodne viac, než len pár prístupov. Reálnych prístupov môže byť v ráde stoviek a rovnako tak i spamu. A ak máte 100 reálnych návštevníkov denne a 150 spamu, potom štatistika dostane pekne na zadok.
- dáta budú skrútené. A budú vám k ničomu. Jeden príklad za všetky - hovorí vám niečo miera okamžitého opustenia? Túto metriku spamov znehodnotia úplne strašlivo. Rovnako tak priemernú dobu trvania návštevy.
- strácate čas. Ak sa preberáte nereálnymi dátami, strácate kopec času. A máte v dnešnej dobe času nazvyš? Zrejme nie. Rovnako ako nečítate spamové e-mailové správy vo vašej schránke.
Ako odfiltrovať spam v Google Analytics?
Odpoveďou na túto otázku sú filtre. S ich pomocou môžete poslať spamové návštevy preč. Jedinou nevýhodou je, že filtre nie je možné aplikovať na dáta, ktoré už ste nazbierali. Vždy preto ovplyvní až dáta budúce - ie, ktorá začnete zbierať po jeho nasadeniu.
O akých filtroch je tu reč? Primárne o týchto dvoch:
- Filter na hostiteľa (hostname)
- Filter na zdroj návštevnosti
1. Filter na hostiteľa (hostname)
Skvelý filter na Ghost Spam. Ako už bolo povedané, Ghost spam vôbec nenavštívi vaše stránky, takže má vždy hodnotu hostname (not set). Ak urobíte filter na všetky zdroje, ktoré majú hodnotu hostname (not set), tak ghost spam preveziete a budete ho z GA filtrovať preč.
Tu sa hodí ešte jedna rada. Pred aplikáciou filtrov si v Google Analytics vytvorte nový Výber dát - a ten potom filtrujte. Pomenujte si ho napr. "Návštevnosť bez spamu". Potom budete môcť v Analytics sledovať celkovú návštevnosť (vrátane spamov a celej histórie), tak aj návštevnosť bez spamu (bez histórie, ale s relevantnými dátami).
Postup na vytvorenie filtra:
1) Založte si nový výber dát
Vždy si urobte nový výber dát, ktorý budete filtrovať
2) Vytvorte si filter na hostname
V Správcovi a v časti Výber dát (v treťom stĺpčeku) otvorte sekciu filtre a kliknite na tlačidlo Pridať nový filter.
Pomenujte filter napr. Ghost spam a nastavte Zahrnúť (pozor na zámenu s Vylúčiť!), potom Názov hostiteľa a obsah políčka nastavte na:
Ak máte na subdoménach ďalší obsah, ktorých chcete do hostiteľa zahrnúť, tak nastavte napr.:
Toto je veľmi jednoduchý regulérny výraz, ktorý zahrnie do dát v Google Analytics len tých užívateľov, ktorí skutočne načítali obsah vašich stránok. Ghost spam už sa tam preto nedostane.
2. Filter na zdroj návštevnosti
Zbavili ste sa Ghost spamu, ale čo so spamom, ktorý na vaše stránky príde a hostname má definovaný? Napríklad na nižšie uvedenom obrázku môžete vidieť, že zdroj success-seo.com má hostiteľa definovaného a prvým filtrom ho preto nezrušíte.
Urobíme opäť filter, tentoraz však trochu iný. Na úrovni zdroje návštevnosti alebo odkazu. Nezabudnite, že ak budete robiť tento filter, opäť ho aplikujte na nový Výber dát (napr. "Návštevnosť bez spamu"), a jeden (ten základný) si nechajte bez ovplyvnenia filtrami. Ak ste si už urobili nový Výber dát podľa predchádzajúceho kroku, môžete doň zaviesť obidve uvedené filtre.
Vytvorte si filter na zdroj návštevnosti
Opäť rovnakým postupom vytvoríme filter, len teraz dáme Zahrnúť a voľbu Zdroj návštevnosti (alebo Odkazy) a pridáme pomocou regulárneho výrazu spamové návštevy:
.*best-seo-offer.com*|.*best-seo-solution.com*|.*youporn-forum.ga*|.*social-buttons.com*|.*free-share-buttons.com*|.*buy-cheap-online.info*|.*Get-Free-Traffic-Now.com*|.*simple-share-buttons.com*|.*guardlink.org*|.*event-tracking.com*
Regulárne výrazy si samozrejme upravte podľa svojho GA. Takto odfiltrujete návštevnosť zo všetkých spamových zdrojov návštevnosti, ktoré vo svojom nástroji Google Analytics nechcete.
Ďalšie tipy ako na spam
Na záver článku pridám dve ďalšie odporúčania pre odstránenie spamu.
1) Použiť môžete aj iné filtre
Moja rada: hrajte sa s dátami v Google Analytics a zistíte, že spamu sa môžete zbaviť aj pomocou ďalších filtrov. Tak napríklad:
a) filter na rozlíšenie obrazovky - ghost spamy sa na váš web vôbec nedostanú, preto ani nemôžu zanechať informáciu o tom, aké mali rozlíšenie obrazovky. Je to logické, však?
b) filter na prehliadač - rovnaká pesnička, ako predchádzajúci príklad
c) filter na použitý operačný systém
d) filter na farebný režim obrazovky
Žiadnu z týchto informácií u vás Ghost spam nezanechá. Takže aj pomocou týchto informácií môžete spam filtrovať.
2) Ako na historické dáta?
V článku ste sa dozvedeli, že filter vie ovplyvniť len dáta budúce. A tak to je, cez to nejde vlak. Ale čo keď nutne potrebujete ovplyvniť aj dáta minulá? Aj pre vás má Google Analytics pomoc. A síce v podobe segmentov. Pohrajte sa so segmentmi, a takmer rovnako ako pomocou filtrov môžete vysegmentovať čisté požadované dáta bez hnusného spamu.
Takže šup do vášho Google Analytics a vyčistite si svoje dáta od neporiadku. Až keď budete mať čisté a neskreslená dáta, môžete výkon vášho webu vyhodnocovať.
Pavel Horelica
Notice: Undefined index: position_sk in /var/www/impnet.sk/data/www/impnet.sk/class/Blog.class.php on line 731
Notice: Undefined index: position in /var/www/impnet.sk/data/www/impnet.sk/class/Blog.class.php on line 731
email: pavel.horelica@impnet.cz
Pavol je tu na to, aby vás ľudia na internete našli. Stará sa o optimalizáciu stránok pre vyhľadávače, študuje dáta z analytických nástrojov a na ich základe neustále vymýšľa, ako váš web ešte vylepšiť a posunúť dopredu.
Co dalšího píšu?
Notice: Undefined variable: i in /var/www/impnet.sk/data/www/impnet.sk/class/Blog.class.php on line 753
Notice: Undefined variable: subpagelist in /var/www/impnet.sk/data/www/impnet.sk/class/Blog.class.php on line 756
Notice: Undefined variable: uvod in /var/www/impnet.sk/data/www/impnet.sk/class/Blog.class.php on line 758
Čo je to atribút hreflang – ako ho používať a najčastejšie chyby
Notice: Undefined variable: subpagelist in /var/www/impnet.sk/data/www/impnet.sk/class/Blog.class.php on line 794
Notice: Undefined variable: subpagelist in /var/www/impnet.sk/data/www/impnet.sk/class/Blog.class.php on line 756
Notice: Undefined variable: uvod in /var/www/impnet.sk/data/www/impnet.sk/class/Blog.class.php on line 758
Problém menom cookies. Musíte o ňom na webe informovať?
Notice: Undefined variable: subpagelist in /var/www/impnet.sk/data/www/impnet.sk/class/Blog.class.php on line 794