12.1.2016 | Verkkopalvelukehitys

Outoa dataa Google Analyticissa? Näin tunnistat web-analytiikkaspämmin ja pääset siitä eroon.

Miten on mahdollista, että ulkomaiset mainossivustot, joilla ei ole mitään tekemistä sivustoni kanssa, pääsevät käsiksi web-analytiikkadataani? Haamukäynnit eivät näy pelkästään liikenteen lähteissä, vaan esimerkiksi tapahtumaseurantaan (event tracking) ja jopa sivuston sisältöihin liittyvä data täyttyy omituisista merkinnöistä:

GA-spämmäys on kuitenkin teknisesti ottaen hyvin yksinkertaista. Datan keräys perustuu siihen, että kävijän vieraillessa sivustolla ajetaan tietty koodinpätkä, joka tallentaa kävijän tiedot analytiikkaohjelmaan. Analytiikkaohjelmassa puolestaan on määritelty, mitä tietoja kerätään – esimerkiksi kävijän siirtyessä alasivulta toiselle, tallennetaan kohtaan ”Page” kyseinen sivu.

Spämmääjä hyödyntää tätä ajamalla saman koodinpätkän, mutta itse määrittelemillään arvoilla. Tällöin analytiikkadataan tallentuvat spämmääjän haluamat tiedot, esimerkiksi ”alasivuja”, joita ei oikeasti ole edes olemassa. Koska Google Analytics -datan keruu tapahtuu selaimessa, teoriassa kenellä tahansa on mahdollisuus tallentaa mitä tahansa tietoa kenen tahansa Google Analytics -raportteihin! Riittää, että tuntee Google Analyticsin käyttämät scriptit ja muuttujat. (Eivätkä muut analytiikkaohjelmat ole immuuneja spämmille – GA vain on tunnetuimpana ja käytetyimpänä hyödyllisin spämmääjille.)

Roskapostittajan botit toimivat juuri näin – ne etsivät netistä sivustoja, jotka käyttävät Google Analyticsia, ja ajavat feikatut GA-scriptit sivustoilla. Kun GA:n käyttäjä näkee omituiset lähdesivustot ja alkaa tutkia asiaa, saavat spämmääjät haluamansa: liikennettä sivustoilleen.

Miten spämmista pääsee eroon?

GA-spämmi on monelta osin haitallista, sillä se vääristää dataa luomalla pahimmillaan satoja tai tuhansia haamukäyntejä. Tämä vaikuttaa suoraan myös muihin mittareihin, kuten välittömään poistumisprosenttiin. On todennäköistä, että ennen pitkää Google ryhtyy toimiin spämmiä vastaan mutta sitä odotellessa voi haamukäynnit filtteröidä omalta GA-tililtä pois myös itse.

Google Analytics tarjoaa Filters-toiminnallisuuden, jonka avulla dataa voi rajata esimerkiksi erilaisten kävijätyyppien mukaan. Filttereitä voi hyödyntää myös spämmiliikenteen poistamisessa. Yksi tapa on listata havaitut roskapostittajat poissulkevan filtterin avulla, mutta tämä osoittautuu nopeasti hyödyttämäksi, sillä uusia botteja tulee nopeammin kuin vanhoja ehditään listata.

On kuitenkin mahdollista tehdä filtteri, joka poistaa tehokkaasti kaiken spämmin. Kun tarkastellaan ”Verkkoaseman tunnus” (hostname) -osiota GA:ssa, havaitaan, että suurimassa osassa käynneistä tämä on jokin sivuston omista domaineista. Kun oikea kävijä käy sivustolla, tallentuu tähän kohtaan se domain, jolla kävijä vierailee. Koska spämmibotti ei tiedä (eikä välitä) millä sivustolla on, jää hostname-kohta spämmääjän kohdalla joko tyhjäksi, tai siihen keksitään jokin arvo.

Jos siis filtteröi pois lähtökohtaisesti kaiken liikenteen, jossa hostname on jotain muuta kuin jokin sivuston omista domaineista, pääsee samalla eroon kaikesta spämmistä. On kuitenkin tärkeää, että kaikki sivuston omat domainit listataan, ettei tule vahingossa rajanneeksi pois todellista liikennettä.
Tarvitsetko apua web-analytiikkaan? Ota yhteyttä: tuulikki.laine@dagmar.fi

Tuulikki Laine

Tuulikki Laine

Lisää aiheesta