Olemme kirjoittaneet attribuutiomallinnuksesta aiemmin muun muassa seuraavissa blogauksissa: Attribuutiomallinnus – haasteet ja mahdollisuudet sekä Milloin attribuutiomallinnus, milloin ekonometrinen mallinnus?
Seuraavaksi lähestymme aihetta hieman teknisemmällä kulmalla esittelemällä muutaman attribuutiomallinnukseen soveltuvan tilastollisen menetelmän. Aiheeseen ovat paneutuneet Advanced Analytics -yksikön tuoreimmat vahvistukset Lauri Lehtimäki sekä Ilkka Särkiö.
Attribuutio-ongelmasta
Attribuutio tarkoittaa mainosten pisteyttämistä sen mukaan, kuinka paljon ne ovat edesauttaneet konversion syntymistä. Perinteisiä attribuutiokeinoja ovat olleet mm. first-touch- ja last-touch-attribuutiot, joissa kaikki kunnia konversiosta annetaan ensimmäiselle kontaktille tai vastaavasti viimeiselle kontaktille juuri ennen konversiota. Samalla suljetaan silmät jokaisen välissä tapahtuneen mainosimpression tai klikin vaikutukselta.
Seuraavassa esittelemme muutamia tapoja mallintaa attribuutiota niin, että kaikki yksittäisen evästeen kohtaamat mainokset otetaan huomioon ja eri mainosmuotojen vaikutusten todennäköisyys voidaan määrittää tarkemmin. Osa menetelmistä jättää huomiotta järjestyksen, jossa impressiot ovat tapahtuneet ja osa huomioi myös impressioiden välisen dynamiikan.
Elinaika-analyysi (”Survival analysis”)
Elinaika-analyysi on yleisnimitys laajalle joukolle tilastollisia menetelmiä, joilla voidaan analysoida tarkasteltavaan tapahtumaan kulunutta aikaa. Elinaika-analyysin keinoin on perinteisesti tutkittu ihmisten tai mekaanisten laitteiden elinaikaa, mutta sitä voidaan soveltaa myös konversiodataan.
Elinaikamallissa tarkastellaan tutkittavan ilmiön tapahtumistodennäköisyyttä; mille ulkoiselle tekijälle altistuminen kasvattaa sitä. Attribuutiomallinnuksen tapauksessa määritellään kuluttajan konversiotodennäköisyys, jossa nähdyt mainokset ja klikit kasvattavat tätä todennäköisyyttä. Elinaika-analyysin avulla mainoksille voidaan määrittää erisuuruiset vaikutukset konversiotodennäköisyyteen. Niitä vertailemalla kunnia konversiosta attribuoidaan eri mainoksille.
Tyypillisin elinaika-analyysin menetelmä attribuutiomallinnukseen on ”Cox proportional hazard-malli, joka mm. taustaoletuksineen on laskennallisesti kevyempi toteuttaa kuin muut samankaltaiset menetelmät.
Markovin ketju (”Markov chain”)
Markovin ketju on todennäköisyyksiin perustuva malli, jonka avulla voidaan määritellä siirtymätodennäköisyyksiä systeemin tilojen välillä. Markovin ketjua voidaan kuvata verkolla, jossa systeemin tiloja yhdistävät kaaret kuvaavat siirtymätodennäköisyyksiä.
Siirtymätodennäköisyys peräkkäisten tilojen välillä riippuu ainoastaan sen hetkisestä tilasta, ei aiemmista. Ketjulla ei ole muistia, vaan se toimii ainoastaan juuri kyseisellä hetkellä saatavan informaation perusteella. Esimerkiksi attribuutiomallinnuksessa huomioon otetaan vain edellinen nähty mainos tai tehty klikki, ei koko historiaa. Attribuutiomallinnuksen tapauksessa voi kuitenkin olla hyödyllistä löyhentää ehtoja: ketjulle voidaan luoda muisti sallimalla aikaisempien tilojen vaikutukset siirtymätodennäköisyyksiin kahden tilan välillä.
Markovin ketju on varsin intuitiivinen ja helposti toteutettava menetelmä. Intuitiivisuus vähentää mahdollisia virheitä toimintaperiaatteen ymmärtämisessä sekä tulosten tulkinnassa. Ketjun tilat kuvaavat attribuoitavia suureita, lukuun ottamatta konversioita kuvaavia tiloja. Tilan tärkeyttä voidaan arvioida poistamalla tila verkosta ja tarkastelemalla muutoksia konversiotodennäköisyyteen. Toistamalla tämä kaikille tiloille voidaan eri tilojen vaikutukset konversiotodennäköisyyteen laittaa järjestykseen, ja siten määrittää krediitti konversiosta eri mainoksille.
Shapleyn arvo (”Shapley value”)
Shapleyn arvo -menetelmä perustuu peliteoriaan, jossa pelaajia ovat attribuoitavat elementit. Ajatuksena on muodostaa kaikista attribuoitavista elementeistä kaikki mahdolliset joukot ja osajoukot.
Kampanjoiden tapauksessa ensin muodostetaan kaikki yhden kokoiset joukot, seuraavaksi kaikki kahden pituiset joukot. Näin jatketaan aina siihen asti, kunnes joukko pitää sisällään kaikki kampanjat. Kymmenen kampanjan tapauksessa tämä tarkoittaa 10! = 3 628 800 joukkoa. Tämä asettaa laskennallisia haasteita, sillä 3,6 miljoonan joukon generointi ja analysointi ovat hitaita prosesseja. Toisaalta tehtävää helpottaa se, että suurin osa näistä joukoista ei esiinny tosimaailman datassa.
Shapleyn arvojen tulkinta sopii attribuutiomallinnuksen tarkoituksiin, sillä arvot voidaan tulkita tietyn kampanjan marginaaliseksi kontribuutioksi. Arvo kuvastaa kampanjan vaikutusta konversiotodennäköisyyteen. Shapleyn arvojen perusteella kampanjat voidaan asettaa paremmuusjärjestykseen, ja siten jälleen kerran määrittää krediitti konversiosta eri mainoksille.
Miten eteenpäin?
Suoraviivaisin keino tutustua attribuution maailmaan on tutkia esimerkiksi Google Analyticsistä saatavia ns. heuristisia attribuutiomalleja, kuten last-touch- ja first-touch-mallit. Mutta hyvin pian vastaan tulee fundamentaalinen kysymys oikean mallin valinnasta: mikä tarjolla olevista malleista kertoo todennäköisimmän kuvan eri kanavien ja mainosmuotojen toimivuudesta? Kun kysymys on todennäköisyyksistä, on ennemmin tai myöhemmin tarve siirtyä järeämpiin menetelmiin, kuten edellä esiteltyihin vaihtoehtoihin.
Kun haluat sparrailla attribuutiomittauksen kehittämisestä, ota rohkeasti yhteyttä esim. Dagmarin analytiikkayksikön vetäjään: mikko.koski@dagmar.fi