Enkel A/B-testing, raske resultater med liten trafikk

A/B-testing er sannsynligvis den enkleste og tydeligste formen for analyse og testing. Du tester alternativ A opp mot Alternativ B og ser hvilket alternativ som gir best respons hos brukerne dine. Du trenger ikke å kunne tolke data eller webstatistikk, svarene er svært enkle å forstå. Under finner du et eksempel på en enkel A/B-test fra webgruppen.no.

Ankepunktet for mange, er som regel et av to elementer. Det første er at verktøyene for å gjennomføre A/B-tester har vært vanskelige (les: krever teknisk implementering) å innføre. Det andre er at trafikken ved norske nettsteder ofte er så marginal at det vil ta lang tid før man får tilstrekkelige valide data uten å måtte vente i ukesvis.

Det første ankepunktet kan du unngå ved å benytte Optimizely. Det installeres en gang, og så kan du kjøre så mange tester du bare vil, og testene settes opp direkte i en enkel WYSIWYG editor.

Det andre ankepunktet er alltid relevant å vurdere, men med litt smarte tanker rundt hva du skal definere som konverteringer, samt noen refleksjoner om hvor sikker du skal være før du trekker konklusjonene, så kan du komme langt med lite trafikk. Det er nemlig antallet konverteringer som er avgjørende for når du får valide data.

Hvis konverteringer defineres som endelige handler i en handlekurv, vil det nok ta ganske lang tid for de fleste norske nettsteder før de har nok datagrunnlag, fordi rene salg ligger nederst i salgstrakten. Mange tester vil kunne bruke konverteringer som ligger høyere i trakten, og da vil man få flere datapunkter raksere. For noen tester vil klikk videre fra siden være mer enn godt nok som konverteringsskriterie, f.eks. gjelder det forsider.

Det siste elementet er hvor stor grad av sikkerhet du skal ha før du gjør et valg. Du kan aldri være sikker, men en bransjestandard er at man skal vente til man er 95% sikker på at resultatet er riktig. Det er omtrent samme sikkerhetsnivå som vi har ved politiske meningsmålinger. Jeg mener man imidlertid kan velge å satse på at man har rett med langt lavere sannsynlighet, f.eks. 80%. Hvis jeg satser på alle konklusjoner som er 80% riktige, så vil jeg ha rett 4 av 5 ganger, og hvor feil vil jeg egentlig ta når jeg bommer på den femte – sannsynligvis ikke så altfor mye…

La oss se på et eksempel med 80% sjanse til å være et vesentlig bedre alternativ enn orginalen. Jeg tester en opplisting av kurs, med og uten uthevede lenker som er ment som calls to action.

Dette er orginalen:

Dette er alternativet:

Vi ser at den eneste vesentlige forskjellen er at hvert kurs i alternativet også ledsages av en uthevet blå lenke hvis formål er å utløse handling- at brukerne klikker seg videre inn til informasjonen om kurset.

Hvorfor har vi valgt å teste endringer på denne siden? Vel, statistikken fra Google Analytics sier at denne siden over lengre tid har hatt en bounce-rate tilsvarende mer enn 80%. Det synes vi er for mye, og forteller oss at her finnes det store rom for forbedringer. Vi tror dessuten at dersom vi finner systemiske forbedringer med denne siden, så tilhører den en mal som er applisert på ytterligere 30-40 liknende sider, som vil dra nytte av de samme funnene.

I denne testen vil det mest korrekte parameteret for konvertering være hvor mange som faktisk melder seg på kurs, men det er langt ned i trakten og det vil ta lang tid å få nok trafikk igjennom akkurat denne opplistningen til å få nok påmeldinger (sannsynligvis trenger vi mellom 100 og 200 påmeldinger før vi har 95% sikre tall).

Siden indikatoren som har utløst fokuset på siden er bounce-rate, så vil det jo være nesten like bra å måle forbedringene i redusert bounce rate, dvs hvis vi øker antallet som klikker seg videre fra denne siden, så har vi fått en bedre side. Med denne parameteren vil vi se at krever ganske lite trafikk før vi kan trekke valide konklusjoner.

Her er resultatene:

Tallene sier at jeg med 80% sannsynlighet har funnet et altermativ som er bedre enn orginalen, og forventet forbedring er 45%, fra en bounce-rate på 80% til en bounce-rate på 72%. Det er en vesentlig forbedring. Denne testen krevde bare 68 besøkende før resultatene kom. Det er mindre enn normalt, men jo større forbedringer testene viser desto mindre data trenger du før du kan kåre en vinner.

Om det er bra nok? Nei, jeg er ikke fornøyd med at dette skal forbli det endelige resultatet, men dette er steg 1 og skal implementeres, før vi setter igang med nye tester for å finne enda bedre alternativer. Testingen stopper aldri !!

This entry was posted in Webstatistikk and tagged , , . Bookmark the permalink.