Allt om sampling i Google Analytics


Längst upp till höger dyker det ibland upp en liten gul skylt om att rapporten är baserad på X besök. Det här är sampling i Google Analytics.

Vad är sampling?

Sampling används för att få fram en bild som är väldigt lik verkligheten, men utan att behöva samla in all data från verkligheten.

En valundersökning är sampling. De frågar några tusen människor vad de tänker rösta på och får en ungefärlig bild av vad hela Sverige tänker rösta på. Detsamma gäller tittarsiffror från tv; det är lite mer än tusen hushåll som loggar sitt tv-tittandet och med det som grund räknar man sedan ut hur många tittare ett visst program hade.

När den gula skylten dykt upp är alla resultat du ser i rapporten egentligen en kvalificerad gissning.

Varför samplar Google Analytics?

För att kunna leverera resultat till användare snabbt, väljer Google Analytics att sampla. Skulle Analytics i dessa fall inte sampla, vore användarna tvungna att vänta väldigt länge på sina resultat. Det är helt enkelt en balansgång mellan snabbhet och precision.

Gränser för sampling i Google Analytics

Samplingsintervallen ställs in med en slider som är inställd på 250.000 besök som standard:

I ett givet tidsintervall, om besöken till web propertyn överstiger 500.000 (eller vad du har ställt in med slidern), då kommer Google Analytics att sampla, såvida du inte tittar på en standardrapport.

Exempel: outfox.se juli månad


Profil 2 är ofiltrerad, den innehåller alla besök som inkommit till web propertyn. I Profil 1 har vi filtrerat bort våra egna besök, det är alltså färre besök i Profil 1.

Säg att juli månad genererade 1.000.000 besök (woho!) till outfox.se, men att 300.000 av dem var oss själva (buhu…). Det betyder att Profil 1 hade 700.000 besök.

Google har förberäknat (pre-aggregated) alla standardrapporter med osamplade siffror, oavsett vilka filter du har på din profil. Går jag nu in och tittar på Pages-rapporten kommer jag se all data, helt osamplad, även om datan bygger på 1.000.000 besök (till web propertyn):

MEN! Om jag gör något som ”icke-standardiserar” rapporten, kommer sampling att ske. Till exempel om jag lägger till en sekundär dimension som ej är förberäknad. Vi testar med Region:

Då får jag upp varningen om att rapporten är samplad:

När samplar Google Analytics?

När du väljer mer än 500.000 besök (eller vad du specificerat med slidern) kommer Google Analytics sampla om du gör ett anrop som inte är förberäknat. Det enda som är förberäknat är standardrapporterna (inte så lite då det finns över 100 st). Sampling kommer ske vid:

  • Custom-rapporter
  • Applicering av segment
  • Sekundär dimension som ej ingår i rapporten

Obs! Google Analytics samplar från web propertyn

Sampling går till som följer:

  1. Tar 500.000 besök från web propertyn (det vill säga innan något filter har applicerats) på det utspridda tidsintervallet.
  2. Applicerar profilfilter.
  3. Applicerar eventuellt segmentet.

Varför du bör vara vaksam när Google Analytics samplar

Är datat väldigt ”hårt samplat”, det vill säga få sampelpunkter ligger till grund för gissningen, kan du få resultat som inte är helt trovärdiga.

Exempel: En samplingsresa med två webbplatser som mäter till samma web property

Vi mäter två webbplatser till samma web property och använder profilfilter för att skilja dem åt. De heter FoxLovers och BirdNest. I vårt exempel har dessa webbplatser tillsammans fått 10 besök under tre dagar.

Vi står inne på BirdNest-profilen och skapar en läcker BirdNest-custom-rapport för att se en lista över de populäraste fåglarna i nästet. Upp kommer den gula skylten som säger ”Den här rapporten är baserad på 4 besök (40 % av besöken)”. Tjoho, nu kommer vi sampla:

Google Analytics fördelar de fyra sampel-besöken på de tre dagarna. 2 besök ges till måndag, 1 besök till tisdag och 1 besök till onsdag. På varje dag väljer den slumpvis besök från web propertyn, även om vi står i BirdNest-profilen.

Ett troligt utfall i detta scenario är att:

  • Måndag: 1/6 chans att besöken är BirdNest-besök. Utfallet i exemplet säger vi bli att de båda besöken är FoxLovers-besök.
  • Tisdag: FoxLovers har haft 0 besök, alltså är det 100 % chans att tisdagens besök är ett BirdNest-besök
  • Onsdag: Båda profilerna har haft lika många besök, det är 50 % chans att det blir antingen eller. Vi säger det blir ett BirdNest-besök.

Utfallet för BirdNest-samplingarna blir:

Det är dessa besök som utgör grunden för gissningen i alla samplade rapporter, som Analytics använder mot en uniform distribution. I vårt exempel kommer en samplad rapport för måndag alltid ge 0 besök, även om det i verkligheten var 1 besök; tisdagens 2 besök representeras av 1 besök; och onsdagens besök är ”osamplat” eftersom det är sampelbesöket som är besöket – det kommer vi dock aldrig kunna veta i en skarp situation.

När är sampling “farligt”?

När den gula samplingsskylten dyker upp bör du vara vaksam om följande stämmer in:

  • Profilen är filtrerad och är en liten delmängd av totala web property-trafiken.
  • Du har grävt ner dig långt ner i dimensionerna.
  • Du gör ”long-tail-analys”.
  • Du har ett segment baserat på t ex ett enskild sökord.

På grund av sampling kan du ibland få både skön- och svartmålande värden. Tipset är att snäva ned datumintervallet och säkerställa att de samplade värdena du ser är rimliga.

Hur gör bäst för att undvika sampling?

Vad vi oftast förespråkar är att du använder ett web property till varje webbplats. Då kommer hela profilen kunna utnyttja 500.000-besöksgränsen och det är lägre risk för sampling.

Sampling gäller även för API:t

Kom ihåg – även om du använder API:t gäller samma gränser!

Specialfall

Datumjämförelse
Om du jämför två datum kan du få ut 1.000.000 besök i samplingsintervallet. Det är 500.000 max för det första datumintervallet + 500.000 för jämförande datumintervallet.

Flow visualization
Samplas efter 100.000 besök. Fungerar precis som med annan sampling att den utgår från web propertyn.

Rad-gräns för förberäknade rapporter
Även standardrapporterna har faktiskt en gräns på 50.000 rader. Rad 50.000 och uppåt kommer slås samman till dimensionen (other). Vanligast märker man detta i keyword-rapporter:

Fortfarande snurrigt med sampling?

Sampling är lite klurigt och vi försöker förklara så gott vi kan. Är det något vi har missat? Skriv en kommentar eller maila oss så förklarar vi.

Referens

Hjälpartikeln ”How Sampling Works in Google Analytics” är mycket bra för den som är tekniskt intresserad och vill veta ännu mer.