Machen Sie (halbwegs) regelmäßig A/B Tests – aber regelmäßig bringen die keinen klaren Gewinner?
Das ist natürlich frustrierend. Doch das liegt meist an dem einen oder anderen grundlegenden Fehler, der in der Praxis bei A/B Tests oft gemacht wird.
Hier ein paar Tipps, wie man die Wahrscheinlichkeit für ein statistisch aussagekräftiges Ergebnis deutlich erhöhen kann:
1. Testgruppen größer machen.
Einer der häufigsten Probleme in der Praxis sind zu kleine Verteiler. Wenn Sie für ein Spezial-Mailing nur ein Segment Ihrer Zielgruppe mit ein paar Hundert Empfängern anschreiben, bringt ein A/B-Test leider wenig.
Denn für eine statistische Signifikanz benötigt man einfach gewisse Mindestgrößen. Als grobe Daumenregel gilt: Wenn Öffnungsfaktoren getestet werden (Betreffzeile, Versandzeitpunkte usw.), dann sollten die Testgruppen jeweils mindestens 250 Empfänger umfassen.
Besser (deutlich) mehr. Denn die Wahrscheinlichkeit für ein statistisch signifikantes Ergebnis steigt mit zunehmender Gruppengröße deutlich.
2. Weniger Varianten testen.
Auch bei größeren Verteilern sinken die Größen pro Testgruppe mit der Anzahl an Varianten, die getestet werden sollen.
Sie können also die Wahrscheinlichkeit für ein statistisch signifikantes Testergebnis deutlich erhöhen, indem Sie einfach die Anzahl der Testvarianten reduzieren, damit die Größe der Testgruppen entsprechend größer wird.
3. Zuerst Öffnungsfaktoren testen.
Die drei grundlegenden Erfolgskennzahlen eines Mailings kann man als Trichter darstellen: Öffnungen > Klicks > Conversions.
Dazu ein kleines Rechenbeispiel: Bei einer Öffnungsrate von 25% ergeben sich bei Testgruppen von 500 Empfängern immerhin 125 Empfänger, die das Mailing öffnen (25% von 500).
Bei einer Klickrate von 10% bleiben davon aber nur noch 13 Empfänger übrig. Das ist für eine statistische Signifikanz deutlich zu wenig. Wenn Sie Klick-Faktoren testen möchten, bräuchten sie also die 10-fache Versandmenge als bei Öffnungsfaktoren.
Deshalb testet man idealerweise zuerst Faktoren, die sich auf die Öffnungsrate auswirken: Betreffzeilen, Versandzeitpunkte, Preheader-Texte oder Elemente des Vorschau-Fensters.
4. Test-Elemente unterschiedlich machen.
In der Praxis sehen wir oft, dass sich die Test-Elemente kaum voneinander unterscheiden. Doch je ähnlicher die Test-Elemente zueinander sind, umso größer muss die Versandgruppe sein, damit diese kleinen Unterschiede sich auch statistisch bemerkbar machen.
Deshalb sollte man zum Beispiel zum Testen von Versandzeitpunkten nicht Mittwoch 9, 10 und 11 Uhr wählen, sondern die Zeitpunkte über einen deutlich längeren Zeitraum verteilen. Und idealerweise auch „untypische“ Elemente testen (z.B. ein Versand um 20 Uhr oder 6 Uhr).
5. Auf Gewinn-Versand verzichten.
Beim Gewinnerversand wird die beste Variante nach einer gewissen Wartezeit automatisch an die restliche Versandgruppe geschickt.
Wenn die gesamte Verteilerliste allerdings nicht all zu groß ist, dann könnte man überlegen, auf den Gewinnerversand zu verzichten, um dadurch die Testgruppen deutlich größer zu machen.
Von einem erfolgreichen Test kann man dennoch profitieren, da die daraus gewonnenen Erkenntnisse ja für das nächste Mailing angewendet werden können.
6. Tests wiederholen.
Wenn man Tests wiederholt, kann man auch bei nicht-signifikanten Ergebnissen interessante Schlussfolgerungen ziehen.
Wenn Sie beispielsweise immer wieder einen Versand in der Früh durchgeführt haben und dieser Zeitpunkt in fast allen Fällen der beste war, dann könnte man die Früh als guten Versandzeitpunkt identifizieren, auch wenn die einzelnen Tests kein statistisch signifikantes Ergebnis brachten.
7. Nur EIN Element gleichzeitig testen.
Und natürlich sollte man nur ein Element gleichzeitig testen. Also zum Beispiel nur mehrere Betreffzeilen-Varianten oder nur unterschiedliche Versandzeitpunkte.
Sobald man mehrere Elemente miteinander kombiniert, ist es auch kein A/B-Test mehr, sondern ein multivariater Test.
Der hat zwar den Vorteil, dass damit Wechselwirkungen zwischen den Elementen identifiziert werden können, allerdings den großen Nachteil, dass man für den Test unterschiedliche Kombinationen bilden muss und die notwendigen Testgrößen damit dramatisch größer sein müssen.
Dazu ein Mini-Beispiel: Wenn Sie 3 Versandzeitpunkte, 5 Betreffzeilen und zwei Preheader-Text-Varianten testen möchten, benötigen Sie 3*5*2 = 30 * 500 = 15.000 Empfänger, um je eine Variante an 500 Empfänger schicken zu können.
Fazit: Auf die Größe kommt es (doch) an.
Wenn Sie die Wahrscheinlichkeit für ein statistisch signifikantes Testergebnis erhöhen möchten, dann sollten vor allem die Größe der Testgruppen möglichst groß sein.
Auch wenn Sie dafür auf manche Testvarianten oder einen Gewinnerversand verzichten müssen. Dafür bekommen Sie allerdings ein Testergebnis, auf das Sie entsprechend vertrauen können.
Über den Autor
Michael Kornfeld ist mit einer über 25-jährigen Laufbahn ein leidenschaftlicher Verfechter von E-Mail-Marketing. Er hält zahlreiche Seminare und Fachvorträge und zählt zu den renommiertesten Experten Österreichs auf diesem Gebiet.