Leistungen · Conversion-Rate-Optimierung

Conversion-Rate-Optimierung Agentur — Hypothesen-Disziplin, nicht A/B-Test-Theater.

Quantitative Daten, qualitative Insights und statistisch saubere Validierung — als zusammenhängendes System, nicht als Knopfdruck-Optimierung. Calvarius arbeitet als CRO-Agentur für E-Commerce, B2B-Leadgenerierung und SaaS-Trial-Sign-ups, mit klarer Forschungs-Disziplin vor jeder Aktion.

Forschung vor Test/Statistische Disziplin/Wirtschaftlich geerdet

Standpunkt

Forschungs-Disziplin vor Aktion.

Wer eine Conversion-Rate-Optimierung-Agentur sucht, hat in der Regel eine kritische Beobachtung gemacht: Der Markt ist voll von Anbietern, die A/B-Tests verkaufen, ohne die Disziplin dahinter zu verstehen. „Mal sehen, ob grün besser konvertiert als rot" ist kein CRO — das ist Glücksspiel mit Werbe-Budget. Ein Test ohne Hypothese ist ein Test ohne Lerneffekt. Ein Test ohne ausreichendes Sample wird zum Zufalls-Ergebnis. Ein Test ohne wirtschaftliche Erdung optimiert auf Vanity-Metriken statt auf Deckungsbeitrag. Wer CRO ernst nimmt, arbeitet anders.

Calvarius behandelt Conversion-Rate-Optimierung als Forschungs-Disziplin mit Aktionsfolge — nicht als Knopfdruck-Test-Werkstatt. Das bedeutet: Vor jedem Test steht eine Hypothese. Vor jeder Hypothese steht Forschung. Vor der Forschung steht eine klare Funnel-Diagnose. Wir wissen, wo im Funnel die wirtschaftlich relevanten Conversion-Verluste passieren — und priorisieren dort, wo der wirtschaftliche Hebel am größten ist. Eine 5-%-Verbesserung auf einer Produkt-Detail-Seite mit hohem Margen-Anteil ist mehr wert als eine 30-%-Verbesserung auf einer Newsletter-Anmeldung.

Die methodische Triade, mit der wir arbeiten, ist nicht verhandelbar: quantitative Funnel-Analyse zeigt, wo Probleme sind. Qualitative Insights über Heatmaps, Session-Recordings und Customer-Research zeigen, warum Probleme entstehen. A/B-Tests mit korrekter Statistik validieren, was funktioniert. Wer eine dieser drei Ebenen weglässt, betreibt nicht CRO — sondern Bauchgefühl mit Test-Anstrich. Wir nutzen alle drei systematisch und in der richtigen Reihenfolge.

Konkret heißt das: Wir arbeiten mit Plattform-Tools wie Microsoft Clarity, Hotjar, VWO und Optimizely — kombiniert mit GA4 und BigQuery-Export für saubere Datenbasis. Wir testen über den gesamten Customer-Lifecycle, nicht nur auf einzelnen Landing-Pages — Ad-Klick, Landing-Page, Produkt-Detail, Cart, Checkout, Post-Purchase, Retention. Und wir wählen die Methodik passend zum Volumen: Bei KMU-Setups mit 200–1.000 monatlichen Conversions arbeiten wir primär qualitativ — Customer-Research, Heuristik-Analyse, gezielte Tests bei großen erwarteten Effekten. Bei mittlerem Volumen mit Bayesian Statistics und Sequential Testing. Bei hohem Volumen mit klassischem A/B-Testing-Setup. Wer KMUs Enterprise-Methodik verkauft, verbrennt deren Budget.

Für Shopify-Stores betrachten wir Conversion immer im Zusammenspiel mit der technischen Basis — Theme-Performance, Checkout-Anpassung und App-Auswahl entscheiden mit, wie viel ein Test überhaupt heben kann. Mehr dazu auf unserer Seite zur Shopify-Agentur.

Ein Test ohne Hypothese ist Glücksspiel mit Werbe-Budget. Wir testen nicht ins Blaue.

Typische Fehler

Wo CRO in der Praxis systematisch scheitert.

FEHLER 01

„Wir testen einfach mal"

Ohne Hypothese und ohne Forschungsbasis ist ein Test wertlos — selbst wenn er ein Ergebnis liefert. Was wurde gelernt? Warum hat es funktioniert? Lässt sich das Ergebnis auf andere Bereiche übertragen? Tests ohne Hypothese sind Glücksspiel mit Werbe-Budget. Wir starten jeden Test mit einer dokumentierten Hypothese: „Wir vermuten, dass X passiert, weil Y, gemessen über Z."

FEHLER 02

Sample-Size wird nicht berechnet

Ein Test mit zu kleinem Sample ist statistisch wertlos. „Variante B ist 12 % besser nach 100 Conversions" ist kein Ergebnis, das ist Zufall. Eine seriöse CRO-Praxis berechnet vor jedem Test die nötige Sample-Size auf Basis von Baseline-Conversion-Rate, Minimum Detectable Effect und gewünschtem Confidence-Level (typisch 95 %). Tests ohne diese Berechnung sind Theater.

FEHLER 03

Optimierung auf Mikro-KPIs statt Wirtschaftlichkeit

Click-Through-Rate auf einem Banner um 30 % gesteigert — und der Umsatz bleibt gleich. Add-to-Cart-Rate verbessert — aber Checkout-Conversion verschlechtert. Optimierung auf einzelne Metriken ohne Funnel-Validierung führt zu Verschiebungen, nicht zu Wirtschaftlichkeit. Wir messen immer auf den End-Conversion-Wert, nicht auf Zwischen-Schritte.

FEHLER 04

Test-Pipeline ohne Priorisierung

„Wir testen jetzt erst mal die Headline. Dann das Bild. Dann den Button." Ohne Priorisierung nach wirtschaftlichem Hebel werden 80 % der Test-Kapazität auf 20 % des Wirkungs-Potenzials verschwendet. Wir priorisieren mit ICE- oder PIE-Frameworks: Impact, Confidence, Ease — gewichtet nach Mandate-Realität.

Unsere Methodik

Quantitativ, qualitativ, statistisch — als zusammenhängendes System.

Quantitativ

Das WO

Funnel-Analyse über GA4 und BigQuery. Heatmaps und Click-Tracking über Microsoft Clarity oder Hotjar. Cohort-Analyse für Wiederkehr-Verhalten. Drop-Off-Analysen pro Funnel-Stufe. Output: konkrete Hotspots, wo wirtschaftlich Geld verloren geht.

Qualitativ

Das WARUM

Session-Recordings ausgewählter User-Sessions. Customer-Surveys auf strategischen Funnel-Punkten. User-Tests mit kleiner Stichprobe. Heuristik-Analyse nach Nielsen, Krug oder anderen etablierten UX-Frameworks. Output: Hypothesen, warum die Hotspots existieren.

Statistisch

Das WAS

Methodik passend zum Volumen: A/B-Tests mit korrekt berechneter Sample-Size, wo Volumen es zulässt. Bayesian Statistics bei mittlerem Volumen für validere Aussagen mit weniger Daten. Bei kleinem Volumen: Heuristik-basierte Validierung plus dokumentierte Best-Practice-Implementation statt unzuverlässiger Tests. Output: volumen-passende, validierte Verbesserungen.

Diese Triade ist nicht modular — alle drei Schichten sind Pflicht. Wer nur testet ohne Forschung, optimiert blind. Wer nur Heatmaps anschaut ohne Validierung, optimiert anekdotisch. Wer nur Funnel-Daten ohne qualitative Tiefe analysiert, sieht zwar das Wo, aber nicht das Warum. Erst die Kombination liefert systematische Verbesserung.

Unser Vorgehen

Wie ein CRO-Mandate bei uns abläuft.

01
Funnel-Diagnose (3–5 Tage)
Quantitative Analyse des bestehenden Funnels. GA4-Audit, Tracking-Validierung, Drop-Off-Identifikation pro Funnel-Stufe. Output: priorisierte Hotspot-Liste mit wirtschaftlichem Wirkungs-Potenzial.
02
Forschung & Hypothesen-Bildung (1–2 Wochen)
Qualitative Insights über Heatmaps, Session-Recordings, optional Customer-Surveys. Heuristik-Analyse nach UX-Frameworks. Pro Hotspot mindestens drei dokumentierte Hypothesen mit konkreter Mess-Definition.
03
Test-Pipeline-Aufbau (1 Woche)
ICE- oder PIE-Priorisierung der Hypothesen. Sample-Size-Berechnung pro Test. Test-Setup in VWO, Optimizely oder vergleichbarer Plattform. Tracking-Validierung vor Go-Live.
04
Test-Durchführung (kontinuierlich, ab Woche 3–4)
Wöchentlicher Test-Zyklus mit klarer Hypothesen-Pipeline. Statistische Signifikanz-Prüfung vor Test-Beendigung. Sequential Testing wo passend für kürzere Test-Dauern. Strikt kein Cherry-Picking, kein vorzeitiges Beenden bei „guten Zwischenständen".
05
Implementierung & Skalierung (parallel zu Phase 04)
Erfolgreiche Tests werden in Produktion ausgerollt. Erkenntnisse fließen in nachfolgende Hypothesen-Bildung. Aufbau einer dokumentierten „Lessons-Learned"-Datenbank pro Mandate.
06
Customer-Lifecycle-Erweiterung (ab Monat 3)
Tests werden über den gesamten Funnel ausgeweitet — Ad-Klick, Landing-Page, Produkt-Detail, Cart, Checkout, Post-Purchase, Retention. CRO ist kein „Landing-Page-only"-Spiel, sondern Customer-Journey-Optimierung.

Diese Pipeline läuft nicht linear, sondern zyklisch — jede Test-Erkenntnis fließt zurück in die Hypothesen-Bildung. Der wirtschaftliche Hebel wächst mit jeder Iteration, weil das Wissen über die spezifische Mandate-Audience wächst.

Was wir liefern

Capabilities im CRO-Spektrum.

Funnel-Diagnose & Hotspot-Mapping

GA4, BigQuery, Drop-Off-Analyse

Heuristik- & Heatmap-Analyse

Nielsen, Krug, Clarity, Hotjar

A/B- & Multivariate-Tests

Sample-Size, Bayesian, Sequential

Customer-Lifecycle-Testing

Ad-Klick bis Retention

UX-Research & Customer-Insights

Surveys, User-Tests, VoC

Tracking-Hygiene als Voraussetzung

Server-side, Enhanced Conversions

Wirtschaftliche Validierung

End-Conversion-Wert, Deckungsbeitrag

Test-Dokumentation & Lessons-Learned

Wissens-Akkumulation

Tooling

Womit wir CRO operativ steuern.

Quantitative Datenbasis

Google Analytics 4 mit BigQuery-Export
Server-side Tracking via GTM-Server
Funnel-Visualisierung in Looker Studio

Qualitative Insights

Microsoft Clarity (kostenlos, datenschutzkonform)
Hotjar (für tiefere Heatmap- und Survey-Funktionen)
Custom-Survey-Tools je nach Anforderung

A/B- und Multivariate-Testing

VWO — Hauptplattform für die meisten Mandate
Optimizely — wo Enterprise-Funktionen oder Server-side-Testing nötig sind
Convert.com als Mid-Market-Alternative
Eigene Implementierungen via Feature Flags wo Plattform-Tools nicht reichen

Statistische Werkzeuge

Sample-Size-Calculator (intern, Calvarius-eigene Spreadsheets)
Bayesian Statistics Toolkit für komplexere Auswertungen
Sequential Testing-Frameworks für kürzere Test-Dauern

Was realistisch ist

Volumen-Realismus — die richtige Methodik für Ihren Setup.

CRO ist nicht nur klassisches A/B-Testing. Die meisten Calvarius-Mandate sind KMUs aus dem E-Commerce-Bereich mit Monatsbudgets von 10.000–100.000 € — und damit Setups, in denen Enterprise-A/B-Test-Methodik wirtschaftlich nicht funktioniert. Wir arbeiten mit der Methodik, die zur Volumen-Klasse passt — nicht mit der, die in Konferenz-Vorträgen am beeindruckendsten klingt.

KLASSE 1 — KLEINES VOLUMEN

200–1.000 monatliche Conversions

CALVARIUS-SCHWERPUNKT

Hier liegen die meisten KMU-Setups, die wir betreuen. Wir arbeiten primär mit qualitativen Methoden: Customer-Research, User-Tests mit kleiner Stichprobe, Heuristik-Analyse nach UX-Frameworks, Heatmap-Diagnose über Microsoft Clarity oder Hotjar. A/B-Tests setzen wir gezielt dort ein, wo wir substanzielle Effekte erwarten (15–20 % oder mehr) und wo Test-Zeiträume von 4–8 Wochen praktikabel sind. Realistische Verbesserungen: 8–25 % innerhalb von 6–9 Monaten — primär durch saubere Forschung, Best-Practice-Implementation und gezielte Tests, nicht durch Test-Pipeline-Volumen.

KLASSE 2 — MITTLERES VOLUMEN

1.000–5.000 monatliche Conversions

HÄUFIGER CALVARIUS-BEREICH

Hier wird klassisches A/B-Testing wirtschaftlich tragbar — aber mit Anpassungen gegenüber Enterprise-Methodik. Wir nutzen Bayesian Statistics statt Frequentist (kommt mit weniger Daten zu validen Aussagen), Sequential Testing für kürzere Test-Dauern, klare Fokussierung auf große erwartete Effekte statt feiner Optimierung. Realistische Verbesserungen: 10–30 % innerhalb von 6 Monaten, mit 2–4 parallel laufenden Tests.

KLASSE 3 — SEHR KLEINES VOLUMEN

Unter 200 monatliche Conversions

Hier sind klassische A/B-Tests nicht statistisch valide — auch nicht mit Bayesian Statistics. Wir arbeiten dann ausschließlich qualitativ: Heuristik-Analyse, Customer-Surveys, User-Tests, Best-Practice-Refactoring auf Basis dokumentierter Industrie-Standards. Das sagen wir vor dem Mandate ehrlich — nicht, dass wir Mandate ablehnen, sondern dass wir die Methodik an die Realität anpassen. Messbare Effekte in 4–8 Wochen.

KLASSE 4 — HOHES VOLUMEN

5.000+ monatliche Conversions

Enterprise-Bereich, in dem klassisches A/B-Testing mit 95 % Confidence-Level voll skalierbar ist. Multivariate Tests möglich. Test-Dauern von 2–4 Wochen pro Test. Test-Pipeline mit 3–5 parallel laufenden Tests. Calvarius betreut auch Mandate dieser Größe — aber es ist nicht der Schwerpunkt unseres Mandate-Mix, sondern eine weitere Volumen-Klasse, die wir methodisch sauber abdecken.

In der Calvarius-Mandate-Realität fallen die meisten Setups in Klasse 1 oder 2 — KMU-Setups mit B2C-E-Commerce-Schwerpunkt, bei denen die Wahl der richtigen CRO-Methodik wirtschaftlich entscheidend ist. Wer KMUs Enterprise-Methodik verkauft, verbrennt deren Budget. Wer KMUs nichts anbietet, weil das Volumen für klassisches Testing nicht reicht, lässt wirtschaftlichen Hebel liegen. Wir machen weder das eine noch das andere — sondern liefern die Methodik, die zum Setup passt.

Was Sie gewinnen

Was Sie von unserer CRO-Disziplin bekommen.

Forschungs-Substanz vor jeder Aktion. Wir testen nicht ins Blaue — jede CRO-Aktion startet mit einer dokumentierten Hypothese auf Basis quantitativer und qualitativer Forschung.

Statistische Disziplin als Pflicht-Bestandteil. Sample-Size-Berechnung, korrekte Confidence-Levels, kein Cherry-Picking, kein vorzeitiges Beenden. Echte Wissenschaftlichkeit, nicht Test-Theater.

Wirtschaftliche Erdung statt Mikro-KPI-Optimierung. Wir messen auf End-Conversion-Wert und Deckungsbeitrag, nicht auf Click-Through-Rate oder Add-to-Cart-Rate.

Customer-Lifecycle-Sicht statt Landing-Page-Tunnel. CRO über den gesamten Funnel, weil Wirkung dort entsteht, wo Reibung sitzt — und Reibung sitzt selten nur auf einer Landing-Page.

Ehrliche Volumen-Realismus. Wir sagen vor dem Mandate, ob CRO bei Ihrem Traffic-Volumen wirtschaftlich tragbar ist. Falls nicht: andere Hebel statt CRO.

Wissens-Akkumulation pro Mandate. Test-Dokumentation und Lessons-Learned-Datenbank — Erkenntnisse aus früheren Tests fließen in spätere Hypothesen ein.

REFERENZEN