Zum Inhalt springen

Leistungen · Conversion-Rate-Optimierung

Conversion-Rate-Optimierung Agentur — Hypothesen-Disziplin, nicht A/B-Test-Theater.

Quantitative Daten, qualitative Insights und statistisch saubere Validierung — als zusammenhängendes System, nicht als Knopfdruck-Optimierung. Calvarius arbeitet als CRO-Agentur für E-Commerce, B2B-Leadgenerierung und SaaS-Trial-Sign-ups, mit klarer Forschungs-Disziplin vor jeder Aktion.

Forschung vor Test/Statistische Disziplin/Wirtschaftlich geerdet

Standpunkt

Forschungs-Disziplin vor Aktion.

Wer eine Conversion-Rate-Optimierung-Agentur sucht, hat in der Regel eine kritische Beobachtung gemacht: Der Markt ist voll von Anbietern, die A/B-Tests verkaufen, ohne die Disziplin dahinter zu verstehen. „Mal sehen, ob grün besser konvertiert als rot" ist kein CRO — das ist Glücksspiel mit Werbe-Budget. Ein Test ohne Hypothese ist ein Test ohne Lerneffekt. Ein Test ohne ausreichendes Sample wird zum Zufalls-Ergebnis. Ein Test ohne wirtschaftliche Erdung optimiert auf Vanity-Metriken statt auf Deckungsbeitrag. Wer CRO ernst nimmt, arbeitet anders.

Calvarius behandelt Conversion-Rate-Optimierung als Forschungs-Disziplin mit Aktionsfolge — nicht als Knopfdruck-Test-Werkstatt. Das bedeutet: Vor jedem Test steht eine Hypothese. Vor jeder Hypothese steht Forschung. Vor der Forschung steht eine klare Funnel-Diagnose. Wir wissen, wo im Funnel die wirtschaftlich relevanten Conversion-Verluste passieren — und priorisieren dort, wo der wirtschaftliche Hebel am größten ist. Eine 5-%-Verbesserung auf einer Produkt-Detail-Seite mit hohem Margen-Anteil ist mehr wert als eine 30-%-Verbesserung auf einer Newsletter-Anmeldung.

Die methodische Triade, mit der wir arbeiten, ist nicht verhandelbar: quantitative Funnel-Analyse zeigt, wo Probleme sind. Qualitative Insights über Heatmaps, Session-Recordings und Customer-Research zeigen, warum Probleme entstehen. A/B-Tests mit korrekter Statistik validieren, was funktioniert. Wer eine dieser drei Ebenen weglässt, betreibt nicht CRO — sondern Bauchgefühl mit Test-Anstrich. Wir nutzen alle drei systematisch und in der richtigen Reihenfolge.

Konkret heißt das: Wir arbeiten mit Plattform-Tools wie Microsoft Clarity, Hotjar, VWO und Optimizely — kombiniert mit GA4 und BigQuery-Export für saubere Datenbasis. Wir testen über den gesamten Customer-Lifecycle, nicht nur auf einzelnen Landing-Pages — Ad-Klick, Landing-Page, Produkt-Detail, Cart, Checkout, Post-Purchase, Retention. Und wir wählen die Methodik passend zum Volumen: Bei KMU-Setups mit 200–1.000 monatlichen Conversions arbeiten wir primär qualitativ — Customer-Research, Heuristik-Analyse, gezielte Tests bei großen erwarteten Effekten. Bei mittlerem Volumen mit Bayesian Statistics und Sequential Testing. Bei hohem Volumen mit klassischem A/B-Testing-Setup. Wer KMUs Enterprise-Methodik verkauft, verbrennt deren Budget.

Für Shopify-Stores betrachten wir Conversion immer im Zusammenspiel mit der technischen Basis — Theme-Performance, Checkout-Anpassung und App-Auswahl entscheiden mit, wie viel ein Test überhaupt heben kann. Mehr dazu auf unserer Seite zur Shopify-Agentur.

Ein Test ohne Hypothese ist Glücksspiel mit Werbe-Budget. Wir testen nicht ins Blaue.

Typische Fehler

Wo CRO in der Praxis systematisch scheitert.

FEHLER 01

„Wir testen einfach mal"

Ohne Hypothese und ohne Forschungsbasis ist ein Test wertlos — selbst wenn er ein Ergebnis liefert. Was wurde gelernt? Warum hat es funktioniert? Lässt sich das Ergebnis auf andere Bereiche übertragen? Tests ohne Hypothese sind Glücksspiel mit Werbe-Budget. Wir starten jeden Test mit einer dokumentierten Hypothese: „Wir vermuten, dass X passiert, weil Y, gemessen über Z."

FEHLER 02

Sample-Size wird nicht berechnet

Ein Test mit zu kleinem Sample ist statistisch wertlos. „Variante B ist 12 % besser nach 100 Conversions" ist kein Ergebnis, das ist Zufall. Eine seriöse CRO-Praxis berechnet vor jedem Test die nötige Sample-Size auf Basis von Baseline-Conversion-Rate, Minimum Detectable Effect und gewünschtem Confidence-Level (typisch 95 %). Tests ohne diese Berechnung sind Theater.

FEHLER 03

Optimierung auf Mikro-KPIs statt Wirtschaftlichkeit

Click-Through-Rate auf einem Banner um 30 % gesteigert — und der Umsatz bleibt gleich. Add-to-Cart-Rate verbessert — aber Checkout-Conversion verschlechtert. Optimierung auf einzelne Metriken ohne Funnel-Validierung führt zu Verschiebungen, nicht zu Wirtschaftlichkeit. Wir messen immer auf den End-Conversion-Wert, nicht auf Zwischen-Schritte.

FEHLER 04

Test-Pipeline ohne Priorisierung

„Wir testen jetzt erst mal die Headline. Dann das Bild. Dann den Button." Ohne Priorisierung nach wirtschaftlichem Hebel werden 80 % der Test-Kapazität auf 20 % des Wirkungs-Potenzials verschwendet. Wir priorisieren mit ICE- oder PIE-Frameworks: Impact, Confidence, Ease — gewichtet nach Mandate-Realität.

Unsere Methodik

Quantitativ, qualitativ, statistisch — als zusammenhängendes System.

Quantitativ

Das WO

Funnel-Analyse über GA4 und BigQuery. Heatmaps und Click-Tracking über Microsoft Clarity oder Hotjar. Cohort-Analyse für Wiederkehr-Verhalten. Drop-Off-Analysen pro Funnel-Stufe. Output: konkrete Hotspots, wo wirtschaftlich Geld verloren geht.

Qualitativ

Das WARUM

Session-Recordings ausgewählter User-Sessions. Customer-Surveys auf strategischen Funnel-Punkten. User-Tests mit kleiner Stichprobe. Heuristik-Analyse nach Nielsen, Krug oder anderen etablierten UX-Frameworks. Output: Hypothesen, warum die Hotspots existieren.

Statistisch

Das WAS

Methodik passend zum Volumen: A/B-Tests mit korrekt berechneter Sample-Size, wo Volumen es zulässt. Bayesian Statistics bei mittlerem Volumen für validere Aussagen mit weniger Daten. Bei kleinem Volumen: Heuristik-basierte Validierung plus dokumentierte Best-Practice-Implementation statt unzuverlässiger Tests. Output: volumen-passende, validierte Verbesserungen.

Diese Triade ist nicht modular — alle drei Schichten sind Pflicht. Wer nur testet ohne Forschung, optimiert blind. Wer nur Heatmaps anschaut ohne Validierung, optimiert anekdotisch. Wer nur Funnel-Daten ohne qualitative Tiefe analysiert, sieht zwar das Wo, aber nicht das Warum. Erst die Kombination liefert systematische Verbesserung.

Unser Vorgehen

Wie ein CRO-Mandate bei uns abläuft.

  1. 01
    Funnel-Diagnose (3–5 Tage)

    Quantitative Analyse des bestehenden Funnels. GA4-Audit, Tracking-Validierung, Drop-Off-Identifikation pro Funnel-Stufe. Output: priorisierte Hotspot-Liste mit wirtschaftlichem Wirkungs-Potenzial.

  2. 02
    Forschung & Hypothesen-Bildung (1–2 Wochen)

    Qualitative Insights über Heatmaps, Session-Recordings, optional Customer-Surveys. Heuristik-Analyse nach UX-Frameworks. Pro Hotspot mindestens drei dokumentierte Hypothesen mit konkreter Mess-Definition.

  3. 03
    Test-Pipeline-Aufbau (1 Woche)

    ICE- oder PIE-Priorisierung der Hypothesen. Sample-Size-Berechnung pro Test. Test-Setup in VWO, Optimizely oder vergleichbarer Plattform. Tracking-Validierung vor Go-Live.

  4. 04
    Test-Durchführung (kontinuierlich, ab Woche 3–4)

    Wöchentlicher Test-Zyklus mit klarer Hypothesen-Pipeline. Statistische Signifikanz-Prüfung vor Test-Beendigung. Sequential Testing wo passend für kürzere Test-Dauern. Strikt kein Cherry-Picking, kein vorzeitiges Beenden bei „guten Zwischenständen".

  5. 05
    Implementierung & Skalierung (parallel zu Phase 04)

    Erfolgreiche Tests werden in Produktion ausgerollt. Erkenntnisse fließen in nachfolgende Hypothesen-Bildung. Aufbau einer dokumentierten „Lessons-Learned"-Datenbank pro Mandate.

  6. 06
    Customer-Lifecycle-Erweiterung (ab Monat 3)

    Tests werden über den gesamten Funnel ausgeweitet — Ad-Klick, Landing-Page, Produkt-Detail, Cart, Checkout, Post-Purchase, Retention. CRO ist kein „Landing-Page-only"-Spiel, sondern Customer-Journey-Optimierung.

Diese Pipeline läuft nicht linear, sondern zyklisch — jede Test-Erkenntnis fließt zurück in die Hypothesen-Bildung. Der wirtschaftliche Hebel wächst mit jeder Iteration, weil das Wissen über die spezifische Mandate-Audience wächst.

Was wir liefern

Capabilities im CRO-Spektrum.

Funnel-Diagnose & Hotspot-Mapping
GA4, BigQuery, Drop-Off-Analyse
Heuristik- & Heatmap-Analyse
Nielsen, Krug, Clarity, Hotjar
A/B- & Multivariate-Tests
Sample-Size, Bayesian, Sequential
Customer-Lifecycle-Testing
Ad-Klick bis Retention
UX-Research & Customer-Insights
Surveys, User-Tests, VoC
Tracking-Hygiene als Voraussetzung
Server-side, Enhanced Conversions
Wirtschaftliche Validierung
End-Conversion-Wert, Deckungsbeitrag
Test-Dokumentation & Lessons-Learned
Wissens-Akkumulation

Tooling

Womit wir CRO operativ steuern.

Quantitative Datenbasis

  • Google Analytics 4 mit BigQuery-Export
  • Server-side Tracking via GTM-Server
  • Funnel-Visualisierung in Looker Studio

Qualitative Insights

  • Microsoft Clarity (kostenlos, datenschutzkonform)
  • Hotjar (für tiefere Heatmap- und Survey-Funktionen)
  • Custom-Survey-Tools je nach Anforderung

A/B- und Multivariate-Testing

  • VWO — Hauptplattform für die meisten Mandate
  • Optimizely — wo Enterprise-Funktionen oder Server-side-Testing nötig sind
  • Convert.com als Mid-Market-Alternative
  • Eigene Implementierungen via Feature Flags wo Plattform-Tools nicht reichen

Statistische Werkzeuge

  • Sample-Size-Calculator (intern, Calvarius-eigene Spreadsheets)
  • Bayesian Statistics Toolkit für komplexere Auswertungen
  • Sequential Testing-Frameworks für kürzere Test-Dauern

Was realistisch ist

Volumen-Realismus — die richtige Methodik für Ihren Setup.

CRO ist nicht nur klassisches A/B-Testing. Die meisten Calvarius-Mandate sind KMUs aus dem E-Commerce-Bereich mit Monatsbudgets von 10.000–100.000 € — und damit Setups, in denen Enterprise-A/B-Test-Methodik wirtschaftlich nicht funktioniert. Wir arbeiten mit der Methodik, die zur Volumen-Klasse passt — nicht mit der, die in Konferenz-Vorträgen am beeindruckendsten klingt.

KLASSE 1 — KLEINES VOLUMEN

200–1.000 monatliche Conversions

CALVARIUS-SCHWERPUNKT

Hier liegen die meisten KMU-Setups, die wir betreuen. Wir arbeiten primär mit qualitativen Methoden: Customer-Research, User-Tests mit kleiner Stichprobe, Heuristik-Analyse nach UX-Frameworks, Heatmap-Diagnose über Microsoft Clarity oder Hotjar. A/B-Tests setzen wir gezielt dort ein, wo wir substanzielle Effekte erwarten (15–20 % oder mehr) und wo Test-Zeiträume von 4–8 Wochen praktikabel sind. Realistische Verbesserungen: 8–25 % innerhalb von 6–9 Monaten — primär durch saubere Forschung, Best-Practice-Implementation und gezielte Tests, nicht durch Test-Pipeline-Volumen.

KLASSE 2 — MITTLERES VOLUMEN

1.000–5.000 monatliche Conversions

HÄUFIGER CALVARIUS-BEREICH

Hier wird klassisches A/B-Testing wirtschaftlich tragbar — aber mit Anpassungen gegenüber Enterprise-Methodik. Wir nutzen Bayesian Statistics statt Frequentist (kommt mit weniger Daten zu validen Aussagen), Sequential Testing für kürzere Test-Dauern, klare Fokussierung auf große erwartete Effekte statt feiner Optimierung. Realistische Verbesserungen: 10–30 % innerhalb von 6 Monaten, mit 2–4 parallel laufenden Tests.

KLASSE 3 — SEHR KLEINES VOLUMEN

Unter 200 monatliche Conversions

Hier sind klassische A/B-Tests nicht statistisch valide — auch nicht mit Bayesian Statistics. Wir arbeiten dann ausschließlich qualitativ: Heuristik-Analyse, Customer-Surveys, User-Tests, Best-Practice-Refactoring auf Basis dokumentierter Industrie-Standards. Das sagen wir vor dem Mandate ehrlich — nicht, dass wir Mandate ablehnen, sondern dass wir die Methodik an die Realität anpassen. Messbare Effekte in 4–8 Wochen.

KLASSE 4 — HOHES VOLUMEN

5.000+ monatliche Conversions

Enterprise-Bereich, in dem klassisches A/B-Testing mit 95 % Confidence-Level voll skalierbar ist. Multivariate Tests möglich. Test-Dauern von 2–4 Wochen pro Test. Test-Pipeline mit 3–5 parallel laufenden Tests. Calvarius betreut auch Mandate dieser Größe — aber es ist nicht der Schwerpunkt unseres Mandate-Mix, sondern eine weitere Volumen-Klasse, die wir methodisch sauber abdecken.

In der Calvarius-Mandate-Realität fallen die meisten Setups in Klasse 1 oder 2 — KMU-Setups mit B2C-E-Commerce-Schwerpunkt, bei denen die Wahl der richtigen CRO-Methodik wirtschaftlich entscheidend ist. Wer KMUs Enterprise-Methodik verkauft, verbrennt deren Budget. Wer KMUs nichts anbietet, weil das Volumen für klassisches Testing nicht reicht, lässt wirtschaftlichen Hebel liegen. Wir machen weder das eine noch das andere — sondern liefern die Methodik, die zum Setup passt.

Was Sie gewinnen

Was Sie von unserer CRO-Disziplin bekommen.

Forschungs-Substanz vor jeder Aktion. Wir testen nicht ins Blaue — jede CRO-Aktion startet mit einer dokumentierten Hypothese auf Basis quantitativer und qualitativer Forschung.

Statistische Disziplin als Pflicht-Bestandteil. Sample-Size-Berechnung, korrekte Confidence-Levels, kein Cherry-Picking, kein vorzeitiges Beenden. Echte Wissenschaftlichkeit, nicht Test-Theater.

Wirtschaftliche Erdung statt Mikro-KPI-Optimierung. Wir messen auf End-Conversion-Wert und Deckungsbeitrag, nicht auf Click-Through-Rate oder Add-to-Cart-Rate.

Customer-Lifecycle-Sicht statt Landing-Page-Tunnel. CRO über den gesamten Funnel, weil Wirkung dort entsteht, wo Reibung sitzt — und Reibung sitzt selten nur auf einer Landing-Page.

Ehrliche Volumen-Realismus. Wir sagen vor dem Mandate, ob CRO bei Ihrem Traffic-Volumen wirtschaftlich tragbar ist. Falls nicht: andere Hebel statt CRO.

Wissens-Akkumulation pro Mandate. Test-Dokumentation und Lessons-Learned-Datenbank — Erkenntnisse aus früheren Tests fließen in spätere Hypothesen ein.

REFERENZEN

Unternehmen, mit denen wir arbeiten

Unsere Arbeit ist selten laut, aber messbar. Ein Auszug von Unternehmen, die wir in den vergangenen Jahren begleitet haben:

Logo von ATP Autoteile
Logo von Bluecode
Logo von Casimum
Logo von Diaeko
Logo von Eye-Able
Logo von Frostfutter Perleberg
Logo von Happy Cheeze
Logo von iGO
Logo von Liebesgut
Logo von Mondi
Logo von Mücke
Logo von Procani
Logo von Schlafstil
Logo von Spessarttraum
Logo von Vantastic Foods
Logo von Velivery
Logo von VR Immoservice

Die Zusammenarbeit reicht von operativer Umsetzung bis hin zu strategischem Sparring und Koordination externer Partner.

Konkret werden

CRO-Audit in 30 Minuten — kostenlos und unverbindlich.

In einem ersten Gespräch klären wir, ob Ihr Setup wirtschaftlich CRO-tragbar ist — also ob das Traffic-Volumen für valide Tests reicht und wo die wirkungsvollsten Hotspots liegen. Sie bekommen eine ehrliche Einordnung, auch wenn das heißt, dass CRO aktuell nicht der richtige Hebel ist.