Baseline für SEO und AI Search: Ohne Ausgangsmessung ist jede Optimierung pures Raten
Alle reden davon, jetzt mit AI-Search-Messungen anzufangen. Wenige erklären, was eine saubere Baseline bedeutet, und warum das in der AI Search strukturell schwieriger ist als es die Tool-Anbieter im Onboarding-Wizard vermuten lassen.
Das Wichtigste vorab
Eine Baseline ist kein Reporting-Feature, sondern dein Interpretationsschutz: Sie schützt dich vor Überreaktionen nach Updates, vor Aktivismus ohne Richtung und vor Messwerten, die Optimierungserfolg nur simulieren.
Kernfakten:
- Die SEO-Baseline bleibt Pflicht, auch wenn klassisches Ranking an Gewicht verliert. Ohne sie kannst du nach einem Core Update nicht unterscheiden, was deine Maßnahmen bewirkt haben und was der Markt von selbst erledigt hat.
- Die AI Search Baseline ist strukturell ein anderes Problem: LLM-Outputs sind probabilistisch, nicht deterministisch. Das bedeutet, dieselbe Frage an dasselbe Modell erzeugt unterschiedliche Antworten. Eine Momentaufnahme ist kein Messwert.
- Der populäre Satz „Fang jetzt an zu messen, dann hast du in zwölf Monaten belastbare Daten" stimmt nur, wenn du weißt, was du misst. Zwölf Monate schlechter Prompts produzieren zwölf Monate Rauschen.
- Tools wie Sistrix Prompt Monitoring und Rankscale messen, was KI-Systeme ausgeben. Sie messen nicht, welche Seiten diese Systeme dabei verarbeitet haben. Das ist kein Produktfehler, sondern eine strukturelle Grenze, die du kennen musst.
- Eine solide AI Search Baseline besteht aus einem kuratierten Prompt-Set, einem Snapshot-Protokoll und einem Kontextsystem. Erst danach hat Tracking einen Sinn.
- Klassisches SEO und AI Search teilen dasselbe Fundament: technische Sauberkeit, klare Struktur, nachvollziehbare Autorität. Wer dort Lücken hat, wird in keiner Baseline gut aussehen.
Warum das gerade jetzt zählt
Auf der Google I/O 2026 hat Google keine Updates angekündigt. Google hat eine andere Suche vorgestellt.
AI Overviews haben nach eigenen Angaben inzwischen 2,5 Milliarden monatliche Nutzerinnen und Nutzer. Der AI Mode kommt in rund einem Jahr auf über eine Milliarde. Queries verdoppeln sich Quartal für Quartal. Und Google selbst bringt es auf den Punkt: Der gesamte Search-Traffic ist auf Allzeithoch, aber die These, dass KI die Messbarkeit von Search killt, stimmt sehr wohl.
Das ist keine Zukunftsprognose. Das ist der Stand heute.
In dieser Situation verbreitet sich auf LinkedIn und in Fachgruppen ein Satz, der gut klingt und trotzdem irreführend ist: "Fang jetzt an, AI-Sichtbarkeit zu messen. In zwölf Monaten hast du Daten, die Wettbewerber nicht haben." Der Satz stimmt in seiner Logik, aber er überspringt den entscheidenden Schritt: Bevor du misst, musst du wissen, was du misst, wie du es misst, und ob dein Messinstrument das erfasst, was du brauchst.
Wer heute ein Prompt-Tracking-Tool bucht, drei zufällige Fragen als Prompt-Set einträgt und jeden Monat auf das Dashboard schaut, hat nach zwölf Monaten zwölf Monate Rauschen. Das ist kein Wettbewerbsvorteil.
Gleichzeitig ist das kein Argument dafür, (noch) nichts zu tun. Es ist ein Argument dafür, zuerst eine Baseline aufzubauen, die diesen Namen verdient.
Begriffe und Abgrenzungen
Was eine Baseline ist
Eine Baseline ist der dokumentierte Ausgangszustand, gegen den du jede Veränderung prüfst. Sie ist nicht die Startnummer eines Projekts, sondern der Referenzpunkt, der dir ermöglicht zu sagen: "Diese Veränderung geht auf unsere Maßnahmen zurück und jene nicht."
Ohne Baseline hast du Daten. Mit Baseline hast du Interpretation.
Der Unterschied ist nicht akademisch. In der Praxis bestimmt er, ob du nach einem Rückgang sinnvoll reagierst oder ob du in hektischen Stakeholder-Meetings auf Basis von Einzelbeobachtungen diskutierst.
SEO-Baseline vs. AI Search Baseline
Beide haben dieselbe Grundlogik, aber unterschiedliche Messqualität.
Die SEO-Baseline arbeitet mit deterministischen Messwerten. Eine URL rankt auf Position 7 für eine bestimmte Suchanfrage. Das ist reproduzierbar, überprüfbar, timestampable. Du kannst eine Momentaufnahme nehmen, einen Monat warten, erneut messen und die Differenz belastbar benennen.
Die AI Search Baseline arbeitet mit probabilistischen Outputs. Ein LLM nennt deine Marke für einen Prompt heute, morgen nicht, übermorgen wieder, aber in einem anderen Kontext. Dieselbe Frage an ChatGPT und an Perplexity ergibt unterschiedliche Antworten. Dieselbe Frage an ChatGPT heute und in drei Wochen ebenfalls. Das ist kein Bug, das ist das Designprinzip dieser Systeme.
Das bedeutet nicht, dass AI Search nicht messbar ist. Es bedeutet, dass du Stichproben-Logik statt Ranking-Logik brauchst. Der Einzelwert zählt wenig; der Trend über einen repräsentativen Prompt-Pool zählt.
Warum hier von AI Search die Rede ist, nicht von GEO oder AEO
Du wirst in anderen Beiträgen und Agentur-Pitches auf GEO (Generative Engine Optimization) und AEO (Answer Engine Optimization) stoßen. Ich verwende diese Begriffe nicht, weil sie eine eigenständige Disziplin suggerieren, wo keine ist. Die technische Realität dahinter ist RAG: Erst Retrieval, dann Generierung. Wer im Retrieval nicht auftaucht, existiert für die Antwort nicht. Das optimierst du mit denselben Mitteln wie im klassischen SEO, und das ist kein Zufall, sondern Architektur.
Warum die Begriffe strategisch problematisch sind und weshalb AI Search Optimization der präzisere Rahmen ist, habe ich in einem eigenen Beitrag ausgeführt. Der Kern für diesen Artikel: Wer technische Schwächen, unklare Struktur oder dünne Autorität hat, wird in keinem dieser Systeme gut abschneiden. Das gilt für klassisches SEO genauso wie für AI Search. Die Baseline bildet beides ab.
Teil 1: Die SEO-Baseline – warum sie immer noch Pflicht ist
Interpretationsschutz nach Updates
Google verteilt Core Updates mehrfach pro Jahr. Jedes Update ist ein potenzielles Stakeholder-Gespräch darüber, warum der Traffic eingebrochen ist und was jetzt zu tun ist. Ohne Baseline läuft dieses Gespräch nach einem Muster, das du kennst: Jemand zieht einen Screenshot aus dem Analytics-Dashboard, jemand anderes zitiert einen LinkedIn-Post über das Update, und die Gruppe einigt sich auf Maßnahmen, für die es keine Hypothese gibt.
Mit Baseline läuft es anders. Du kannst prüfen: Welche Seitentypen sind betroffen? Welche Suchintentionen? Haben Wettbewerber systematisch gewonnen? Gibt es parallele technische Änderungen, die mit dem Update-Zeitraum zusammenfallen? Google empfiehlt bei Traffic-Veränderungen ausdrücklich, Zeiträume zu vergleichen und Daten nach Suchanfragen, URLs, Ländern, Geräten und Suchdarstellungen zu segmentieren, bevor Maßnahmen ergriffen werden. Das setzt voraus, dass diese Segmentierungsdaten als Baseline vorhanden sind.
Eine SEO-Baseline ist deshalb mehr als ein Dokumentationsprojekt. Sie ist dein Schutz gegen Aktionismus.
Das Korrelationsproblem ohne Baseline
Ein Beispiel aus der Praxis, das sich regelmäßig wiederholt:
| Beobachtung | Falsche Interpretation ohne Baseline | Richtige Einschätzung mit Baseline |
|---|---|---|
| Organischer Traffic sinkt um 18 % | SEO funktioniert nicht mehr | Saisonale Nachfrageschwäche, Rankings stabil, Impressionen rückläufig |
| Rankings steigen, Leads sinken | Ranking-Gewinn bringt nichts | Keywords mit falscher Suchintention oder Landingpages konvertieren schlechter |
| Sichtbarkeit steigt, Umsatz bleibt gleich | SEO ist überschätzt | Sichtbarkeit wächst in informativen Clustern, nicht in transaktionalen |
| Klicks sinken, Impressionen bleiben stabil | Wir verlieren Rankings | CTR fällt durch SERP-Features, AI Overviews oder schlechtere Snippets |
Jede dieser Fehlinterpretationen ist ohne Baseline plausibel. Mit Baseline ist keine davon notwendig.
Sichtbarkeit mit Geschäftsergebnis verbinden
Ein häufiges Problem in SEO-Projekten: Berichtet wird entweder zu technisch oder zu oberflächlich. Rankings allein sagen zu wenig, Traffic allein ist zu weit vom Geschäftsziel entfernt, Umsatz allein ist zu schwach mit dem SEO-Hebel verbunden.
Google selbst beschreibt den Unterschied zwischen Search Console und Analytics so: Die Search Console zeigt, was vor dem Klick passiert, Analytics zeigt, was danach passiert.
Eine belastbare Baseline verbindet mindestens drei Ebenen:
| Ebene | Kennzahlen | Managementfrage |
|---|---|---|
| Nachfrage und Sichtbarkeit | Impressionen, Rankings, Sichtbarkeitsindex | Werden wir überhaupt gesehen? |
| Nutzerentscheidung | Klicks, CTR, Snippet-Leistung | Werden wir ausgewählt? |
| Geschäftswirkung | Leads, Anfragen, Conversions | Entsteht wirtschaftlicher Nutzen? |
Erst wenn alle drei Ebenen dokumentiert sind, kannst du nach einer Maßnahme erklären, was sich warum verändert hat.
Vor Relaunches und Migrationen ist die Baseline keine Option
Bei CMS-Wechseln, URL-Migrationen oder strukturellen Änderungen ist eine Baseline keine Empfehlung, sondern Grundvoraussetzung.
Nach dem Relaunch muss überprüfbar sein, ob Indexierung, Rankings, Crawlability und Conversions stabil bleiben.
Eine technische SEO-Baseline vor größeren Änderungen enthält mindestens:
Welche wichtigen URLs sind indexiert, welche nicht?
Welche URLs ranken für welche Hauptqueries?
Welche Seiten erzeugen organischen Traffic und Conversions?
Welche alten URLs benötigen Weiterleitungen?
Welche Statuscodes gibt es (200, 3xx, 4xx, 5xx)?
Welche Canonical-Struktur konsolidiert Signale korrekt?
Welche Markups sind vorhanden und valide?
Welche Templates haben welche Core Web Vital-Werte?
Ohne diese Ausgangsdaten lässt sich nach einem Relaunch kaum unterscheiden, ob ein Sichtbarkeitsverlust durch Redirect-Fehler, Template-Änderungen, Content-Kürzungen oder externe Veränderungen entstanden ist.
Teil 2: Die AI Search Baseline und die ehrliche Antwort auf das Messproblem
Was Tools messen und was nicht
Sistrix schreibt in der eigenen Dokumentation: "Quellen werden selten genannt, Antworten variieren stark und basieren je nach Modell nicht immer auf aktuellen Daten." Das ist eine ehrliche Einschätzung, die in den meisten Artikel über AI Search Tracking nicht zu finden ist.
Rankscale gehört zu den stärkeren Tools für AI Visibility Tracking, arbeitet aber primär outputbasiert: Es zeigt, wie KI-Systeme auf definierte Prompts antworten und, soweit vom jeweiligen System offengelegt, welche Quellen oder URLs dabei sichtbar zitiert werden. Was Rankscale nicht leisten kann, ist die vollständige Rekonstruktion des internen Retrieval-, Crawl- oder Reasoning-Pfads eines LLMs. Das ist keine Produktschwäche, sondern eine grundsätzliche Black-Box-Grenze externer Beobachtung. Beobachtbar sind Teilaspekte: Sichtbare Zitate, wo das System sie ausgibt, und Bot-Zugriffe auf die eigene Website, soweit diese im Server-Log auftauchen.
Konkret bedeutet das: Du kannst messen, ob deine Marke in einer Antwort erscheint. Du kannst nicht direkt messen, warum sie erscheint oder welche Seite dafür verantwortlich war. Die Korrelation zwischen "Seite X wurde gecrawlt" und "Marke Y erscheint in Antwort auf Prompt Z" bleibt eine Hypothese, keine gesicherte Kausalität.
Das ist der zentrale Unterschied zur klassischen SEO: Dort weißt du, dass URL A auf Position 3 für Suchanfrage B steht. In der AI Search weißt du, dass deine Marke bei Prompt C in etwa X Prozent der Antworten erscheint. Der Mechanismus dazwischen ist eine Black Box, und das wird auf absehbare Zeit so bleiben.
Das probabilistische Problem ernst nehmen
Gängige AI Visibility Tools simulieren Prompts monatlich, wöchentlich, täglich oder stündlich, erfassen die Antworten und aggregieren daraus Sichtbarkeitsverläufe. Das funktioniert, aber nur unter einer Bedingung: Die Prompt-Sets müssen repräsentativ, konsistent und kuratiert sein. Andernfalls misst du das Rauschen des Modells, nicht die Sichtbarkeit deiner Marke.
Was "repräsentativ" in diesem Kontext bedeutet:
Die Prompts spiegeln echte Nutzerfragen in deiner Kategorie wider, nicht dein Wunschbild.
Sie decken verschiedene Fragetypen ab: Markenfragen, Kategoriefragen, Problemfragen, Vergleichsfragen, Empfehlungsfragen.
Sie sind sprachlich so formuliert, wie tatsächliche Nutzerinnen und Nutzer fragen, nicht wie du dein Angebot beschreiben würdest.
Was "konsistent" bedeutet:
Du verwendest dieselben Prompts über Zeit hinweg. Wer Prompts nachträglich ändert, bricht seine eigene Zeitreihe.
Du trackst auf denselben Plattformen. Die Antworten von ChatGPT und Perplexity sind nicht substituierbar, weil sie unterschiedliche Trainingsdaten und Retrievalsysteme nutzen.
Was "kuratiert" bedeutet:
Die Prompts wurden gegen reale Nutzerintentionen geprüft, nicht aus dem Bauch heraus formuliert.
Sie wurden mindestens einmal manuell getestet, bevor sie ins automatisierte Tracking wandern.
Warum Training Data mehr zählt als Retrieval und was das für deine Baseline bedeutet
Ein wichtiger Punkt, der in den meisten AI-Search-Guides unterrepräsentiert ist: Die meisten AI-Antworten basieren nicht primär darauf, was das Modell im Moment abruft (Retrieval), sondern darauf, was im Training eingearbeitet wurde. Das gilt vor allem für ältere Fakten, etablierte Marken und wiederkehrende Fragetypen.
Das bedeutet für deine AI Search Baseline: Was du heute misst, spiegelt oft wider, was das Modell in den letzten Trainingszyklen über dich gelernt hat. Maßnahmen, die du heute umsetzt, ob neue Inhalte, bessere Struktur oder mehr Erwähnungen in Fachmedien, wirken sich in der Baseline möglicherweise erst in Monaten aus, weil sie den nächsten Trainingszyklus erreichen müssen.
Das ist keine Entmutigung. Es ist ein Argument dafür, frühzeitig mit dem Aufbau einer Datenbasis anzufangen und realistische Erwartungen an die Geschwindigkeit der Wirkung zu haben.
Das "zwölf Monate"-Argument richtig verstehen
Der oft zitierte Satz, wer jetzt anfange zu messen, habe in zwölf Monaten belastbare Daten, die Wettbewerber nicht hätten, stimmt unter einer Bedingung: Das, was gemessen wird, ist sinnvoll aufgesetzt.
Zwölf Monate Tracking mit willkürlichen Prompts, ohne Snapshot-Protokoll und ohne Kontextsystem produzieren zwölf Monate uninterpretierbarer Messwerte. Das ist kein Wettbewerbsvorteil, das ist bestenfalls ein aufgeräumtes Dashboard mit schlechten Daten dahinter.
Wenn du jetzt anfängst, dann richtig: Prompt-Set kurieren, Snapshot-Protokoll anlegen, Kontextveränderungen dokumentieren. Erst dann zählt die Zeitreihe.
Das Baseline-Setup in der Praxis
Minimal-Setup für KMU
Für KMU-Projekte, die noch keine eigene Analytics- und SEO-Infrastruktur haben, ist ein schlankes Setup der richtige Einstieg.
1. Google Search Console
Export der letzten 16 Monate, soweit verfügbar. Fokus auf Klicks, Impressionen, CTR und durchschnittliche Position. Segmentierung nach Seiten, Suchanfragen, Ländern und Geräten. Wichtig: Direkt beim Onboarding einen PDF- oder Spreadsheet-Export anlegen. GSC-Daten reichen nur 16 Monate zurück, danach ist der Ausgangszustand unwiederbringlich weg.
2. Analytics
Organische Sitzungen, wichtigste Landingpages, Conversions oder Kontaktaktionen, Engagement-Indikatoren. Falls GA4, die wichtigsten Ereignisse als Conversions markieren und zum Baseline-Zeitpunkt dokumentieren.
3. Sichtbarkeitsindex
Sistrix oder Semrush liefern hier den Ausgangspunkt. Der Sichtbarkeitsindex ist keine perfekte Zahl, aber er ist historisch belastbar und erlaubt Wettbewerbervergleiche. Wichtig: Screenshot des Verlaufs zum Startzeitpunkt, nicht nur der aktuellen Zahl.
4. Technischer Crawl
Screaming Frog, mindestens einmal zu Beginn. Statuscodes, Indexierbarkeit, Canonicals, interne Links, strukturierte Daten, Ladezeiten. Exportiert als Spreadsheet, datiert und abgelegt.
5. AI Search Snapshot
Das ist neu. Nicht mit einem Tool starten, sondern zuerst manuell. Ein Tool kommt bei Bedarf später zum Einsatz. Formuliere 30 bis 50 Prompts, die echte Nutzerfragen in deiner Kategorie abbilden. Strukturiere sie in fünf Typen:
Brand-Prompts: Wird deine Marke direkt erwähnt oder empfohlen?
Kategorie-Prompts: Welche Anbieter nennt das Modell, wenn jemand deine Leistung sucht?
Problem-Prompts: Wird deine Marke als Lösung für relevante Probleme genannt?
Vergleichs-Prompts: Wie positioniert das Modell dich im Wettbewerbsvergleich?
Empfehlungs-Prompts: Wen empfiehlt das Modell, wenn jemand explizit nach einer Empfehlung fragt?
Teste diese Prompts manuell in ChatGPT, Perplexity und Google AI Overviews. Dokumentiere: Wirst du genannt? Wirst du zitiert? In welchem Kontext? Mit welchem Sentiment? Neben welchen Wettbewerbern? Das ist deine AI Search Baseline, bevor du ein Tool einschaltest.
Erweitertes Setup für strategische SEO- und AI-Search-Beratung
Wenn du mit Kunden arbeitest oder intern eine vollständige Datengrundlage brauchst, empfehle ich folgende Erweiterung:
| Modul | Inhalt | Tool |
|---|---|---|
| SEO Performance Baseline | GSC, Analytics, Sichtbarkeitsindex, Keyword-Cluster | Sistrix/Semrush, GA4, GSC |
| Technical Baseline | Crawl, Indexierung, Templates, interne Verlinkung | Screaming Frog |
| Content Baseline | Suchintentionen, Content-Gaps, thematische Abdeckung | Sistrix, SEOmonitor |
| Competitive Baseline | Wettbewerber, SERP-Abdeckung, Share of Visibility | Sistrix, Semrush |
| AI Visibility Baseline | Prompt-Set, Mention Rate, Citation Rate, Sentiment | Sistrix Prompt Monitoring, Rankscale |
| Entity Baseline | Markenverständnis in KI-Systemen, strukturierte Daten | Manuell + Rankscale Page Audit |
| Conversion Baseline | Leads, Kontaktpunkte, Angebotsseiten, Anfragen | GA4, CRM |
| Risk Baseline | Traffic-Abhängigkeiten, technische Altlasten, KI-Falschdarstellungen | Kombination |
Das klingt nach viel. In der Praxis lässt sich das meiste aus vorhandenen Tool-Zugängen ziehen, wenn man weiß, wonach man sucht. Der Aufwand für eine vollständige Baseline liegt für eine mittlere KMU-Website bei einem bis zwei Arbeitstagen.
Tool-spezifische Hinweise
Sistrix Prompt Monitoring
Die Funktion ist aktuell in der Beta-Phase und für alle Sistrix-Kunden verfügbar. Du legst ein Projekt an, hinterlegst deine kuratierten Prompts und wählst aus, auf welchen Plattformen getrackt wird: ChatGPT, Perplexity, Google AI Overviews, Google AI Mode. Sistrix erfasst dann Erwähnungen, Zitationen und Sentiment für die jeweiligen Antworten.
Wichtig beim Setup: Die Anzahl der Prompts, die du täglich tracken kannst, richtet sich nach dem Paket-Kontingent, das Sistrix als Prompt-Aktualisierungen ausweist. Konkrete Zahlen pro Paket veröffentlicht Sistrix nicht pauschal, dein verfügbares Kontingent findest du in der Projektübersicht unter den Kontingent-Kennzahlen. Fang mit einem schlanken, kuratierten Set an, lieber weniger und präziser als viele und beliebig.
Rankscale
Rankscale trackt Markenpräsenz über mehr als 17 KI-Plattformen, manuell, monatlich, wöchentlich, täglich oder stündlich, mit Wettbewerber-Benchmarking, Sentiment-Analyse und tiefgehender Quellenanalyse. Das Tool geht weiter als reines Mention-Tracking: Es analysiert Entitäten-Umfeld, technische Signale wie Schema-Vollständigkeit und gibt Optimierungshinweise, die auf konkret unterperformenden Prompt-Sets basieren. Rankscale ist das richtige Werkzeug, wenn du systematisch viele Prompts, mehrere Marken oder Kunden verwaltest und tief in die Datenlage einsteigen willst. Die oben beschriebene Black-Box-Grenze gilt auch hier: Den internen Retrieval- oder Reasoning-Pfad kannst du von außen nicht rekonstruieren.
Für die Baseline-Erstellung ist Rankscale besonders nützlich beim Aufbau eines kuratierten Prompt-Sets: Das Tool kann aus erkannten Marken, Entitäten und Wettbewerbern automatisch Prompt-Vorschläge generieren. Diese solltest du manuell reviewen, bevor du sie dauerhaft trackst.
Peec.ai
Peec.ai macht dasselbe wie Rankscale im Kern, Mention Rate, Position, Sentiment, Wettbewerber, Quellen, aber mit einem bewusst reduzierten Interface. Das ist keine Schwäche, sondern eine Designentscheidung: Peec ist auf schnelle Übersicht ausgelegt, nicht auf maximale Datentiefe. Wer ein Marketing-Team ohne dedizierten SEO-Analysten hat oder den Einstieg ins AI-Visibility-Tracking ohne steile Lernkurve sucht, ist hier besser aufgehoben. Was Peec nicht liefert: Optimierungsempfehlungen oder Content-Vorschläge. Es ist ein reines Monitoring-Tool, das dir zeigt, wo du stehst.
Screaming Frog für den technischen Ausgangszustand
Screaming Frog ist das Standardwerkzeug für den technischen Crawl, der vor jeder Maßnahme läuft. Die Exports bilden das technische Rückgrat deiner SEO-Baseline. Wichtig: Nicht nur beim Onboarding crawlen, sondern auch nach jedem technischen Eingriff und vor/nach jedem Relaunch.
Realitätsabgleich: So scheitert die Baseline in der Praxis
Problem 1: Die Baseline wird angelegt und nie wieder angeschaut
Eine Baseline ist kein Ablagedokument. Sie wird erst sinnvoll, wenn du sie aktiv als Referenzpunkt nutzt: Nach Updates, nach Maßnahmen, in Kundengesprächen, bei der Budgetplanung. Eine Baseline, die im Google Drive liegt und einmal pro Jahr geöffnet wird, ist kein Steuerungsinstrument.
Problem 2: Der Snapshot ist zu kurz
Baselines mit weniger als vier Wochen Datenbasis sind in der klassischen SEO unzuverlässig, weil saisonale Schwankungen und kurzfristige Volatilität das Bild verzerren. In der AI Search kommt die Modellvolatilität dazu: Einige Modelle ändern ihre Antwortmuster mit Updates, ohne dass du davon erfährst. Ein einzelner AI-Snapshot ist daher noch weniger aussagekräftig als ein kurzer GSC-Export.
Problem 3: Die Prompt-Sets werden nachträglich angepasst
Das zerstört die Zeitreihe. Wenn du im Monat drei neue Prompts ergänzt, weil du feststellst, dass die bisherigen nicht gut performt haben, vergleichst du ab sofort Äpfel mit Birnen. Der richtige Weg: Kernprompts bleiben stabil. Neue Prompts werden in einem separaten Set geführt, mit eigenem Startdatum.
Problem 4: Kein Kontextprotokoll
Ein Rückgang in der AI Visibility im Monat X kann viele Ursachen haben: Ein Modell-Update, ein Wettbewerber, der neu aufgeführt wird, eine negative Erwähnung in einem Fachmedium, eine veränderte Crawling-Frequenz. Ohne Protokoll, das festhält, wann was außerhalb der eigenen Maßnahmen passiert ist, kannst du Ursachen nicht zuordnen. Ein einfaches Textdokument oder eine Tabelle mit Datum und Ereignis reicht.
Problem 5: Die KI beschreibt die Marke falsch, und es fehlt die Baseline zum Nachweis der Korrektur
Das ist ein Sonderfall, der aber regelmäßig vorkommt: Ein LLM ordnet ein Unternehmen falsch ein, beschreibt die Leistungen ungenau oder nennt veraltete Informationen. Um zu beweisen, dass eine Korrekturmaßnahme gewirkt hat, brauchst du einen dokumentierten Snapshot des alten Zustands.
Fallbeispiel: Mittelständisches IT-Beratungsunternehmen
Dieses Szenario basiert auf einem typischen Projektverlauf. Namen und Zahlen sind anonymisiert, alle Annahmen sind transparent.
Ein IT-Beratungsunternehmen mit 45 Mitarbeitenden und einer Website, die über Jahre organischen Traffic aufgebaut hat, bemerkt im Januar 2025 einen Rückgang von etwa 22 Prozent im organischen Traffic über drei Monate. Das Unternehmen hat keine Baseline. Der Geschäftsführer fragt die Agentur nach der Ursache.
Die Agentur liefert drei Hypothesen: ein Google Update, ein neuer Wettbewerber, eine technische Veränderung nach einem CMS-Update im Oktober. Alle drei sind plausibel. Keine kann belegt werden. Es wird beschlossen, Inhalte zu überarbeiten, Backlinks aufzubauen und die technischen Grundlagen zu verbessern.
Sechs Monate später hat sich der Traffic stabilisiert. Ob das auf die Maßnahmen zurückgeht oder auf die saisonale Erholung der Branche, kann niemand sagen. Die Agentur zieht einen Vergleich zum Tief im Januar und nennt das einen Erfolg.
Zum selben Zeitpunkt fragt der Vertriebsleiter: "Werden wir eigentlich bei ChatGPT oder Perplexity empfohlen, wenn Kunden nach IT-Beratung in unserer Region suchen?" Niemand weiß es. Es gibt keine Baseline, keinen Prompt-Test, keine Dokumentation.
So läuft das, ohne Baseline.
Mit einer Baseline wäre das Szenario anders verlaufen:
Der GSC-Export vor dem CMS-Update hätte die technische Hypothese sofort prüfbar gemacht.
Der Sichtbarkeitsverlust hätte mit dem Timeline-Protokoll datiert werden können.
Ein initialer AI-Snapshot mit 30 kuratierten Prompts hätte die Ausgangslage in AI-Systemen dokumentiert.
Nach sechs Monaten Maßnahmen wäre eine Vergleichsmessung möglich gewesen, die mehr zeigt als den Vergleich zum Monatstief.
Der Unterschied im Aufwand: ein bis zwei Arbeitstage zu Projektbeginn. Der Unterschied im Informationsgewinn über sechs Monate: erheblich.
60-Minuten-Checkliste: Deine erste Baseline aufbauen
Diese Checkliste gibt dir einen realistischen Einstieg. 60 Minuten reichen für das Minimal-Setup, wenn die Tool-Zugänge vorhanden sind.
- Google Search Console: Letzten 16-Monats-Export herunterladen (Klicks, Impressionen, CTR, Position, nach Seiten und Suchanfragen segmentiert)
- Analytics: Organische Sitzungen, Top-Landingpages, Conversions exportieren
- Sichtbarkeitsindex (Sistrix): Screenshot des aktuellen Verlaufs mit Datum und Wettbewerbervergleich
- Notiz: Datum des Snapshots, aktuelle Ranking-Schwerpunkte, bekannte technische Baustellen
- Screaming Frog Crawl starten, Export anlegen (Statuscodes, Canonicals, interne Links)
- Wichtigste transaktionale URLs identifizieren und separat notieren
- Core Web Vitals für relevante Templates in GSC prüfen
- 20 bis 30 Prompts formulieren (je 4 bis 6 aus den fünf Typen: Brand, Kategorie, Problem, Vergleich, Empfehlung)
- Prompts manuell in ChatGPT testen: Wirst du genannt? Wirst du zitiert? Welcher Kontext? Welche Wettbewerber?
- Dasselbe in Perplexity wiederholen
- Dasselbe in Google AI Overviews/AI Mode wiederholen
- Ergebnisse in einer einfachen Tabelle dokumentieren: Prompt | Plattform | Erwähnt (Ja/Nein) | Zitiert (Ja/Nein) | Kontext | Wettbewerber | Sentiment | Datum
Nach 60 Minuten hast du:
- Einen dokumentierten SEO-Ausgangszustand
- Einen technischen Baseline-Export
- Einen manuellen AI-Snapshot mit Datum und Kontextprotokoll
Das ist keine vollständige Baseline, aber es ist der Punkt, von dem aus Tracking und Maßnahmen einen Sinn ergeben.
FAQ
-
Was ist eine SEO-Baseline und wozu brauche ich sie?
Eine SEO-Baseline dokumentiert den Zustand deiner Website vor einer Maßnahme, einem Update oder einer Kampagne. Ohne diesen Ausgangspunkt kannst du nach einer Veränderung nicht beurteilen, ob deine Optimierungen gewirkt haben oder ob andere Faktoren wie saisonale Nachfrageschwankungen, Google Updates oder veränderte Wettbewerber das Bild verzerren.
-
Was ist der Unterschied zwischen einer SEO-Baseline und einer AI Search Baseline?
Die SEO-Baseline arbeitet mit deterministischen Messwerten: Rankings, Klicks, Impressionen. Die AI Search Baseline arbeitet mit Stichprobenmessungen aus probabilistischen Outputs: Wie oft wirst du in KI-Antworten auf repräsentative Prompts genannt? Da LLMs dieselbe Frage unterschiedlich beantworten können, sind Einzelmessungen wenig aussagekräftig. Relevant sind Trends über ein konsistentes Prompt-Set.
-
Welche Tools brauche ich für eine AI Search Baseline?
Für den Einstieg brauchst du keine spezialisierten Tools. 30 manuell formulierte Prompts, getestet in ChatGPT, Perplexity und Google AI Overviews, ergeben einen validen ersten Snapshot. Für kontinuierliches Tracking bieten sich Sistrix Prompt Monitoring oder Rankscale an. Beide messen, was KI-Systeme antworten. Welche Seiten dabei verarbeitet wurden, zeigt keines von beiden, das ist eine strukturelle Grenze der Tools.
-
Wie oft sollte ich meine Baseline aktualisieren?
Die SEO-Baseline ist ein Referenzpunkt, keine laufende Messung. Aktualisiere sie vor größeren Maßnahmen, nach Core Updates und einmal pro Quartal für die strategische Einordnung. Die AI Search Baseline läuft idealerweise im automatisierten Tracking, sofern das Prompt-Set stabil bleibt. Manuelle Stichproben als Ergänzung sind sinnvoll, um Plausibilität zu prüfen.
-
Warum messen Tools wie Rankscale oder Sistrix Prompt Tracking nur Outputs und nicht, warum ich zitiert werde?
LLMs geben keinen vollständigen Einblick in ihren internen Retrieval-, Crawl- oder Reasoning-Pfad. Externe Tools wie Sistrix oder Rankscale beobachten, was das Modell ausgibt, und erfassen sichtbare Quellenangaben, wo das jeweilige System sie liefert. Was dabei intern gewichtet oder verarbeitet wurde, bleibt eine Black Box. Das ist keine Produktschwäche, das ist eine grundsätzliche Grenze externer Beobachtung generativer Systeme.
-
Was mache ich, wenn meine Marke in KI-Antworten falsch beschrieben wird?
Zuerst dokumentieren: Screenshot mit Datum, Prompt, Plattform und falscher Darstellung. Dann prüfen, welche öffentlichen Quellen zu diesem Bild beigetragen haben könnten, etwa veraltete Pressemitteilungen, falsche Kategorisierungen in Verzeichnissen oder widersprüchliche Formulierungen auf der eigenen Website. Die Korrektur läuft über die Quellen, nicht über das Modell direkt.
-
Macht eine Baseline keinen Sinn mehr, wenn Google Search sich so grundlegend ändert?
Im Gegenteil. Je stärker sich die Signalquellen verschieben, desto wichtiger wird ein dokumentierter Ausgangszustand. Gerade weil klassische Ranking-Logik und AI-Antwort-Logik zunehmend parallel laufen, brauchst du eine Baseline, die beide abbildet. Sonst weißt du weder in der einen noch in der anderen Welt, ob deine Maßnahmen wirken.
-
Kann ich eine Baseline auch rückwirkend aufbauen?
Teilweise. GSC-Daten reichen bis zu 16 Monate zurück. Historische Sistrix-Daten sind ebenfalls verfügbar. Für die AI Search Baseline gibt es keine Zeitreise: Du kannst nicht dokumentieren, wie ChatGPT vor einem Jahr auf deine Prompts geantwortet hätte. Darum gilt: Jetzt anfangen, wenn auch nur mit einem einfachen manuellen Snapshot.
Fazit und nächster Schritt
Eine Baseline schützt dich vor drei Problemen gleichzeitig: vor deiner eigenen Überreaktion auf Updates und Rückgänge, vor Aktivismus ohne Richtung, und vor Messwerten, die Optimierungserfolg nur vortäuschen.
In der AI Search kommt eine vierte Schutzfunktion dazu: Sie verhindert, dass du zwölf Monate damit verbringst, Rauschen zu tracken und es für Signal zu halten.
Google hat auf der I/O 2026 keine neuen Features angekündigt. Google hat eine andere Suche vorgestellt. Wer darauf reagiert, muss wissen, wo er heute steht. In der klassischen Suche und in den generativen Antwortsystemen. Sonst ist jede Maßnahme, egal wie plausibel sie klingt, raten.
Der nächste sinnvolle Schritt für dich: Nimm die Checkliste oben, plane 60 Minuten ein und leg deinen Baseline-Snapshot an. Du brauchst dafür heute noch keine Tracking-Tools. Du brauchst ein Spreadsheet, die richtigen Prompts und den Entschluss, den Ausgangszustand zu dokumentieren, bevor du die nächste Maßnahme angehst.
Wenn du dir dabei Unterstützung wünschst oder nicht sicher bist, welche Prompts für deine Nische die richtigen sind: [Hier kannst du ein Gespräch buchen].
Du willst die Baseline nicht alleine aufsetzen?
Wenn du dir dabei Unterstützung wünschst oder nicht sicher bist, welche Prompts für deine Nische die richtigen sind.