Die große Abhängigkeit: Wie fragil die Datenbasis von SEO-Tools wirklich ist

Wenn der Wegfall eines URL-Parameters eine ganze Branche erschüttern kann, stimmt etwas ganz gewaltig nicht. Es wird endlich Zeit für ehrliche und sichere SEO-Metriken.

Wir haben uns an Zahlen gewöhnt, die uns Sicherheit suggerieren. In Wahrheit werden viele davon auf einer extrem unsicheren Basis erhoben – auf fremden Servern, mit geduldetem Scraping und impliziten Annahmen. Das ist ein Problem.

Ausgangslage: Verboten, aber trotzdem gemacht

Google untersagt das maschinelle Crawling seiner SERPs seit jeher. In den Google Terms of Service heißt es explizit, dass die Nutzung „automatisierter Mittel zum Zugriff auf Inhalte unserer Dienste unter Verletzung der maschinenlesbaren Anweisungen auf unseren Webseiten (z. B. robots.txt-Dateien, die Crawling, Training oder andere Aktivitäten untersagen)" verboten ist. Zusätzlich verbieten die Terms of Service für persönliche Nutzung ausdrücklich „automatisierte Abfragen der Google-Systeme ohne vorherige ausdrückliche Genehmigung", einschließlich Meta-Suchen oder Software zur Überprüfung von Website-Rankings.

Trotzdem basieren Ranking-Checks, SERP-Features-Tracking, Wettbewerbsanalysen und Sichtbarkeitsindizes unzähliger Anbieter auf genau diesem Scraping. Das Ergebnis: ein Millionenmarkt, dessen Rohstoff – SERP-Daten – rechtlich und technisch jederzeit eingeschränkt werden kann.

Die jüngste Episode: Der Wegfall bzw. die Nichtunterstützung des bekannten URL-Parameters num=100, mit dem sich lange Ergebnisseiten (bis zu 100 Resultate) laden ließen. Viele Tools nutzten diese Abkürzung, um effizienter und kostengünstiger Rankings in der Breite zu erfassen. Google hat nun klargestellt, dass dieser Parameter „nicht formal unterstützt“ wird.

Der Single Point of Failure – hier mal live demonstriert

Der num=100-Einschnitt ist mehr als eine kleine technische Änderung. Er zeigt exemplarisch den massiven Single Point of Failure der Tool-Ökonomie:

  • Datenzufluss abhängig von Duldung/Technik Dritter (Google)
  • Änderungen an Rendering, Parametern, Rate Limits, Bot-Detection oder Captcha-Politik können ganze Metriksysteme verzerren oder abschalten
  • Ergebnis: sichtbare „Metrik-Brüche“ in Reports, die mit echter Performance nur bedingt zu tun haben

Brodie Clark hat dieses Phänomen beschrieben: In vielen GSC-Properties stammten auffällig viele Search-Console-Impressions offenbar von Toolabfragen – nicht von realen Nutzern. Als Google an dieser Schraube drehte, kam es zu der „Great Decoupling“ zwischen Scraper-Traffic und echten Impressionen. Link: https://brodieclark.com/the-great-decoupling-num100/

Dünnes Eis: Die Methodische und betriebswirtschaftliche Fragilität

Wir stehen hier auf methodisch ziemlich dünnem Eis:

  • Scheinpräzision: Granulare Rankings, tägliche Sichtbarkeitskurven und Pixel-genaue SERP-Features wirken präzise, sind aber oft nur Stichproben mit unbekannten Biases (Personalisierung, Lokalisierung, Device-Mix, Test-Varianten, Index-/Serving-Splits).
  • Messartefakte: Werden lange SERP-Seiten nicht mehr geladen, sinken „Impressions“ künstlich, während die „durchschnittliche Position“ steigt – nicht, weil wir besser ranken, sondern weil weniger Ergebnisseiten abgefragt werden.
  • Vendor-Lock-in: Ganze Reporting-Stacks hängen an proprietären Scrape-Pipelines und heuristischen Normalisierungen. Fällt der Rohstoff (SERP-Scrapes) weg oder ändert sich, erodiert das Produkt.

Betriebswirtschaftlich ist das brandgefährlich:

  • Hohe Fixkosten für Crawling-Infrastruktur, Proxies und Anti-Bot-Umgehung treffen auf plötzlich versiegende Datenquellen
  • Kunden sehen Metrik-Sprünge, deren Ursache „bei Google“ liegt – Vertrauen leidet, Churn steigt
  • Roadmaps werden reaktiv: Firefighting statt Produktfokus

Warum Google die Daumenschrauben weiter anziehen wird

Es gibt wenig Anreiz für Google, massenhaftes SERP-Scraping zu tolerieren:

  • Kosten: Scrapes erzeugen Last ohne Nutzerwert – in einer Zeit, in der Compute für KI ohnehin knapp und teuer ist
  • Missbrauchsrisiken: Dritte (auch LLM-Anbieter) können SERPs als Rohstoff anzapfen und in eigenen Produkten verwerten
  • Produktexperimente: Mit AI Overviews/AI Mode verschiebt Google selbst die Interaktion weg von „10 Blue Links“ hin zu kontextuellen Antworten. Jede UI-Änderung verändert die Scrape-Ökologie und damit die Datenverfügbarkeit

Begleitende Aussagen aus 2025 deuten an: Die „Blue Links“ bleiben, aber Zusammenfassungen gewinnen an Gewicht. Für uns heißt das: weniger vorhersagbare Klickpfade, mehr Volatilität, mehr Test-Varianten – und noch fragilere Scrape-Daten.

Was bedeutet das für uns SEO-Praktiker?

Wir – die SEO-Community – haben uns ein Maß an Abhängigkeit von nicht belastbaren Strukturen geschaffen, das strategisch nicht zu halten ist. Drei Konsequenzen:

1. Metrik-Hygiene und Demut

  • Kennzahlendefinitionen offenlegen (Was ist gemessen? Unter welchen Annahmen?)
  • Artefakte kennzeichnen: Plötzliche Sprünge kritisch prüfen und ggf. in Dashboards annotieren („Parameter-/UI-Change bei Google“)
  • Fokus verschieben: Statt täglicher Pseudo-Präzision eher robuste Tendenzen, reale Nachfrage, Conversions und Beitrag zum Geschäftswert

2. Datenquellen diversifizieren – „Permissioned Data First“

  • Search Console und Logfiles als Primärquellen aufwerten (Real User Signals, Crawl-/Serve-Muster, Statuscodes, Rendering)
  • Panels und kooperative Datenteilung: Branchenweite, anonymisierte Panels mit klarer Governance statt heimlichem Scraping
  • Marktplätze/Partnerschaften: Offizielle APIs, Datenkoops, Drittquellen (z. B. Browser-/ISP-nahe Telemetrie unter strengen Datenschutzauflagen) – wo verfügbar und erlaubt

3. Tool-Architektur entkoppeln

  •  Feature-Detection resilienter bauen (mehr Client-Side-Parsing, domänenspezifische Fallbacks, Test-Suites gegen SERP-Varianten)
  • Datenpipelines versionieren und „Metrik-Migrationspfade“ bereitstellen (automatisches Re-Baselining bei Google-Änderungen)
  • Transparenz gegenüber Kunden: Change-Logs, Confidence-Scores und Unsicherheitsintervalle kommunizieren

Und die LLM-Suche? Doppelte Disruption

Neue Suchsysteme auf Basis von LLMs verschieben Wertschöpfung weiter:

  • Antwort-zentrierte UIs reduzieren Klicks auf klassische Ergebnisse, was Scrape-basierte KPIs weiter entkoppelt
  • LLMs nutzen zunehmend lizenzierte, aggregierte oder proprietäre Feeds – wer nur auf geduldete SERP-Scrapes setzt, verliert Anschluss
  • Retrieval verändert sich: Strukturierte, maschinenlesbare Inhalte, klare Quellenzitation, Lizenzmodelle und direkte Feeds (Feeds, APIs, Content Contracts) werden wichtiger als „Ranking auf Position X“

Ein Weg aus dem Dilemma: Von geduldet zu erlaubt – und von Ranking zu Wirkung

Ein zukunftsfähiger Pfad kombiniert Technik, Prozesse und Governance:

  • Erlaubte Datenströme priorisieren: Offizielle APIs (Search Console, Ads), Partnerschaften, Content-Lizenzen, First-Party-Messung. Ja, das ist unvollständig – aber verlässlich.
  • Wirkungsmessung statt Positionsfetisch: Task Success, SERP-CTR unter realen Nutzerkohorten, On-SERP-Visibility (inkl. AI-Overviews), Downstream-Conversions, Customer LTV.
  • Content für Retrieval und Attribution optimieren: Klare Strukturen (Schema.org), präzise Snippets, evaluiertes E-E-A-T, dedizierte „Answer Fragments“, Feed- und API-Angebote für LLM-/Suche-Integrationen.
  • Branchenstandard fördern: Gemeinsame Panels, Auditierbarkeit, Dokumentation von Metrikbrüchen, offene Referenz-Datasets – weniger Wettbewerb über „geheime Scrapes“, mehr über Qualität und Interpretationskompetenz.

Fazit

Der `num=100`-Fall war keine Kleinigkeit, sondern ein Weckruf. Unsere Reports sind nur so belastbar wie ihre stillschweigenden Annahmen. Wer weiterhin auf geduldete Scrapes als Primärrohstoff setzt, baut Produkte auf Treibsand – mit Google als sprichwörtlichem Ein-Schalter-Risiko. Die Zukunft gehört „permissioned data“, klarer Attribution in LLM-Ökosystemen und einer Profession, die Unsicherheit nicht kaschiert, sondern einpreist und erklärt.