AI Crawler Strategie: Wer sie wirklich braucht, was sie kostet und was sie bringt

Für jeden Klick, den OpenAI an dich zurückschickt, hat sein Crawler vorher bis zu 1.700 Seiten deiner Website gelesen. Irgendwer trifft gerade Entscheidungen über deine Inhalte. Die Frage ist, ob das du bist.

Carsten Feller

Die Bots, die deine Inhalte kostenlos in Trainingsmodelle einspeisen, kommen von denselben Unternehmen, deren Search-Crawler dein Weg in die Antworten von ChatGPT, Perplexity und Gemini sind. Wer hier pauschal blockiert, verliert AI-Sichtbarkeit. Wer alles pauschal zulässt, gibt schützenswerte Inhalte ohne Gegenwert ab.

Die meisten Website-Betreiber tun gerade eines von beidem, ohne es bewusst entschieden zu haben. Das liegt nicht an fehlendem Problembewusstsein, sondern daran, dass die meisten Ratgeber dazu entweder zu technisch oder zu vage sind.

Ich erkläre dir hier, wer tatsächlich eine durchdachte AI Crawler Strategie braucht, was technisch sinnvoll ist und welche Denkfehler dabei den meisten Website-Betreibern unterlaufen.

Das Wichtigste auf einen Blick

Es gibt drei grundlegend verschiedene AI-Bot-Typen mit völlig unterschiedlichen Implikationen. Wer sie nicht unterscheidet, trifft Münzentscheidungen statt Strategie.
Trainingsdaten-Präsenz und AI-Sichtbarkeit sind nicht dasselbe. Wenn du in ChatGPT-Antworten auftauchen willst, musst du dafür nicht zwingend GPTBot zulassen, sondern OAI-SearchBot. Das ist ein fundamentaler Unterschied, den viele Artikel konsequent ignorieren.
Pauschal blockieren schadet deiner AI-Sichtbarkeit. Pauschal öffnen exponiert schützenswerte Inhalte und erzeugt unnötige Serverlast. Selektive Steuerung ist der einzig sinnvolle Ansatz.
Für kleine Unternehmenswebsites ohne schützenswerte Inhalte ist die Strategie simpel: Offen lassen und retrieval-ready werden. Es gibt nichts zu tun, was über normale SEO-Hygiene hinausgeht.
Für E-Commerce, SaaS und Fachmedien mit proprietären Inhalten ist differenzierte Steuerung keine Kür mehr.
robots.txt ist die erste, aber keine zuverlässige Schutzschicht. Es gibt dokumentierte Fälle, in denen AI-Bots sie nicht respektiert haben. Wer echte Kontrolle will, braucht zusätzlich WAF-Regeln.
Der EU AI Act verpflichtet GPAI-Anbieter (also Anbieter sogenannter General Purpose AI Modelle) seit August 2025, robots.txt-Opt-outs zu respektieren. Das schafft erstmals eine rechtliche Grundlage im DACH-Raum.

Warum das Thema jetzt auf deinen Tisch gehört

AI-Crawler sind kein neues Phänomen. Neu ist die Dimension. Laut Dark Visitors und Known Agents sind 2025 bereits über 189 dokumentierte AI-Bots aktiv. Der Traffic, den diese Bots erzeugen, wächst schnell: Referral-Traffic von generativen AI-Quellen auf US-amerikanische Retail-Websites stieg laut Adobe Analytics im Juli 2025 um 4.700 Prozent im Jahresvergleich. Als Vergleichsbasis dient Juli 2024, der erste Zeitpunkt, ab dem AI-Referral-Traffic überhaupt messbar war. Im Weihnachtsgeschäft 2024 lag das Wachstum bei 1.300 Prozent gegenüber dem Vorjahr. Diese Zahlen beziehen sich auf den US-Markt, aber die Richtung gilt global.

Gleichzeitig verändert sich das Suchverhalten. Google liegt laut StatCounter (Februar 2026) global noch bei rund 90 Prozent Marktanteil, fiel aber erstmals messbar unter diese Schwelle. In Deutschland liegt der Gesamtanteil bei rund 81,6 Prozent, im Desktop-Segment bei rund 73,9 Prozent. Innerhalb der AI-Chatbot-Kategorie dominiert in Deutschland ChatGPT mit rund 74,3 Prozent, gefolgt von Perplexity mit 11,8 Prozent und Gemini mit 6,7 Prozent (StatCounter, Februar 2026).

Warum das für dich relevant ist: AI-Bots erzeugen Infrastrukturkosten ohne garantierten Gegenwert, können schützenswerte Inhalte in Trainingsmodelle einspeisen und sind gleichzeitig der Schlüssel, um in Antworten von ChatGPT, Perplexity oder Gemini aufzutauchen. Das ist ein echter Trade-off, der eine bewusste Entscheidung verlangt.

Hinzu kommt ein rechtlicher Aspekt. Seit August 2025 verpflichtet der EU AI Act GPAI-Anbieter dazu, robots.txt-Opt-outs zu respektieren. Was bisher auf freiwilliger Compliance beruhte, hat damit erstmals eine rechtlich verbindliche Grundlage im EU-Raum.

Die drei Bot-Typen: Ohne diese Unterscheidung ist jede Entscheidung zufällig

AI-Bots als homogene Gruppe zu behandeln ist so, als würde man alle Fahrzeuge auf der Straße gleich behandeln, egal ob Lieferwagen, Taxi oder Rettungsfahrzeug.

Typ 1: Training-Crawler

Diese Bots sammeln Webinhalte für das Offline-Training von Large Language Models.

Sie crawlen kontinuierlich in großen Mengen und bieten dir als Website-Betreiber keinen direkten Gegenwert, keine Quellenangabe, kein Traffic, keine Zitation.

Bot	Betreiber	Primäre Funktion
GPTBot	OpenAI	Training von GPT-Basismodellen
ClaudeBot	Anthropic	Training von Claude-Modellen
Google-Extended	Google	Training von Gemini und Vertex AI
CCBot	Common Crawl	Allgemeines Web-Archiv, Basis vieler Trainingssets
Bytespider	ByteDance	Training von TikTok- und ByteDance-Modellen
Meta-ExternalAgent	Meta	Training von Llama und anderen Meta-Modellen

Das Crawl-zu-Traffic-Verhältnis dieser Bots ist das zentrale wirtschaftliche Problem.

Während Google pro 14 gecrawlten Seiten einen Referral-Klick zurücksendet, liegt das Verhältnis bei OpenAI-Training-Bots laut Cloudflare-Daten bei 1.700:1, also 1.700 gecrawlte Seiten für jeden zurückgesendeten Klick. Für Anthropic-Bots wurden in denselben Analysen Verhältnisse von bis zu 73.000:1 dokumentiert.

Typ 2: Search- und Indexing-Crawler

Diese Bots bauen einen Index auf, der in AI-gestützten Suchprodukten genutzt wird. Sie crawlen häufiger als Training-Bots und priorisieren aktuelle Inhalte.

Search- und Indexing-Crawler sind dein direkter Weg zur Sichtbarkeit in AI-Suchantworten.

Bot	Betreiber	Funktion
OAI-SearchBot	OpenAI	Indizierung für ChatGPT Search
PerplexityBot	Perplexity AI	Indizierung für Perplexity Answer Engine
Claude-SearchBot	Anthropic	Such-Verbesserung für Claude
DuckAssistBot	DuckDuckGo	AI-gestützte Suchantworten

OpenAI bestätigt in der offiziellen Dokumentation: Wer OAI-SearchBot zulässt, aber GPTBot blockiert, erscheint in ChatGPT-Suchergebnissen, ohne dass der Content für das Modelltraining verwendet wird. Das ist keine Umgehung, das ist die offizielle Funktionstrennung der Plattform.

Typ 3: On-Demand-Fetcher

Diese Bots rufen Inhalte in Echtzeit ab, wenn ein Nutzer in einem AI-Chat eine URL teilt oder eine Frage stellt, die einen Live-Abruf auslöst. Die relevanten User-Agents: ChatGPT-User, Claude-User, Perplexity-User.

Sie erzeugen wenig Volumen, sind aber ein starker Indikator für tatsächliche Nutzersichtbarkeit.

Ein technisches Detail, das oft übersehen wird: OpenAI hat dokumentiert, dass nutzergetriggerte Abrufe über ChatGPT-User möglicherweise nicht denselben robots.txt-Regeln unterliegen wie automatisierte Crawler.

Training-Bots per robots.txt zu blockieren und Search-Crawler sowie On-Demand-Fetcher zuzulassen ist die sinnvolle Grundkonfiguration. Sie signalisiert einen klaren Opt-out und schafft seit dem EU AI Act erstmals eine rechtlich gestützte Grundlage dafür. Einen technischen Schutz stellt robots.txt allein nicht her.

Der wichtigste Denkfehler: Training mit Sichtbarkeit verwechseln

Es gibt einen Kurzschluss, der durch sinkende Google-Marktanteile gerade verstärkt wird: "Google verliert Anteile, also muss ich in Trainingsdaten der LLMs auftauchen."

Klingt erstmal plausibel, folgt aber einer Logik, die bei genauerer Betrachtung nicht trägt. Trainingsdaten-Präsenz beeinflusst das, was ein Modell grundsätzlich "weiß". Das ist ein langfristiger, indirekter Effekt. Es gibt keine belastbare Evidenz dafür, dass eine Website, die GPTBot zulässt, dadurch häufiger in ChatGPT-Antworten zitiert wird als eine, die ihn blockiert.

Was für aktuelle Sichtbarkeit in AI-Antworten tatsächlich zählt, sind Retrieval, Grounding und Indexierbarkeit.

ChatGPT Search, Perplexity und vergleichbare Systeme arbeiten mit Echtzeit-Crawling, nicht mit Trainingsdaten. Ob dein Inhalt zitiert wird, hängt davon ab, ob der jeweilige Search-Bot ihn findet, verarbeiten kann und für die gestellte Frage für relevant hält.

Für Google AI Overviews gilt das besonders klar: Google dokumentiert in den offiziellen Search Central-Unterlagen, dass für AI Overviews keine zusätzlichen Spezialanforderungen gelten. Eine Seite muss indexiert sein und Snippets ausliefern dürfen. Das ist klassische SEO-Arbeit.

Wenn du Google-Extended blockierst, entfernst du Inhalte ausschließlich aus dem Gemini- und Vertex-AI-Training, nicht aus AI Overviews. Die Verwechslung dieser beiden Dinge ist einer der häufigsten Fehler bei der Einführung einer AI Crawler Strategie.

Die richtige Schlussfolgerung aus sinkenden Google-Marktanteilen lautet nicht "in alle Trainingsdaten einspiegeln", sondern in den relevanten Retrieval-Systemen auffindbar, zitierfähig und vertrauenswürdig sein.

Für wen lohnt sich eine AI Crawler Strategie?

Die kurze Antwort: Für alle gibt es eine Mindeststrategie. Eine durchdachte, dokumentierte Strategie lohnt sich dort, wo schützenswerte Inhalte, Infrastrukturkosten oder aktive AI-Sichtbarkeit eine geschäftliche Rolle spielen.

Die Entscheidungsmatrix nach Website-Typ

Website-Typ	Schutzinteresse	Sichtbarkeitsinteresse	Empfohlene Tiefe
Kleine Unternehmenswebsite, lokaler Dienstleister	Gering	Mittel	Minimal-Setup
E-Commerce ab ~500 Produkten	Mittel (Checkout, Account)	Hoch	Selektive Steuerung
SaaS-Plattform	Hoch (App, API, proprietäre Logik)	Hoch (Doku, Features)	Durchdachte Strategie
Fachmedium, Publisher	Hoch (Premium-Content)	Mittel bis hoch	Vollständiger Baukasten, Lizenzfrage prüfen
Membership-Site, Kursplattform	Sehr hoch	Gering bis mittel	Vollständige Sperrung geschlossener Bereiche

Kleine Unternehmenswebsites und lokale KMU

Hier ist die Strategie einfach. Du hast wenig proprietären Content, keine Premium-Bereiche, kein komplexes Geschäftsmodell, das durch Datenweitergabe gefährdet wäre. Hier gibt es im Grunde nichts extra zu tun. Deine Site ist standardmäßig offen, es gibt nichts Schützenswertes und strukturierte Daten sowie ein gepflegtes Google Business Profile sind ohnehin Teil der SEO-Grundlage. Eine dedizierte AI Crawler Strategie für diese Websites zu entwickeln wäre verschwendete Energie.

E-Commerce und Online-Shops

Das ist der Bereich mit dem klarsten Nutzen-Profil für eine aktive AI-Sichtbarkeitsstrategie. AI-gestützte Systeme agieren zunehmend als Einkaufsassistenten, die Kaufentscheidungen vorstrukturieren, bevor ein Nutzer überhaupt auf deiner Website landet. Adobe Analytics belegt: Nutzer, die über generative AI-Quellen auf Retail-Sites kommen, verweilen durchschnittlich 44 Prozent länger, besuchen 12 Prozent mehr Seiten und haben eine deutlich niedrigere Absprungrate als Traffic aus anderen Quellen. Die Conversion-Lücke gegenüber klassischem Traffic schließt sich kontinuierlich.

Die Konsequenz ist eindeutig: Deine Produktseiten, Kategorieseiten, FAQs und Bewertungen sollten für Search-Crawler offen sein. Checkout-Bereiche, Kundenkonten, interne Suche und Staging-Instanzen gehören komplett gesperrt.

Ein technisches Detail, das viele unterschätzen: Die meisten AI-Bots mit Ausnahme von Gemini können JavaScript nicht rendern. Wer Produktdaten ausschließlich über JavaScript-Frameworks ausliefert, ist für diese Bots faktisch unsichtbar, unabhängig von robots.txt-Einstellungen. Server-Side Rendering ist in diesem Kontext kein Nice-to-have.

SaaS-Unternehmen

Die Situation ist klar strukturiert: Du hast öffentliche Bereiche (Marketing-Site, Dokumentation, Blog, Use Cases, Help Center) sowie private Bereiche (App-Subdomain, Dashboard, API-Endpoints). Erstere sollten für AI-Search-Crawler offen sein, letztere komplett gesperrt.

Der Sichtbarkeitsaspekt ist bei SaaS besonders relevant. "Best CRM for agencies" oder "Welches Projektmanagement-Tool eignet sich für Remote-Teams?" sind genau die Anfragen, bei denen ChatGPT, Perplexity und Gemini aktiv Empfehlungen aussprechen. Wenn du in dieser Kategorie-Recherche nicht vorkommst, verlierst du einen zunehmend relevanten Discovery-Kanal, noch bevor der Nutzer eine Google-Suche startet.

Publisher und Fachmedien

Das komplexeste Dilemma. Einerseits sind AI-Besucher qualitativ wertvoll: Sie kommen mit Vorwissen aus der AI-Antwort, sind zielstrebiger und zeigen in den Daten stärkeres Engagement. Andererseits kostet der Ausbau von AI Overviews messbar Klick-Traffic aus klassischen Suchkanälen. SISTRIX dokumentiert für Deutschland, dass AI Overviews monatlich rund 265 Millionen organische Klicks kosten.

Für deutschsprachige Verlage kommt eine strukturelle Machtasymmetrie hinzu: Google kann dieselben Daten, die Googlebot crawlt, für seine eigenen AI-Produkte nutzen. Wer Googlebot blockiert, zerstört seine organischen Rankings. Wer Google-Extended blockiert, entfernt sich nur aus dem Gemini-Training. Dass Deutschland laut Reuters Institute Ende 2023 die höchste Google-Extended-Blockierungsrate aller untersuchten Länder verzeichnete (60 Prozent der Top-15-Nachrichten-Websites), ist kein Zufall, sondern Ausdruck dieser Spannung.

Für Publisher, die ernsthafte wirtschaftliche Interessen zu schützen haben, führt kein Weg an der Lizenzierungsfrage vorbei. News Corp (Wall Street Journal, New York Post) hat einen Deal mit OpenAI über 250 Millionen Dollar über fünf Jahre abgeschlossen. Axel Springer erhält geschätzte 25 bis 30 Millionen Dollar über drei Jahre. Diese Optionen sind nicht für alle Größenordnungen realisierbar, zeigen aber die Richtung, in die sich der Markt entwickelt.

Technische Umsetzung: Warum robots.txt allein nicht reicht

Eine belastbare AI Crawler Strategie besteht aus vier Schichten, die aufeinander aufbauen.

robots.txt ist die erste und bekannteste Schicht. Sie ist gleichzeitig die am wenigsten zuverlässige. robots.txt ist eine freiwillige Empfehlung (RFC 9309), kein technisches Hindernis. Es gibt dokumentierte Fälle, in denen AI-Bots sie ignoriert haben, darunter Anthropic (2024) und Perplexity. Trotzdem ist sie unverzichtbarer Ausgangspunkt, weil sie die eindeutige Willenserklärung darstellt, auf die sich rechtliche Argumente stützen lassen, besonders seit dem EU AI Act.

Schicht 1: robots.txt mit differenzierter Bot-Steuerung

Das Grundprinzip: Training-Bots blockieren, Search-Bots und On-Demand-Fetcher zulassen. Sensible Bereiche für alle sperren.

# Training-Crawler blockieren
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

# Search-Crawler ausdrücklich zulassen, sensible Bereiche ausklammern
User-agent: OAI-SearchBot
Allow: /
Disallow: /account/
Disallow: /checkout/
Disallow: /admin/

User-agent: PerplexityBot
Allow: /
Disallow: /account/
Disallow: /checkout/

# Sensible Bereiche für alle Bots sperren
User-agent: *
Disallow: /account/
Disallow: /checkout/
Disallow: /admin/
Disallow: /staging/
Disallow: /wp-admin/

Sitemap: https://example.com/sitemap.xml

Drei Hinweise zur Praxis:

Erstens: Die Liste relevanter AI-Bots wächst kontinuierlich. Known Agents (knownagents.com, ehemals Dark Visitors) ist derzeit die aktuellste öffentlich zugängliche Quelle für dokumentierte Bot-Namen und ihre Funktionen. Regelmäßige Überprüfung ist keine Kür.

Zweitens: robots.txt allein reicht nicht für sensible Bereiche. Kundendaten, Zahlungsbereiche und App-Subdomains müssen zusätzlich durch Authentifizierungsbarrieren geschützt sein.

Drittens: Subdomains haben jeweils eigene robots.txt-Dateien. Eine robots.txt auf www.example.com gilt nicht automatisch für app.example.com.

Schicht 2: llms.txt als ergänzende Inhaltsübersicht für AI-Systeme

llms.txt ist eine vorgeschlagene Konvention, kein offizieller Standard. Sie stellt AI-Systemen eine strukturierte Übersicht der eigenen Inhalte bereit und funktioniert ähnlich wie eine Sitemap, aber mit Fokus auf inhaltliche Relevanz statt technischer Indexierung.

Wichtige Einschränkung: Stand Anfang 2026 fragen viele AI-Crawler llms.txt nicht aktiv ab. llms.txt ist kein Ersatz für robots.txt oder WAF-Regeln. Für umfangreiche SaaS-Dokumentationen und große Informationsportale ist sie sinnvoll. Für kleinere Sites ist sie keine Priorität.

Schicht 3: WAF-Regeln und Rate Limiting

Für Sites mit ernsthaftem Schutzinteresse ist die Web Application Firewall (WAF) die entscheidende Schicht. Konkrete Maßnahmen:

IP-Ranges bekannter AI-Bots blockieren oder drosseln. Cloudflare bietet seit 2024 standardisierte AI-Bot-Blockierregeln.
User-Agent-Verifikation: Legitime Bots lassen sich per Reverse-DNS-Lookup gegen offizielle IP-Ranges verifizieren. Spoofing-Bots, die sich als GPTBot oder Googlebot ausgeben, haben andere IP-Adressen und fallen dadurch auf.
Crawl-Delay-Regeln für Bots, die du zulassen, aber nicht mit vollem Ressourcenzugriff versehen willst.

Zur Dimension des Problems: Laut verfügbaren Berichten aus 2025 waren rund 80 Prozent der untersuchten Einzelhandels-Websites durch Spoofing-Angriffe belastet, bei denen sich Bots als legitime Crawler ausgaben.

Schicht 4: AI Access Policy

Eine öffentlich zugängliche Textseite, die kommuniziert, welche Crawler-Zugriffe erlaubt sind, welche nicht und unter welchen Bedingungen. Das ist keine technische Maßnahme, sondern eine kommunikative. Für Unternehmen mit Compliance-Anforderungen oder Lizenzierungsinteressen schafft sie eine dokumentierte Grundlage.

Sinkende Google-Marktanteile: Was daraus für die AI Crawler Strategie folgt und was nicht

Realitätsabgleich: In Teilen der SEO-Branche und auf LinkedIn wird Googles Rückgang derzeit in einem Ausmaß behandelt, das die Daten nicht rechtfertigen.

Google liegt global unter 90 Prozent Marktanteil und in Deutschland im Desktop-Segment bei rund 73,9 Prozent. Das ist real und ein klares Signal für Fragmentierung. Was es nicht ist: Ein Anlass, Google zu vernachlässigen oder pauschal alles für alle AI-Bots zu öffnen, damit du "in Trainingsdaten präsent" bist.

Hier ist der nüchterne Kontext: Rund 95 Prozent der ChatGPT-Nutzer verwenden weiterhin auch Google (laut Similarweb). Das ist kein Entweder-oder, sondern ein Multi-Touchpoint-Modell. Nutzer entdecken deine Produkte und Themen über AI-Assistenten, validieren oder kaufen dann aber häufig über klassische Such- und Website-Pfade.

AI erzeugt heute Einfluss oft ohne Klick. Das ist kein Nachteil, das ist Marken-Arbeit in einem neuen Kanal.

Die richtige Reaktion auf sinkende Google-Marktanteile ist dreistufig:

Erstens: Erhalte dein bestehendes SEO-Fundament und baue es weiter aus. Gutes SEO ist zu 80 Prozent deckungsgleich mit dem, was für AI-Sichtbarkeit nötig ist: Strukturierte, eindeutige Inhalte, sauberer technischer Crawl, starke Entitäts-Erkennbarkeit.

Wer bei Google schwach ist, baut kein stabiles Fundament für AI-Visibility.

Zweitens: Search-Crawler für die relevanten AI-Plattformen aktiv zulassen und die technische Basis schaffen, damit diese Bots deine Inhalte korrekt verarbeiten können.

Drittens: AI-Sichtbarkeit separat messen. In einer AI-Antwort erwähnt zu werden, ohne dass ein Klick daraus folgt, hat trotzdem Markenwirkung. Wenn du das nicht sauber trackst, steuerst du nach Gefühl.

Rechtlicher Rahmen: Was sich im DACH-Raum gerade verändert

Drei Entwicklungen sind für dich als Website-Betreiber im DACH-Raum unmittelbar relevant.

EU AI Act und GPAI-Pflichten: Seit August 2025 sind Anbieter von General Purpose AI Modellen verpflichtet, maschinell lesbare robots.txt-Opt-outs zu respektieren. Das gibt dir erstmals eine rechtliche Grundlage, auf der du Crawler-Blockierungen im EU-Rechtsraum durchsetzen kannst. De facto erhöht es die Compliance-Wahrscheinlichkeit seriöser AI-Anbieter. Spoofing-Bots und kleinere Anbieter ohne GPAI-Status fallen nicht unter diese Regelung.

Anthropic-Vergleich Bartz v. Anthropic (August 2025): Anthropic einigte sich auf einen Vergleich über 1,5 Milliarden Dollar mit US-amerikanischen Autoren und Verlagen. Wichtig für die Einordnung: Dieser Fall betrifft nicht das reguläre Web-Crawling, sondern den Download von Büchern aus Raubkopier-Plattformen wie Library Genesis und Pirate Library Mirror. Richter Alsup stellte im Juni 2025 fest, dass das Training mit rechtmäßig erworbenen Inhalten "quintessentially transformative" und damit im Sinne des US-amerikanischen Fair-Use-Prinzips zulässig sei. Der Vergleich betrifft die unrechtmäßige Art der Datenbeschaffung, nicht das Trainieren auf Web-Inhalten als solches. Wer aus diesem Vergleich schließt, dass normales Web-Crawling durch AI-Bots jetzt illegal sei, zieht den falschen Schluss.

Der rechtlich relevante Hebel für dich als DACH-Website-Betreiber ist der EU AI Act, nicht dieser US-Vergleich. Er zeigt aber, dass die Frage der Datenbeschaffung zunehmend ernsthaft vor Gerichten verhandelt wird und die rechtliche Landschaft sich bewegt.

DSGVO-Dimension: AI-Crawler erfassen mitunter personenbezogene Daten: Kommentare, Namen in Autorenprofilen, E-Mail-Adressen auf Kontaktseiten. Das ist ohne Rechtsgrundlage eine DSGVO-Verletzung. Eine proaktive Crawler-Strategie, die diese Bereiche für AI-Bots sperrt, dient gleichzeitig als Compliance-Instrument.

Messung und Monitoring: Ohne Baseline steuerst du nach Gefühl

"Wenn du es nicht messen kannst, steuerst du nach Gefühl." Das gilt für AI-Sichtbarkeit mindestens so sehr wie für klassisches SEO. Wen du eine AI Crawler Strategie einführst, solltest du auch wissen, ob sie wirkt. Dafür benötigst du drei Messebenen.

Ebene 1: Crawling-Verhalten per Log-Analyse

Server-Logs liefern das vollständige Bild darüber, welche Bots wie häufig welche Bereiche crawlen. Das ist die einzige verlässliche Quelle, um festzustellen, ob ein Bot deine robots.txt respektiert oder nicht. Wenn du keine Log-Analyse machst, operierst du blind. Empfehlenswert: Mach eine monatliche Auswertung der Bot-Aktivität nach User-Agent, segmentiert nach gecrawltem Bereich und Crawl-Häufigkeit. Achte auf Auffälligkeiten: Unbekannte User-Agents, ungewöhnlich hohe Frequenz auf bestimmten URL-Mustern, Bots auf gesperrten Bereichen.

Ebene 2: AI-Sichtbarkeit per Erwähnungsanalyse

Wie häufig wird deine Marke in Antworten von ChatGPT, Perplexity und Gemini erwähnt? Spezialisierte Tools ermöglichen systematisches AI-Mention-Tracking. Manuelles Prompt-Testing mit definierten Fragen zu deiner Leistung, Produkt oder Service ist ein einfacher, kostengünstiger Einstieg. Definiere drei bis fünf Prompts, die typische Kaufentscheidungsanfragen in deinem Bereich abbilden, und teste sie wöchentlich. Dokumentiere die Ergebnisse.

Ebene 3: Traffic-Qualität aus AI-Quellen in GA4

In Google Analytics 4 lassen sich Referral-Traffic-Quellen nach Domain segmentieren. ChatGPT.com, Perplexity.ai, Claude.ai und Gemini.google.com sind auswertbare Referral-Quellen. Conversion Rate, Verweildauer und Seitenaufrufe pro Sitzung sind die für dich relevanten KPIs, um deinen AI-Referral-Traffic qualitativ einzuordnen.

Baseline vor der Umsetzung: Dokumentiere den Status quo, bevor du die Strategie änderst. Wie hoch ist der aktuelle AI-Referral-Traffic? In welchen Kontexten wird deine Marke bereits in AI-Antworten erwähnt? Welche Bots crawlen aktuell welche Bereiche? Das ist der Ausgangspunkt, gegen den du spätere Veränderungen misst.

Fallbeispiel: Mittelgroßer B2B-SaaS-Anbieter

Ausgangssituation: Ein deutschsprachiges SaaS-Unternehmen mit Projektmanagement-Software für Agenturen. Rund 200 öffentliche Seiten (Marketing-Site, Blog, Dokumentation, Help Center) plus App-Subdomain auf app.example.com. Monatlich rund 40.000 organische Besucher über Google. Kein aktives AI-Crawler-Management bisher.

Problem: In Log-Analysen zeigt sich, dass GPTBot monatlich rund 12.000 Seiten crawlt, hauptsächlich auf Dokumentation und Blog. OAI-SearchBot war bisher nicht in der robots.txt ausdrücklich zugelassen. In manuellen ChatGPT-Tests ("Welches Projektmanagement-Tool eignet sich für Agenturen in Deutschland?") taucht das Unternehmen nicht auf, obwohl der Blog dazu qualitativ hochwertige Inhalte enthält.

Maßnahmen:

robots.txt auf der Marketing-Domain angepasst: GPTBot, ClaudeBot und Google-Extended blockiert. OAI-SearchBot und PerplexityBot ausdrücklich zugelassen, mit Ausschluss von /account/ und /app/.
App-Subdomain (app.example.com) mit eigener robots.txt versehen, die alle Crawler außer Googlebot und Bingbot blockiert. Zusätzlich Cloudflare-WAF-Regel, die nicht per Reverse-DNS verifizierbare Bots auf die App-Subdomain ausbremst.
Dokumentation inhaltlich für Chunk-Level Retrieval optimiert: Kernaussagen an den Anfang jedes Abschnitts, eigenständige Absätze statt aufbauende Erklärungen, klare H2-Struktur mit selbsterklärenden Abschnittstiteln.
Monitoring eingerichtet: Monatliche Log-Auswertung nach Bot-Typ, wöchentliches Prompt-Testing für fünf definierte Kategorieanfragen.

Annahmen und Zahlenrahmen: Implementierungsaufwand: 4 bis 6 Stunden für initiale robots.txt-Anpassung und WAF-Konfiguration, plus laufend rund 2 Stunden pro Monat für Monitoring. Kein zusätzliches Tool-Budget nötig für den Einstieg.

Erwarteter Effekt:

Messbare Reduktion des Crawl-Overheads durch Training-Bots innerhalb von 30 Tagen (sichtbar in Logs).
Erstmalige Indexierung durch OAI-SearchBot, verifizierbar in Logs.
Mittelfristig (6 bis 12 Monate): Erste Zitationen in ChatGPT-Antworten zu relevanten Kategorie-Anfragen, wenn der Content inhaltlich überzeugt. Ja, liebe Leute, das kann leider ein bisschen dauern.

KPI-Set:

AI-Referral-Traffic (GA4, Segmentierung nach Quelle)
Crawl-Volumen nach Bot-Typ (Logs)
Marken-Erwähnungsrate in definierten Prompts (manuell oder Tool)

60-Minuten-Checkliste: AI Crawler Strategie einführen

Diese Checkliste deckt den minimalen sinnvollen Einstieg ab. Für komplexere Setups sind die Punkte Startpunkte, keine Endpunkte.

0 von 22 erledigt

Analyse

15 Minuten

Server-Logs der letzten 30 Tage nach AI-Bot-User-Agents auswerten
Aktuelle robots.txt prüfen: Gibt es bereits AI-Bot-Einträge?
Interne Bereiche identifizieren, die nicht gecrawlt werden sollten (Checkout, Account, Admin, Staging)
Manuelles Prompt-Testing: Wie taucht deine Marke in ChatGPT und Perplexity auf?

Klassifizierung

10 Minuten

Welche Inhaltsbereiche sind öffentlich und AI-crawler-freundlich?
Welche Bereiche sind schützenswert (proprietärer Content, Kundenbereiche)?
Gibt es Premium-Inhalte, die wirtschaftlich von AI-Training betroffen sein könnten?

robots.txt anpassen

15 Minuten

Training-Crawler blockieren: GPTBot, ClaudeBot, Google-Extended, CCBot, Bytespider, Meta-ExternalAgent
Search-Crawler ausdrücklich zulassen: OAI-SearchBot, PerplexityBot
Sensible Verzeichnisse für alle Bots sperren
Sitemap-Verlinkung in robots.txt sicherstellen
robots.txt auf Subdomains prüfen und ggf. anpassen

Technische Basis prüfen

10 Minuten

Werden wichtige Inhalte auch ohne JavaScript ausgeliefert? (Server-Side Rendering)
Ist Schema-Markup auf relevanten Seiten implementiert? (Product, FAQ, HowTo, Article)
Werden Kerninhalte in den ersten 30 Prozent des Seitentexts kommuniziert?

Monitoring einrichten

10 Minuten

GA4: Segment für AI-Referral-Traffic anlegen (ChatGPT.com, Perplexity.ai, Claude.ai)
Log-Monitoring: Monatliche Auswertung nach Bot-Typ einplanen
Manuelle Baseline-Tests dokumentieren: Welche Prompts werden regelmäßig getestet?

↻ Alle Haken zurücksetzen

Häufige Fragen

Was ist eine AI Crawler Strategie?

Eine AI Crawler Strategie legt fest, welche AI-Bots auf welche Bereiche deiner Website zugreifen dürfen. Sie unterscheidet zwischen Bots, die Inhalte für das Modelltraining nutzen, und Bots, die Inhalte für Echtzeit-Suchantworten abrufen. Das Ziel ist nicht Totalblockade oder unkontrollierter Zugang, sondern selektive Steuerung nach Bereich und Bot-Typ.

Sollte ich AI-Bots grundsätzlich blockieren?

Das hängt vom Bot-Typ und deiner eigenen Situation ab. Training-Crawler wie GPTBot oder ClaudeBot bieten keinen direkten Gegenwert: Sie crawlen intensiv und senden kaum Traffic zurück. Search-Crawler wie OAI-SearchBot oder PerplexityBot sind dein Weg zur Sichtbarkeit in AI-Suchantworten. Pauschal alles zu blockieren schadet deiner AI-Sichtbarkeit. Pauschal alles zuzulassen bringt unnötige Serverlast und exponiert schützenswerte Inhalte.

Was ist der Unterschied zwischen GPTBot und OAI-SearchBot?

GPTBot sammelt Inhalte für das Training von OpenAI-Modellen. OAI-SearchBot baut den Index für ChatGPT Search auf. OpenAI bestätigt offiziell: GPTBot blockieren und OAI-SearchBot zulassen funktioniert als Kombination. Du bist dann in ChatGPT-Suchergebnissen sichtbar, ohne deine Inhalte für das Modelltraining freizugeben.

Muss ich GPTBot zulassen, um in ChatGPT-Antworten aufzutauchen?

Nein. Für aktuelle Sichtbarkeit in ChatGPT Search sind Search-Crawler (OAI-SearchBot) und On-Demand-Fetcher (ChatGPT-User) entscheidend, nicht GPTBot. GPTBot ist für das Offline-Training zuständig, nicht für die Echtzeit-Suche.

Was ist llms.txt und brauche ich das?

llms.txt ist eine vorgeschlagene Konventionsdatei, die AI-Systemen einen strukturierten Überblick über deine Inhalte gibt. Stand Anfang 2026 ist die Adoption durch AI-Crawler noch gering: Viele Bots fragen llms.txt nicht aktiv ab. Für umfangreiche SaaS-Dokumentationen oder große Informationsportale ist sie sinnvoll. Für kleinere Sites ist sie keine Priorität.

Respektieren AI-Bots immer die robots.txt?

Nicht zuverlässig. robots.txt ist eine freiwillige Empfehlung, kein technisches Hindernis. Für Bots, die sich als legitime Crawler ausgeben, aber nicht sind, nützt robots.txt gar nichts. Für ernsthafte Schutzinteressen sind WAF-Regeln und serverseitige Authentifizierung notwendig.

Was bedeutet der EU AI Act für meine robots.txt?

Seit August 2025 sind Anbieter von General Purpose AI Modellen (GPAI) verpflichtet, robots.txt-Opt-outs zu respektieren. Das gibt deiner robots.txt erstmals eine rechtliche Grundlage im EU-Rechtsraum und erhöht die Compliance-Wahrscheinlichkeit seriöser AI-Anbieter. Spoofing-Bots und kleinere Anbieter ohne GPAI-Status fallen nicht unter diese Regelung.

Verliere ich Google-Rankings, wenn ich AI-Crawler blockiere?

Nein, sofern du ausschließlich AI-spezifische Bots blockierst. Googlebot ist der Crawler für die klassische Google-Suche. Google-Extended ist der separate Crawler ausschließlich für Gemini- und Vertex-AI-Training. Dessen Blockierung hat laut Google-Dokumentation keinen Einfluss auf deine Search-Rankings und keine Auswirkung auf AI Overviews.

Was kostet eine AI Crawler Strategie in der Umsetzung?

Das Minimal-Setup (robots.txt anpassen, Schema-Markup prüfen, Monitoring einrichten) lässt sich in ein bis zwei Stunden umsetzen. Eine durchdachte Strategie mit WAF-Konfiguration, Log-Monitoring und inhaltlicher Optimierung ist ein laufender Prozess, kein einmaliges Projekt. Der Aufwand hängt stark von der Komplexität der Website-Architektur ab.

Sollte ich Training-Bots zulassen, weil Google Marktanteile verliert?

Nein. Das wäre die falsche Schlussfolgerung. Der sinnvolle Schritt ist, für die relevanten AI-Search-Systeme sichtbar zu sein: Search-Crawler zulassen und retrieval-ready werden. Training-Crawler zuzulassen, um "in Trainingsdaten präsent zu sein", ist ein indirekter, schwer messbarer Effekt ohne nachgewiesenen direkten Zusammenhang zur AI-Sichtbarkeit heute.

Fazit: Was als nächstes zu tun ist

Eine AI Crawler Strategie ist kein Sonderprogramm für Technologie-Enthusiasten und kein Thema, das du noch zwei Jahre schieben kannst. Sie ist eine Schutz- und Sichtbarkeits-Entscheidung, die jede Website mit mehr als ein paar statischen Seiten treffen sollte.

Der Einstieg ist nicht kompliziert. Die fundamentale Unterscheidung zwischen Training-Crawlern (blockieren) und Search-Crawlern (zulassen) lässt sich mit einer angepassten robots.txt in einer Stunde umsetzen. Wenn du darüber hinausgehen willst, investierst du in Log-Monitoring, WAF-Konfiguration und inhaltliche Optimierung für Retrieval-Systeme.

Was sich nicht lohnt: Hektische Vollblockaden aus Angst, kombiniert mit der Hoffnung, dass das Thema wieder verschwindet. Und ebenso wenig lohnt es sich, alles zu öffnen, weil AI gerade auf jedem LinkedIn-Profil als Heilsbringer gehandelt wird.

Die Frage ist nicht "geht das?". Die Frage ist: "Welche Bots dürfen wohin, warum, und wie kontrollierst du es?"

Wenn du das einmal sauber strukturiert hast, verwendest du damit nicht nur eine bessere robots.txt. Du hast einen belastbaren Ausgangspunkt für alles, was an AI-gesteuerter Suche und Discovery noch kommt.

Nächster Schritt: Führe eine Log-Analyse der letzten 30 Tage durch und identifiziere, welche AI-Bots deine Site bereits crawlen. Das ist die Datenbasis, ohne die jede weitere Entscheidung im Dunkeln getroffen wird.

Wenn du die Analyse nicht selbst machen willst oder einen zweiten Blick auf dein Setup brauchst: Ich biete das als eigenständiges Analyse-Paket an. Was dabei rauskommt, ist eine klare Bewertung deiner aktuellen Crawler-Konfiguration, eine Entscheidungsmatrix für dein spezifisches Setup und konkrete Handlungsempfehlungen.

Kontaktaufnahme