Was ist der Unterschied zwischen Gefunden - zurzeit nicht indexiert und Gecrawlt - zurzeit nicht indexiert?

Bei Gefunden weiß Google von der URL, hat sie aber noch nicht besucht, das Crawling steht noch aus. Bei Gecrawlt war Googlebot bereits auf der Seite, hat den Inhalt analysiert und entschieden, dass er nicht in den Index aufgenommen wird. Das ist ein wesentlicher Unterschied: Gefunden ist ein Crawl-Prioritätssignal, Gecrawlt ist ein Qualitätsurteil.

Soll ich alle nicht-indexierten Seiten in den Index bringen?

Nein. Nicht jede URL, die technisch indexierbar ist, verdient auch einen Platz im Index. Filterseiten, Parametervarianten, interne Suchseiten, Loginbereiche, Warenkörbe - diese URLs sollen nicht indexiert sein. Das Ziel ist ein gesundes Indexierungsverhältnis: Alle inhaltlich relevanten URLs indexiert, alles andere bewusst ausgeschlossen.

Kann eine Seite gecrawlt und nicht indexiert sein, obwohl sie inhaltlich gut ist?

Ja. Mögliche Ursachen: Die Domain insgesamt hat schlechte Qualitätssignale, und Google überträgt das auf einzelne Seiten. Die Seite ist inhaltlich korrekt, aber es gibt zu viele ähnliche Seiten auf derselben Domain. Oder die interne Verlinkung ist so schwach, dass Google die Seite für unwichtig hält. In diesen Fällen hilft nicht Indexierung beantragen, sondern entweder das Umfeld verbessern oder die interne Verlinkung ausbauen.

Was bedeuten diese Statusmeldungen für AI Overviews und AI Mode?

Direkt: Google hat offiziell bestätigt, dass Seiten für AI Overviews und AI Mode indexiert sein und Snippets erlauben müssen. Nicht-indexierte Seiten können dort nicht auftauchen, unabhängig von der inhaltlichen Qualität. Das bedeutet: Wer Sichtbarkeit in Googles AI-Formaten anstrebt, muss zunächst sicherstellen, dass die relevanten Seiten überhaupt indexiert sind.

Was passiert mit einer Seite, die auf noindex steht, aber externe Links hat?

Die externen Links verlieren ihren direkten Einfluss auf Rankings, weil Google die Seite nicht mehr als Rankingfaktor berücksichtigt. Wenn Seiten externe Links haben, solltest du bei der noindex-Entscheidung genau überlegen, ob du auf diese Linkpower verzichten kannst, oder ob eine Weiterleitung auf eine relevantere Seite die bessere Option ist.

Muss ich die Indexierung beantragen, wenn eine Seite gecrawlt, aber nicht indexiert ist?

Nur wenn du den Inhalt vorher tatsächlich verbessert hast. Die Indexierungsanfrage per URL-Prüftool bringt Googlebot zurück auf die Seite. Wenn sich am Inhalt aber nichts geändert hat, trifft Google dieselbe Entscheidung wie beim letzten Mal. Sinnvoll ist die Anfrage nach inhaltlichen Optimierungen oder nach dem Beheben technischer Probleme.

Was ist der Unterschied zwischen robots.txt-Blockade und noindex?

robots.txt verhindert das Crawling - Googlebot besucht die Seite nicht. noindex erlaubt das Crawling, verhindert aber die Indexierung - Googlebot muss die Seite besuchen, um die Direktive zu lesen. Das bedeutet: Eine Seite, die nur per robots.txt blockiert ist, kann trotzdem im Index auftauchen, wenn externe Links auf sie verweisen. Wer zuverlässig aus dem Index herauswill, braucht zuerst noindex, später dann gegebenenfalls robots.txt.

Wie oft sollte ich den Seitenreport prüfen?

Für aktive Websites reicht ein ein- bis zweiwöchentlicher Blick. Was du beobachtest, sind Trends: Steigt die Zahl der Gecrawlt - nicht indexiert - URLs? Sinkt die Gesamtzahl indexierter Seiten? Das sind die Signale, die Aufmerksamkeit verdienen. Absolute Zahlen ohne Trend-Kontext sind wenig aussagekräftig.

Was ist ein Soft 404 genau?

Eine Seite liefert technisch HTTP-Status 200 - also alles in Ordnung – aber Google sieht den Inhalt als nicht vorhanden oder wertlos an. Klassische Szenarien: Eine leere Kategorie bei einem Shop, eine Suchergebnisseite ohne Treffer oder eine Produktseite mit Artikel nicht mehr verfügbar ohne Alternativen. Google behandelt diese Seiten ähnlich wie echte 404-Fehler.

Veröffentlicht in der Kategorie SEO.

Warum Seiten nicht indexiert werden: GSC-Seitenreport richtig lesen und handeln

Geschrieben von Carsten Feller am 17.06.2026.

Der Seitenreport in der Google Search Console ist kein Alarm-Panel – er ist eine Diagnose. Wer das unterscheidet, spart Zeit, verhindert sinnlose Hektik und behält im Blick, was tatsächlich zählt.

Der Bericht „Warum Seiten nicht indexiert werden" in der Google Search Console ist einer der meistmissverstandenen Reports, die Google dir zur Verfügung stellt. Nicht weil er kompliziert wäre, sondern weil die meisten Leute ihn als Fehlerliste lesen und dann Maßnahmen ergreifen, die entweder nichts bringen oder aktiv Schaden anrichten.

Die Realität sieht so aus: In diesem Report tauchen reguläre Zustände genauso auf wie echte Probleme. Die Kunst liegt darin, sie auseinanderzuhalten.

Wenn du gerade Inhalte bereinigst und gezielt Seiten mit noindex versehen hast, findest du diese Seiten hier wieder. Das ist kein Fehler, das ist die Bestätigung, dass deine Maßnahme gewirkt hat. Wenn du dagegen siehst, dass hunderttausende Seiten von Google gecrawlt wurden, aber nicht in den Index aufgenommen worden sind, ist das eine Information, die Analyse verdient, keine Panik.

Dieser Beitrag erklärt, was jede einzelne Statusmeldung im GSC-Seitenreport bedeutet, wie du sie einordnest und – für alle, die AI Search ernst nehmen – was nicht-indexierte Seiten für die Sichtbarkeit in KI-Antworten bedeuten.

Das Wichtigste auf einen Blick

Kernfakten:

Der GSC-Seitenreport ist keine Fehlerliste, sondern eine Diagnose. Nicht jede nicht-indexierte URL ist ein Problem, das du lösen musst.
Die Quelle-Spalte (Website vs. Google-Systeme) ist der schnellste Orientierungspunkt. Sie unterscheidet, ob die Ursache auf deiner Seite liegt oder Google die Entscheidung getroffen hat.
Für AI Search gilt: Google hat offiziell bestätigt, dass Seiten indexiert und snippet-fähig sein müssen, um in AI Overviews und AI Mode zu erscheinen. Nicht-indexierte Seiten sind aus dem AI-Sichtbarkeitsraum ausgeschlossen, punkt.
robots.txt und noindex verhindern unterschiedliche Dinge. Wer beides verwechselt, hat schnell ein unkontrollierbares Crawling-Problem.
„Gecrawlt - zurzeit nicht indexiert" ist in der Mehrzahl der Fälle ein Qualitätssignal, kein technischer Defekt.
Sofortige Aufmerksamkeit verdienen: Serverfehler (5xx), unbeabsichtigte noindex-Tags auf wichtigen Seiten, Soft 404s auf zentralen Landingpages.
Bei Content-Bereinigungen produzierst du zwangsläufig GSC-Meldungen. Das ist das beabsichtigte Ergebnis, kein Warnsignal.

Warum das jetzt mehr zählt als früher

Die Frage „Warum indexiert Google meine Seiten nicht?" ist schon immer relevant gewesen. Seit 2025 ist sie aus zwei Gründen drängender.

Erstens ist Google deutlich wählerischer beim Indexieren. Seit der verschärften Durchsetzung der Helpful-Content-Anforderungen und den Quality Updates ab Mitte 2024 beobachten viele Betreiber, dass Google größere Anteile ihres URL-Inventars nicht mehr aufnimmt - auch bei Seiten, die früher problemlos indexiert wurden. „Gecrawlt - zurzeit nicht indexiert" ist für zahlreiche Websites vom Randphänomen zur dominanten Statusmeldung geworden.

Zweitens ist der Index jetzt auch das Tor zur AI Visibility. Google hat in seiner offiziellen Dokumentation zu AI-Features explizit festgehalten: Damit eine Seite als unterstützender Link in AI Overviews oder AI Mode erscheinen kann, muss sie indexiert sein und snippet-geeignet für die Google-Suche sein (z. B. nicht durch nosnippet/max-snippet:0 eingeschränkt). Nicht-indexierte Seiten existieren für Google AI schlicht nicht. Wer das ignoriert und nur an herkömmliche Rankings denkt, übersieht einen direkten Zusammenhang zwischen technischer Grundlage und AI-Sichtbarkeit.

Das Quelle-Prinzip: Wo du als Erstes hinschaust

Bevor du auch nur eine einzige URL analysierst, schau dir die Quelle-Spalte im Seitenreport an. Google teilt die Statusmeldungen in zwei Kategorien auf:

Quelle „Website": Die Ursache liegt auf deiner Seite. Das ist deine Konfiguration, dein Code, deine Weiterleitung. Hier hast du direkten Einfluss, und hier lautet die erste Frage immer: Ist das so gewollt?

Quelle „Google-Systeme": Google hat eine Entscheidung getroffen. Der Crawler war auf der Seite oder hat sie gefunden, der Algorithmus hat sie aber nicht für indexierungswürdig befunden. Hier hilft keine technische Schnellreparatur. Die Ursache liegt fast immer in Inhalt, Qualität oder Signalstruktur.

Das ist keine akademische Unterscheidung. Sie bestimmt, welche Maßnahme sinnvoll ist.

Website-bedingte Ausschlüsse: Deine Konfiguration, deine Entscheidung

Diese Statusmeldungen entstehen durch etwas, das du - oder dein CMS, dein Plugin, dein Entwickler - konfiguriert hat. Die erste Frage ist immer: Ist das so gewollt?

Durch „noindex"-Tag ausgeschlossen

Google hat eine noindex-Direktive gefunden und die Seite daher nicht indexiert. Das kann ein Meta-Robots-Tag im <head> sein oder ein X-Robots-Tag im HTTP-Header.

Wann es in Ordnung ist: Bei Login-Bereichen, internen Suchergebnisseiten, Warenkörben, Dankeseiten, Staging-Umgebungen, Filtervarianten und – das ist der Punkt, den viele vergessen – bei Seiten, die du im Rahmen einer Content-Bereinigung bewusst aus dem Index genommen hast. Dann ist dieser Status genau das, was du sehen möchtest.

Wann du handeln musst: Wenn hier eine Seite auftaucht, die eigentlich Traffic generieren soll. Typische Ursachen sind CMS-Standardeinstellungen auf „noindex" gesetzt, ein Redakteur hat den falschen Toggle aktiviert, oder eine Seite hängt noch auf der „Draft"-Einstellung aus der Entwicklungsphase.

Der schnelle Check: URL-Prüftool in der GSC öffnen, Live-Test durchführen. Wenn der Status „noindex gesetzt" anzeigt, siehst du dort auch, ob es ein Meta-Tag oder ein HTTP-Header ist. Den Ursprung (Template, Plugin, direkter Code) musst du dann selbst zurückverfolgen.

AI Search Implikation: noindex verhindert nicht nur die Aufnahme in den Google-Index, sondern wirkt sich auch auf die Sichtbarkeit in AI Overviews und AI Mode aus, da Google diese ausschließlich aus dem Search-Index speist. Darüber hinaus respektieren die meisten großen AI-Crawler - GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended - noindex-Signale und robots.txt-Direktiven. Eine Seite mit noindex kann also in mehreren AI-Systemen gleichzeitig nicht auffindbar sein.

Seite mit Weiterleitung

Die URL leitet auf eine andere Zieladresse weiter und wird selbst nicht indexiert. Indexiert wird (idealerweise) das Weiterleitungsziel.

Wann es in Ordnung ist: Fast immer. HTTP-auf-HTTPS-Weiterleitungen, Slash/Non-Slash-Varianten, alte URLs nach einer Migration - das sind normale, gewollte Weiterleitungen.

Wann du handeln musst: Wenn das Weiterleitungsziel selbst nicht indexiert ist, wenn Weiterleitungsketten entstanden sind (A → B → C), wenn du Canonical-Konflikte zwischen der weiterleitenden URL und dem Ziel hast, oder wenn dein Crawl-Budget durch unnötig viele Weiterleitungs-Hops belastet wird.

Der schnelle Check: Stichprobe der weiterleitenden URLs ziehen. Prüfen: Ist die Weiterleitung direkt (301/308)? Führt sie auf das richtige Ziel? Ist das Ziel indexiert?

Soft 404

Eine Soft 404 ist eine Seite, die technisch einen HTTP-200-Status liefert (also „Seite vorhanden"), deren Inhalt Google aber wie eine nicht vorhandene Seite behandelt. Klassische Beispiele: Leere Suchergebnisseiten mit „Keine Produkte gefunden", ausverkaufte Produktseiten ohne Alternativinhalte oder Kategorieseiten ohne Inhalte.

Wann es in Ordnung ist: Selten. Soft 404s entstehen meistens unbeabsichtigt und signalisieren entweder schlechte Nutzererfahrung oder schlecht verwaltetes URL-Inventar.

Wann du handeln musst: Wenn Soft 404s auf Seiten auftreten, die entweder Traffic haben oder für das Ranking relevant sein sollen. Leere Kategorie- oder Produktseiten in größerer Zahl können die Gesamtqualitätsbewertung einer Domain nach unten ziehen.

Die Lösung: Seiten, die wirklich nicht mehr existieren, sollten einen echten 404- oder 410-Status liefern. Seiten, die noch existieren sollen, brauchen sinnvollen Inhalt. Alternativprodukte, redaktionelle Einleitungen, Kategorieinformationen - irgendetwas, das Google zeigt, dass diese URL einen eigenen Wert hat.

Duplikat - vom Nutzer nicht als kanonisch festgelegt

Mehrere URLs mit ähnlichem oder identischem Inhalt, ohne dass du Google mitgeteilt hast, welche URL die bevorzugte Version ist. Google trifft selbst eine Wahl und indexiert die von ihm präferierte Variante.

Wann es in Ordnung ist: Wenn Googles Wahl die tatsächlich richtige URL ist und du das in einer Stichprobe verifiziert hast.

Wann du handeln musst: Wenn Google die falsche Variante bevorzugt, wenn Inkonsistenz zwischen internen Links, Sitemap und Canonical-Angaben besteht, oder wenn du Produktvarianten, Parameter- oder Paginierungsseiten nicht sauber kanonisiert hast.

Der Fix: Self-Canonical auf jeder indexierungswürdigen Seite setzen. Interne Links und Sitemap ausschließlich auf die bevorzugten URLs ausrichten.

Durch robots.txt-Datei blockiert

Google darf diese URL nicht crawlen. Eine Disallow-Direktive in der robots.txt verhindert, dass Googlebot die Seite überhaupt besucht.

Wichtiger Punkt, den viele vergessen: robots.txt verhindert das Crawling, nicht die Indexierung. Wenn eine URL durch externe Links bekannt ist, kann Google sie trotzdem im Index aufnehmen - ohne den Seiteninhalt zu kennen, nur auf Basis der Verlinkung. Wer eine Seite zuverlässig aus dem Index fernhalten will, braucht noindex, nicht robots.txt. Die beiden Direktiven haben völlig unterschiedliche Funktionen.

Wann es in Ordnung ist: Wenn du bewusst bestimmte Bereiche (Adminbereiche, interne APIs, unkritische Assets) vom Crawlen ausschließt.

Wann du handeln musst: Wenn Produktivseiten aus Versehen blockiert sind, wenn eine Staging-Umgebung live gegangen ist und dabei Crawling-Sperren mitgenommen hat, oder wenn Weiterleitungen auf blockierte Seiten verweisen.

Alternative Seite mit richtigem kanonischen Tag

Diese URL verweist auf eine andere Canonical-URL. Google erkennt das als korrekt und indexiert die Zielseite, nicht die aktuelle URL.

In den meisten Fällen: Kein Handlungsbedarf. Das ist der Mechanismus, der bei URL-Varianten, internationalen Seiten oder Parametervarianten genau so funktionieren soll.

Wann du prüfen solltest: Wenn die kanonische Zielseite selbst nicht indexiert ist oder wenn die inhaltliche Ähnlichkeit zwischen den URLs in Wahrheit nicht ausreicht, um eine Canonical-Beziehung zu rechtfertigen.

Serverfehler (5xx)

Googlebot hat versucht, die Seite abzurufen, aber der Server hat mit einem Fehler geantwortet – zu langsam geantwortet, abgebrochen oder gar nicht reagiert.

Priorität: Hoch. Serverfehler auf indexierungswürdigen Seiten sind ein echtes Problem. Regelmäßige 5xx-Fehler schädigen das Vertrauen des Crawlers in deine Domain, reduzieren das effektive Crawl-Budget und können dazu führen, dass Seiten aus dem Index entfernt werden.

Was du prüfst: Serverlogs auf die Zeitfenster der Fehler hin untersuchen. CDN-Konfiguration, WAF-Regeln, Timeouts und Lastspitzen prüfen. Bei Deployments schauen, ob neue Releases Downtime verursacht haben.

Nicht gefunden (404)

Die URL liefert einen 404-Status. Das ist nicht automatisch schlecht.

Wann es in Ordnung ist: Wenn Seiten ersatzlos entfernt wurden und keine externen Links oder historischer Traffic auf sie zeigen.

Wann du handeln musst: Wenn externe Links auf 404-URLs zeigen (Linkpower geht verloren), wenn interne Links auf 404-URLs verweisen, oder wenn die 404-URL Traffic hatte, der jetzt ins Leere läuft.

Bitte nie: Pauschale 301-Weiterleitungen aller 404-URLs auf die Startseite. Das ist kein Fix, und es hat konkrete negative Konsequenzen.

Google behandelt Weiterleitungen auf inhaltlich irrelevante Ziele als Soft 404s. Die Linkpower, die eigentlich gerettet werden soll, verpufft, weil Google die Inhaltsrelevanz zwischen Quelle und Ziel bewertet. Wer Backlinks auf veraltete Produktseiten durch eine Homepage-Weiterleitung "retten" will, bekommt diesen Effekt schlicht nicht.

Dazu kommt die Nutzerperspektive: Wer einen spezifischen Inhalt gesucht hat - ein konkretes Produkt, einen Artikel, eine Kategorie - und stattdessen auf der generischen Startseite landet, hat sein Ziel nicht erreicht. Die Absprungrate auf solchen Weiterleitungszielen ist entsprechend hoch. Wenn das im großen Maßstab passiert, ist das ein Qualitätssignal, das in Googles Bewertung einfließt.

Die einzig sinnvolle Alternative: Gezielte Weiterleitungen auf inhaltlich verwandte Seiten, wo das möglich ist und echte 404- oder 410-Statuscodes, wo kein sinnvolles Weiterleitungsziel existiert.

Wegen Zugriffsverbot (403) und anderen 4xx-Problemen blockiert

Googlebot wurde abgewiesen (403) oder hat einen anderen Client-Fehler erhalten (400, 405, 410, 429).

403 tritt auf, wenn WAF-Regeln, CDN-Konfigurationen oder IP-Sperren Googlebot blockieren. Verifiziere zuerst, ob Googlebot tatsächlich als Google-Crawler identifizierbar ist, indem du die IP-Adresse gegen Googles veröffentlichte Crawler-IP-Ranges prüfst.

Andere 4xx erfordern eine Stichprobenanalyse per URL-Prüftool, Serverlog und Live-Test. Häufig handelt es sich um Rate-Limiting, fehlende HTTP-Header oder Routing-Probleme.

Von Google-Systemen gesteuerte Ausschlüsse: Googles Entscheidung

Hier hat Google deine Seiten besucht oder gefunden – und sich bewusst gegen die Indexierung entschieden. Das ist keine technische Panne, die du reparieren kannst. Das ist ein Qualitäts- oder Relevanzurteil.

Gecrawlt - zurzeit nicht indexiert

Googlebot war auf der Seite, hat den Inhalt gelesen und analysiert. Google hat sich dann entschieden, die Seite nicht in den Index aufzunehmen. Das ist der Status, der bei vielen Websites inzwischen eine sehr große Zahl erreicht – und der am meisten Analyseaufwand erfordert.

Was dahintersteckt: Google hält den Inhalt für nicht indexierungswürdig. Die häufigsten Ursachen:

Inhalt ist zu dünn, zu generisch oder beantwortet keine klare Suchanfrage
Inhalt ist zu ähnlich zu anderen Seiten auf derselben Domain oder im Web
Schlechte interne Verlinkung: Die Seite ist eine Orphan Page, die nur über die Sitemap erreichbar ist
Falsche oder fehlende Canonical-Signale
JavaScript-Rendering-Probleme: Der eigentliche Inhalt ist im gerenderten HTML nicht sichtbar
Seiten, die technisch korrekt sind, aber auf einer insgesamt qualitätsschwachen Domain sitzen

Seit Ende 2025 gibt es in der GSC für einige betroffene URLs granularere Hinweise – Meldungen wie „Low quality signals" oder „Insufficient unique content" tauchen als Sub-Informationen unter dem Status auf. Das ist ein Schritt in Richtung mehr Transparenz, aber noch nicht flächendeckend verfügbar.

Die erste Frage: Soll diese Seite überhaupt indexiert werden? Viele „Gecrawlt - nicht indexiert"-URLs sind Filterseiten, Sortierungsvarianten, Parametervarianten oder dünne Archivseiten. Wenn der Status für diese URLs greift, ist das kein Problem, sondern richtiges Verhalten. Das Ziel ist dann nicht, diese Seiten in den Index zu bringen, sondern sie mit noindex zu versehen, um den Zustand zu formalisieren und zukünftiges Crawling einzusparen.

Wenn eine Seite wirklich in den Index soll: Inhalt deutlich ausbauen, klare Suchintention bedienen, interne Verlinkung von thematisch starken Seiten aus aufbauen, Canonical-Situation sauberhalten, Rendering im Live-Test prüfen. Die Indexierungsanfrage per URL-Prüftool ist kein Ersatz für diese Arbeit. Sie bringt Google zurück auf die Seite, aber die Indexierungsentscheidung trifft Google dann erneut auf Basis derselben Qualitätssignale.

Gefunden - zurzeit nicht indexiert

Google kennt die URL, hat sie aber noch nicht gecrawlt. Sie steht in der Warteschlange. Das ist ein Crawling-Priorisierungssignal, kein Qualitätsurteil - der wesentliche Unterschied zu „Gecrawlt - nicht indexiert".

Was dahintersteckt: Google crawlt nicht alle bekannten URLs gleichzeitig. Faktoren, die die Priorisierung senken, sind viele konkurrierende URLs auf derselben Domain, schwache interne Verlinkung, geringe Domain-Autorität und langsame Server-Antwortzeiten.

Für viele Websites normal: Neue Seiten brauchen Zeit. Große Domains haben immer URLs in dieser Warteschlange. Wenn eine Website neu oder sehr groß ist, ist ein gewisser Anteil an „Gefunden – nicht indexiert" zu erwarten und kein Anlass zur Sorge.

Wann du handeln solltest: Wenn wichtige Inhalte dauerhaft in diesem Status bleiben, obwohl sie gut verlinkt, sauber technisch aufgebaut und inhaltlich wertvoll sind. Dann ist die Ursache oft eine zu große Menge an niedrigpriorisierten URLs auf derselben Domain, die das Crawl-Budget verbrauchen.

Was hilft: Interne Verlinkung auf die betroffenen URLs verbessern. Das URL-Inventar bereinigen. Irrelevante Parameter-URLs, Filtervarianten und dünne Archivseiten auf noindex setzen. So signalisierst du Google: „Diese Teilmenge ist wirklich wichtig" - und Googlebot kommt schneller.

Duplikat - Google hat eine andere Seite als kanonische Seite bestimmt

Du hast ein Canonical-Tag gesetzt, Google ignoriert es und wählt stattdessen eine andere URL als bevorzugte Version.

Das ist ein Signal, das du ernst nehmen solltest. Google ignoriert Canonical-Tags nur, wenn es aus seiner Sicht Gründe dafür gibt – in der Regel, weil die angegebene Canonical-URL inhaltlich tatsächlich nicht die dominante Version ist, weil interne Links, Sitemap oder andere Signale auf eine andere URL verweisen, oder weil Produktvarianten sich zu wenig inhaltlich unterscheiden, um separate Canonicals zu rechtfertigen.

Was du prüfst: Inhaltlich: Wie stark unterscheiden sich die betroffenen URLs wirklich? Technisch: Stimmen interne Links, Sitemap und Canonical überein? Gibt es Weiterleitungen, die dem Canonical widersprechen? Wenn Seiten nicht wirklich verschieden sind, müssen sie sich entweder inhaltlich stärker unterscheiden oder du musst die Canonical-Situation durch konsequente Signale bereinigen.

AI Search: Was nicht-indexierte Seiten für deine Sichtbarkeit in KI-Antworten bedeuten

Das ist der Aspekt, den nahezu alle anderen Artikel zu diesem Thema komplett auslassen – obwohl er für viele Unternehmen inzwischen direkte Umsatzrelevanz hat.

Google hat in seiner offiziellen Dokumentation zu AI-Features explizit festgehalten (Google Search Central, „AI Features and Your Website"): „To be eligible to be shown as a supporting link in AI Overviews or AI Mode, a page must be indexed and eligible to be shown in Google Search with a snippet." Auf Deutsch: Indexierung ist die technische Grundvoraussetzung für jede Form von AI Visibility in Googles Systemen.

Das hat mehrere Konsequenzen, die du kennen solltest.

Nicht-indexierte Seiten sind für Google AI unsichtbar. Egal wie gut dein Inhalt ist, egal wie tief er eine Frage beantwortet – wenn die Seite nicht im Google-Index ist, kann sie in AI Overviews und AI Mode nicht auftauchen. Das ist keine Einschränkung, die du durch bessere Strukturierung oder Schema-Markup umgehen kannst. Die Indexierung ist Voraussetzung, keine Option.

Auch nosnippet blockiert AI Overviews, selbst bei indexierten Seiten. Wenn du eine Seite zwar indexiert hast, aber nosnippet gesetzt ist (um zu verhindern, dass Google Textauszüge zeigt), fällt sie ebenfalls aus dem Pool der AI-Kandidaten heraus. Das ist ein weiteres Szenario, das bei content-sensiblen Bereichen ohne klare Strategie entstehen kann.

Andere AI-Systeme spielen nach anderen Regeln. ChatGPTs Suchergebnisse werden nicht aus Googles Index gespeist, sondern aus dem Bing-Index und dem eigenen OAI-SearchBot-Index. Nicht in Google indexiert zu sein bedeutet also nicht automatisch, auch aus ChatGPTs Suchantworten zu verschwinden. Perplexity betreibt ebenfalls eigene Crawler, die unabhängig von Google crawlen.

Allerdings: Die Qualitätssignale, die dazu führen, dass Google eine Seite nicht indexiert, sind häufig dieselben Signale, die AI-Systeme dazu bringen, eine Seite nicht zu zitieren. Dünner Inhalt, schwache E-E-A-T-Signale, geringe thematische Relevanz – das sind Faktoren, die bei allen großen AI-Systemen gegen eine Zitation sprechen. Der Indexierungsstatus und die AI-Zitierwahrscheinlichkeit hängen damit nicht kausal zusammen, aber sie zeigen auf dieselbe Ursache.

AI-Crawler und robots.txt. Die großen AI-Crawler - GPTBot und OAI-SearchBot von OpenAI, ClaudeBot von Anthropic, Google-Extended - respektieren robots.txt-Direktiven nach aktuellem Stand zuverlässig. Wer bestimmte Bereiche per robots.txt sperrt, sperrt diese Crawler aus dem betroffenen Bereich aus. Eine Ausnahme mit dokumentierter Geschichte ist Perplexity: Cloudflare hat im August 2025 veröffentlicht, dass Perplexity undeklariete Crawler einsetzt, die robots.txt-Direktiven in bestimmten Fällen ignorieren. Für alle, die robuste Kontrolle über AI-Crawler-Zugriffe brauchen, ist WAF-Level-Blocking deshalb die einzige zuverlässige Schicht.

Eine Unterscheidung, die oft untergeht: Google-Extended ist Googles Crawler für das Training von Gemini-Modellen und ist strikt von Googlebot getrennt. Wer Google-Extended blockiert, hat keinen Einfluss auf die Google-Suche oder auf AI Overviews. Wer in AI Overviews erscheinen will, braucht Googlebot-Zugang und Indexierung – nicht Google-Extended-Zugang.

Content-Bereinigung produziert GSC-Meldungen - und das ist gut so

Ein Punkt, der im operativen Alltag immer wieder für Verwirrung sorgt: Wenn du aktiv SEO-Arbeit betreibst und Inhalte bereinigst, wirst du GSC-Meldungen produzieren. Das ist keine Nebenwirkung. Das ist der Beweis, dass deine Maßnahmen wirken.

Szenarien, in denen Meldungen das erwartete Ergebnis sind:

Du setzt dünne Inhalte auf noindex → GSC meldet „Durch noindex-Tag ausgeschlossen". Richtig so.

Du löschst irrelevante Seiten und setzt 404-Status → GSC meldet „Nicht gefunden (404)". Richtig so.

Du führst Weiterleitungen ein → GSC meldet „Seite mit Weiterleitung". Richtig so.

Du bereinigst Canonical-Probleme und setzt Self-Canonicals → GSC meldet „Alternative Seite mit richtigem kanonischen Tag" für die nicht-bevorzugten Varianten. Richtig so.

Der Fehler, den viele machen: Sie sehen diese Meldungen und interpretieren sie als Warnsignal. Sie reverting ihre Maßnahmen oder fragen ihren SEO-Berater panisch, ob etwas kaputt ist. Die richtige Reaktion ist, die Meldungen aktiv zu dokumentieren und den geplanten Zustand mit dem tatsächlichen zu vergleichen.

Ein einfaches Tracking-System für Content-Bereinigungen: Vor der Maßnahme die aktuellen Zahlen je Status in einer Tabelle festhalten. Nach der Maßnahme prüfen, ob die veränderten Zahlen den erwarteten Maßnahmen entsprechen. Wenn ja, alles in Ordnung. Wenn die Zahlen überraschend sind, dann ist das ein Signal zur Untersuchung – nicht zur Panik.

Bevor du priorisierst: Reduziere zuerst das Rauschen

Der GSC-Seitenreport zeigt dir standardmäßig „Alle bekannten Seiten" - das ist jede URL, von der Google jemals erfahren hat: Aus Sitemaps, aus Crawling-Folgen, aus externen Links, aus internen Verlinkungen. Das sind oft die großen, beängstigenden Zahlen.

GSC - Filtermöglichkeiten im Seitenreport

Bevor du anfängst zu priorisieren, nutz den Filter oben im Report. Du hast drei Optionen:

Alle bekannten Seiten: Der Standard. Zeigt alles, was Google je gefunden hat - inklusive Parametervarianten, Filterkombinationen, veralteter URLs und allem, was du vielleicht nie bewusst veröffentlicht hast.
Alle eingereichten Seiten: Zeigt nur URLs, die in einer deiner hinterlegten XML-Sitemaps stehen. Das ist die Ansicht, die zählt. Diese URLs hast du bewusst eingereicht.
Nur nicht eingereichte Seiten: Zeigt URLs, die Google gefunden hat, die aber in keiner deiner Sitemaps stehen. Oft sind das genau die Parametervarianten, Filter-URLs und technischen Nebenprodukte, für die du dich eigentlich nicht interessierst.

Wenn du auf „Alle eingereichten Seiten" umschaltest, fällt bei den meisten Websites ein erheblicher Teil der nicht-indexierten URLs sofort weg. Aus 166.000 „Gecrawlt - nicht indexiert" werden unter Umständen 600 - und das ist die Zahl, die tatsächlich deine Aufmerksamkeit braucht. Der Rest ist Rauschen.

Du kannst außerdem nach einzelnen Sitemaps filtern, wenn du mehrere hast. Das erlaubt dir, Bereiche gezielt zu isolieren: Nur den Blog, nur die Produktseiten, nur die Landingpages.

Eine einfache Regel für die tägliche Arbeit: Wenn eine URL nicht in deiner Sitemap ist und Google sie nicht indexiert, dann ist das in den meisten Fällen genau das richtige Ergebnis. Die Energie gehört auf die URLs, die du bewusst eingereicht hast und die trotzdem nicht indexiert werden.

Prioritätsrahmen: Was wirklich dringend ist

Nicht alle Statusmeldungen verdienen die gleiche Aufmerksamkeit. Hier ist das Triage-System für die Praxis:

Sofort handeln:

Serverfehler (5xx) auf Seiten, die für Nutzer korrekt laden
noindex-Tags auf Seiten, die in den Suchergebnissen erscheinen sollen und Traffic hatten oder haben könnten
robots.txt-Sperren auf indexierungswürdigen Seiten, die entgegen der Absicht gesperrt sind
403-Fehler auf öffentlich zugänglichen Inhalten, die keine Zugangsbeschränkung haben sollen

Analysieren, dann entscheiden:

„Gecrawlt – zurzeit nicht indexiert" für URLs aus deiner Sitemap: Stichprobe ziehen, Qualität prüfen, Entscheidung treffen (ausbauen oder aussortieren)
Soft 404 in größerer Zahl auf Kernseiten
„Duplikat – Google wählte andere Canonical" bei zentralen Produktseiten oder Landingpages
„Gefunden – zurzeit nicht indexiert" bei Inhalten, die seit Wochen nicht gecrawlt wurden, obwohl sie veröffentlicht und intern verlinkt sind

Beobachten, nicht sofort handeln:

„Gefunden – zurzeit nicht indexiert" bei frisch veröffentlichten Seiten (weniger als zwei bis drei Wochen)
„Gecrawlt – zurzeit nicht indexiert" für URLs, die nie hätten indexiert werden sollen
404-Fehler auf URLs ohne externe Verlinkung und ohne historischen Traffic

Ignorieren (oder dokumentieren, dass es Absicht ist):

noindex-URLs, die du bewusst ausgeschlossen hast
„Seite mit Weiterleitung" für reguläre Redirect-Strukturen
„Alternative Seite mit richtigem kanonischen Tag", wenn das Canonical-Ziel korrekt ist
404-Fehler auf Seiten, die zu Recht gelöscht wurden und keine externen Links haben

Praxisbeispiel: Ein reales Bild aus der Beratung

Das folgende Beispiel basiert auf einem typischen Bild aus einem Kundenprojekt mit einem größeren Onlineshop – anonymisiert, aber in dieser Größenordnung kein Einzelfall.

GSC - Warum Seiten nicht indexiert werden — GSC Seitenreport - Warum Seiten nicht indexiert werden

Der GSC-Seitenreport zeigt:

92.494 Seiten durch noindex ausgeschlossen
166.041 gecrawlt, nicht indexiert
132.750 gefunden, nicht indexiert
14.829 Weiterleitungen
9.403 Soft 404s

Auf den ersten Blick sieht das alarmierend aus. Die tatsächliche Diagnose beginnt mit einer einfachen Frage: Wie groß ist das gesamte URL-Inventar, und wie viele davon sollen tatsächlich im Index sein?

Bei einem Shop dieser Größe sind Filter-URLs, Sortierungsvarianten, Paginierungsseiten, Produktvarianten und Suchparameter typischerweise für Hunderttausende von URLs verantwortlich, die im Index nichts verloren haben. Wenn 92.494 Seiten durch noindex ausgeschlossen sind, ist das kein Problem, das ist aktives Indexmanagement.

Die 166.041 „Gecrawlt - nicht indexiert" sind dagegen eine Analyse wert. Stichprobe: 50 bis 100 URLs aus diesem Segment ziehen und kategorisieren. Sind es Filtervarianten und Sortierungssseiten? Dann ist der Status korrekt und sollte durch explizite noindex-Tags formalisiert werden, damit Google das Crawl-Budget nicht auf diese URLs verschwendet. Sind es Produktseiten mit tatsächlichem Content, der eigentlich ranken sollte? Dann liegt ein Qualitätsproblem vor, das Inhaltsarbeit erfordert.

Die 9.403 Soft 404s sind das, was ich mir anschließend ansehen würde. Bei einem Shop entstehen Soft 404s meist durch ausverkaufte Artikel ohne Alternativinhalte oder durch leere Kategorie-Landingpages. Beide Szenarien sind lösbar: Entweder durch inhaltliche Anreicherung oder durch saubere 404/410-Statuscodes.

Zusammengefasst: Echte Baustellen sind die Soft 404s und die Frage, welche der „Gecrawlt - nicht indexiert"-URLs tatsächlich Potenzial hätten, wenn der Inhalt verbessert würde. Die großen Zahlen beim noindex und den Weiterleitungen sind kein Problem, sie sind das erwartete Ergebnis eines funktionierenden Inventarmanagements.

60-Minuten-Checkliste: GSC-Seitenreport effizient auswerten

Der Google Search Console Seitenreport enthält wertvolle Daten zur Indexierbarkeit Ihrer Seiten – doch ohne strukturierten Ablauf wird die Auswertung schnell zur zeitfressenden Fleißaufgabe. Diese Checkliste führt Sie in fünf klar abgegrenzten Phasen von der ersten Übersicht über die Prüfung kritischer Statuscodes bis zur fertigen Maßnahmenliste.

Gesamtfortschritt: 0 / 19 Punkte 0 %

0–10 Minuten: Übersicht und Einordnung

0 / 4

GSC-Seitenreport öffnen, Gesamtzahlen notieren (indexiert vs. nicht indexiert gesamt)
Quelle-Spalte prüfen: Wie viele Meldungen kommen aus „Website", wie viele aus „Google-Systeme"?
Trend-Spalte prüfen: Welche Statusmeldungen steigen gerade an?
Gibt es laufende Content-Bereinigungen, die die Meldungen erklären könnten?

10–20 Minuten: Sofortprüfung kritischer Status

0 / 3

Serverfehler (5xx): URL-Prüftool für 3–5 betroffene URLs aufrufen, Serverlog auf wiederkehrende Muster prüfen
noindex-Ausschlüsse: Stichprobe auf unbeabsichtigte Ausschlüsse prüfen, URL-Prüftool nutzen
Soft 404: Welche Seitentypen sind betroffen? Kategorie-Seiten, Produktseiten, Sonstiges?

20–35 Minuten: Gecrawlt und Gefunden analysieren

0 / 5

Filteransicht auf „Alle eingereichten Seiten" umstellen (reduziert das Rauschen drastisch – oft um 80–90 %)
Optional: nach einzelner Sitemap filtern, wenn Blogs, Produkte etc. getrennt geprüft werden sollen
20–30 URLs aus „Gecrawlt – nicht indexiert" aus dem gefilterten Segment herausziehen
Kategorisieren: Sind es legitime Inhalte? Filtervarianten? Dünner Content?
Entscheidung je Kategorie treffen: noindex setzen, ausbauen oder löschen?

35–50 Minuten: Canonical- und Duplikat-Situation

0 / 3

„Duplikat – Google wählte andere Canonical" prüfen: Stimmt Googles Wahl inhaltlich?
Self-Canonicals auf wichtigen Seiten verifizieren
Interne Links und Sitemap auf Konsistenz mit Canonicals prüfen

50–60 Minuten: Dokumentation und nächste Schritte

0 / 4

Aktuelle Zahlen je Status dokumentieren (Screenshot oder Tabelle mit Datum)
Maßnahmenliste erstellen: Was wird bis wann angegangen?
Verantwortlichkeiten klären: Wer setzt welche Maßnahme um?
Nächsten Monitoring-Termin festlegen (ein bis zwei Wochen)

Häufige Fragen zum GSC-Seitenreport

Was ist der Unterschied zwischen „Gefunden - zurzeit nicht indexiert" und „Gecrawlt - zurzeit nicht indexiert"?

Bei „Gefunden" weiß Google von der URL, hat sie aber noch nicht besucht, das Crawling steht noch aus. Bei „Gecrawlt" war Googlebot bereits auf der Seite, hat den Inhalt analysiert und entschieden, dass er nicht in den Index aufgenommen wird. Das ist ein wesentlicher Unterschied: „Gefunden" ist ein Crawl-Prioritätssignal, „Gecrawlt" ist ein Qualitätsurteil.
Soll ich alle nicht-indexierten Seiten in den Index bringen?

Nein. Nicht jede URL, die technisch indexierbar ist, verdient auch einen Platz im Index. Filterseiten, Parametervarianten, interne Suchseiten, Loginbereiche, Warenkörbe - diese URLs sollen nicht indexiert sein. Das Ziel ist ein gesundes Indexierungsverhältnis: Alle inhaltlich relevanten URLs indexiert, alles andere bewusst ausgeschlossen.
Kann eine Seite gecrawlt und nicht indexiert sein, obwohl sie inhaltlich gut ist?

Ja. Mögliche Ursachen: Die Domain insgesamt hat schlechte Qualitätssignale, und Google überträgt das auf einzelne Seiten. Die Seite ist inhaltlich korrekt, aber es gibt zu viele ähnliche Seiten auf derselben Domain. Oder die interne Verlinkung ist so schwach, dass Google die Seite für unwichtig hält. In diesen Fällen hilft nicht „Indexierung beantragen", sondern entweder das Umfeld verbessern oder die interne Verlinkung ausbauen.
Was bedeuten diese Statusmeldungen für AI Overviews und AI Mode?

Direkt: Google hat offiziell bestätigt, dass Seiten für AI Overviews und AI Mode indexiert sein und Snippets erlauben müssen. Nicht-indexierte Seiten können dort nicht auftauchen, unabhängig von der inhaltlichen Qualität. Das bedeutet: Wer Sichtbarkeit in Googles AI-Formaten anstrebt, muss zunächst sicherstellen, dass die relevanten Seiten überhaupt indexiert sind.
Was passiert mit einer Seite, die auf noindex steht, aber externe Links hat?

Die externen Links verlieren ihren direkten Einfluss auf Rankings, weil Google die Seite nicht mehr als Rankingfaktor berücksichtigt. Wenn Seiten externe Links haben, solltest du bei der noindex-Entscheidung genau überlegen, ob du auf diese Linkpower verzichten kannst, oder ob eine Weiterleitung auf eine relevantere Seite die bessere Option ist.
Muss ich die Indexierung beantragen, wenn eine Seite gecrawlt, aber nicht indexiert ist?

Nur wenn du den Inhalt vorher tatsächlich verbessert hast. Die Indexierungsanfrage per URL-Prüftool bringt Googlebot zurück auf die Seite. Wenn sich am Inhalt aber nichts geändert hat, trifft Google dieselbe Entscheidung wie beim letzten Mal. Sinnvoll ist die Anfrage nach inhaltlichen Optimierungen oder nach dem Beheben technischer Probleme.
Was ist der Unterschied zwischen robots.txt-Blockade und noindex?

robots.txt verhindert das Crawling - Googlebot besucht die Seite nicht. noindex erlaubt das Crawling, verhindert aber die Indexierung - Googlebot muss die Seite besuchen, um die Direktive zu lesen. Das bedeutet: Eine Seite, die nur per robots.txt blockiert ist, kann trotzdem im Index auftauchen, wenn externe Links auf sie verweisen. Wer zuverlässig aus dem Index herauswill, braucht zuerst noindex, später dann gegebenenfalls robots.txt.
Wie oft sollte ich den Seitenreport prüfen?

Für aktive Websites reicht ein ein- bis zweiwöchentlicher Blick. Was du beobachtest, sind Trends: Steigt die Zahl der „Gecrawlt - nicht indexiert"-URLs? Sinkt die Gesamtzahl indexierter Seiten? Das sind die Signale, die Aufmerksamkeit verdienen. Absolute Zahlen ohne Trend-Kontext sind wenig aussagekräftig.
Was ist ein Soft 404 genau?

Eine Seite liefert technisch HTTP-Status 200 - also „alles in Ordnung" – aber Google sieht den Inhalt als „nicht vorhanden" oder wertlos an. Klassische Szenarien: Eine leere Kategorie bei einem Shop, eine Suchergebnisseite ohne Treffer oder eine Produktseite mit „Artikel nicht mehr verfügbar" ohne Alternativen. Google behandelt diese Seiten ähnlich wie echte 404-Fehler.

Fazit

Der GSC-Seitenreport ist kein Alarm-Panel. Er ist ein Diagnoseinstrument. Und wie jedes Diagnoseinstrument gibt er dir sinnvolle Informationen nur dann, wenn du weißt, wonach du schaust.

Das wichtigste Prinzip: Erst die Quelle prüfen, dann entscheiden, ob der Status beabsichtigt ist, und erst dann handeln. Website-bedingte Ausschlüsse brauchst du nicht zu reparieren, wenn sie das Ergebnis bewusster Konfiguration sind. Google-bedingte Ausschlüsse zeigen dir, wo Inhalte unter dem Qualitätsniveau liegen, das Google heute für eine Indexierung erwartet.

Was in den letzten Monaten als neue Dimension dazugekommen ist: Die Frage der Indexierung ist nicht mehr nur eine SEO-Frage. Sie ist auch eine AI-Search-Frage. Seiten, die nicht indexiert sind, können nicht in Google AI Overviews und AI Mode erscheinen - das ist offiziell von Google dokumentiert. Wer AI Visibility ernstnimmt, beginnt genau hier: Nicht bei Prompting-Taktiken oder Schema-Markup-Optimierungen, sondern bei der technischen Grundlage, die darüber entscheidet, ob eine Seite überhaupt im Spiel ist.

Wenn du nur eine Sache mitnimmst: Schau dir im GSC-Seitenreport die Trend-Spalte an. Wenn eine Statusmeldung gerade ansteigt - insbesondere „Gecrawlt – zurzeit nicht indexiert" - dann ist das ein Signal, dem du nachgehen solltest. Nicht heute in einer Stunde, aber in der nächsten geplanten SEO-Überprüfung deiner Website.

Carsten Feller berät KMU und Agenturen im DACH-Markt zu klassischer Suchmaschinenoptimierung und AI Search Optimization. Fragen oder anderer Blickwinkel? 30 Minuten Gespräch.

Könnte dich auch interessieren

SEO

Duplicate Content: Definition, SEO-Auswirkungen & Lösungen

Geschrieben von Carsten Feller

Veröffentlicht am 03.04.2025
SEO

Onpage.org ZOOM! Webinar

Geschrieben von Carsten Feller

Veröffentlicht am 23.07.2014
SEO

Link-Juice, PageRank & CheiRank: So funktioniert der Linkfluss (SEO)

Geschrieben von Carsten Feller

Veröffentlicht am 13.02.2025
SEO

Wann ein SEO-Audit zu früh kommt

Geschrieben von Carsten Feller

Veröffentlicht am 26.03.2026
SEO

Dark Keywords, GSC-Datenlücken und die KI-Suche: Was du wirklich weißt - und was nicht

Geschrieben von Carsten Feller

Veröffentlicht am 01.08.2025

Das Wichtigste auf einen Blick

Warum das jetzt mehr zählt als früher

Das Quelle-Prinzip: Wo du als Erstes hinschaust

Website-bedingte Ausschlüsse: Deine Konfiguration, deine Entscheidung

Durch „noindex"-Tag ausgeschlossen

Seite mit Weiterleitung

Soft 404

Duplikat - vom Nutzer nicht als kanonisch festgelegt

Durch robots.txt-Datei blockiert

Alternative Seite mit richtigem kanonischen Tag

Serverfehler (5xx)

Nicht gefunden (404)

Wegen Zugriffsverbot (403) und anderen 4xx-Problemen blockiert

Von Google-Systemen gesteuerte Ausschlüsse: Googles Entscheidung

Gecrawlt - zurzeit nicht indexiert

Gefunden - zurzeit nicht indexiert

Duplikat - Google hat eine andere Seite als kanonische Seite bestimmt

AI Search: Was nicht-indexierte Seiten für deine Sichtbarkeit in KI-Antworten bedeuten

Content-Bereinigung produziert GSC-Meldungen - und das ist gut so

Bevor du priorisierst: Reduziere zuerst das Rauschen

Prioritätsrahmen: Was wirklich dringend ist

Praxisbeispiel: Ein reales Bild aus der Beratung

60-Minuten-Checkliste: GSC-Seitenreport effizient auswerten

60-Minuten-Checkliste: GSC-Seitenreport effizient auswerten

Häufige Fragen zum GSC-Seitenreport

Fazit

Könnte dich auch interessieren

Duplicate Content: Definition, SEO-Auswirkungen & Lösungen

Onpage.org ZOOM! Webinar

Link-Juice, PageRank & CheiRank: So funktioniert der Linkfluss (SEO)

Wann ein SEO-Audit zu früh kommt

Dark Keywords, GSC-Datenlücken und die KI-Suche: Was du wirklich weißt - und was nicht