Skip to main content

AI Bot Logfile Analyzer


Welche KI-Crawler besuchen deine Website - und wie oft?

Datenschutz & Haftung: Dieses Tool läuft zu 100 % lokal in deinem Browser. Deine Access-Log-Dateien werden direkt im Browser eingelesen, aber nicht an einen Server übertragen und nicht gespeichert. Die Analyse findet ausschließlich auf deinem Gerät statt. Die Nutzung des Tools und die Interpretation der Ergebnisse erfolgen auf eigene Verantwortung.


GA4 und die Google Search Console tracken keine Bot-Zugriffe. Das einzige verlässliche Bild davon, welche KI-Crawler deine Website tatsächlich besuchen, liefert dein Server-Log. Dieses Tool macht genau das sichtbar: Es extrahiert alle erkannten AI-Bot-Zugriffe aus deinen Access Logs und bereitet sie als auswertbare Übersicht auf.

Unterstützte Formate: Apache Combined Log Format, Nginx Default Log Format.


AI Bot Logfile Analyzer

Analysiert Apache- und Nginx-Logfiles auf Bot-Aktivität, Fehlerraten und URL-Verteilung — vollständig im Browser, ohne Datenübertragung.

📋
Logfile hier ablegen oder klicken zum Auswählen

Apache / Nginx Combined Log Format — Standard, cPanel, Plesk, Mittwald (Virtual Host), all-inkl.com

.log .log.gz .txt

🔒 Alle Daten werden ausschließlich lokal im Browser verarbeitet. Es werden keine Daten übertragen.

Changelog: 29.05.2026 - V0.4, Neue Filtermöglichkeit in der URL-Analyse | 29.05.202 - V0.3, Anpassung der Limits und neue Auslastungsanzeige | 29.05.2026 - V0.2, Code Review und Security Hardening | 28.05.2026 - V0.1, Erste stabile Version.


So funktioniert der AI Bot Logfile Analyzer

Du hast eine oder mehrere Access-Log-Dateien von deinem Webserver und willst wissen, welche KI-Crawler deine Website in welchem Umfang besucht haben. Mit diesem Tool lädst du die Logs direkt im Browser ein - ohne sie irgendwo hochzuladen - und bekommst eine strukturierte Auswertung nach Bot, Zugriffsanzahl, gecrawlten URLs und Zeitraum.

Schritt-für-Schritt-Anleitung

Schritt 1: Access Log besorgen

Das Access Log liegt auf deinem Webserver, meistens unter /var/log/apache2/access.log (Apache) oder /var/log/nginx/access.log (Nginx). Bei Shared Hosting findest du es in der Regel im Dateimanager deines Hosting-Panels oder kannst es per FTP herunterladen. Bei manchen Anbietern ist der Zugriff auf Logs erst nach Aktivierung in den Server-Einstellungen möglich.

Wichtig: Je länger der analysierte Zeitraum, desto aussagekräftiger das Ergebnis. Einzelne Tage können durch tagesaktuelle Crawling-Aktivitäten verzerrt sein. Sinnvoll sind Logs über mindestens zwei bis vier Wochen.

Schritt 2: Datei einlesen

Wähle eine oder mehrere Log-Dateien aus. Das Tool verarbeitet auch komprimierte .gz-Dateien, wie sie bei automatischer Log-Rotation entstehen, direkt im Browser.

Bitte beachten: Die eingebaute Größenbeschränkungen schützen vor Browserabstürzen bei sehr großen Logs:

  • .log und .txt-Dateien: maximal 75 MB pro Datei

  • .gz-Dateien: maximal 10 MB komprimiert (entspricht je nach Kompressionsrate ca. 300-600 MB unkomprimiert)

Wird eine dieser Grenzen überschritten, bricht das Tool den Einlesevorgang ab und gibt einen Fehlertext mit dem betroffenen Dateinamen aus. Beim Parsen stoppt die Verarbeitung automatisch bei 250.000 Einträgen. Der bis dahin erfasste Datensatz wird vollständig ausgewertet - es gibt keinen Abbruch mitten in einem Verarbeitungsschritt, keine Exception und keinen Datenverlust. Für die meisten Projekte sind 250.000 Einträge mehr als ausreichend; bei sehr großen Logs mit hohem Traffic empfiehlt sich eine zeitliche Vorfilterung der Logs auf dem Server.

Das ist nicht optimal, aus Datenschutzgründen und für einen fehlerfreien Betrieb in den meisten Webbrowsern aber die beste Lösung. Ich will bewusst keine Daten außerhalb deines Browsers zwischenspeichern um Größenbeschränkungen zu umgehen.

Schritt 3: Ergebnisse auswerten

Das Tool gibt eine Übersicht aus, gegliedert nach:

  • Bot-Name: Welcher AI-Crawler hat zugegriffen (z.B. GPTBot, ClaudeBot, PerplexityBot, Google-Extended)?

  • Zugriffsanzahl: Wie viele Requests hat der jeweilige Bot im analysierten Zeitraum gemacht?

  • Gecrawlte URLs: Welche Seiten wurden besucht, und wie häufig?

  • Zeitraum: Wann fanden die Zugriffe statt?

Schritt 4: Ergebnisse exportieren

Die Auswertung lässt sich als CSV herunterladen – für die Dokumentation in deiner Baseline, für die weitere Analyse in einem Spreadsheet oder als Grundlage für Entscheidungen zur AI-Crawler-Strategie.


Erkannte AI-Bots

Das Tool erkennt aktuell die folgenden AI-Crawler anhand ihrer User-Agent-Strings:

Bot Betreiber Zweck
GPTBot OpenAI Training und Retrieval für ChatGPT
ChatGPT-User OpenAI Browsing-Funktion in ChatGPT
ClaudeBot Anthropic Training und Retrieval für Claude
PerplexityBot Perplexity Retrieval für Perplexity AI
Google-Extended Google Training für Gemini und andere Google AI-Produkte
Googlebot Google Google Search (inkl. AI Overviews)
Applebot-Extended Apple Training für Apple Intelligence
Meta-ExternalAgent Meta Training für Meta AI
Amazonbot Amazon Training und Retrieval für Alexa, Bedrock
Bytespider ByteDance Training für Douyin/TikTok AI-Systeme
cohere-ai Cohere Training und Retrieval
Diffbot Diffbot Datenextraktion für AI-Anwendungen
YouBot You.com Retrieval für You.com AI Search
img2dataset diverse Bilddaten-Sammlung für AI-Training

Die Liste wird bei Bedarf aktualisiert, wenn neue relevante AI-Crawler aktiv werden.


Was du mit den Ergebnissen anfangen kannst

Die Auswertung zeigt dir, welche KI-Systeme deine Inhalte tatsächlich crawlen. Das ist eine der wenigen direkt messbaren Eingangsvariablen in einem ansonsten weitgehend intransparenten System.

Drei konkrete Anwendungsfälle:

AI Search Baseline vervollständigen: Die Crawling-Daten aus deinem Log sind der einzige Beleg dafür, dass ein AI-System deine Seiten überhaupt besucht hat. Als Teil einer vollständigen AI Search Baseline dokumentierst du damit die Eingangsseite des Systems, nicht nur die Ausgabe.

robots.txt-Entscheidungen fundieren: Wenn du siehst, dass bestimmte Bots intensiv crawlen, aber du in den entsprechenden AI-Systemen nicht auftauchst, ist das eine Information. Genauso, wenn Bots Seiten crawlen, die du nicht für AI-Systeme freigeben willst.

Unbekannte oder unerwünschte Crawler identifizieren: Neben den bekannten AI-Bots tauchen im Log oft User-Agents auf, die AI-Crawler imitieren oder keiner bekannten Quelle zugeordnet werden können. Das Tool kennzeichnet sie separat.

Einen ausführlichen Leitfaden dazu, welche AI-Crawler du zulassen solltest, welche nicht, und was die Entscheidung für deine AI-Sichtbarkeit bedeutet, findest du hier:

→ Zum Artikel: AI Crawler Strategie: Wer sie wirklich braucht, was sie bringt


Häufig gestellte Fragen

  • Welche Log-Formate werden unterstützt?

    Apache Combined Log Format und Nginx Default Log Format. Das sind die Standardformate der beiden verbreitetsten Webserver und werden von nahezu allen Hosting-Anbietern verwendet. Benutzerdefinierte Log-Formate werden aktuell nicht unterstützt.

  • Wie komme ich an mein Access Log?

    Bei Shared Hosting in der Regel über den Dateimanager im Hosting-Panel (cPanel, Plesk, IONOS, Strato etc.) oder per FTP/SFTP. Bei VPS oder dedizierten Servern liegt das Log typischerweise unter /var/log/apache2/access.log oder /var/log/nginx/access.log. Falls du keinen direkten Zugriff hast, frag deinen Hosting-Anbieter nach dem Log-Download.

  • Kann ich mehrere Log-Dateien gleichzeitig analysieren?

    Ja. Du kannst mehrere Dateien auf einmal einlesen, zum Beispiel bei Log-Rotation, wo ältere Logs als access.log.1, access.log.2.gz usw. gespeichert werden. Das Tool fasst die Ergebnisse zu einer gemeinsamen Auswertung zusammen. Die Größenbeschränkungen gelten dabei pro Datei (150 MB für .log/.txt, 30 MB für .gz), die Eintrags-Obergrenze von 500.000 gilt für den gesamten Einlesevorgang über alle Dateien.

  • Werden meine Log-Daten irgendwo gespeichert?

    Nein. Die Verarbeitung findet vollständig im Browser statt. Es wird nichts an einen Server übertragen, nichts gecacht, nichts gespeichert. Wenn du den Browser-Tab schließt, sind die Daten weg.

  • Was bedeutet es, wenn ein bekannter AI-Bot gar nicht im Log auftaucht?

    Entweder crawlt der Bot deine Website aktuell nicht, oder er ist in deiner robots.txt blockiert, oder er nutzt IP-Adressen ohne erkennbaren Bot-User-Agent. Letzteres ist selten, aber möglich. Ein fehlendes Crawling-Signal bedeutet nicht zwingend, dass deine Inhalte nicht im Training der entsprechenden Modelle vorhanden sind – Trainingsdaten können aus früheren Crawls stammen.

  • Was sind "unbekannte AI-Bots" in der Auswertung?

    User-Agents, die Muster bekannter AI-Bots imitieren oder AI-ähnliche Bezeichnungen tragen, aber keinem bekannten Anbieter sicher zugeordnet werden können. Diese werden separat ausgewiesen, weil sie in der Praxis regelmäßig auftauchen und relevant sein können.

  • Kann ich die Ergebnisse für meine robots.txt nutzen?

    Direkt nicht, aber indirekt ja. Die Auswertung zeigt dir, welche Bots aktiv sind und was sie crawlen. Daraus kannst du ableiten, ob deine robots.txt-Direktiven greifen und ob Anpassungen sinnvoll sind. Den generierten robots.txt-Code musst du selbst schreiben oder anpassen.


SEO mit System: Mehr Sichtbarkeit bei Google und in KI-Antworten

feller.systems - Technisch präzise. Strategisch durchdacht.
Auf Wirkung und Nachhaltigkeit optimiert.

© Carsten Feller | feller.systems