Datenschutz & Haftung: Dieses Tool läuft zu 100 % lokal in deinem Browser. Deine Access-Log-Dateien werden direkt im Browser eingelesen, aber nicht an einen Server übertragen und nicht gespeichert. Die Analyse findet ausschließlich auf deinem Gerät statt. Die Nutzung des Tools und die Interpretation der Ergebnisse erfolgen auf eigene Verantwortung.
GA4 und die Google Search Console tracken keine Bot-Zugriffe. Das einzige verlässliche Bild davon, welche KI-Crawler deine Website tatsächlich besuchen, liefert dein Server-Log. Dieses Tool macht genau das sichtbar: Es extrahiert alle erkannten AI-Bot-Zugriffe aus deinen Access Logs und bereitet sie als auswertbare Übersicht auf.
Unterstützte Formate: Apache Combined Log Format, Nginx Default Log Format.
So funktioniert der AI Bot Logfile Analyzer
Du hast eine oder mehrere Access-Log-Dateien von deinem Webserver und willst wissen, welche KI-Crawler deine Website in welchem Umfang besucht haben. Mit diesem Tool lädst du die Logs direkt im Browser ein - ohne sie irgendwo hochzuladen - und bekommst eine strukturierte Auswertung nach Bot, Zugriffsanzahl, gecrawlten URLs und Zeitraum.
Schritt-für-Schritt-Anleitung
Schritt 1: Access Log besorgen
Das Access Log liegt auf deinem Webserver, meistens unter /var/log/apache2/access.log (Apache) oder /var/log/nginx/access.log (Nginx). Bei Shared Hosting findest du es in der Regel im Dateimanager deines Hosting-Panels oder kannst es per FTP herunterladen. Bei manchen Anbietern ist der Zugriff auf Logs erst nach Aktivierung in den Server-Einstellungen möglich.
Wichtig: Je länger der analysierte Zeitraum, desto aussagekräftiger das Ergebnis. Einzelne Tage können durch tagesaktuelle Crawling-Aktivitäten verzerrt sein. Sinnvoll sind Logs über mindestens zwei bis vier Wochen.
Schritt 2: Datei einlesen
Wähle eine oder mehrere Log-Dateien aus. Das Tool verarbeitet auch komprimierte .gz-Dateien, wie sie bei automatischer Log-Rotation entstehen, direkt im Browser.
Eingebaute Größenbeschränkungen schützen vor Browserabstürzen bei sehr großen Logs:
.logund.txt-Dateien: maximal 150 MB pro Datei.gz-Dateien: maximal 30 MB komprimiert (entspricht je nach Kompressionsrate ca. 300–600 MB unkomprimiert)
Wird eine dieser Grenzen überschritten, bricht das Tool den Einlesevorgang ab und gibt einen Fehlertext mit dem betroffenen Dateinamen aus. Beim Parsen stoppt die Verarbeitung automatisch bei 500.000 Einträgen. Der bis dahin erfasste Datensatz wird vollständig ausgewertet - es gibt keinen Abbruch mitten in einem Verarbeitungsschritt, keine Exception und keinen Datenverlust. Für die meisten Projekte sind 500.000 Einträge mehr als ausreichend; bei sehr großen Logs mit hohem Traffic empfiehlt sich eine zeitliche Vorfilterung der Logs auf dem Server.
Schritt 3: Ergebnisse auswerten
Das Tool gibt eine Übersicht aus, gegliedert nach:
Bot-Name: Welcher AI-Crawler hat zugegriffen (z.B. GPTBot, ClaudeBot, PerplexityBot, Google-Extended)?
Zugriffsanzahl: Wie viele Requests hat der jeweilige Bot im analysierten Zeitraum gemacht?
Gecrawlte URLs: Welche Seiten wurden besucht, und wie häufig?
Zeitraum: Wann fanden die Zugriffe statt?
Schritt 4: Ergebnisse exportieren
Die Auswertung lässt sich als CSV herunterladen – für die Dokumentation in deiner Baseline, für die weitere Analyse in einem Spreadsheet oder als Grundlage für Entscheidungen zur AI-Crawler-Strategie.
Erkannte AI-Bots
Das Tool erkennt aktuell die folgenden AI-Crawler anhand ihrer User-Agent-Strings:
| Bot | Betreiber | Zweck |
|---|---|---|
| GPTBot | OpenAI | Training und Retrieval für ChatGPT |
| ChatGPT-User | OpenAI | Browsing-Funktion in ChatGPT |
| ClaudeBot | Anthropic | Training und Retrieval für Claude |
| PerplexityBot | Perplexity | Retrieval für Perplexity AI |
| Google-Extended | Training für Gemini und andere Google AI-Produkte | |
| Googlebot | Google Search (inkl. AI Overviews) | |
| Applebot-Extended | Apple | Training für Apple Intelligence |
| Meta-ExternalAgent | Meta | Training für Meta AI |
| Amazonbot | Amazon | Training und Retrieval für Alexa, Bedrock |
| Bytespider | ByteDance | Training für Douyin/TikTok AI-Systeme |
| cohere-ai | Cohere | Training und Retrieval |
| Diffbot | Diffbot | Datenextraktion für AI-Anwendungen |
| YouBot | You.com | Retrieval für You.com AI Search |
| img2dataset | diverse | Bilddaten-Sammlung für AI-Training |
Die Liste wird bei Bedarf aktualisiert, wenn neue relevante AI-Crawler aktiv werden.
Was du mit den Ergebnissen anfangen kannst
Die Auswertung zeigt dir, welche KI-Systeme deine Inhalte tatsächlich crawlen. Das ist eine der wenigen direkt messbaren Eingangsvariablen in einem ansonsten weitgehend intransparenten System.
Drei konkrete Anwendungsfälle:
AI Search Baseline vervollständigen: Die Crawling-Daten aus deinem Log sind der einzige Beleg dafür, dass ein AI-System deine Seiten überhaupt besucht hat. Als Teil einer vollständigen AI Search Baseline dokumentierst du damit die Eingangsseite des Systems, nicht nur die Ausgabe.
robots.txt-Entscheidungen fundieren: Wenn du siehst, dass bestimmte Bots intensiv crawlen, aber du in den entsprechenden AI-Systemen nicht auftauchst, ist das eine Information. Genauso, wenn Bots Seiten crawlen, die du nicht für AI-Systeme freigeben willst.
Unbekannte oder unerwünschte Crawler identifizieren: Neben den bekannten AI-Bots tauchen im Log oft User-Agents auf, die AI-Crawler imitieren oder keiner bekannten Quelle zugeordnet werden können. Das Tool kennzeichnet sie separat.
Einen ausführlichen Leitfaden dazu, welche AI-Crawler du zulassen solltest, welche nicht, und was die Entscheidung für deine AI-Sichtbarkeit bedeutet, findest du hier:
→ Zum Artikel: AI Crawler Strategie: Wer sie wirklich braucht, was sie bringt
Häufig gestellte Fragen
-
Welche Log-Formate werden unterstützt?
Apache Combined Log Format und Nginx Default Log Format. Das sind die Standardformate der beiden verbreitetsten Webserver und werden von nahezu allen Hosting-Anbietern verwendet. Benutzerdefinierte Log-Formate werden aktuell nicht unterstützt.
-
Wie komme ich an mein Access Log?
Bei Shared Hosting in der Regel über den Dateimanager im Hosting-Panel (cPanel, Plesk, IONOS, Strato etc.) oder per FTP/SFTP. Bei VPS oder dedizierten Servern liegt das Log typischerweise unter
/var/log/apache2/access.logoder/var/log/nginx/access.log. Falls du keinen direkten Zugriff hast, frag deinen Hosting-Anbieter nach dem Log-Download. -
Kann ich mehrere Log-Dateien gleichzeitig analysieren?
Ja. Du kannst mehrere Dateien auf einmal einlesen, zum Beispiel bei Log-Rotation, wo ältere Logs als
access.log.1,access.log.2.gzusw. gespeichert werden. Das Tool fasst die Ergebnisse zu einer gemeinsamen Auswertung zusammen. Die Größenbeschränkungen gelten dabei pro Datei (150 MB für.log/.txt, 30 MB für.gz), die Eintrags-Obergrenze von 500.000 gilt für den gesamten Einlesevorgang über alle Dateien. -
Werden meine Log-Daten irgendwo gespeichert?
Nein. Die Verarbeitung findet vollständig im Browser statt. Es wird nichts an einen Server übertragen, nichts gecacht, nichts gespeichert. Wenn du den Browser-Tab schließt, sind die Daten weg.
-
Was bedeutet es, wenn ein bekannter AI-Bot gar nicht im Log auftaucht?
Entweder crawlt der Bot deine Website aktuell nicht, oder er ist in deiner robots.txt blockiert, oder er nutzt IP-Adressen ohne erkennbaren Bot-User-Agent. Letzteres ist selten, aber möglich. Ein fehlendes Crawling-Signal bedeutet nicht zwingend, dass deine Inhalte nicht im Training der entsprechenden Modelle vorhanden sind – Trainingsdaten können aus früheren Crawls stammen.
-
Was sind "unbekannte AI-Bots" in der Auswertung?
User-Agents, die Muster bekannter AI-Bots imitieren oder AI-ähnliche Bezeichnungen tragen, aber keinem bekannten Anbieter sicher zugeordnet werden können. Diese werden separat ausgewiesen, weil sie in der Praxis regelmäßig auftauchen und relevant sein können.
-
Kann ich die Ergebnisse für meine robots.txt nutzen?
Direkt nicht, aber indirekt ja. Die Auswertung zeigt dir, welche Bots aktiv sind und was sie crawlen. Daraus kannst du ableiten, ob deine robots.txt-Direktiven greifen und ob Anpassungen sinnvoll sind. Den generierten robots.txt-Code musst du selbst schreiben oder anpassen.