Skip to main content Skip to footer Skip to navigation

AI Bot Logfile Analyzer


Welche KI-Crawler besuchen deine Website, welche URLs crawlen sie, und mit welchen Fehlerraten? Apache- und Nginx-Zugriffsstatistiken direkt im Browser auswerten, ohne Upload, ohne Datenübertragung.

Datenschutz & Haftung: Dieses Tool läuft zu 100 % lokal in deinem Browser. Deine Access-Log-Dateien werden direkt im Browser eingelesen, aber nicht an einen Server übertragen und nicht gespeichert. Die Analyse findet ausschließlich auf deinem Gerät statt. Die Nutzung des Tools und die Interpretation der Ergebnisse erfolgen auf eigene Verantwortung.


GA4 und die Google Search Console tracken keine Bot-Zugriffe. Was KI-Systeme auf deiner Website wirklich treiben, siehst du nur im Server-Log. Das Tool liest Apache- und Nginx-Zugriffsstatistiken direkt im Browser aus, ohne dass eine Zeile deiner Logdaten den eigenen Rechner verlässt. Es erkennt 56 bekannte Bots in 7 Kategorien und liefert eine auswertbare Übersicht nach Bot, Zugriffsanzahl, gecrawlten URLs und Statuscode-Verteilung.

Unterstützte Log-Formate: Apache Combined Log Format, Nginx Default Log Format, cPanel, Plesk, Mittwald Space Server und all-inkl.com.


AI Bot Logfile Analyzer

Analysiert Apache- und Nginx-Logfiles auf Bot-Aktivität, Fehlerraten und URL-Verteilung — vollständig im Browser, ohne Datenübertragung.

📋
Logfile hier ablegen oder klicken zum Auswählen

Apache / Nginx Combined Log Format — Standard, cPanel, Plesk, Mittwald (Virtual Host), all-inkl.com

.log .log.gz .txt

🔒 Alle Daten werden ausschließlich lokal im Browser verarbeitet. Es werden keine Daten übertragen.

Changelog: 29.05.2026 - V0.4, Neue Filtermöglichkeit in der URL-Analyse | 29.05.2026 - V0.3, Anpassung der Limits und neue Auslastungsanzeige | 29.05.2026 - V0.2, Code Review und Security Hardening | 28.05.2026 - V0.1, Erste stabile Version.


So funktioniert der AI Bot Logfile Analyzer

Eine oder mehrere Logdateien werden per Drag & Drop oder Dateiauswahl geladen. Das Tool liest und verarbeitet sie vollständig im Browser, kein Byte wird übertragen, nichts wird gespeichert. Auch komprimierte .gz-Dateien werden direkt im Browser entpackt, kein Server beteiligt.

Das Parsing folgt einer bewusst gewählten Datensparsamkeit: Query-Parameter wie ?session= oder ?email= werden beim Einlesen sofort verworfen. User-Agent-Strings werden nach der Bot-Erkennung nicht länger im Speicher gehalten. Was nicht gebraucht wird, landet nicht im Speicher.

Filter-Optionen

Drei Filter steuern, was in die Auswertung einfließt:

  • Host-Filter: Bei Logdateien mit mehreren Virtual Hosts lässt sich gezielt ein Host auswählen.

  • Assets ausblenden: CSS, JavaScript, Bilder, Fonts und andere statische Ressourcen werden herausgefiltert. Standardmäßig aktiv.

  • Monitoring ausblenden: Uptime-Monitoring-Dienste bleiben aus der Bot-Auswertung ausgeschlossen. Standardmäßig aktiv.

Die drei Analyse-Tabs

Übersicht

Anfragen im Zeitverlauf als Balkendiagramm, stündlich oder täglich je nach Analysezeitraum, mit Bot-Anteil farblich abgesetzt. Dazu die Statuscode-Verteilung (2xx, 3xx, 4xx, 5xx) und die Top-10-URLs nach Anfragevolumen mit Bot-Anteil und Fehlerrate.

Bot-Analyse

Gruppenübersicht aller erkannten Bots mit absoluten Zahlen und prozentualen Anteilen. Detailtabelle pro Bot mit Statuscode-Aufschlüsselung (200, 301, 401, 404, 410), Erfolgsrate und Fehlerrate-Badge. Bots, die /robots.txt abgerufen haben, werden separat markiert. Bots mit Doppelfunktion, zum Beispiel Googlebot für klassische Suche und AI Overviews oder Bingbot für Bing Search und Microsoft Copilot, werden entsprechend gekennzeichnet. CSV-Export der Tabelle ist direkt verfügbar.

URL-Analyse

Alle angefragten URLs nach Gesamtanfragen sortiert, aufgeteilt in Bot- und Nutzer-Traffic mit Bot-Prozentsatz und Fehlerrate. Live-Filter in zwei Modi: „Enthält" und „Enthält nicht", zum gezielten Einschränken auf URL-Muster wie /blog/ oder /api/. Ohne aktiven Filter werden bis zu 50 URLs angezeigt, mit aktivem Filter bis zu 200 Treffer.

Browser-Auslastungsanzeige

Das Tool zeigt in Echtzeit, wie viele Einträge geladen sind im Verhältnis zum Gesamtlimit von 250.000. Die Farbkodierung (Niedrig / Mittel / Hoch / Limit) schützt vor Browser-Abstürzen durch frühzeitige Warnung, bevor das Limit erreicht wird.


Schritt-für-Schritt

Schritt 1: Access Log besorgen

Das Access Log liegt auf deinem Webserver. Bei Apache typischerweise unter /var/log/apache2/access.log, bei Nginx unter /var/log/nginx/access.log. Bei Shared Hosting findest du es im Dateimanager des Hosting-Panels oder lädst es per FTP/SFTP herunter. Bei manchen Anbietern muss das Logging erst in den Server-Einstellungen aktiviert werden.

Ein einzelner Tag reicht meistens nicht aus. Bot-Crawling-Aktivitäten schwanken, und einzelne Tage können ein verzerrtes Bild liefern. Logs über mindestens zwei bis vier Wochen sind aussagekräftiger.

Schritt 2: Datei einlesen

Lade eine oder mehrere Dateien per Drag & Drop oder Dateiauswahl. Unterstützte Formate: .log, .log.gz, .txt. Mehrere Dateien können gleichzeitig geladen und zu einer gemeinsamen Auswertung zusammengefasst werden, nützlich bei Log-Rotation mit Dateien wie access.log.1, access.log.2.gz.

Größenlimits zum Schutz vor Browser-Abstürzen:

  • Unkomprimierte Dateien (.log, .txt): maximal 75 MB pro Datei

  • Komprimierte Dateien (.gz): maximal 10 MB komprimiert (entspricht je nach Kompressionsrate ca. 300 bis 600 MB unkomprimiert)

  • Einträge gesamt über alle Dateien: maximal 250.000

Wird ein Limit überschritten, bricht das Tool mit einer Fehlermeldung ab und nennt die betroffene Datei. Bereits verarbeitete Daten bleiben erhalten. Für sehr große Logs empfiehlt sich ein serverseitiges Tool wie GoAccess.

Schritt 3: Ergebnisse auswerten

Das Tool gibt eine Übersicht nach Bot, Zugriffsanzahl, gecrawlten URLs und Zeitraum aus. Die Bot-Analyse zeigt nicht nur, welche Crawler aktiv waren, sondern auch wie ihre Fehlerraten aussehen und ob sie deine robots.txt überhaupt abgerufen haben.

Schritt 4: Ergebnisse exportieren

Die Bot-Auswertung lässt sich als CSV exportieren, für die Dokumentation einer AI Search Baseline, zur weiteren Analyse im Spreadsheet oder als Grundlage für Entscheidungen zur Crawler-Strategie.


Bot-Datenbank: 56 bekannte Bots in 7 Kategorien

Das Tool erkennt 56 bekannte Bots und klassifiziert sie nach Funktion und Herkunft:

  • KI-Training — Crawler, die Inhalte für das Training von Sprachmodellen sammeln

  • KI-Suche / RAG — Systeme, die Inhalte für KI-gestützte Suchantworten abrufen

  • Suchmaschinen — klassische Crawler wie Googlebot oder Bingbot, teils mit Doppelfunktion

  • SEO-Tools — Crawlsimulationen von Analyse-Diensten wie Ahrefs, Semrush oder Majestic

  • Monitoring — Uptime- und Performance-Monitoring-Dienste

  • Security-Scanner — Sicherheitsscanner und Schwachstellenprüfer

  • Unbekannt — User-Agents, die Bot-Muster aufweisen, aber keinem bekannten Anbieter zugeordnet werden können

Die AI-spezifischen Bots (KI-Training und KI-Suche / RAG) im Überblick:

Bot Betreiber Zweck
GPTBot OpenAI Training und Retrieval für ChatGPT
ChatGPT-User OpenAI Browsing-Funktion in ChatGPT
ClaudeBot Anthropic Training und Retrieval für Claude
PerplexityBot Perplexity Retrieval für Perplexity AI
Google-Extended Google Training für Gemini und andere Google AI-Produkte
Googlebot Google Google Search inkl. AI Overviews (Doppelfunktion)
Bingbot Microsoft Bing Search inkl. Microsoft Copilot (Doppelfunktion)
Applebot-Extended Apple Training für Apple Intelligence
Meta-ExternalAgent Meta Training für Meta AI
Amazonbot Amazon Training und Retrieval für Alexa, Bedrock
Bytespider ByteDance Training für Douyin/TikTok AI-Systeme
cohere-ai Cohere Training und Retrieval
Diffbot Diffbot Datenextraktion für AI-Anwendungen
YouBot You.com Retrieval für You.com AI Search
img2dataset diverse Bilddaten-Sammlung für AI-Training

Die Liste wird bei Bedarf aktualisiert, wenn neue relevante AI-Crawler aktiv werden.


Technische Grenzen

Parameter Wert
Max. Dateigröße (unkomprimiert) 75 MB
Max. Dateigröße (.gz komprimiert) 10 MB
Max. Einträge gesamt (alle Dateien) 250.000
Gleichzeitig ladbare Dateien unbegrenzt, bis Gesamtlimit

Bei sehr großen Logdateien empfiehlt sich ein serverseitiges Tool wie GoAccess.


Was du mit den Ergebnissen anfangen kannst

Die Auswertung zeigt dir, welche KI-Systeme deine Inhalte tatsächlich crawlen. Das ist eine der wenigen direkt messbaren Eingangsvariablen in einem ansonsten weitgehend intransparenten System.

AI Search Baseline vervollständigen

Die Crawling-Daten aus deinem Log sind der einzige Beleg dafür, dass ein AI-System deine Seiten überhaupt besucht hat. Als Teil einer vollständigen AI Search Baseline dokumentierst du damit die Eingangsseite des Systems, nicht nur die Ausgabe.

robots.txt-Entscheidungen fundieren

Wenn bestimmte Bots intensiv crawlen, du aber in den entsprechenden AI-Systemen nicht auftauchst, ist das eine Information. Genauso, wenn Bots Seiten abrufen, die du nicht für AI-Systeme freigeben willst. Das Tool zeigt außerdem, ob Bots deine robots.txt überhaupt abgerufen haben. Ein Bot, der keine robots.txt abruft, ignoriert sie mit hoher Wahrscheinlichkeit auch.

Unbekannte oder unerwünschte Crawler identifizieren

Neben den bekannten AI-Bots tauchen im Log regelmäßig User-Agents auf, die Crawler imitieren oder keiner bekannten Quelle zugeordnet werden können. Das Tool kennzeichnet sie separat.

Einen ausführlichen Leitfaden dazu, welche AI-Crawler du zulassen solltest und was die Entscheidung für deine AI-Sichtbarkeit bedeutet, findest du hier:

AI Crawler Strategie: Wer sie wirklich braucht, was sie bringt


Häufig gestellte Fragen

  • Welche Log-Formate werden unterstützt?

    Apache Combined Log Format, Nginx Default Log Format, cPanel, Plesk, Mittwald Space Server (inkl. Virtual-Host-Feld) und all-inkl.com (Apache mit Traffic- und ReqTime-Feldern). Das sind die gängigsten Formate der verbreitetsten Webserver und Hosting-Umgebungen im DACH-Raum. Benutzerdefinierte Log-Formate werden aktuell nicht unterstützt.

  • Wie komme ich an mein Access Log?

    Bei Shared Hosting in der Regel über den Dateimanager im Hosting-Panel (cPanel, Plesk, IONOS, Strato usw.) oder per FTP/SFTP. Bei VPS oder dedizierten Servern liegt das Log typischerweise unter /var/log/apache2/access.log oder /var/log/nginx/access.log. Falls du keinen direkten Zugriff hast, frag deinen Hosting-Anbieter nach einem Log-Download.

  • Kann ich mehrere Log-Dateien gleichzeitig analysieren?

    Ja. Du kannst mehrere Dateien auf einmal einlesen, zum Beispiel bei Log-Rotation mit Dateien wie access.log.1, access.log.2.gz. Das Tool fasst die Ergebnisse zu einer gemeinsamen Auswertung zusammen. Die Größenlimits gelten pro Datei (75 MB für .log/.txt, 10 MB für .gz), das Eintrags-Limit von 250.000 gilt für den gesamten Einlesevorgang über alle Dateien.

  • Werden meine Log-Daten irgendwo gespeichert?

    Nein. Die Verarbeitung findet vollständig im Browser statt. Es wird nichts übertragen, nichts gecacht, nichts gespeichert. Wenn du den Tab schließt, sind die Daten weg.

  • Was bedeutet es, wenn ein bekannter AI-Bot gar nicht im Log auftaucht?

    Entweder crawlt der Bot deine Website aktuell nicht, oder er ist in deiner robots.txt blockiert, oder er nutzt IP-Adressen ohne erkennbaren Bot-User-Agent. Letzteres ist selten, aber möglich. Ein fehlendes Crawling-Signal bedeutet nicht zwingend, dass deine Inhalte nicht im Training der entsprechenden Modelle vorhanden sind. Trainingsdaten können aus früheren Crawls stammen.

  • Was sind "unbekannte Bots" in der Auswertung?

    User-Agents, die Muster bekannter Bots imitieren oder Bot-ähnliche Bezeichnungen tragen, aber keinem bekannten Anbieter sicher zugeordnet werden können. Sie werden separat ausgewiesen, weil sie in der Praxis regelmäßig auftauchen.

  • Kann ich die Ergebnisse für meine robots.txt nutzen?

    Indirekt ja. Die Auswertung zeigt, welche Bots aktiv sind, was sie crawlen, und ob sie deine robots.txt abgerufen haben. Daraus lässt sich ableiten, ob deine Direktiven greifen und ob Anpassungen sinnvoll sind.


Wenn die Auswertung Fragen aufwirft, die ein Tool nicht beantworten kann, bin ich der richtige Ansprechpartner.

Ich helfe dir einzuordnen, was die Zahlen bedeuten, und was sich daraus für deine SEO- und AI-Search-Strategie ableiten lässt.

SEO mit System: Mehr Sichtbarkeit bei Google und in KI-Antworten

feller.systems - Technisch präzise. Strategisch durchdacht.
Auf Wirkung und Nachhaltigkeit optimiert.

© Carsten Feller | feller.systems