Welche Log-Formate werden unterstützt?

Apache Combined Log Format, Nginx Default Log Format, cPanel, Plesk, Mittwald Space Server (inkl. Virtual-Host-Feld) und all-inkl.com (Apache mit Traffic- und ReqTime-Feldern). Das sind die gängigsten Formate der verbreitetsten Webserver und Hosting-Umgebungen im DACH-Raum. Benutzerdefinierte Log-Formate werden aktuell nicht unterstützt.

Wie komme ich an mein Access Log?

Bei Shared Hosting in der Regel über den Dateimanager im Hosting-Panel (cPanel, Plesk, IONOS, Strato usw.) oder per FTP/SFTP. Bei VPS oder dedizierten Servern liegt das Log typischerweise unter /var/log/apache2/access.log oder /var/log/nginx/access.log. Falls du keinen direkten Zugriff hast, frag deinen Hosting-Anbieter nach einem Log-Download.

Kann ich mehrere Log-Dateien gleichzeitig analysieren?

Ja. Du kannst mehrere Dateien auf einmal einlesen, zum Beispiel bei Log-Rotation mit Dateien wie access.log.1, access.log.2.gz. Das Tool fasst die Ergebnisse zu einer gemeinsamen Auswertung zusammen. Die Größenlimits gelten pro Datei (75 MB für .log/.txt, 10 MB für .gz), das Eintrags-Limit von 250.000 gilt für den gesamten Einlesevorgang über alle Dateien.

Werden meine Log-Daten irgendwo gespeichert?

Nein. Die Verarbeitung findet vollständig im Browser statt. Es wird nichts übertragen, nichts gecacht, nichts gespeichert. Wenn du den Tab schließt, sind die Daten weg.

Was bedeutet es, wenn ein bekannter AI-Bot gar nicht im Log auftaucht?

Entweder crawlt der Bot deine Website aktuell nicht, oder er ist in deiner robots.txt blockiert, oder er nutzt IP-Adressen ohne erkennbaren Bot-User-Agent. Letzteres ist selten, aber möglich. Ein fehlendes Crawling-Signal bedeutet nicht zwingend, dass deine Inhalte nicht im Training der entsprechenden Modelle vorhanden sind. Trainingsdaten können aus früheren Crawls stammen.

Was sind unbekannte Bots in der Auswertung?

User-Agents, die Muster bekannter Bots imitieren oder Bot-ähnliche Bezeichnungen tragen, aber keinem bekannten Anbieter sicher zugeordnet werden können. Sie werden separat ausgewiesen, weil sie in der Praxis regelmäßig auftauchen.

Kann ich die Ergebnisse für meine robots.txt nutzen?

Indirekt ja. Die Auswertung zeigt, welche Bots aktiv sind, was sie crawlen, und ob sie deine robots.txt abgerufen haben. Daraus lässt sich ableiten, ob deine Direktiven greifen und ob Anpassungen sinnvoll sind.

AI Bot Logfile Analyzer

Welche KI-Crawler besuchen deine Website, welche URLs crawlen sie, und mit welchen Fehlerraten? Apache- und Nginx-Zugriffsstatistiken direkt im Browser auswerten, ohne Upload, ohne Datenübertragung.

Datenschutz & Haftung: Dieses Tool läuft zu 100 % lokal in deinem Browser. Deine Access-Log-Dateien werden direkt im Browser eingelesen, aber nicht an einen Server übertragen und nicht gespeichert. Die Analyse findet ausschließlich auf deinem Gerät statt. Die Nutzung des Tools und die Interpretation der Ergebnisse erfolgen auf eigene Verantwortung.

GA4 und die Google Search Console tracken keine Bot-Zugriffe. Was KI-Systeme auf deiner Website wirklich treiben, siehst du nur im Server-Log. Das Tool liest Apache- und Nginx-Zugriffsstatistiken direkt im Browser aus, ohne dass eine Zeile deiner Logdaten den eigenen Rechner verlässt. Es erkennt 56 bekannte Bots in 7 Kategorien und liefert eine auswertbare Übersicht nach Bot, Zugriffsanzahl, gecrawlten URLs und Statuscode-Verteilung.

Unterstützte Log-Formate: Apache Combined Log Format, Nginx Default Log Format, cPanel, Plesk, Mittwald Space Server und all-inkl.com.

AI Bot Logfile Analyzer

Analysiert Apache- und Nginx-Logfiles auf Bot-Aktivität, Fehlerraten und URL-Verteilung — vollständig im Browser, ohne Datenübertragung.

📋

Logfile hier ablegen oder klicken zum Auswählen

Apache / Nginx Combined Log Format — Standard, cPanel, Plesk, Mittwald (Virtual Host), all-inkl.com

.log .log.gz .txt

🔒 Alle Daten werden ausschließlich lokal im Browser verarbeitet. Es werden keine Daten übertragen.

Anfragen gesamt

–

Davon Bots

–

Fehler (4xx / 5xx)

–

Zeitraum

–

Browser-Auslastung

–

Anfragen im Zeitverlauf

Statuscode-Verteilung

Häufigste URLs (Top 10)

URL	Anfragen	Bot-Anteil	Fehlerrate

Bot-Gruppen im Überblick

Statuscode-Analyse pro Bot

🤖 = hat /robots.txt abgerufen · ℹ️ = Doppelfunktion: wird auch für KI-Suche / RAG genutzt

Bot	Total	Success	200	301	401	404	410	Gruppe	Fehlerrate

URL-Analyse

URL	Gesamt	Bots	Nutzer	Bot-%	Fehlerrate

Changelog: 29.05.2026 - V0.4, Neue Filtermöglichkeit in der URL-Analyse | 29.05.2026 - V0.3, Anpassung der Limits und neue Auslastungsanzeige | 29.05.2026 - V0.2, Code Review und Security Hardening | 28.05.2026 - V0.1, Erste stabile Version.

So funktioniert der AI Bot Logfile Analyzer

Eine oder mehrere Logdateien werden per Drag & Drop oder Dateiauswahl geladen. Das Tool liest und verarbeitet sie vollständig im Browser, kein Byte wird übertragen, nichts wird gespeichert. Auch komprimierte .gz-Dateien werden direkt im Browser entpackt, kein Server beteiligt.

Das Parsing folgt einer bewusst gewählten Datensparsamkeit: Query-Parameter wie ?session= oder ?email= werden beim Einlesen sofort verworfen. User-Agent-Strings werden nach der Bot-Erkennung nicht länger im Speicher gehalten. Was nicht gebraucht wird, landet nicht im Speicher.

Filter-Optionen

Drei Filter steuern, was in die Auswertung einfließt:

Host-Filter: Bei Logdateien mit mehreren Virtual Hosts lässt sich gezielt ein Host auswählen.
Assets ausblenden: CSS, JavaScript, Bilder, Fonts und andere statische Ressourcen werden herausgefiltert. Standardmäßig aktiv.
Monitoring ausblenden: Uptime-Monitoring-Dienste bleiben aus der Bot-Auswertung ausgeschlossen. Standardmäßig aktiv.

Die drei Analyse-Tabs

Übersicht

Anfragen im Zeitverlauf als Balkendiagramm, stündlich oder täglich je nach Analysezeitraum, mit Bot-Anteil farblich abgesetzt. Dazu die Statuscode-Verteilung (2xx, 3xx, 4xx, 5xx) und die Top-10-URLs nach Anfragevolumen mit Bot-Anteil und Fehlerrate.

Bot-Analyse

Gruppenübersicht aller erkannten Bots mit absoluten Zahlen und prozentualen Anteilen. Detailtabelle pro Bot mit Statuscode-Aufschlüsselung (200, 301, 401, 404, 410), Erfolgsrate und Fehlerrate-Badge. Bots, die /robots.txt abgerufen haben, werden separat markiert. Bots mit Doppelfunktion, zum Beispiel Googlebot für klassische Suche und AI Overviews oder Bingbot für Bing Search und Microsoft Copilot, werden entsprechend gekennzeichnet. CSV-Export der Tabelle ist direkt verfügbar.

URL-Analyse

Alle angefragten URLs nach Gesamtanfragen sortiert, aufgeteilt in Bot- und Nutzer-Traffic mit Bot-Prozentsatz und Fehlerrate. Live-Filter in zwei Modi: „Enthält" und „Enthält nicht", zum gezielten Einschränken auf URL-Muster wie /blog/ oder /api/. Ohne aktiven Filter werden bis zu 50 URLs angezeigt, mit aktivem Filter bis zu 200 Treffer.

Browser-Auslastungsanzeige

Das Tool zeigt in Echtzeit, wie viele Einträge geladen sind im Verhältnis zum Gesamtlimit von 250.000. Die Farbkodierung (Niedrig / Mittel / Hoch / Limit) schützt vor Browser-Abstürzen durch frühzeitige Warnung, bevor das Limit erreicht wird.

Schritt-für-Schritt

Schritt 1: Access Log besorgen

Das Access Log liegt auf deinem Webserver. Bei Apache typischerweise unter /var/log/apache2/access.log, bei Nginx unter /var/log/nginx/access.log. Bei Shared Hosting findest du es im Dateimanager des Hosting-Panels oder lädst es per FTP/SFTP herunter. Bei manchen Anbietern muss das Logging erst in den Server-Einstellungen aktiviert werden.

Ein einzelner Tag reicht meistens nicht aus. Bot-Crawling-Aktivitäten schwanken, und einzelne Tage können ein verzerrtes Bild liefern. Logs über mindestens zwei bis vier Wochen sind aussagekräftiger.

Schritt 2: Datei einlesen

Lade eine oder mehrere Dateien per Drag & Drop oder Dateiauswahl. Unterstützte Formate: .log, .log.gz, .txt. Mehrere Dateien können gleichzeitig geladen und zu einer gemeinsamen Auswertung zusammengefasst werden, nützlich bei Log-Rotation mit Dateien wie access.log.1, access.log.2.gz.

Größenlimits zum Schutz vor Browser-Abstürzen:

Unkomprimierte Dateien (.log, .txt): maximal 75 MB pro Datei
Komprimierte Dateien (.gz): maximal 10 MB komprimiert (entspricht je nach Kompressionsrate ca. 300 bis 600 MB unkomprimiert)
Einträge gesamt über alle Dateien: maximal 250.000

Wird ein Limit überschritten, bricht das Tool mit einer Fehlermeldung ab und nennt die betroffene Datei. Bereits verarbeitete Daten bleiben erhalten. Für sehr große Logs empfiehlt sich ein serverseitiges Tool wie GoAccess.

Schritt 3: Ergebnisse auswerten

Das Tool gibt eine Übersicht nach Bot, Zugriffsanzahl, gecrawlten URLs und Zeitraum aus. Die Bot-Analyse zeigt nicht nur, welche Crawler aktiv waren, sondern auch wie ihre Fehlerraten aussehen und ob sie deine robots.txt überhaupt abgerufen haben.

Schritt 4: Ergebnisse exportieren

Die Bot-Auswertung lässt sich als CSV exportieren, für die Dokumentation einer AI Search Baseline, zur weiteren Analyse im Spreadsheet oder als Grundlage für Entscheidungen zur Crawler-Strategie.

Bot-Datenbank: 56 bekannte Bots in 7 Kategorien

Das Tool erkennt 56 bekannte Bots und klassifiziert sie nach Funktion und Herkunft:

KI-Training — Crawler, die Inhalte für das Training von Sprachmodellen sammeln
KI-Suche / RAG — Systeme, die Inhalte für KI-gestützte Suchantworten abrufen
Suchmaschinen — klassische Crawler wie Googlebot oder Bingbot, teils mit Doppelfunktion
SEO-Tools — Crawlsimulationen von Analyse-Diensten wie Ahrefs, Semrush oder Majestic
Monitoring — Uptime- und Performance-Monitoring-Dienste
Security-Scanner — Sicherheitsscanner und Schwachstellenprüfer
Unbekannt — User-Agents, die Bot-Muster aufweisen, aber keinem bekannten Anbieter zugeordnet werden können

Die AI-spezifischen Bots (KI-Training und KI-Suche / RAG) im Überblick:

Bot	Betreiber	Zweck
GPTBot	OpenAI	Training und Retrieval für ChatGPT
ChatGPT-User	OpenAI	Browsing-Funktion in ChatGPT
ClaudeBot	Anthropic	Training und Retrieval für Claude
PerplexityBot	Perplexity	Retrieval für Perplexity AI
Google-Extended	Google	Training für Gemini und andere Google AI-Produkte
Googlebot	Google	Google Search inkl. AI Overviews (Doppelfunktion)
Bingbot	Microsoft	Bing Search inkl. Microsoft Copilot (Doppelfunktion)
Applebot-Extended	Apple	Training für Apple Intelligence
Meta-ExternalAgent	Meta	Training für Meta AI
Amazonbot	Amazon	Training und Retrieval für Alexa, Bedrock
Bytespider	ByteDance	Training für Douyin/TikTok AI-Systeme
cohere-ai	Cohere	Training und Retrieval
Diffbot	Diffbot	Datenextraktion für AI-Anwendungen
YouBot	You.com	Retrieval für You.com AI Search
img2dataset	diverse	Bilddaten-Sammlung für AI-Training

Die Liste wird bei Bedarf aktualisiert, wenn neue relevante AI-Crawler aktiv werden.

Technische Grenzen

Parameter	Wert
Max. Dateigröße (unkomprimiert)	75 MB
Max. Dateigröße (.gz komprimiert)	10 MB
Max. Einträge gesamt (alle Dateien)	250.000
Gleichzeitig ladbare Dateien	unbegrenzt, bis Gesamtlimit

Bei sehr großen Logdateien empfiehlt sich ein serverseitiges Tool wie GoAccess.

Was du mit den Ergebnissen anfangen kannst

Die Auswertung zeigt dir, welche KI-Systeme deine Inhalte tatsächlich crawlen. Das ist eine der wenigen direkt messbaren Eingangsvariablen in einem ansonsten weitgehend intransparenten System.

AI Search Baseline vervollständigen

Die Crawling-Daten aus deinem Log sind der einzige Beleg dafür, dass ein AI-System deine Seiten überhaupt besucht hat. Als Teil einer vollständigen AI Search Baseline dokumentierst du damit die Eingangsseite des Systems, nicht nur die Ausgabe.

robots.txt-Entscheidungen fundieren

Wenn bestimmte Bots intensiv crawlen, du aber in den entsprechenden AI-Systemen nicht auftauchst, ist das eine Information. Genauso, wenn Bots Seiten abrufen, die du nicht für AI-Systeme freigeben willst. Das Tool zeigt außerdem, ob Bots deine robots.txt überhaupt abgerufen haben. Ein Bot, der keine robots.txt abruft, ignoriert sie mit hoher Wahrscheinlichkeit auch.

Unbekannte oder unerwünschte Crawler identifizieren

Neben den bekannten AI-Bots tauchen im Log regelmäßig User-Agents auf, die Crawler imitieren oder keiner bekannten Quelle zugeordnet werden können. Das Tool kennzeichnet sie separat.

Einen ausführlichen Leitfaden dazu, welche AI-Crawler du zulassen solltest und was die Entscheidung für deine AI-Sichtbarkeit bedeutet, findest du hier:

→ AI Crawler Strategie: Wer sie wirklich braucht, was sie bringt

Häufig gestellte Fragen

Welche Log-Formate werden unterstützt?

Apache Combined Log Format, Nginx Default Log Format, cPanel, Plesk, Mittwald Space Server (inkl. Virtual-Host-Feld) und all-inkl.com (Apache mit Traffic- und ReqTime-Feldern). Das sind die gängigsten Formate der verbreitetsten Webserver und Hosting-Umgebungen im DACH-Raum. Benutzerdefinierte Log-Formate werden aktuell nicht unterstützt.
Wie komme ich an mein Access Log?

Bei Shared Hosting in der Regel über den Dateimanager im Hosting-Panel (cPanel, Plesk, IONOS, Strato usw.) oder per FTP/SFTP. Bei VPS oder dedizierten Servern liegt das Log typischerweise unter /var/log/apache2/access.log oder /var/log/nginx/access.log. Falls du keinen direkten Zugriff hast, frag deinen Hosting-Anbieter nach einem Log-Download.
Kann ich mehrere Log-Dateien gleichzeitig analysieren?

Ja. Du kannst mehrere Dateien auf einmal einlesen, zum Beispiel bei Log-Rotation mit Dateien wie access.log.1, access.log.2.gz. Das Tool fasst die Ergebnisse zu einer gemeinsamen Auswertung zusammen. Die Größenlimits gelten pro Datei (75 MB für .log/.txt, 10 MB für .gz), das Eintrags-Limit von 250.000 gilt für den gesamten Einlesevorgang über alle Dateien.
Werden meine Log-Daten irgendwo gespeichert?

Nein. Die Verarbeitung findet vollständig im Browser statt. Es wird nichts übertragen, nichts gecacht, nichts gespeichert. Wenn du den Tab schließt, sind die Daten weg.
Was bedeutet es, wenn ein bekannter AI-Bot gar nicht im Log auftaucht?

Entweder crawlt der Bot deine Website aktuell nicht, oder er ist in deiner robots.txt blockiert, oder er nutzt IP-Adressen ohne erkennbaren Bot-User-Agent. Letzteres ist selten, aber möglich. Ein fehlendes Crawling-Signal bedeutet nicht zwingend, dass deine Inhalte nicht im Training der entsprechenden Modelle vorhanden sind. Trainingsdaten können aus früheren Crawls stammen.
Was sind "unbekannte Bots" in der Auswertung?

User-Agents, die Muster bekannter Bots imitieren oder Bot-ähnliche Bezeichnungen tragen, aber keinem bekannten Anbieter sicher zugeordnet werden können. Sie werden separat ausgewiesen, weil sie in der Praxis regelmäßig auftauchen.
Kann ich die Ergebnisse für meine robots.txt nutzen?

Indirekt ja. Die Auswertung zeigt, welche Bots aktiv sind, was sie crawlen, und ob sie deine robots.txt abgerufen haben. Daraus lässt sich ableiten, ob deine Direktiven greifen und ob Anpassungen sinnvoll sind.

Wenn die Auswertung Fragen aufwirft, die ein Tool nicht beantworten kann, bin ich der richtige Ansprechpartner.

Ich helfe dir einzuordnen, was die Zahlen bedeuten, und was sich daraus für deine SEO- und AI-Search-Strategie ableiten lässt.

Kontaktaufnahme