robots.txt 2026: Ehrenkodex, Waffe oder Geschäftsmodell?

Eine unscheinbare Textdatei steckt gerade mitten in einem der interessantesten Konflikte des modernen Webs. Wer sie liest, versteht mehr über Macht, Geld und die Zukunft von SEO als aus den meisten Strategiepapieren der Branche.

robots.txt wurde 1994 erfunden. Das Web hatte damals ungefähr so viel Komplexität wie ein Ikea-Regal ohne Anleitung. Die Idee war simpel. Ein Textdokument im Stammverzeichnis einer Website teilt Crawlern mit, welche Bereiche sie besuchen dürfen und welche nicht. Freiwillig, versteht sich. Keine technische Durchsetzung, kein Gesetz, keine Garantie. Ein Ehrenkodex unter Maschinen.

Dreißig Jahre später ist das Web etwas unübersichtlicher geworden. KI-Crawler durchforsten das Netz nicht mehr nur um Seiten zu indexieren, sondern um Trainingsdaten für große Sprachmodelle zu sammeln. Plötzlich ist diese kleine Textdatei zum strategischen Dokument geworden. Zu einer Verhandlungsposition. Manchmal zu einer Rechtswaffe. Und in einigen Fällen zu einem gut kaschierten Geschäftsmodell.

Ich habe mir die robots.txt von 20 der bekanntesten Websites der Welt angesehen. Das Ergebnis ist aufschlussreicher als erwartet.

Die eine Konstante

Bevor es um Strategien, Deals und juristische Winkelzüge geht, gibt es eine Beobachtung, die alles andere rahmt.

Bei 18 von 20 untersuchten Websites läuft Googlebot ungehindert durch. CNN, BBC, New York Times, Spiegel, FAZ, Zeit.de, Reddit, LinkedIn, alle lassen Googles Hauptcrawler rein, ohne Einschränkung. Die einzigen Ausnahmen sind Reddit und LinkedIn, und beide haben dafür strukturelle Gründe, die nichts mit Feindseligkeit gegenüber Google zu tun haben.

Das ist die härteste empirische Aussage, die man über SEO 2026 machen kann. Wer Google-Traffic will, und das will noch immer fast jeder, lässt Googlebot durch. Alles andere ist verhandelbar.

Google hat im Mai 2026 nochmals klargestellt, dass AI Overviews und AI Mode auf denselben Ranking-Systemen basieren wie die klassische Suche. Wer organisch sichtbar ist, erscheint automatisch in KI-generierten Antworten. Eine separate Optimierung für KI-Suche, wie sie manche Berater gerade unter Labels wie GEO oder AEO verkaufen, ist aus Googles Sicht schlicht überflüssig. Gutes SEO bleibt gutes SEO. Das war schon immer so, und es wird so bleiben.

Wer das als Entwarnung liest, liest es falsch. Die Spielregeln sind dieselben, das Spielfeld hat sich verändert. Mehr dazu gleich.

Die neuen Strategien für robots.txt

Was sich fundamental verändert hat, ist der Umgang mit allen anderen Crawlern. Hier trennen sich die Wege, und zwar so deutlich, dass man drei klar unterscheidbare Lager erkennen kann.

Der letzte Ehrenkodex

Wikipedia lässt jeden durch. GPTBot, ClaudeBot, Perplexity, Google-Extended, alle willkommen. Die Wikimedia Foundation ist gemeinnützig und hat kein Geschäftsmodell zu schützen. Im Gegenteil: Je mehr Systeme Wikipedia-Inhalte nutzen, desto mehr erfüllt die Organisation ihre eigene Mission. Wissen soll fließen, das war schon immer der Gedanke.

Das ist robots.txt in ihrer ursprünglichsten Form. Ein Signal ohne kommerzielle Hintergedanken. Schön, dass es das noch gibt, auch wenn Wikipedia in dieser Hinsicht inzwischen ziemlich allein dasteht.

Wenn die Textdatei zur Waffe wird

Die New York Times klagt seit Dezember 2023 gegen OpenAI und Microsoft wegen der unerlaubten Nutzung von Millionen ihrer Artikel zum Training von KI-Modellen. Im März 2025 hat ein Bundesrichter alle zentralen Copyright-Klagen zugelassen und den Fall damit auf den Weg in Richtung Hauptverhandlung gebracht. Ein Prozessdatum steht noch aus. Die Schadensersatzforderungen bewegen sich im Milliardenbereich.

Die robots.txt der NYT ist die technische Verlängerung dieser Rechtsstrategie. GPTBot draußen, ClaudeBot draußen, Perplexity draußen, sogar archive.org draußen. Wer später vor Gericht nachweisen will, dass er nie Zugang gewährt hat, dokumentiert das sauber in seiner robots.txt. Das Dokument wird zum Beweisstück.

BBC und Zeit.de verfolgen eine ähnliche Richtung, wenn auch aus unterschiedlichen Motiven. Die BBC als öffentlich-rechtlicher Weltkonzern schützt ihren Inhalt, weil er ihr gehört und weil sie keine Lizenzgebühren verschenken will. Zeit.de und FAZ gehen einen Schritt weiter und haben identische rechtliche Hinweise direkt in ihre robots.txt geschrieben. Beide behalten sich das Recht zur kommerziellen Daten- und Textnutzung ausdrücklich vor und berufen sich dabei auf § 44b UrhG, das deutsche Urheberrecht zum Text und Data Mining. Ob dieser Vorbehalt gegenüber US-amerikanischen Unternehmen ohne EU-Niederlassung tatsächlich gerichtsfest durchgesetzt werden kann, ist eine offene Rechtsfrage. Das Signal ist trotzdem klar. Hier wird nicht eingeladen, hier wird reserviert.

Seit August 2025 verpflichtet der EU AI Act Anbieter sogenannter General Purpose AI Modelle dazu, robots.txt-Opt-outs zu respektieren. Das schafft erstmals eine rechtliche Grundlage im europäischen Raum, auch wenn die praktische Durchsetzung noch erprobt werden muss. Für deutsche Publisher ist das ein zusätzliches Argument, ihr robots.txt-Setup sorgfältig zu dokumentieren.

Das Geschäftsmodell: Die robots.txt als Preisliste

Reddit hat seine robots.txt mit einem schlichten User-agent: * und Disallow: / auf null gestellt. Alles gesperrt, für jeden. Das klingt radikal, ist aber in Wirklichkeit das Gegenteil von Isolation.

Reddit hat im Februar 2024 einen Lizenzvertrag mit Google über geschätzte 60 Millionen Dollar jährlich abgeschlossen. Der Datenzugang läuft nicht über robots.txt, sondern über eine direkte API. Wer zahlt, bekommt Zugang. Wer nicht zahlt, kommt nicht rein. Insgesamt hat Reddit laut eigenen SEC-Unterlagen rund 203 Millionen Dollar aus KI-Lizenzverträgen über drei Jahre gesichert. Die robots.txt ist die öffentliche Absicherung für alle, die nicht Teil dieser Vereinbarungen sind.

The Guardian und The Verge zeigen dieselbe Logik in einer feineren Variante. Beide haben Lizenzverträge mit OpenAI abgeschlossen. The Guardian hat seinen Deal im Februar 2025 offiziell bekannt gegeben. The Verge ist Teil von Vox Media, das bereits im Mai 2024 eine Partnerschaft mit OpenAI unterzeichnet hat. GPTBot läuft in beiden robots.txt-Dateien ungehindert durch. ClaudeBot und Perplexity sind gesperrt. Das ist kein Zufall und keine Inkonsistenz. Das ist saubere Buchführung. Wer einen Vertrag hat, bekommt Zugang. Alle anderen zahlen den Preis der Unsichtbarkeit.

The Verge macht das noch transparenter. Sponsored Content darf von allen Crawlern besucht werden, redaktionelle Inhalte nicht. Die Monetarisierungsstrategie ist direkt in die robots.txt eingebaut.

Im Mai 2024 hat Stack Overflow ebenfalls eine Partnerschaft mit OpenAI abgeschlossen und seine robots.txt enthält neben den üblichen Sperren ein bemerkenswertes Detail. Das selbst erfundene Feld Content-signal: search=no, ai-train=no ist kein anerkannter Standard, kein Browser und kein Crawler muss es respektieren. Aber es ist ein Statement. Stack Overflow zeigt damit, was sie wollen, und signalisiert gleichzeitig, dass robots.txt allein längst nicht mehr ausreicht.

Das führt direkt zum eigentlichen Kernproblem.

Was robots.txt nicht kann

robots.txt ist eine freiwillige Konvention. Seriöse Crawler wie Googlebot halten sich daran. Ob alle KI-Crawler das in der Vergangenheit immer getan haben, daran gibt es berechtigte Zweifel. Eine Studie der Duke University vom Mai 2025 analysierte 130 deklarierte Crawler über 40 Tage und kam zu einem ernüchternden Ergebnis: Bestimmte Kategorien von KI-Suchcrawlern prüfen robots.txt kaum oder gar nicht. Der Vorwurf, dass Inhalte trotz Sperrung für das Modell-Training verwendet wurden, ist einer der Kernpunkte der NYT-Klage gegen OpenAI.

Der Fall Perplexity

Der drastischste dokumentierte Fall ist Perplexity. Im August 2024 veröffentlichte Cloudflare auf seinem eigenen Blog eine forensische Analyse, die zeigt, dass Perplexity zwei parallele Crawling-Systeme betreibt. Einen deklarierten Crawler mit dem offiziellen User-Agent PerplexityBot, und einen nicht deklarierten Crawler, der sich als normaler Chrome-Browser auf einem Mac ausgibt, konkret mit dem User-Agent-String „Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36“. Laut Cloudflare generierte dieser Stealth-Crawler täglich drei bis sechs Millionen zusätzliche Anfragen, zusätzlich zu den 20 bis 25 Millionen Anfragen des deklarierten Crawlers.

Cloudflare hatte zu diesem Zweck eigens neu registrierte Testdomains mit strikten robots.txt-Sperren aufgesetzt und konnte trotzdem Zugriffe nachweisen. Perplexity hat die Vorwürfe zurückgewiesen. Ein Sprecher bezeichnete Cloudflares Blogpost als „Sales Pitch“ und erklärte, die identifizierten Bots seien nicht die ihren. Cloudflare hat Perplexity daraufhin aus seinem Verified-Bots-Programm ausgeschlossen und aktiv geblockt.

Was das für robots.txt bedeutet: Wer PerplexityBot in seiner robots.txt sperrt, ist laut Cloudflare-Dokumentation möglicherweise trotzdem nicht geschützt, weil ein zweiter, undeklarierten Crawler im Einsatz war. Das ist kein theoretisches Szenario. Das ist ein dokumentierter Vorfall, der zeigt, wo die Grenzen des Ehrenkodex liegen.

Der Fall Meta

Perplexity ist der lauteste Fall, Meta ist der größte. Laut Cloudflare-Daten ist Meta-ExternalAgent inzwischen der zweitgrößte KI-Crawler im gesamten Web, nach Googlebot, mit rund 14% des gesamten AI-Bot-Traffics. Er sendet dabei nahezu keinen Referral-Traffic zurück. Fortune berichtete im August 2024 als eines der ersten großen Medien, dass Meta diesen Crawler still und ohne öffentliche Ankündigung lanciert hatte. Ein Meta-Sprecher bestätigte die Existenz des Crawlers, bezeichnete ihn jedoch als Weiterentwicklung eines bestehenden Systems und verwies auf die gängige Praxis, öffentlich zugängliche Inhalte für KI-Training zu verwenden.

In 19 der 20 untersuchten robots.txt-Dateien ist Meta-ExternalAgent gesperrt. Nur Wikipedia lässt ihn durch. Das ist die höchste Ablehnungsrate aller Crawler in unserer Analyse, höher als GPTBot, höher als ClaudeBot.

Im Dezember 2025 hat Meta Lizenzverträge mit CNN, Fox News, USA Today, Le Monde und weiteren Publishern abgeschlossen, bestätigt durch CNBC. Diese Deals ermöglichen Meta AI den Zugriff auf Echtzeit-Inhalte der Partner. Finanzielle Details wurden nicht veröffentlicht. Auffällig: Auch CNN, das einen Lizenzvertrag mit Meta hat, sperrt Meta-ExternalAgent in seiner robots.txt. Das deutet darauf hin, dass der Datenzugang über separate vertragliche Kanäle läuft, nicht über robots.txt-Freigaben. Dasselbe Muster, das wir bei Reddit gesehen haben.

Was den Fall Meta von allen anderen unterscheidet, sind die Vorwürfe die in laufenden Gerichtsverfahren erhoben werden. Am 5. Mai 2026 haben fünf große Verlagshäuser, darunter Hachette, Macmillan und McGraw-Hill, Meta und Mark Zuckerberg persönlich verklagt. Laut Klageschrift, die Hachette Book Group öffentlich veröffentlicht hat, soll Meta 267 Terabyte piratierter Inhalte aus Quellen wie LibGen und Anna’s Archive heruntergeladen haben, um sein Llama-Modell zu trainieren. Interne Dokumente, die im Rahmen des Verfahrens bekannt wurden, zeigen laut Klägern, dass Mitarbeiter wussten, dass das Material aus illegalen Quellen stammte. Zuckerberg soll die Entscheidung persönlich genehmigt haben, nachdem Meta erwogen hatte, die Werke zu lizenzieren, und sich dagegen entschied. Reuters und ABC News haben das Verfahren dokumentiert.

Wichtig: Das sind Vorwürfe aus einer laufenden Klage, kein rechtskräftiges Urteil. Meta weist die Vorwürfe zurück und beruft sich auf Fair Use. Der Fall liegt vor dem Bundesgericht in Manhattan.

robots.txt war für Meta nie die entscheidende Frage. Die Frage war, ob man für Inhalte bezahlt. Und die Antwort war, zumindest laut Klage: nicht immer.

Der Unterschied zwischen Googlebot und Google-Extended

Wer ihn noch nicht kennt, sollte ihn kennen. Google-Extended ist der Crawler, den Google explizit für das Training seiner KI-Modelle einsetzt. Wer ihn sperrt, schützt seine Inhalte vor dem Modell-Training, bleibt aber trotzdem in AI Overviews sichtbar, weil Googlebot weiterhin indexiert und Google für AI Overviews denselben Index nutzt. Das ist eine Unterscheidung, die strategisch relevant ist und beim Konfigurieren der robots.txt häufig übersehen wird. CNN und der Tagesspiegel haben Google-Extended durchgelassen, BBC und die NYT nicht. Alle vier lassen Googlebot durch. Zufall ist das keiner.

Wer ernsthaft schützen will, greift ohnehin zu anderen Mitteln. Cloudflare und vergleichbare WAF-Lösungen können Crawler auf IP-Ebene, Verhaltensebene oder per Bot-Fingerprinting blockieren, bevor sie überhaupt eine robots.txt lesen. Sogenannte Honeypot-Links, also versteckte Verweise, die nur Crawler sehen und keine menschlichen Nutzer, identifizieren unerwünschte Bots und sperren sie automatisch aus. Was BBC und Spiegel in ihrer robots.txt zeigen, ist nur die Spitze ihrer tatsächlichen Abwehrstrategie.

llms.txt: Gute Idee, schlechtes Timing

Weil robots.txt so offensichtlich an ihre Grenzen stößt, gibt es Bestrebungen, einen neuen Standard zu etablieren. llms.txt wurde 2024 von Jeremy Howard, Mitgründer von fast.ai, vorgeschlagen. Die Grundidee ist nachvollziehbar. robots.txt kann nur steuern, ob ein Crawler eine URL besuchen darf oder nicht. llms.txt soll KI-Systemen maschinenlesbar mitteilen, welche Inhalte zu welchem Zweck genutzt werden dürfen, mit deutlich mehr Granularität als robots.txt jemals erlauben könnte.

Das klingt vernünftig. Das Problem ist die Realität.

Google hat öffentlich erklärt, llms.txt nicht zu unterstützen. Anthropic hat keinen dokumentierten Support. OpenAI ebenfalls nicht. Es gibt keinen einzigen großen KI-Anbieter, der den Standard offiziell respektiert. Bemerkenswert ist allerdings, dass Google llms.txt inzwischen als Check in Chrome Lighthouse integriert hat. Das Tool prüft künftig ob eine Website die Datei hat oder nicht. Ein Widerspruch ist das nicht. Lighthouse prüft Best Practices, keine Rankingfaktoren. Google nimmt llms.txt zur Kenntnis, ohne daraus eine Ranking-Relevanz abzuleiten. Zeit.de hat llms.txt implementiert, was Problembewusstsein zeigt. Ob irgendjemand drauf hört, ist eine andere Frage.

Ein Standard wird er erst dann, wenn die Industrie ihn adoptiert. Das setzt voraus, dass KI-Unternehmen ein Interesse daran haben, ihren eigenen Datenzugang freiwillig zu beschränken. Dieses Interesse ist bisher nicht erkennbar. Wer hofft, mit einer llms.txt seine Inhalte vor unerwünschter KI-Nutzung zu schützen, vertraut darauf, dass Unternehmen freiwillig auf Daten verzichten, die sie für das Training ihrer Modelle brauchen. Wie zuverlässig freiwillige Selbstbeschränkung in diesem Bereich funktioniert, zeigt die Geschichte mit robots.txt ziemlich deutlich.

llms.txt ist ein guter Gedanke. Aber ein Gedanke ohne Durchsetzungskraft. Wer es implementiert, verliert nichts. Wer glaubt, damit sein Urheberrecht zu schützen, verlässt sich auf einen Ehrenkodex, den die andere Seite bisher nicht unterzeichnet hat.

Die Datenlage: 20 Websites, eine Tabelle, klare Muster

Hier ist die Übersicht der 20 untersuchten Websites:

Website Branche Googlebot Google-Extended GPTBot ClaudeBot Perplexity Meta Motiv
CNNNews/TVJaJaNeinNeinNeinNeinkommerziell
SpiegelNewsJaJaNeinNeinNeinNeinkommerziell
SternNewsJaNeinNeinJaNeinNeinunklar
TagesspiegelNews/BerlinJaJaNeinNeinJaNeinselektiv
Zeit.deNewsJaNein*NeinNeinNeinNeinrechtlich + selektiv
FAZNewsJaNein*Nein*NeinNeinNeinrechtlich + selektiv
GuardianNewsJaJaJaNeinNeinNeinLizenz/selektiv
The VergeTech-NewsJaNeinJaNeinNeinNeinLizenz/selektiv
WiredTech-NewsJaNeinJaNeinNeinNeinLizenz/selektiv
BBCNews/PublicJaNeinNeinNeinNeinNeinkommerziell
NYTNewsJaNeinNeinNeinNeinNeinrechtlich
TechcrunchTech-NewsJaNeinNeinNeinNeinNeinkommerziell
ESPNSport/EntertainmentJaNeinNeinNeinNeinNeinrudimentär
IMDBEntertainmentJaNeinNeinNeinNeinNeinKonzern
YelpLocal/BewertungenJaNeinNeinNeinNeinNeinWhitelist
LinkedInBusiness/SocialNeinNeinNeinNeinNeinNeinWhitelist/Datenschutz
RedditSocial/Q&ANeinNeinNeinNeinNeinNeinLizenzmodell
QuoraSocial/Q&AJaNeinNeinNeinNeinNeinDatenschutz
Stack OverflowTech/Q&ANeinNeinNeinNeinNeinNeinLizenz + neuer Standard
WikipediaEnzyklopädieJaJaJaJaJaJaMission/gemeinnützig

* mit Ausnahmen für lizenzierte oder kommerzielle Teilbereiche

Wer hat hier eigentlich das Sagen?

Was diese Analyse zeigt, geht weit über robots.txt hinaus.

Wer einen Lizenzvertrag mit OpenAI oder Google hat, braucht keine robots.txt-Strategie. Der Datenzugang ist vertraglich geregelt, alles andere ist Beiwerk. The Guardian, The Verge und Reddit spielen auf einer anderen Ebene. Für sie ist robots.txt kein Schutzinstrument mehr, sondern ein Türsteher, der nur für die gilt, die keinen VIP-Einlass haben.

Die unbequeme Wahrheit für den Rest

Kleine und mittelgroße Unternehmen haben keine Rechtsabteilung, die NYT-Klagen führen kann. Kein Budget für Enterprise-WAF-Lösungen. Keine Verhandlungsmacht für Lizenzdeals mit OpenAI oder Google. Und keine Entwicklerkapazität, um Honeypot-Infrastruktur aufzubauen. robots.txt ist für sie das einzige Instrument, das wirklich zur Verfügung steht. Gleichzeitig ist es das schwächste. Das ist eine strukturelle Asymmetrie, die sich in den nächsten Jahren eher verschärfen als auflösen wird.

Die pragmatische Schlussfolgerung daraus lautet nicht, dass man nichts tun soll. Sie lautet, dass man sich keine Illusionen machen sollte. robots.txt signalisiert Absicht, erzwingt aber nichts. Wer sich GEO-Optimierung oder llms.txt als Wundermittel verkaufen lässt, sollte Googles eigene Worte lesen. Gutes SEO ist gutes SEO. Strukturierte, eindeutige Inhalte, saubere Crawlbarkeit, echte Autorität auf einem Thema. Daran hat sich nichts geändert, egal wie viele neue Kürzel die Branche erfindet.

Das eigentlich Interessante an dieser ganzen Debatte ist nicht technischer Natur. Es ist eine Machtfrage. Wer hat Inhalte, die andere brauchen? Wer hat die Reichweite, um Bedingungen zu stellen? Und wer ist groß genug, um einen Ehrenkodex durch einen Millionenvertrag zu ersetzen?

robots.txt beantwortet all das, wenn man genau hinschaut. Man muss nur lesen.

Wer wissen will ob seine Website technisch und inhaltlich für die aktuelle Realität der KI-Suche vorbereitet ist, kann sich gerne bei mir melden. Was das konkret bedeutet, erkläre ich auf meiner Seite zu Technischem SEO.