Schmarotzer KI: Wem gehört das Internet?
Es sollte sich mittlerweile rumgesprochen haben: KI denkt nicht. Schreiben kann KI auch nicht. KI hat einfach eine riesige Datenbank vor die Nase gesetzt bekommen und bastelt aus Einzelteilen (mehr oder weniger gute) Texte. Kann funktionieren, kann aber auch nicht.
Wisst ihr auch, dass generative KI (z. B. ChatGPT, Microsoft Copilot, Google Gemini) gnadenlose Schmarotzer sind? Wir können sie auch Zechpreller nennen, denn nichts anderes passiert.
Generative KI: betreuter Mundraub, Diebstahl, parasitäres Verhalten
Ungefragt und ohne zu bezahlen greifen sich LLMs unfassbare Mengen an Daten, also Texte, Fotos, Grafiken etc., aus dem Internet, speichern alles in monströsen Datenbanken und verwursten alles – ohne sich um Datenschutz, Urheberrechte und Bezahlung zu scheren. Google, Microsoft und alle anderen verdienen auf Kosten anderer. Indem sie Abos und/oder Daten verkaufen.
Empörung?
Im Gegenteil!
Immer mehr Menschen nutzen tagtäglich KI. Es gestaltet sich schwierig, repräsentative Zahlen zu finden, aber ein paar habe ich gefunden.
EY hat in 9 europäischen Ländern knapp 5000 Arbeitnehmende befragt:
- In der Schweiz verwenden 86 % der Schweizer:innen KI.
- 76 % befürchten, KI führt zu Jobabbau.
- 43 % haben Angst um den eigenen Job.
- Die Verbindung zwischen der Verwendung und dem eigenem Job/Leben zieht niemand.
Bitkom sagt, dass ca. 67 Prozent der Deutschen generative KI nutzen. Hauptsächlich ChatGPT, Microsoft Copilot und Google Gemini, also OpenAI, Microsoft und Google. Andere sagen, 38 bis 44 % nutzen mehr oder weniger regelmäßig generative KI, häufig oder sehr häufig sind es 11 bis 14 %.
Nun wird es spannend!
- 37 % der Menschen in Deutschland würden für besseren Datenschutz auf Komfort verzichten.
- Für Komfort bezahlen wollen lediglich 32 %.
- 39 Prozent möchten lieber kostenfreie Angebote, auch wenn sie dafür mit persönlichen Daten zahlen.
- Auch hier bleibt der Kontext offen, die Diskrepanz sichtbar.
Der Markt ist da, die Menschen auch, doch wer kümmert sich darum, was mit den eingesammelten Daten passiert und wer produziert die Original-Daten, die an das Urheberrecht gebunden sind? Wie werden sie bezahlt und entschädigt? Für ihre Arbeit, ihre Zeit, ihr Wissen, ihre Erfahrung! Wer bittet KI-Unternehmen zur Kasse?
Crawler, Web-Crawler, Bots und KI
Zurück auf Anfang: Wie kommt generative KI an die Daten? Simpel: Mit Bots, Web-Crawlern und Crawlern. Diese hungrigen Biester sind kleine Programme, die stetig das Internet nach Futter durchsuchen. Frischfutter spüren sie auf, abgestandenes ebenfalls. Das Futter besteht aus Inhalten (Text, Foto, Grafik etc.), Verweisen/Links, Daten usw. Suchmaschinen, z. B. Google, indexieren auf diese Weise Websites und listen die Ergebnisse auf. Immerhin bekommen Menschen mit einer Website etwas zurück, sie werden gelistet und die Suchmaschine leitet auf entsprechende Webseiten weiter.
KI-Systeme funktionieren ähnlich: Sie sammeln ebenfalls Daten, um damit KI-Modelle zu füttern. Dabei leiten sie kaum jemanden auf eine Website, also die Urheber:innen der Inhalte weiter, die wiederum kostenlos für KI arbeiten. KI nimmt, gibt aber nichts. Im Gegenteil! KI nimmt unbezahlt und ungefragt „Content“ und gibt alles weiter an Menschen, die KI nutzen. Das ist Diebstahl! Derzeit passiert das (in den allermeisten Fällen) kostenlos – für die Urhebenden. Die Nutzenden zahlen mit ihren Daten (Ja, mit jeder Anfrage), was wiederum vielen egal ist. Abos wollen die meisten Nutzenden auch nicht bezahlen. Auch da stehen die Urheber:innen mit leeren Taschen da. Wobei ich bezweifel, dass KI-Unternehmen etwas abgeben wollen/würden.
Die Größenordnungen des systematischen Mundraubs – Beispiele, die Cloudflare nennt:
- OpenAI, also ChatGPT ruft ca. 1.700 Websites auf, um eine Antwort zu geben und lediglich ein Nutzender wird an die Website mit dem Originalwissen weitergeleitet.
- Google bringt einen Klick auf eine Website pro 18 Zugriffe, vor 10 Jahren waren es noch 2 gecrawlte Seiten für eine Weiterleitung zur Ursprungsseite.
- Claude.ai, also Anthropic scannt sage und schreibe 73.000 Seiten für eine Weiterleitung zum Originalinhalt.
- Zum Mitschreiben: KI nutzt sehr, sehr viel Wissen, das nicht auf dem eigenen Mist gewachsen ist, gibt nichts zurück und zahlt nicht.
Cloudflare zeigt einen Weg: „Pay per Crawl“
Nun kommt Cloudflare ins Spiel. Cloudflare ist ein Unternehmen in den USA und betreibt ein Geschäftsmodell, das aus Bereitstellung, Optimierung und Absicherung von Webseiten und Internetdiensten besteht – natürlich haben sie ein Interesse daran, dass das Internet läuft und floriert.
Doch der Gedanke geht weiter und betrifft uns alle auf beiden Seiten des Smartphones und jede generative KI: „Die bisherige Praxis, Inhalte automatisiert zu erfassen und ohne Rückverweis oder Vergütung in KI-Systemen zu verwenden, sei nicht mehr tragbar“, findet der CEO von Cloudflare.
Im echten Leben bedeutet das: Wer Informationen (Daten, Texte, Fotos etc.) will, soll zahlen. Cloudflare führt daher eine Gebühr ein, die „Pay per Crawl“ heißt:
- KIs müssen für das Auslesen von Websites bezahlen.
- Wer eine Website betreibt, entscheidet, ob KI und Suchmaschinen Zugriff haben dürfen, blockiert werden oder eine Gebühr bezahlen.
Seit September 2024 können Kundinnen und Kunden von Cloudflare KI-Crawler ausschließen. Das machen derzeit etwa 1 Millionen Betreiberinnen und Betreiber. Seit dem 1. Juli blockiert Cloudflare (in einer Beta-Version) standardmäßig KI-Zugriffe. Die Beträge (deren Höhe ich nicht gefunden habe) zieht Cloudflare ein und leitet sie weiter. Die Liste der Nutzenden kann sich sehen lassen und wird immer länger: Websites und Plattformen wie TIME, BuzzFeed, Reddit, The Atlantic, Snopes, Sky News Group, USA TODAY Network, Reddit, Quora, Pinterest usw.
Cloudflare hat auch einen Marktplatz eingerichtet, über den ich als Inhalte-Lieferantin, KI-Unternehmen zur Kasse bitten kann. Ich lege einen Preis fest und KI darf nur Inhalte abgreifen, wenn sie dafür bezahlen. Oder ich blockiere sie, dann gibt es nichts.
Gerechtigkeit statt Schweigegeld
Klingt fair, finde ich. Ich behalte die Kontrolle über meine Inhalte, und meine Kund:innen und Kolleg:innen ebenfalls. Originalinhalte wären relevant und würden nicht kostenlos zur Verfügung stehen. Derzeit gibt es wenige Anreize, hochwertige Inhalte zu erstellen: „Wenn du keine Abos verkaufen kannst, keine Werbung und keinen Ruhm bekommst – warum sollte jemand noch Inhalte produzieren?“, fragt Cloudflare.
Cloudflare betont, so „ein neues Gleichgewicht zwischen Content-Erstellerinnen und KI-Unternehmen schaffen“. „Zudem haben KI-Unternehmen die Möglichkeit, transparent anzugeben, ob sie Daten für Training, Inferenz oder Suchzwecke nutzen. Betreiberinnen und Betreiber von Websites entscheiden dann, ob sie den Zugriff erlauben.“
Es wird Auswirkungen haben. Auf KI, alle, die KI nutzen und die, die Inhalte „produzieren“. OpenAI ist zwar bereit, für Inhalte zu zahlen, will das aber nicht via Cloudflare tun. Es bleibt abzuwarten.
Was passiert, wenn LLMs sich weigern zu zahlen – und nicht mehr auf Inhalte zugreifen können:
- Könnte KI nicht kostenlos und ungefragt abgreifen, würden LLMs keine oder nur eingeschränkt Infos, Texte, Fotos, Grafiken etc. haben. Sie könnten kein Geld verdienen, indem sie Daten und Abos verkaufen – und müssten Geld bezahlen.
- Gerade wenn es um aktuelle Themen geht, würden die Antworten ungenau und die Informationen veraltet sein.
- Zudem kann KI nur noch nutzen, was kostenlos und unblockiert vorhanden ist – egal, ob es gut und korrekt ist oder nicht. Oder es ist nur 08/15-Gewäsch, das KI wiederkäut. Oder es sind Fake-News. Oder lapidare Werbetexte. Oder Schrott.
- Irgendwann ist die Testphase der kostenlosen KIs durch, dann wird Geld verdient. Was meint ihr, wer wird zahlen? Die Unternehmen oder die Nutzenden? Die Kosten landen bei denen, die KI nutzen, über Abos oder eingeschränkte Gratisversionen oder über Daten.
- Derzeit sind die meisten LLMs offen zugänglich, kostenfrei und/oder günstig zu haben, die Frage der Nutzungsrechte ist nicht geklärt und der Markt, das Business ist auch noch nicht geregelt. Aber das wird sich ändern. Und sobald Regeln, Ownership und Lizenzen entstehen, entstehen auch wieder neue Chancen und damit neue Geschäftsmodelle.
- „Der US-amerikanische SEO-Experte Bill Hartzer sieht das System kritisch: «Für 99 Prozent der Webseiten ist das eine Traffic-Falle, verkleidet als Einnahmequelle.» Nur grosse Seiten könnten es sich leisten, Gebühren zu erheben. Kleinere Anbieter riskieren, von KI- Systemen ignoriert zu werden. Hartzer rät ihnen, den Zugriff freizugeben, um sichtbar zu bleiben.“ Also, der Markt regelt es? Bisschen einfach gedacht.
- Die Frage ist, was passieren wird, und wann und wie. Und es wird sich etwas ändern (müssen).
Außenvor gelassen habe ich die vielen Umweltaspekte und -schäden, die LLMs mitbringen und verursachen: KI verbraucht Unmengen an Energie für jede Anfrage, für jedes Crawlen, für das Speichern der enormen Datenmengen etc. Und dazu riesige Mengen Wasser, um den ganzen Technikkram zu kühlen. Atomkraftwerke? Gute Idee, regelmäßig müssen AKW bei Hitzewellen abgeschaltet werden, dazwischen gibt es Unwetter und die Abfälle, die bei Atomkraft anfallen, wohin damit? Zudem haben wir gar nicht ausreichend Uran, um sie zu betreiben.
Nein, ich habe nichts gegen KI, wenn sie sinnvoll eingesetzt wird, und nicht als Gadget, Bespaßung oder Betreuung für faule Menschen. Möglichkeiten sollten wir nutzen, Diebstahl ist aber nie eine Legitimation, Umweltsauerei auch nicht.
Lesenswerte Links und Quellen:
ChatGPT und Co. zapfen Inhalte ab – jetzt sollen sie zahlen
Danke @c_pra, @deuxcvsix, @bierino
ja, klar – KI ist und bleibt ein übler parasit, der auf kosten all derer, die sich die mühe machen, selber zu denken und kreative leistungen zu erbringen (und der allgemeinheit zur verfügung zu stellen) bereichert. ich frage mich aber, ob ein privater, kommerzieller dienst wie cloudflare die lösung ist. wären nicht öffentliche, demokratisch legitimierte lösungen erstrebenswerter?
Das wäre nicht nur wünschens- und erstrebenswert, sondern schlicht notwendig. Sollten nicht die bezahlt werden, die „Content“ und „Futter“ erstellen? Die Politik ist gefragt – und sollte nicht „unternehmensfreundlich“ sein.