Dieser Detektor entlarvt deutsche KI-Texte erstaunlich gut – und stammt von einem Studenten

Ein Student der Fachhochschule Wedel hat im Alleingang ein Programm entwickelt, um KI-generierte Texte zu enttarnen. Die Software hat eine hohe Trefferquote und weckt dadurch das Interesse von Unternehmen, Lehrern und Bildungseinrichtungen. Daher soll das sie nun zu einem Geschäft werden. Dennoch warnt der Entwickler, dass ein solcher KI-Detektor nicht genutzt werden sollte, um Schülern und Studierenden KI-Nutzung nachzuweisen.

Von Michael Förtsch

Hat ein Mensch diesen Text geschrieben oder eine Künstliche Intelligenz? Wirklich sicher kann sich da heute niemand mehr sein. Denn immer mehr Texte im Internet, aber auch auf Papier, stammen von KI-Systemen – oder entstehen zumindest mit deren Hilfe. Eine preisgekrönte japanische Autorin gestand erst kürzlich, dass ChatGPT ihr Co-Autor war. Auch Journalisten und Kreativarbeiter nutzen Sprachmodelle immer häufiger, um zu recherchieren, Ideen zu entwickeln oder Entwürfe zu schreiben. Manche Medien bieten außerdem knappe Zusammenfassungen der tagesaktuellen Nachrichten oder langer Artikel an, die von Large Language Models erstellt wurden.

Allerdings werden KIs wie ChatGPT, Copilot oder Gemini auch genutzt, um falsche Produktbewertungen zu schreiben, Desinformation zu verbreiten oder sogar bei Prüfungen zu schummeln. Auch plagiieren die Werkzeuge Texte anderer Quellen. Deshalb stehen selbst KI-Entwickler der Technologie indifferent gegenüber. Sie beseitige viele Probleme, aber schaffe eben auch neue.

Der Student Tom Tlok hofft, einige davon zu lösen. In den vergangenen Monaten hat er im Rahmen seiner Masterarbeit an der Fachhochschule Wedel eine Software entwickelt, die KI-generierte Texte enttarnen kann. Wirklich neu ist solch eine Software nicht. Der ChatGPT-Entwickler OpenAI selbst hatte mit dem Classifier im Januar 2023 eine ähnliche Lösung gestartet, aber bald wieder eingestellt. Denn der Classifier lieferte sehr ungenaue und allzu oft auch falsche Ergebnisse, genau wie viele andere KI-Detektoren. Ganz anders allerdings der KI-Detektor von Tlok: In zahlreichen Tests schaffte dieser „immer sehr gute Ergebnisse “, wie der Student zu 1E9 sagt. Um einen Text zu prüfen, muss dieser einfach in ein Textfenster kopiert und auf den Button „KI-Text erkennen“ geklickt werden. Anschließend gibt die Software an, mit welcher prozentualen Wahrscheinlichkeit ein Mensch oder eine KI den Text verfasst hat.

In 98 Prozent der Fälle soll das Programm mit seiner Einschätzung bei Testläufen richtig liegen, sagt Tlok – zumindest, was Texte aus derzeit populären Chatbots und Sprachmodellen angeht. Die öffentlich zugängliche Testversion soll insbesondere ChatGPT-Texte gut ausmachen können. Möglich macht das ein eigenes KI-Modell, welches hinter dem KI-Detektor steht. „Das erkennt die Unterschiede dazwischen, wie ein Mensch einen Text schreibt und wie eine KI einen Text schreibt", sagt Tlok. Beim Large Language Model werden Worte nicht basierend auf Sprachgefühl und -wissen gewählt, sondern anhand erlernter Wahrscheinlichkeiten und statistischer Muster aneinandergefügt. Diese sind in der Struktur der Sätze und der Wortwahl erkennbar. Zwar nicht für einen Menschen, aber durchaus für eine Maschine. Wenn sie das denn gelernt hat.

Mit 140.000 Texten trainiert

Bereits vor der Arbeit am KI-Detektor war Tom Tlok von Sprachmodellen fasziniert. Diese Faszination führte letztlich auch zu seiner Arbeit am KI-Enttarnungsprogramm. Als er das erste Mal einen der KI-Chatbots ausprobierte, „konnte ich gar nicht glauben, was für gute Texte da rauskamen. Es war, als würde da ein Mensch schreiben“, sagt er. „Es las sich, als hätte das eine echte Person getippt.“ Er konnte in den Texten keinen erkennbaren Hinweis auf den maschinellen Ursprung finden, also befasste er sich daraufhin intensiv mit generativer Künstlicher Intelligenz. Und er entschied sich, einen Detektor zu entwickeln, der solche KI-Texte erkennen soll.

Die Basis für den Detektor bildet ein frei nutzbares Sprachmodell. Welches das ist, möchte Tlok nicht verraten. Jedenfalls trainierte er es mit 140.000 deutschen Texten. „Ein riesiger Datensatz“, sagt er. Die Hälfte davon wurde mit Textgeneratoren erstellt, insbesondere mit ChatGPT auf Basis des GPT-3.5-Modells. Die andere Hälfte bestand aus Texten, die von Menschen verfasst wurden – von Nachrichtenmeldungen über Social-Media-Kommentare bis hin zu Produktbewertungen und Leserbriefen war alles dabei. Fünf Monate dauerte die Arbeit am Detektor und unzählige Stunden das Training, das er auf seinem eigenen Rechner durchführte.

Das Modell habe gelernt, die Unterschiede zwischen den Texten verschiedener KI-Modelle und menschgemachten Texten zielsicher auszumachen. Vor allem funktioniert das auf Deutsch, woran andere Detektoren nicht selten scheitern, aber auch ziemlich gut auf Englisch. Selbst absichtlich eingebaute Rechtschreibfehler oder umgebaute Sätze würden den Detektor nicht in die Irre führen.

Dennoch ist auch Tloks KI-Detektor nicht ganz ohne blinde Flecken. In unserer Probe haderte zumindest die frei zugängliche Fassung mit der Erkennung von Texten, die von fähigen, aber nicht ganz so populären Sprachmodellen erstellt wurden – Mistral, DeepSeek und Falcon, zum Beispiel. Hier versagte der Detektor einige Male oder war sich nur zu 50 Prozent sicher, dass er es mit einer KI zu tun hat. Tlok will in Zukunft daran arbeiten und sagt: „Da bin ich natürlich dahinter her.“ Schon jetzt habe er eine Version seines Detektors fertig, die auch Googles Gemini-Modell erkennt. Außerdem will er verfolgen, welche Modelle in Zukunft populär werden und sein KI-Detektor-Modell an diese anpassen. Er geht damit einen Wettlauf mit der Entwicklung der Sprachmodelle ein. Denn aus dem KI-Detektor soll ein Geschäft werden.

Eher für Unternehmen als Schulen

Der KI-Detektor von Tom Tlok soll bald in Detectora umbenannt werden. Als Einzelentwickler und Unternehmer will der Student ihn verschiedenen Unternehmen und anderen Einrichtungen anbieten. „Es waren viele beeindruckt von dem, was der [Detektor] kann“, sagt Tlok. „Es wäre auch Verschwendung, wenn ich diesen Detektor jetzt habe und ihn dann nicht zur Verfügung stelle, wenn er gebraucht wird.“ Das Interesse an seinem Programm sei bereits groß und es gebe offenbar Bedarf für einen Erkennungsdienst für KI-Texte. Mit welchem Verwertungs- und Nutzungsmodell genau er das Programm bereitstellen will, daran arbeite er derzeit noch.

Interesse gebe es unter anderem von Betreibern von Plattformen, auf denen Produkte und Dienste bewertet oder andere Kommentare abgegeben werden können. „Ich glaube, dass der Detektor hier viel leisten könnte“, sagt er. „Er könnte Spammer herausfiltern und somit die Qualität des Feedbacks verbessern.“ Auch Bildungseinrichtungen und Lehrer signalisieren Interesse an der Nutzung des Tools. Hier möchte Tlok möglichst verantwortungsvoll handeln. Denn er sieht durchaus das Problem, dass sein KI-Detektor dazu führen könnte, dass Schüler und Studierende fälschlicherweise des KI-Einsatzes bezichtigt werden. Oft fehle bei Lehrkräften noch das Verständnis für Künstliche Intelligenz. Präzedenzfälle für derartige Vorfälle gibt es daher zuhauf.

Werde Mitglied von 1E9!

Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.

Jetzt Mitglied werden!

„Es ist auf jeden Fall ein Problem, wenn [sich die Bildungseinrichtungen und Lehrkräfte] einzig und allein auf das Tool verlassen würden“, sagt Tlok daher. Der Detektor könne höchstens ein Indiz liefern, um beispielsweise das Gespräch mit einem Schüler oder Studenten anzuregen. Aber er dürfte trotz hoher Trefferquote nicht als Beweis für eine Schummelei herhalten – dafür sei er nicht gemacht und nicht gedacht. „Egal, wie hoch die Prozentzahl ist, es gibt immer eine Chance, dass etwas nicht KI-generiert ist“, sagt Tlok. Viel besser sei es, über den sinnvollen Einsatz von KI-Modellen im Unterricht nachzudenken. „Wollen wir den Schülern wirklich verbieten, KIs zu nutzen?“, fragt er. „Sollten wir ihnen nicht beibringen, wie sie Künstliche Intelligenz mit Verantwortung für sich nutzen können?“

Das könnte euch auch interessieren:

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Sprich mit Job, dem Bot!

Job, der Bot

War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!

6 „Gefällt mir“

Ich finde es immer mega beeidruckend wenn junge Leute es mit so großen Playern aufnehmen und Lösungen entwickeln, an denen Altman scheitert…Gleichzeitig juckt es mich schon in den Fingern mit Julia Schneiders KI-Bingo ein paar Testtexte zu schreiben, die safe als ki-generiert erkannt werden.

2 „Gefällt mir“

Dies kam gerade als anonymer Leserbrief zum Thema rein:

"Kein Link zur erwähnten öffentlich zugänglichen Testversion."

Der Link ist vorhanden: findet sich im Text hinter „der KI-Detektor von Tlok“.

Ich habe den Detektor nur kurz getestet, hatte aber den Eindruck, wenn als Trainingsgrundlage eigene Texte verwendet wurden und auf dieser Basis neue Texte mit KI erstellt werden, erkennt er sie nur schlecht, bspw. KI-Anteil 15 Prozent, dabei war der Text zu 100 Prozent mit KI generiert worden, aber halt auf Basis menschlicher Texte.