Studie: KI-Chatbots liefern in über 60 Prozent der Fälle falsche Antworten

Eine aktuelle Studie der Columbia Journalism Review (CJR) zeigt, dass KI-Chatbots häufig unzuverlässige Antworten geben. Bei Fragen nach Quellen von Artikeln lagen die Chatbots in über 60 Prozent der Fälle falsch.

Untersuchungsmethode

Für die Studie wurden zehn zufällig ausgewählte Artikel von verschiedenen Verlagen analysiert. Aus diesen Beiträgen wurden Auszüge entnommen, die dann als Anfragen an die Chatbots dienten. Insgesamt wurden 1.600 Anfragen gestellt, wobei jeder Chatbot nach der Schlagzeile, dem Originalverlag, dem Veröffentlichungsdatum und der URL gefragt wurde.

Ergebnisse der Studie

Die Ergebnisse zeigen, dass in mehr als 60 Prozent der Fälle die Chatbots teilweise oder vollständig falsche Antworten lieferten. Dabei schnitt der Chatbot Perplexity mit einer Fehlerquote von 37 Prozent noch am besten ab, während Grok 3 mit einer Fehlerrate von 94 Prozent deutlich schlechter abschnitt.

Vertrauenswürdigkeit der Antworten

Ein weiteres Problem ist die trügerische Zuversicht, mit der die Chatbots ihre Antworten präsentieren. Phrasen wie „es ist möglich“ oder „es scheint“ kamen selten vor. Stattdessen gaben die Tools oft falsche Antworten, ohne ihre Unsicherheit zu signalisieren. So lieferte beispielsweise ChatGPT 134 falsche Antworten, zeigte jedoch nur in 15 Fällen fehlendes Vertrauen in die Antwort an. Lediglich der Microsoft Copilot lehnte mehr Fragen ab, als er beantwortete.

Premium-Versionen nicht zuverlässiger

Interessanterweise waren die Premium-Versionen der Chatbots nicht unbedingt zuverlässiger. Zwar gaben sie mehr korrekte Antworten als die kostenlosen Versionen, jedoch war auch die Fehlerrate höher. Dies liegt daran, dass sie dazu neigten, mehr falsche Antworten mit hoher Zuversicht zu liefern, anstatt Fragen einfach abzulehnen. Dies erschwert es den Nutzern, richtige von falschen Antworten zu unterscheiden.

Umgang mit der robots.txt

Die Studie ergab zudem, dass einige Chatbots die Regeln der robots.txt ignorieren. Fünf von acht Chatbots, darunter ChatGPT, Perplexity und Gemini, haben die Namen ihrer Crawler veröffentlicht, sodass diese bei Bedarf per robots.txt blockiert werden können. Dagegen sind die Namen der Crawler von DeepSeek, Grok 2 und Grok 3 nicht bekannt.

Jetzt kontaktieren

Google startet Rollout des März 2025 Core Updates

Google Core Update zeigt erste Auswirkungen – Beginn möglicherweise früher