Das PDF dient ausschließlich dem persönlichen Gebrauch! - Weitergehende Rechte bitte anfragen unter: nutzungsrechte@asu-arbeitsmedizin.com.
Potentials and limitations of AI tools for understandable health communication – results from the AI-HealthCom project
How can artificial intelligence help make health information more accessible, and where does it reach its limits? The project KI-GesKom at the Research Centre for Easy Language at the University of Hildesheim is exploring how well large language models (LLM, e.g. ChatGPT) and specialized translation tools such as SUMM AI translate medical texts into Plain Language. The results reveal both the potential and the risks of using AI to generate accessible health information.
Potenziale und Grenzen von KI-Tools für verständliche Gesundheitskommunikation – Ergebnisse aus dem Projekt KI-GesKom
Wie kann Künstliche Intelligenz helfen, Gesundheitsinformationen besser verständlich zu machen und wo stößt sie an Grenzen? Das Projekt KI-GesKom der Forschungsstelle Leichte Sprache untersucht, wie gut große Sprachmodell (LLMs, z. B. ChatGPT) und spezialisierte Übersetzungstools, wie beispielsweise SUMM AI, medizinische Fachtexte in Einfache Sprache übertragen. Die Ergebnisse zeigen sowohl Potenzial als auch Risiken für den Einsatz von KI zur Generierung von verständlichen Gesundheitstexten auf.
Kernaussagen
Einleitung
Gesundheitskompetenz gilt als zentrale Voraussetzung für Prävention, das Treffen von informierten Entscheidungen und eine partizipative Gesundheitsversorgung (Schaeffer et al. 2016). Um Gesundheitskompetenz zu entwickeln und zu fördern, müssen Menschen Gesundheitsinformationen finden, verstehen, bewerten und anwenden können (Schaeffer et al. 2016) – eine Fähigkeit, die in der immer komplexer werdenden Informations- und Gesundheitslandschaft zunehmend herausgefordert wird. Aktuelle Studien wie die Health Literacy Survey Germany (HLS-GER 2; Schaeffer et al. 2021) zeigen, dass viele Menschen Schwierigkeiten haben, fachlich anspruchsvolle Gesundheitsinformationen zu verstehen. Knapp 60 % der Befragten schätzen ihre eigene Gesundheitskompetenz als eingeschränkt oder unzureichend ein (Schaeffer et al. 2021, S. 21). Besonders betroffen von niedriger Gesundheitskompetenz sind Personen über 65 Jahre, Menschen mit chronischen Erkrankungen, Menschen mit einem niedrigen Einkommens- oder Bildungsstatus und Menschen, die Deutsch als Zweit- oder Fremdsprache sprechen und besonders die Kombination aus diesen Kategorien. Insbesondere bei diesen vulnerablen Gruppen wächst der Bedarf an verständlichen, barrierearmen und adressatengerechten Gesundheitsinformationen daher stetig.
Vor diesem Hintergrund soll das Projekt KI-GesKom (KI-gestützte Gesundheitskommunikation in Einfacher Sprache) vorgestellt werden. Das Projekt ist an der Forschungsstelle Leichte Sprache angesiedelt und wurde von Mai 2024 bis Juli 2025 vom Niedersächsischen Ministerium für Wissenschaft und Kultur im Rahmen der Ausschreibung „Zukunftsdiskurse“ gefördert. Das KI-GesKom-Team der Forschungsstelle Leichte Sprache hat untersucht, welche Rolle Künstliche Intelligenz im Übersetzungsprozess in Leichte und Einfache Sprache spielen kann. Die Ergebnisse dieses Projekts, die fortlaufend publiziert werden (Deilen 2024a,b; Ahrens et al. 2025; Kröger et al. 2025 und weitere; Vorarbeiten zu ChatGPT in Deilen et al. 2023), tragen dazu bei, Gesundheitsinformationen zugänglich, aber auch korrekt und sicher zu gestalten.
Zunächst eine kurze theoretische Einordnung: In der Forschung wird zwischen Einfacher Sprache, Leichter Sprache Plus und Leichter Sprache unterschieden. Diese Varietäten ordnen sich alle in absteigender Komplexität im Sprachkontinuum des Deutschen ein.
Wie ➥ Abb. 1 zeigt, werden die Varietäten zur Leichten Sprache hin immer stärker verständlichkeitsoptimiert und sind dadurch sprachlich weniger komplex. Dies macht manche der Varietäten besser zugänglich für bestimmte Zielgruppen. Wie die HLS-GER 1 und 2 zeigen, haben viele Menschen Probleme insbesondere mit dem Verständnis von Gesundheitsinformationen (Ahrens 2025). Die Projektgruppe ist in diesem Kontext der Frage nachgegangen, wie Anwendungen Künstlicher Intelligenz (KI) vom Typ ChatGPT als neue Werkzeuge für die Textproduktion in verständlicher Gesundheitskommunikation eingesetzt werden können. Die Klärung der wesentlichen Aspekte, auftretenden Fehler sowie der Potenziale und Risiken dieses Themenfeldes ist ein dringendes Forschungsdesiderat. Hier setzt das Projekt KI-GesKom an.
Projekt KI-GesKom
Um einen konkreten Praxisbezug herzustellen, wurde das Projekt gemeinsam mit dem Wort & Bild Verlag sowie dem Unternehmen SUMM AI durchgeführt. Der Verlag, der die Apotheken Umschau produziert, stellte für das Projekt Gesundheitstexte in Einfacher Sprache/Leichter Sprache Plus und Standardsprache zur Verfügung. In diesem Rahmen besteht seit 2019 eine Kooperation zwischen Apotheken Umschau und Forschungsstelle Leichte Sprache, innerhalb deren inzwischen ca. 350 Gesundheitsinformationstexte in Leichte Sprache Plus übersetzt wurden. Diese Texte sind eine hoch relevante Ressource, denn einerseits können diese Ergebnisse menschlicher Übersetzung mit der Leistung der KI-Tools verglichen werden, andererseits können KI-Tools mit den Texten trainiert werden, um eine bessere Leistungsfähigkeit zu erreichen. Beides wurde im Projekt unternommen. Dritter Projektpartner war das Start-Up SUMM AI, das sein hauseigenes, KI-gestütztes intralinguales Übersetzungstool für Leichte und Einfache Sprache zur Verfügung stellte. Dieses Tool wurde im Rahmen des Projekts umfassend evaluiert und optimiert. In der ersten Projektphase wurden insgesamt 30 Gesundheitstexte mithilfe des KI-Tools von SUMM AI in Einfache Sprache übersetzt und vom KI-GesKom-Team analysiert. Folgende Forschungsfragen sollten im Rahmen des Projekts beantwortet werden1:
In der Laufzeit des Projekts wurden insgesamt vier verschiedene KI-Anwendungen für die intralinguale Übersetzung verwendet: ChatGPT-4o als generalisiertes Modell, SUMM AI Baseline, das nicht mit Gesundheitstexten trainiert wurde, sowie die SUMM AI-Modelle 1 und 2, die nach dem Durchlauf mit dem Baseline-Modell mithilfe von 170 Gesundheitstexten in Leichter Sprache Plus der Apotheken Umschau trainiert wurden. Pro Modell wurden jeweils die gleichen 30 Gesundheitstexte maschinell übersetzt und von den Forschenden auf Korrektheit, Lesbarkeit und syntaktische Komplexität analysiert. Die Fehler wurden anhand eines adaptierten MQM-(Multidimensional Quality Metrics-)Modells kategorisiert und überprüft. Die vier Kategorien sind:
Eine konkrete Übersicht über die Fehleranalyse findet sich unter anderem in Ahrens et al. (2025). Da von den genannten KI-Anwendungen nur ChatGPT-4o frei zugänglich ist, konzentriert sich die Vorstellung der Ergebnisse in diesem Artikel auf dieses Tool.
Ergebnisse und Diskussion
Alle vier Modelle wiesen die meisten Fehler in der Kategorie „Genauigkeit“ auf. Dort traten insgesamt 2852 Fehler auf, dicht gefolgt von 2838 Fehlern in der Kategorie „Sprachliche Konventionen“. In ➥ Abb. 2 findet sich eine normalisierte Übersicht (Vorkommen auf 1000 Wörter) über alle Fehlerkategorien.
Wie der Grafik zu entnehmen ist, produzierte ChatGPT in drei von vier Kategorien (mit Ausnahme der Kategorie „Eignung für Zielgruppen“) die meisten Fehler. Im Vergleich zu den drei SUMM AI-Modellen fällt insbesondere die hohe Anzahl an Fehlern in der Kategorie „Genauigkeit“ auf. Fehler in dieser Kategorie treten dann auf,
Diese Beobachtung zeigt, dass ChatGPT-4o trotz seines großen Trainingskorpus Schwierigkeiten hat, die inhaltliche Präzision der Ausgangstexte in den Zieltexten zu reproduzieren. Insbesondere in der Kategorie „Genauigkeit“ ist dies problematisch, da medizinische Informationen nicht nur sprachlich, sondern auch inhaltlich eindeutig und korrekt wiedergegeben werden müssen. Im Gegensatz dazu zeigen die SUMM AI-Modelle insgesamt eine konsistentere Leistung in Bezug auf Genauigkeit, dennoch ist auch hier eine gewisse Variabilität in der Übersetzungsqualität feststellbar. Hinsichtlich der angemessenen Adressierung der Zielgruppen fällt auf, dass ChatGPT-4o hier vergleichsweise besser abschneidet und eine vergleichbare Fehlerquote wie das SUMM AI-Baseline-Modell aufweist. Die beiden SUMM AI-Modelle, die explizit mit Gesundheitstexten trainiert wurden, weisen im Vergleich dazu eine mehr als doppelt so hohe Anzahl von Fehlern auf.
Fehlerhafte Übersetzungen im Gesundheitsbereich können mitunter schwerwiegende Folgen haben. Es ist also unabdingbar, dass die übersetzten Texte im Anschluss an den Übersetzungsprozess nicht nur sprachlich, sondern auch fachlich überprüft werden.
Diskussion
Die Ergebnisse zeigen, dass die KI-Tools – hier mit Fokus auf ChatGPT-4o – positiv zu mehr verständlicher Gesundheitskommunikation beitragen können. Allerdings bestehen erhebliche Einschränkungen. Es zeigt sich sehr deutlich, dass KI-basierte Übersetzungswerkzeuge wie ChatGPT Hilfsmittel sind, die zum Teil den professionellen Übersetzungsprozess erleichtern können. Die Ergebnisse sind aber nicht sicher genug für eine direkte Anwendung durch die vulnerablen Zielgruppen barrierefreier Kommunikation. Entsprechend müssen die Ergebnisse fachlich und sprachlich durch Expertinnen und Experten überprüft werden, da in kritischem Ausmaß Fehler auftreten, die die Sicherheit der Textnutzenden gefährden.
Die Auswertung der Fehlerkategorien verdeutlicht dabei die Limitationen der KI-Tools: ChatGPT produziert unter den untersuchten Tools vor allem bei der Genauigkeit der Übersetzungen die meisten Fehler im Vergleich zu spezialisierten KI-Modellen (hier: von SUMM AI). Zu diesen Fehlern zählen unscharfe Formulierungen, Auslassungen relevanter Information oder nicht korrekt wiedergegebene Ausgangstexte. Auch die SUMM AI-Modelle zeigen trotz spezifischem Training Fehler in unterschiedlichem Ausmaß und sind nicht direkt für die Endnutzenden einsetzbar.
Die Analysen und Vergleiche belegen, dass KI-Anwendungen wie ChatGPT für die Produktion verständlicher Gesundheitstexte als Assistenzwerkzeuge gut nutzbar sind; die Ergebnisse müssen aber stets kritisch geprüft werden. Eine vollständige Automatisierung im Bereich Gesundheitsinformation ist – insbesondere hinsichtlich der inhaltlichen Richtigkeit – gegenwärtig nicht möglich. Die Ergebnisse unterstreichen so die Relevanz eines mehrstufigen Überprüfungsprozesses und den hohen Wert der menschlichen Expertise.
Ausblick
Die vorliegenden Daten liefern Ansatzpunkte für weitere Forschung, die von der Projektgruppe aktuell auch teilweise bereits unternommen wird beziehungsweise wurde. So wurde untersucht, inwiefern sich die Abläufe in den Unternehmen durch den Einsatz von KI-Tools verändern. Hierzu wurden nicht nur wissenschaftliche Publikationen vorgelegt (Kröger et al. 2025), sondern auch einen Redaktionsleitfaden entwickelt (Maaß et al. 2025), der Unternehmen und Organisationen dabei unterstützt, KI-Tools in ihre Prozesse einzubinden.
Forschungsdesiderate bestehen nach wie vor mit Bezug auf konkrete Einsatzfelder, Themenbereiche oder Medialitäten, etwa der Arbeitsmedizin. Es darf vermutet werden, dass generische KI-Tools wie ChatGPT4o auch in diesem Feld mit gutem Ertrag eingesetzt werden können. Außerdem ist anzunehmen, dass spezifische Tools wie SUMM AI erfolgreich trainiert und an die spezifischen Themenfeld angepasst werden können, um den Nachbearbeitungsaufwand zu senken.
Interessenkonflikt: Das Projekt KI-GesKom wird in Kooperation mit dem Wort & Bild Verlag und SUMM AI als Praxispartnern durchgeführt. Seit 2019 erstellt die Forschungsstelle Leichte Sprache in Zusammenarbeit mit der Redaktion der Apotheken Umschau Gesundheitsinformationen für den Wort & Bild Verlag; diese Arbeit ist vergütet. Darüber hinaus ist Chris Maaß zum Thema Barrierefreie Kommunikation gutachterlich für Wort & Bild tätig geworden. Diese Tätigkeiten haben aber keinerlei Auswirkungen auf den vorliegenden Artikel, der sich mit der Leistungsfähigkeit von KI-Tools für Gesundheitsinformationen befasst und nicht etwaige Geschäftsinteressen von Wort & Bild berührt. Ein Interessenkonflikt ist für die Autorinnen nicht erkennbar.
Angaben zum Einsatz von KI: Wir haben KI im Abschnitt „Diskussion“ zur Unterstützung der inhaltlichen Arbeit genutzt, indem wir einen auf Grundlage der vorangegangenen Abschnitte automatisch generierten Textvorschlag als Anregung genutzt, weiterentwickelt und fachlich überarbeitet haben.
Literatur
Ahrens S: Einfache Sprache in der Gesundheitskommunikation. Patientinnenaufklärung für Frauen mit Deutsch als Zweitsprache. Berlin: Frank & Timme, 2025.
Ahrens S, Deilen S, Hernández Garrido S, Lapshinova-Koltunski E, Maaß C: Evaluation of Machine Translation Errors in German Plain Language Texts in the Domain of Health Information. In: Proceedings of the 21st Conference on Natural Language Processing (KONVENS 2025): Workshops. 2025, S. 176–185.
Deilen S, Lapshinova-Koltunski E, Hernández Garrido S, Hörner J, Maaß C, Theel V, Ziemer S: Evaluation of intralingual machine translation for health communication. In: European Association for Machine Translation Conferences/Workshops. 2024b. https://aclanthology.org/2024.eamt-1.39.pdf (abgerufen am 11.11.2025).
Deilen S, Hernández Garrido S, Lapshinova-Koltunski E, Maaß C: Using ChatGPT as a CAT tool in Easy Language translation. Proceedings of the Second Workshop on Text Simplification, Accessibility and Readability, Varna, Bulgaria. INCOMA Ltd., Shoumen, Bulgaria, 2023, S. 1–10. https://aclanthology.org/2023.tsar-1.1 (abgerufen am 11.11.2025).
Kröger J, Deilen S, Hörner J, Lapshinova-Koltunski E, Maaß C: Proof of Concept. Entwicklung eines redaktionellen Workflows für die KI-gestützte Übersetzung von Gesundheitsinformationen in Einfache Sprache. Trans-Kom 2025: 380–404. https://www.trans-kom.eu/bd18nr01/trans-kom_18_01_19_Kroeger_ua_Proof.2… (abgerufen am 11.11.2025).
Maaß C: Easy Language – Plain Language – Easy Language Plus. Balancing Comprehensibility and Acceptability. Berlin: Frank & Timme, 2020.
Maaß C, Lapshinova-Koltunski E, Hörner J (Hrsg.): Einfache Sprache mit KI-Tools. Ein Leitfaden für die redaktionelle Praxis. Berlin: Springer, 2025. https://doi.org/10.1007/978-3-658-47867-4.
Die vollständige Literaturliste mit allen Quellen kann auf der ASU-Homepage beim Beitrag eingesehen werden (asu-arbeitsmedizin.com).