Es ist ein Tag vor der Abgabefrist meines Blog-Beitrags zu einem kürzlich veröffentlichten Artikel über Chatbots im Gesundheitswesen. Eine Schreibblockade macht mir wieder mal einen Strich durch die Rechnung und so kommt’s wie es kommen musste: Ich erliege der Verlockung, meinen Artikel durch sogenannte «künstliche Intelligenz» schreiben zu lassen. Das Mittel der Wahl ist dabei die Large Language Modell-basierte Anwendung ChatGPT. Nachdem ich meine Anfrage für den Chatbot mit zahlreichen Eingrenzungen, Präzisierungen und Anweisungen verfeinert habe, kommt am Ende ein ansehnlicher Text raus.
Selbstverständlich lässt es weder Berufsethos noch meine moralischen Werte zu, dass ich ChatGPT meine Blog-Artikel schreiben lasse. Der maschinell produzierte Beitrag enthält Passagen, die ich inhaltlich unterschreiben könnte. Vieles sind jedoch Verallgemeinerungen ohne argumentativen Unterbau bis hin zu klaren Falschaussagen. So weit so gut. Erschreckend ist jedoch, dass der Artikel durchaus wissenschaftlich klingt, wenn auch adressatengerecht aufbereitet. Also genau so, wie ein WIG-Blog-Artikel auszusehen hätte.
Mensch vs. Maschine
Schaut man sich die mediale Berichterstattung zum Thema an, erhält man den Eindruck, dass «künstliche Intelligenz» (zu der Chatbots gehören) ein auf uns zurollender Tsunami darstellt, der keinen Stein auf dem anderen lässt. Ist da was dran oder spielt sich dieser Diskurs am Ende nicht doch nur in gewissen technologieradikalen Kreisen ab? Diese Frage lässt sich wohl weder zum heutigen Zeitpunkt noch in diesem Blog-Beitrag vollständig klären.
Zur Frage wie Chatbots im Gesundheitswesen und speziell im Arbeitsalltag von Ärztinnen und Ärzten eingesetzt werden könnten, hat sich eine Forschergruppe Gedanken gemacht. In dem vor kurzem publizierten Artikel werden 195 tatsächliche gestellte medizinische Fragen in einem Internetforum zufällig ausgewählt und von der Ärzteschaft sowie ChatGPT beantwortet. Jede Frage und die anonymisierten Antworten werden von je drei health care professionals begutachtet. In etwa 80% der Fälle wurden die Antworten von den Chatbots als qualitativ hochwertiger eingestuft. Zudem hat der Chatbot gemäss der Evaluation signifikant empathischer geantwortet als die Menschen. «Machen Chatbots Ärzte überflüssig?» könnte eine Schlagzeile lauten, die den Artikel in den Medien aufnimmt. Dieser Zusammenhang wird im Artikel nicht suggeriert, trotzdem lohnt es sich die Studie genauer anzuschauen.
Mangelhafte Anonymisierung
Der offensichtlichste Vorbehalt entsteht aus der Tatsache, dass die Chatbot-Texte im Durchschnitt mehr als vier Mal so lang sind wie die Texte aus Menschenhand. Dass letztere Texte kürzer sind, hat vermutlich damit zu tun, dass die Menschen im Arbeitsalltag ihre schriftlichen Antworten an PatientInnen aus Ressourcengründen möglichst kurz fassen und diese Routine auch im gewählten Setting praktizieren. ChatGPT hingegen kennt keine Zeitrestriktion. Dass ein längerer Text empathischer wirken und (durch gute Trainingsdaten) auch qualitativ mehr bieten kann, scheint daher nicht so überraschend. Darüber hinaus ist durch die stark unterschiedliche Textlänge eine Anonymisierung der Autorenschaft fast nicht mehr möglich. Da die GutachterInnen gleichzeitig als Co-AutorenInnen des Papiers fungieren, bestand für sie ein Anreiz, die Forschungsresultate in eine «aufregendere» Richtung zu lenken. Eine Möglichkeit, welche die AutorInnen selbst zugeben. Dass die Fragen nicht von Personen gestellt wurden, die einen Arzt oder eine Ärztin aufgesucht haben, ist eine weitere Limitation. Bei Arztbesuchen ist im Vergleich zu Forumsfragen von ernsthafteren gesundheitlichen Problemen auszugehen. Diese fallen möglicherweise eher aus der Norm und sind für den Chatbot schwieriger zu beantworten.
Ergänzung statt Konkurrenz
Ärztinnen und Ärzte müssen sich also keine Sorgen machen, demnächst von ChatGPT und Co in Rente geschickt zu werden. Dennoch wird es Einsatzgebiete von «künstlicher Intelligenz» im Gesundheitswesen geben. Mit dem Ziel medizinische Behandlungen hochwertiger, günstiger und sicherer zu machen. Ein Beispiel hierfür wären etwa Systeme, die Ärztinnen und Ärzte in der bildgebenden Diagnostik unterstützen (ein unter dem Titel «Radionomics» bekannter Fachbereich).
Christoph Thommen ist Co-Leiter des Teams Gesundheitsökonomische Forschung am WIG.
Literatur:
Ayers, J. W., Poliak, A., Dredze, M., Leas, E. C., Zhu, Z., Kelley, J. B., … & Smith, D. M. (2023). Comparing physician and artificial intelligence Chatbot responses to patient questions posted to a public social media forum. JAMA Internal Medicine.