Die Fähigkeiten und Risiken der verschiedenen Arten von Künstlicher Intelligenz (KI) unterscheiden sich deutlich. Bei näherer Betrachtung lassen sich 3 Epochen der KI-Anwendungen in der Medizin ausmachen.
Obwohl es das Konzept der KI schon seit den 1950er Jahren gibt, hielt das Interesse sich lange Zeit in Grenzen. Seit anderthalb Jahren explodieren die Anwendungen aber förmlich und jeder, der im Gesundheitswesen Prozesse gestaltet steht vor der Frage: Wo, wann und wie kann KI die aktuellen Abläufe verbessern oder ersetzen? Und wie sind Chancen und Risiken gegeneinander abzuwägen?
Ein aktueller Beitrag im JAMA ist dieser Frage nachgegangen und stellt fest: Bei näherer Betrachtung lassen sich 3 Epochen der KI-Anwendungen in der Medizin ausmachen. Generation 1 umfasst die symbolische KI, bei denen das System eine vorgegebene Aufgabe mit Hilfe von logischen Schlussfolgerungen erfüllt. Im Prinzip ist das der Versuch, menschliches Wissen in Rechenregeln zu gießen. Ein Beispiel ist der IBM-Schachcomputer Deep Blue, der 1996 mit für damaliger Zeit enormer Rechenleistung Schachweltmeister Garri Kasparow schlug.
In diese Kategorie gehören auch probabilistische Modelle – mathematische Modelle, die Zufallsvariablen und Wahrscheinlichkeitsverteilungen miteinschließen. Beispiele sind medizinische Expertensysteme, die Ärzte bei ihren Diagnosen unterstützen, indem sie Symptome und Krankheitsgeschichten von Patienten regelbasiert verarbeiten und Diagnosevorschläge machen. Diese Modelle gingen eleganter mit realen Situationen um, waren aber in der Praxis schwer zu skalieren und nur begrenzt in der Lage, freien Text und komplexe klinische Daten zu verwalten.
Als die Datensätze wuchsen und die Computer immer schneller wurden, erblickte Generation 2 das Licht der Welt: Deep Learning mit mehrschichtigen neuronalen Netzen. Sie ermöglichten es Computern, Bilder auf einem Foto zu klassifizieren (Katze oder Hund?). Das Zauberwort heißt Word2vec. Wörter werden in numerische Vektoren umgewandelt, welche die Bedeutung und den Kontext der Wörter erfassen. Word2Vec basiert auf der Idee, dass Wörter, die in ähnlichen Kontexten vorkommen, in der Regel auch ähnliche Bedeutungen haben.
Darauf basieren z. B. die Algorithmen von Übersetzern wie Google Translate und in der Medizin etwa bei der Mustererkennung. In der Augenheilkunde helfen sie, eine diabetische Retinopathie auf Netzhautfotografien zu erkennen können und in der onkologischen Pathologie sind sie menschlichen Pathologen längst ebenbürtig.
Diese Modelle haben bemerkenswerte Fähigkeiten, bergen aber auch erhebliche Risiken. Sie versagen, wenn die Echtzeitdaten von den Daten abweichen, mit denen sie trainiert wurden. Wenn ein Modell beispielsweise nur auf „Katze oder Hund?“ trainiert wurde, kann es keine guten Ergebnisse liefern, wenn ihm ein Bild einer Schlange vorgelegt wird.
Die Generation 2 hatte zudem ein zentrales Problem: Bei der Verarbeitung langer Textabfolgen hatte sie Schwierigkeiten, sich an frühere Abschnitte zu erinnern. Informatiker sprechen vom „katastrophalen Vergessen“. Weiterentwicklungen wie die „Transformator-Architektur“ reduzierten das Problem und führten in den Jahren 2022 und 2023 schließlich zur Generation 3.
Was unterscheidet die Generationen 2 und 3? Generation 2 ist aufgabenspezifisch und erledigt immer nur eine Sache – das klassische „One Trick Pony“. Generation 3 kann dagegen viele verschiedene Aufgaben erledigen, ohne dass sie neu trainiert werden muss. Eine einfache Textanweisung ändert das Verhalten des Modells komplett. „Schreibe eine Notiz für einen Facharzt“ führt zu deutlich unterschiedlichen Inhalten als „Schreibe eine Notiz für den Patienten“.
Es sind die großen Sprachmodelle (Large Language Models, LLM) wie ChatGPT von OpenAI. Sie können komplexe Fragen interpretieren, akzeptieren Text, Bild und Ton und präsentieren Antworten, die sich kaum von denen menschlicher Experten unterscheiden. Inzwischen gibt es auch große Sprachmodelle für die Medizin, etwa Med-PaLM und Med-PaLM 2 von Google.
Diese LLM können extrem hilfreich sein, aber auch schwer in die Irre führen. Ein Beispiel aus meiner Arbeit: Wenn ich ChatGPT bitte, mich bei der Recherche zu einem wissenschaftlichen Thema zu unterstützen, sind unter den Treffern leider nicht nur wichtige Veröffentlichungen zu diesem Thema – das System liefert auch gut klingende, aber falsche Zitate. Und warum? Weil es nicht in PubMed nachschlägt, sondern plausible nächste Wörter voraussagt – so, wie es trainiert wurde. Diese „Halluzinationen“ stellen eine neue Risikokategorie der Generation 3 dar.
Das JAMA-Review fasst zusammen: „Basismodelle und generative KI bieten ein enormes Potenzial zur Verbesserung der Versorgung. Jede Generation hat grundlegend unterschiedliche Chancen und Risiken für den Einsatz in der Medizin.“
Autor: Reinhard Merz
(Bildquelle: Bild generiert von Midjourney und bearbeitet von arztCME)