MedPrompt macht herkömmliche Sprachmodelle zu Medizinexperten ohne Fine-Tuning-Prozess

MedPrompt ist eine von Microsoft entwickelte Prompting-Strategie. Dabei ist es Microsoft gelungen, große Sprachmodelle (auch Large Language Models, LLMs) wie GPT-4 ohne Feintuning auf einen domänenspezifischen Experten zu trainieren. Diese Strategie konzentriert sich derzeit ausschließlich auf den medizinischen Bereich, in dem die Methodik auch in neun Benchmarks erfolgreich getestet wurde.

Prompt Engineering vs. Fine-Tuning von Sprachmodellen

Der Fine-Tuning-Prozess eines Sprachmodells ist sehr aufwendig, da er eine große Menge an domänenspezifischen Daten und Fachwissen erfordert, damit das Sprachmodell für den Anwendungsfall bessere Ergebnisse liefert. Der Prozess ist daher sehr zeit- und kostenintensiv. Abbildung 1 zeigt, wie viel besser MedPrompt im Vergleich zu anderen Non-Fine-Tuning- und Fine-Tuning-Modellen abschneidet. Es wird deutlich, dass MedPrompt höhere Testergebnisse erzielt, während eine Auswahl anderer Modelle weiter zurückliegt.

Abbildung 1: Genauigkeit von Medprompt im Vergleich zu anderen medizinischspezialisierten Sprachmodellen. Quelle: https://ar5iv.labs.arxiv.org/html/2311.16452

Med-PaLM-2 ist ein reines Fine-Tuning-Modell, das vor MedPrompt als Pionier des medizinischen Textverstehens galt. Wie in Abbildung 2 zu sehen ist, schneidet MedPrompt (äußere Linie) in den verschiedenen Benchmarks besser ab als Med-PaLM-2 und GPT-4. Dies zeigt, dass die Verwendung von kuratierten Daten ein Modell nicht zu einem Experten macht, sondern dazu führen kann, dass das Sprachmodell eine Art Tunnelblick bekommt. Jeder Benchmark repräsentiert verschiedene medizinische Kategorien, zum Beispiel enthält der Benchmark „MMLU Anatomy“ nur Fragen zur Anatomie und „MMLU College Biology“ enthält Prüfungsfragen eines Biologiekurses an einer Universität. Ein „MMLU“-Benchmark steht für Massive Multitask Language Understanding, was bedeutet, dass der Benchmark Fragen mit Mehrfachauswahl enthält. Die Benchmarks selbst messen dann die Genauigkeit (Accuracy) der Antworten auf ihre Fragen.

Abbildung 2: MedPrompt, Med-PaLM 2 und GPT 4 im Vergleich der Genauigkeit in verschiedenen medizinischen Fachgebieten. Quelle: https://synthedia.substack.com/p/gpt-4-beats-medpalm-2-for-medical

Aber wie funktioniert das mit dem Spezialwissen ohne Fine-Tuning?

Um die domänenspezifische Expertise von MedPrompt zu erreichen, werden verschiedene Prompting-Techniken eingesetzt. Diese sind in Abbildung 3 dargestellt.

Abbildung 3: Abfolge der Prompting-Strategien von MedPrompt. Quelle: https://www.microsoft.com/en-us/research/blog/the-power-of-prompting/

Die Zero-Shot-Prompting-Strategie verwendet Prompts, die nicht Teil der Trainingsdaten waren, aber das Modell kann trotzdem ein gewünschtes Ergebnis erzeugen. Das Modell wird also ohne Beispiele zu einem bestimmten Thema befragt und gibt dann eine Antwort aus seinem Kontext- oder Allgemeinwissen. Beispiele sind die Klassifizierung von Spam-E-Mails oder die Übersetzung eines Satzes.
Random Few-Shot ist eine Prompting-Strategie, bei der mehrere Beispiele zu einer Aufgabe gegeben werden. Die Reaktion auf ein Basismodell (Foundation Model) ermöglicht es den Modellen, sich schnell an eine bestimmte Domäne, zum Beispiel die Medizin, anzupassen und das Aufgabenformat zu erlernen. Dabei werden dem Modell 2 oder mehr Beispiele gezeigt. Dadurch kann ein Konzept besser vermittelt werden. Zum Beispiel die Erfindung eines neuen Wortes, das man dem LLM an zwei Beispielen erklärt und das LLM kann dieses Wort dann auch in anderen Zusammenhängen wiedergeben.
Chain-of-Thought (CoT) verwendet Aussagen in natürlicher Sprache, wie beispielsweise „Lass uns Schritt für Schritt denken“, um das Modell explizit dazu anzuregen, eine Reihe von Zwischenschritten zu generieren.
Der K-nearest neighbour (kNN) Algorithmus ist ein einfacher Algorithmus für maschinelles Lernen. Er basiert darauf, ähnlichen Datenpunkten ähnliche Labels zuzuweisen. Der Algorithmus klassifiziert dann einen neuen Datenpunkt unter Verwendung des „k-Wertes“. Dieser „k-Wert“ ist ein Ähnlichkeitsmaß, das angibt, wie viele Nachbarn berücksichtigt werden sollen. Ein kleiner „k“-Wert, zum Beispiel 1, führt zu einer starken Anpassung an die Trainingsdaten und kann dazu führen, dass sich das Modell zu stark an Ausreißer in den Trainingsdaten anpasst. Ein großer „k“-Wert, beispielsweise 5 oder größer, bedeutet, dass das Modell weniger empfindlich auf einzelne Datenpunkte reagiert. Dadurch kann das Modell besser auf neue, unbekannte Daten verallgemeinert werden.
Bei der Ensembling-Prompting-Strategie werden die Ergebnisse mehrerer Algorithmen kombiniert, um eine bessere Vorhersageleistung als ein einzelner Algorithmus zu erzielen. Zur Beantwortung von Multiple-Choice-Fragen wird die Choice-Shuffling-Strategie verwendet, bei der die relative Reihenfolge der Antwortmöglichkeiten vor der Generierung der einzelnen Argumentationspfade gemischt wird. Auf diese Weise wird die konsistenteste Antwort ausgewählt, das heißt diejenige, die am wenigsten empfindlich auf die Änderung der Auswahl reagiert, was die Robustheit der Antwort erhöht.

Alle Prompts werden von einer separaten KI automatisiert, so dass nur wenige „Human Domain Experts“ zur Validierung benötigt werden. Bevor dem Sprachmodell eine Aufgabe gestellt wird, findet ein Preprocessing statt. Während der Vorverarbeitung wird jede Frage im Trainingsdatensatz durch ein leichtes Einbettungsmodell geleitet, um einen Einbettungsvektor zu erzeugen. Anschließend findet eine so genannte Inferenz statt, die bestimmt, was passiert, wenn die Frage beantwortet wird. Dabei wird eine Testfrage mit dem gleichen Einbettungsmodell wie beim Pre-Processing erneut eingebettet, und kNN wird verwendet, um ähnliche Beispiele aus dem vorverarbeiteten Pool zu finden.

Wirksamkeit von MedPrompt: Mehr Schein als Sein?

Natürlich ist es wie immer bei generativer KI wichtig, auch MedPrompt kritisch zu betrachten und die tatsächliche Wirksamkeit zu hinterfragen. Wie in Abbildung 1 zu sehen ist, gibt es zwar einen Unterschied von vier Prozent zwischen MedPrompt und Med-PaLM-2, aber es ist wichtig zu beachten, dass MedPrompt mehrere Monate nach Med-PaLM-2 veröffentlicht wurde. Es wird also ein älteres Modell mit einem neueren verglichen, weshalb nicht genau festgestellt werden kann, wie groß der Unterschied tatsächlich ist. Außerdem basieren die beiden Sprachmodelle auf unterschiedlichen Basismodellen (Foundation Models). MedPrompt basiert auf GPT-4, während Med-PaLM-2 auf PaLM basiert, was den Unterschied noch erklären könnte.

Darüber hinaus ist es wichtig klarzustellen, dass es sich bei Zero-Shot, Random Zero-Shot und Chain-of-Thought (CoT) um ältere Prompting-Techniken handelt, die zum Teil schon seit 2020 im Einsatz sind und in der entsprechenden Studie nur sehr oberflächlich erklärt werden. Abbildung 4 stellt die Wirksamkeit der einzelnen Prompting-Strategien im Detail dar. Es ist zu erkennen, dass die älteren Prompting-Techniken einen sehr hohen Anteil an der Performance in den Benchmarks haben. Das neuere Ensemble Prompting und die Kombination der einzelnen Techniken scheinen jedoch sehr effektiv zu sein.

Abbildung 4: Wirksamkeit der einzelnen Prompting-Techniken. Quelle: https://arxiv.org/pdf/2311.16452

Wie wirkt sich das auf die Zukunft aus?

In Zukunft wird diese Methodik auf alle möglichen Bereiche ausgeweitet werden. Mit MedPrompt+ wird dies bereits in verschiedenen Benchmarks umgesetzt und erprobt, wie zum Beispiel in der Mathematik, in anwendungsorientierten Aufgaben, in einem von Menschen evaluierten LLM, das nur aus Code besteht, in einem, das das Leseverständnis von Absätzen testet, und in einem, das das fortgeschrittene natürliche Sprachverständnis und den gesunden Menschenverstand von KI-Modellen evaluiert.

Für adesso und seine Kunden bedeutet diese neue Strategie, dass generative KI-Lösungen bessere Ergebnisse liefern können, ohne zeit- und ressourcenaufwändig in Feintuning-Maßnahmen investieren zu müssen. Allerdings erfordert die Umsetzung dieses Ansatzes auch ein tieferes Verständnis der Künstlichen Intelligenz und des jeweiligen Modells - eine Spezialkompetenz, die sich Prompt Engineers zeitnah aneignen müssen.

GenAI

Von der Idee bis zur Implementierung

GenAI wird unser Geschäftsleben ebenso verändern wie das Internet oder Mobile Business. Unternehmen aller Größen und Branchen legen heute den Grundstein für den effektiven Einsatz dieser Technologie in ihrem Geschäft.

Eine zentrale Herausforderung: GenAI-Anwendungen in die eigenen Prozesse und die bestehende IT-Landschaft zu integrieren. Wie das gelingt und wie wir euch dabei unterstützen, erfahrt ihr auf unserer Website.

Zur GenAI Webseite

Autor Christian Hammer

Christian Hammer hat nach seinem Studium der Wirtschaftsinformatik mit Schwerpunkt E-Commerce an der Fachhochschule Würzburg eine Stationen- und Technologie-übergreifende Karriere in der Entwicklung von Data Analytics Lösungen durchlaufen. Im Laufe der Jahre übernahm er immer mehr Verantwortung, zunächst als Lead Developer, später als Architekt und Projektleiter - unter anderem beim Merger von E-Plus und O2. Mittlerweile übernimmt er fast ausschließlich Beratungsaufträge in der Strategieberatung oder als Projekt- und Programmleiter. Fachlich fokussiert sich Christian auf den Bereich Business Analytics im Kontext von Datenintegration, Datenplattformen, Big Data und Artificial Intelligence.

Autor Jasper Rosenbaum

Jasper hat sein Studium an der Universität Maastricht mit einem B.Sc. in International Business abgeschlossen. Derzeit ist er Praktikant in der GenAI Solutioning Unit, bevor er sein Masterstudium in Information Management and Business Intelligence in Maastricht aufnimmt.

Kategorie:	KI
Schlagwörter:	GenAI Künstliche Intelligenz Gesundheitswesen Prompt Engineering