Definition LLM | Large Language Model Was ist ein Large Language Model (LLM)?

Von Dipl.-Ing. (FH) Stefan Luber 5 min Lesedauer

Anbieter zum Thema

Ein Large Language Model ist ein großes generatives Sprachmodell. Die Funktionsgrundlage bildet ein künstliches neuronales Netzwerk, das mit riesigen Mengen an Text trainiert wurde. Große Sprachmodelle besitzen viele Milliarden Parameter und verarbeiten, verstehen und generieren natürlichsprachige Texte. Mit entsprechender Feinabstimmung lassen sie sich für unterschiedliche Anwendungen einsetzen. Chatbots wie Google Gemini oder ChatGPT basieren auf großen Sprachmodellen.

Ein Large Language Model (LLM ist ein mit riesigen Textmengen trainiertes, generatives Sprachmodell mit künstlicher Intelligenz.
Ein Large Language Model (LLM ist ein mit riesigen Textmengen trainiertes, generatives Sprachmodell mit künstlicher Intelligenz.
(Bild: gemeinfrei / Pixabay)

Die deutsche Übersetzung für Large Language Model (LLM) ist "großes Sprachmodell". Ein LLM ist für das Verarbeiten, Verstehen und Erzeugen von Texten entworfen. Es besitzt Künstliche Intelligenz und basiert auf einem Deep-Learning-fähigen künstlichen neuronalen Netzwerk mit einer großen Anzahl von Parametern (viele Milliarden). Das LLM ist mit riesigen Textmengen vortrainiert und lässt sich für spezifische Aufgaben feinabstimmen. Typische Anwendungen sind Chatbots wie ChatGPT von OpenAI oder Google Gemini. Große Sprachmodelle generieren in sich schlüssige, grammatikalisch korrekte Texte in einwandfreier Rechtschreibung, die sich häufig kaum von Texten mit menschlicher Urheberschaft unterscheiden lassen. Mittlerweile sind viele aktuelle große Sprachmodelle multimodal und können neben Text auch mit Informationen in Form von Bildern, Videos oder Audio umgehen. Zu den bekanntesten LLMs zählen die Modelle aus der GPT-Familie von OpenAI wie GPT-3 und GPT-4, Google Gemini, LLaMa von Meta, MT-NLG von Microsoft und Nvidia, LaMDA und PaLM von Google, BLOOM und andere.

Fähigkeiten und Einsatzmöglichkeiten von LLMs

LLMs besitzen viele Fähigkeiten. Durch das Training haben sie eine Art "allgemeines Weltwissen" erworben und zeigen erstaunliche Fähigkeiten beim Lösen von Aufgabenstellungen und Beantworten von Fragen unterschiedlicher Art. Mit entsprechendem Fine-tuning eignen sie sich für zahlreiche Anwendungen. Dank sogenannter Zero-Shot-Fähigkeiten lösen sie selbst Aufgabenstellungen, für die sie im Training keine oder nur wenige Beispiele gesehen haben. Ihre Antworten sind teils auf Expertenniveau und kaum von menschlichen Antworten zu unterscheiden. Die Ausgaben eines LLM können aber auch falsch oder frei erfunden sein. Da Programmiersprachen aus Sicht eines Sprachmodells der natürlichen menschlichen Sprache sehr ähnlich sind, können LLMs auch Programmcode in unterschiedlichen Programmiersprachen verarbeiten, verstehen, kommentieren und generieren. Grundsätzlich lassen sie sich zum Verarbeiten und Generieren jeglicher sequenzieller Daten einsetzen. So werden LLMs in abgewandelter Form beispielsweise genutzt, um auf Basis von Aminosäuresequenzen Strukturen und Eigenschaften von Proteinen oder auf Basis von Elementfolgen Eigenschaften von Materialien vorherzusagen.

Grundlegende Fähigkeiten eines Large Language Model sind:

  • Texte zusammenfassen
  • Texte umschreiben oder ergänzen
  • Texte übersetzen
  • Texte klassifizieren
  • Stimmungsanalyse von Texten
  • neue Texte generieren
  • Fragen beantworten und interaktiv kommunizieren
  • Programmcode analysieren, erklären oder kommentieren
  • Programmcode erzeugen

Typische Einsatzmöglichkeiten von LLMs sind Chatbots, das Beantworten von Kundenanfragen, maschinelle Textübersetzungen, automatisiertes Generieren von Online-Content, automatisiertes Erstellen von Produktbeschreibungen oder Nachrichtentexten, Klassifizieren, Kategorisieren oder Zusammenfassen von wissenschaftlichen Texten, Programmierunterstützung und vieles mehr.

Aufbau und Funktionsweise eines großen Sprachmodells

Die Funktionsbasis eines großen Sprachmodells bildet ein Deep-Leaning-fähiges künstliches neuronales Netzwerk. Als eine Art Standardarchitektur zur Verarbeitung sequenzieller Daten wie Text hat sich in den letzten Jahren die sogenannte Transformer-Architektur durchgesetzt. Sie löste vorherige neuronale Netzwerkarchitekturen wie das Long Short-Term Memory Network (LSTM) ab. Ein LLM mit Transformer-Architektur besteht aus mehreren Neuronenschichten und nacheinander zu durchlaufenden Encodern und Decodern. Darüber hinaus hat es einen Selbstaufmerksamkeitsmechanismus (Self-Attention-Mechanismus) und verschiedene weitere Funktionskomponenten. Grundsätzlich arbeiten alle LLMs mit Wahrscheinlichkeiten. Im Training optimieren sie ihre Vorhersagefähigkeiten und lernen Wort für Wort die wahrscheinlichste Textfortsetzung. Mithilfe des Selbstaufmerksamkeitsmechanismus können die neuronalen Netze Teile der Eingangsinformationen wie Wörter beziehungsweise Token mit anderen Teilen der Eingangsinformationen wie Sätzen oder ganzen Textabschnitten in Bezug setzen und ein besseres Gesamtverständnis für die jeweiligen Texte entwickeln. Mittlerweile besitzen viele große Sprachmodelle multimodale Fähigkeiten. Sie können nicht nur mit Text, sondern auch mit anderen Arten von Informationen wie Bildern, Videos oder Audiodaten und Kombinationen von diesen umgehen. Implementieren lassen sich multimodale Fähigkeiten, indem Informationen anderer Modalität ähnlich wie Text in Form von Token behandelt werden.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Training und Feinabstimmung eines LLM

LLMs werden zunächst mit riesigen Textmengen trainiert. Bei den Trainingstexten handelt es sich zum Beispiel um Artikel aus Wikipedia, Bücher, Nachrichten, Blog- und Forenbeiträge, Texte aus sozialen Netzwerken, wissenschaftliche Texte, Programmcode und andere Texte in verschiedenen Sprache. Durch unüberwachtes Lernen aus diesen ungelabelten Texten erwirbt das LLM seine grundlegenden Fähigkeiten. Im Training analysiert es Textsequenzen, lernt Wörter, ihre Bedeutungen, Beziehungen und Abhängigkeiten kennen und ermittelt Wahrscheinlichkeiten für bestimmte Folgen von Wörtern. Diese Fähigkeiten und dieses "Wissen" speichert das LLM vereinfacht ausgedrückt durch das Einstellen der vielen Milliarden Parameter wie Gewichtungen von Neuronenverbindungen oder Schwellwerte. Das Training eines LLM erfordert großen Rechen-, Zeit- und Ressourcenaufwand, der mit der Anzahl der Parameter steigt. Riesige Cluster bestehend aus Hochleistungsrechnern beschäftigen sich nicht selten über viele Wochen mit dem Training eines einzigen großen Sprachmodells.

Ein so trainiertes Sprachmodell wird anschließend für bestimmte Anwendungsfälle oder spezifische Aufgaben feinabgestimmt. Für das Fine-tuning können Verfahren wie überwachtes Lernen und gelabelte Trainingsdaten oder bestärkendes Lernen mit menschlichem Feedback (Reinforcement Learning from Human Feedback - RLHF) zum Einsatz kommen. Diese Verfahren optimieren die Parameter des Modells für die spezifischen Aufgaben und ihre Lösungen.

Mögliche Schwächen eines LLM

Trotz teils beeindruckender Fähigkeiten haben LLMs noch immer zahlreiche Schwächen. Training und produktiver Einsatz von LLMs ist mit großem Hard-, Software- und Energieaufwand verbunden. Im Trainingsmaterial vorhandene Fehler oder Bias wird von den Modellen übernommen und führt zu Folgefehlern in den Ergebnissen. Unter Umständen produzieren die Modelle Texte in toxischer Sprache oder mit Vorurteilen und diskriminierenden oder rassistischen Tendenzen. In bestimmten Situationen neigen Sprachmodelle dazu, Informationen zu erfinden oder zu halluzinieren. Antworten klingen plausibel, sind aber dennoch falsch. LLMs haben keine echten kreativen Fähigkeiten, sondern erzeugen neue Inhalte, indem sie die im Trainingsmaterial vorhandenen Informationen umformulieren oder neu kombinieren. Das Verständnis von rhetorischen Stilmitteln ist ebenfalls beschränkt. Was ihre Funktionsweise beim Generieren von Inhalten angeht, verhält sich ein LLM wie eine Blackbox. Es ist kaum nachzuvollziehen, wie bestimmte Ergebnisse zustande kommen und auf welchen Informationen sie basieren. Die riesige Anzahl an Parametern macht ihre Arbeitsweise intransparent. Eine Fehlersuche ist quasi unmöglich. Auch viele rechtliche Fragestellungen, beispielsweise hinsichtlich der Verwendung von urheberrechtlich geschütztem Trainingsmaterial oder der Urheberrechte an den generierten Inhalten, sind noch ungeklärt. Zudem bestehen bei der Verwendung sensibler Daten Bedenken hinsichtlich des Datenschutzes und der Datensicherheit.

(ID:49945608)