Was ist ein Large Language Model (LLM)?

Definition LLM | Large Language Model Was ist ein Large Language Model (LLM)?

25.04.2024 Von Dipl.-Ing. (FH) Stefan Luber 5 min Lesedauer

Anbieter zum Thema

Ein Large Language Model ist ein großes generatives Sprachmodell. Die Funktionsgrundlage bildet ein künstliches neuronales Netzwerk, das mit riesigen Mengen an Text trainiert wurde. Große Sprachmodelle besitzen viele Milliarden Parameter und verarbeiten, verstehen und generieren natürlichsprachige Texte. Mit entsprechender Feinabstimmung lassen sie sich für unterschiedliche Anwendungen einsetzen. Chatbots wie Google Gemini oder ChatGPT basieren auf großen Sprachmodellen.

Ein Large Language Model (LLM ist ein mit riesigen Textmengen trainiertes, generatives Sprachmodell mit künstlicher Intelligenz.
(Bild: gemeinfrei / Pixabay)

Die deutsche Übersetzung für Large Language Model (LLM) ist "großes Sprachmodell". Ein LLM ist für das Verarbeiten, Verstehen und Erzeugen von Texten entworfen. Es besitzt Künstliche Intelligenz und basiert auf einem Deep-Learning-fähigen künstlichen neuronalen Netzwerk mit einer großen Anzahl von Parametern (viele Milliarden). Das LLM ist mit riesigen Textmengen vortrainiert und lässt sich für spezifische Aufgaben feinabstimmen. Typische Anwendungen sind Chatbots wie ChatGPT von OpenAI oder Google Gemini. Große Sprachmodelle generieren in sich schlüssige, grammatikalisch korrekte Texte in einwandfreier Rechtschreibung, die sich häufig kaum von Texten mit menschlicher Urheberschaft unterscheiden lassen. Mittlerweile sind viele aktuelle große Sprachmodelle multimodal und können neben Text auch mit Informationen in Form von Bildern, Videos oder Audio umgehen. Zu den bekanntesten LLMs zählen die Modelle aus der GPT-Familie von OpenAI wie GPT-3 und GPT-4, Google Gemini, LLaMa von Meta, MT-NLG von Microsoft und Nvidia, LaMDA und PaLM von Google, BLOOM und andere.

Fähigkeiten und Einsatzmöglichkeiten von LLMs

LLMs besitzen viele Fähigkeiten. Durch das Training haben sie eine Art "allgemeines Weltwissen" erworben und zeigen erstaunliche Fähigkeiten beim Lösen von Aufgabenstellungen und Beantworten von Fragen unterschiedlicher Art. Mit entsprechendem Fine-tuning eignen sie sich für zahlreiche Anwendungen. Dank sogenannter Zero-Shot-Fähigkeiten lösen sie selbst Aufgabenstellungen, für die sie im Training keine oder nur wenige Beispiele gesehen haben. Ihre Antworten sind teils auf Expertenniveau und kaum von menschlichen Antworten zu unterscheiden. Die Ausgaben eines LLM können aber auch falsch oder frei erfunden sein. Da Programmiersprachen aus Sicht eines Sprachmodells der natürlichen menschlichen Sprache sehr ähnlich sind, können LLMs auch Programmcode in unterschiedlichen Programmiersprachen verarbeiten, verstehen, kommentieren und generieren. Grundsätzlich lassen sie sich zum Verarbeiten und Generieren jeglicher sequenzieller Daten einsetzen. So werden LLMs in abgewandelter Form beispielsweise genutzt, um auf Basis von Aminosäuresequenzen Strukturen und Eigenschaften von Proteinen oder auf Basis von Elementfolgen Eigenschaften von Materialien vorherzusagen.

Grundlegende Fähigkeiten eines Large Language Model sind:

Texte zusammenfassen

Texte umschreiben oder ergänzen

Texte übersetzen

Texte klassifizieren

Stimmungsanalyse von Texten

neue Texte generieren

Fragen beantworten und interaktiv kommunizieren

Programmcode analysieren, erklären oder kommentieren

Programmcode erzeugen

Typische Einsatzmöglichkeiten von LLMs sind Chatbots, das Beantworten von Kundenanfragen, maschinelle Textübersetzungen, automatisiertes Generieren von Online-Content, automatisiertes Erstellen von Produktbeschreibungen oder Nachrichtentexten, Klassifizieren, Kategorisieren oder Zusammenfassen von wissenschaftlichen Texten, Programmierunterstützung und vieles mehr.

Aufbau und Funktionsweise eines großen Sprachmodells

Die Funktionsbasis eines großen Sprachmodells bildet ein Deep-Leaning-fähiges künstliches neuronales Netzwerk. Als eine Art Standardarchitektur zur Verarbeitung sequenzieller Daten wie Text hat sich in den letzten Jahren die sogenannte Transformer-Architektur durchgesetzt. Sie löste vorherige neuronale Netzwerkarchitekturen wie das Long Short-Term Memory Network (LSTM) ab. Ein LLM mit Transformer-Architektur besteht aus mehreren Neuronenschichten und nacheinander zu durchlaufenden Encodern und Decodern. Darüber hinaus hat es einen Selbstaufmerksamkeitsmechanismus (Self-Attention-Mechanismus) und verschiedene weitere Funktionskomponenten. Grundsätzlich arbeiten alle LLMs mit Wahrscheinlichkeiten. Im Training optimieren sie ihre Vorhersagefähigkeiten und lernen Wort für Wort die wahrscheinlichste Textfortsetzung. Mithilfe des Selbstaufmerksamkeitsmechanismus können die neuronalen Netze Teile der Eingangsinformationen wie Wörter beziehungsweise Token mit anderen Teilen der Eingangsinformationen wie Sätzen oder ganzen Textabschnitten in Bezug setzen und ein besseres Gesamtverständnis für die jeweiligen Texte entwickeln. Mittlerweile besitzen viele große Sprachmodelle multimodale Fähigkeiten. Sie können nicht nur mit Text, sondern auch mit anderen Arten von Informationen wie Bildern, Videos oder Audiodaten und Kombinationen von diesen umgehen. Implementieren lassen sich multimodale Fähigkeiten, indem Informationen anderer Modalität ähnlich wie Text in Form von Token behandelt werden.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Stand vom 30.10.2020

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://support.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.

Training und Feinabstimmung eines LLM

LLMs werden zunächst mit riesigen Textmengen trainiert. Bei den Trainingstexten handelt es sich zum Beispiel um Artikel aus Wikipedia, Bücher, Nachrichten, Blog- und Forenbeiträge, Texte aus sozialen Netzwerken, wissenschaftliche Texte, Programmcode und andere Texte in verschiedenen Sprache. Durch unüberwachtes Lernen aus diesen ungelabelten Texten erwirbt das LLM seine grundlegenden Fähigkeiten. Im Training analysiert es Textsequenzen, lernt Wörter, ihre Bedeutungen, Beziehungen und Abhängigkeiten kennen und ermittelt Wahrscheinlichkeiten für bestimmte Folgen von Wörtern. Diese Fähigkeiten und dieses "Wissen" speichert das LLM vereinfacht ausgedrückt durch das Einstellen der vielen Milliarden Parameter wie Gewichtungen von Neuronenverbindungen oder Schwellwerte. Das Training eines LLM erfordert großen Rechen-, Zeit- und Ressourcenaufwand, der mit der Anzahl der Parameter steigt. Riesige Cluster bestehend aus Hochleistungsrechnern beschäftigen sich nicht selten über viele Wochen mit dem Training eines einzigen großen Sprachmodells.

Ein so trainiertes Sprachmodell wird anschließend für bestimmte Anwendungsfälle oder spezifische Aufgaben feinabgestimmt. Für das Fine-tuning können Verfahren wie überwachtes Lernen und gelabelte Trainingsdaten oder bestärkendes Lernen mit menschlichem Feedback (Reinforcement Learning from Human Feedback - RLHF) zum Einsatz kommen. Diese Verfahren optimieren die Parameter des Modells für die spezifischen Aufgaben und ihre Lösungen.

Mögliche Schwächen eines LLM

Trotz teils beeindruckender Fähigkeiten haben LLMs noch immer zahlreiche Schwächen. Training und produktiver Einsatz von LLMs ist mit großem Hard-, Software- und Energieaufwand verbunden. Im Trainingsmaterial vorhandene Fehler oder Bias wird von den Modellen übernommen und führt zu Folgefehlern in den Ergebnissen. Unter Umständen produzieren die Modelle Texte in toxischer Sprache oder mit Vorurteilen und diskriminierenden oder rassistischen Tendenzen. In bestimmten Situationen neigen Sprachmodelle dazu, Informationen zu erfinden oder zu halluzinieren. Antworten klingen plausibel, sind aber dennoch falsch. LLMs haben keine echten kreativen Fähigkeiten, sondern erzeugen neue Inhalte, indem sie die im Trainingsmaterial vorhandenen Informationen umformulieren oder neu kombinieren. Das Verständnis von rhetorischen Stilmitteln ist ebenfalls beschränkt. Was ihre Funktionsweise beim Generieren von Inhalten angeht, verhält sich ein LLM wie eine Blackbox. Es ist kaum nachzuvollziehen, wie bestimmte Ergebnisse zustande kommen und auf welchen Informationen sie basieren. Die riesige Anzahl an Parametern macht ihre Arbeitsweise intransparent. Eine Fehlersuche ist quasi unmöglich. Auch viele rechtliche Fragestellungen, beispielsweise hinsichtlich der Verwendung von urheberrechtlich geschütztem Trainingsmaterial oder der Urheberrechte an den generierten Inhalten, sind noch ungeklärt. Zudem bestehen bei der Verwendung sensibler Daten Bedenken hinsichtlich des Datenschutzes und der Datensicherheit.

(ID:49945608)