OWASP Machine Learning Security Top Ten: Prävention und Tipps

OWASP Machine Learning Security – Top 10 Die zehn größten Bedrohungen für ML

25.04.2024 Von Dipl. Betriebswirt Otto Geißler 4 min Lesedauer

Anbieter zum Thema

Mimecast Germany GmbH

Pathlock Deutschland GmbH

Arctic Wolf Networks Germany GmbH

Mit dem exponentiellen Anstieg der Anwendungen des maschinellen Lernens (ML) nehmen auch die Möglichkeiten böswilliger Angriffe zu. Das OWASP möchte über die zehn größten Sicherheitsprobleme aufklären sowie praktische Tipps zur Prävention anbieten.

Die OWASP Machine Learning Security Top Ten analysiert die häufigsten Schwachstellen im Zusammenhang mit ML.
(Bild: Aghavni - stock.adobe.com)

Das maschinelle Lernen (ML) unterstützt bereits viele Bereiche der künstlichen Intelligenz (KI), dazu gehören unter anderem die Gesichtserkennung, Bildklassifizierung, Stimmungsanalyse und Bedrohungsintelligenz. Daher werden Tag für Tag immer mehr Modelle für ML entwickelt. Die OWASP Machine Learning Security Top Ten analysiert die häufigsten Schwachstellen im Zusammenhang mit ML.

Top Ten der OWASP-Machine-Learning-Security

Das OWASP adressiert mit dieser Liste im Wesentlichen Entwickler, Ingenieure und Anwender des maschinellen Lernens sowie IT-Security-Experten für Anwendungen.

1. Manipulierter Input

Diese Schwachstelle bezieht sich auf Angriffe, bei dem der Hacker die Eingabedaten ändert, um das maschinelle Lernmodell fehlzuleiten. Dies kann durch zwei Methoden erfolgen:

Bildklassifizierung: Bei dieser Methode wird das Modell des maschinellen Lernens dazu manipuliert, ein bestimmtes Bild aufgrund kleiner Störungen, die der Hacker im Bild erzeugt, falsch zu klassifizieren. Bei der Bereitstellung kann dies dazu führen, dass das System umgangen oder beschädigt wird.

Netzwerk-Hacking: Hacker erzeugen Netzwerkverkehr, um das Intrusion-Detection-System des Modells zu umgehen. Dies ermöglicht die Manipulation von IP-Adressen und Nutzdaten, was schwerwiegende Folgen wie beispielsweise Kompromittierung des Systems oder Datendiebstahl nach sich ziehen kann.

2. Daten-Manipulation

Ein weiteres zu berücksichtigendes Risiko besteht darin, dass ein Hacker die Daten manipuliert, auf denen das Modell trainiert wird. Wenn ein Datenspeichersystem kompromittiert wird, könnte ein Hacker falsch gekennzeichnete Daten einfügen. Dies führt beispielsweise dazu, dass ein Spam-Erkennungsmodell Spam fälschlicherweise als legitime Kommunikation identifiziert. Falsche Klassifizierungen und falsche Entscheidungen könnten wiederum potenziell ungenaue oder falsche Ergebnisse ergeben.

3. Angriff als Modell-Inversion

Dieser Fall tritt ein, wenn ein Angreifer das Modell zurückentwickelt, um verborgene Informationen zu erhalten. Die Umkehrung des Modells könnte dadurch erreicht werden, indem ein Modell trainiert und damit die Vorhersagen eines anderen Modells umgekehrt wird. Diese Schwachstelle führt dazu, dass Angriffe unbemerkt bleiben oder Hacker auf der Grundlage der Vorhersagen des Modells an vertrauliche oder persönliche Informationen gelangen.

4. Inferenzangriff der Mitgliedschaft

Ein weiterer Angriffstyp, bei dem ein Hacker vertrauliche Daten aus einem Modell ableiten kann. Dies ist möglich, indem ein Hacker Trainingsdaten abruft und dann mithilfe des Modells abfragt, ob der Datensatz einer bestimmten Person im Datensatz enthalten ist.

5. Diebstahl von Modellen

Bei diesem Angriff stiehlt oder kopiert ein Hacker das Modell selbst. Das eingesetzte Modell ist wahrscheinlich ungesichert und daher anfällig für Diebstahl. Oder das Modell wird zurückentwickelt. Gestohlene Modelle könnten für kommerzielle Zwecke der Konkurrenz verwendet werden, was zu finanziellen Verlusten für den ursprünglichen Modellbesitzer führen würde.

6. Beschädigte Pakete

Moderne Software basiert meist auf einer Fülle von Open-Source- oder Drittanbieter-Abhängigkeiten. Das Gleiche gilt für das maschinelle Lernen. Ein Risiko besteht beispielsweise darin, dass ein Hacker bösartigen Code einschleusen könnte, indem er eine öffentliche Bibliothek manipuliert, auf der das Modell basiert. Sobald das ML-Projekt eine aktualisierte Version herunterlädt, gefährdet sie das Projekt.

7. Angriff auf Transfer-Lernen

Beim sogenannten Transfer-Lernen nimmt ein Anwender ein vorab trainiertes Modell und verfeinert es mit zusätzlichen Daten. Ein Angreifer könnte diese Methode nutzen, um ein vorhandenes Modell anhand eines manipulierten Datensatzes neu zu trainieren. Wenn es gelingt, das von der Endanwendung verwendete Modell zu ändern, könnten Hacker beispielsweise Intrusion-Detection-Systeme umgehen.

8. Verzerrung von Modellen

Ein weiteres Risiko besteht darin, dass Hacker Trainingsdaten verfälschen, indem sie den sogenannten MLOps-Feedbackprozess kompromittieren. Hacker geben beispielsweise Feedback-Daten ein, die das Gesamtmodell neu trainieren, um ein bestimmtes Ergebnis zu erzielen. Solche Angriffe könnten zu Verzerrungen führen und die Genauigkeit eines Systems gefährden.

9. Output-Integritätsangriffe

Bei einem Output-Integritätsangriff verschafft sich ein Angreifer Zugriff auf den Output eines Machine-Learning-Modells und manipuliert diesen Output, um gefälschte Daten bereitzustellen. Wenn beispielsweise die Schnittstelle, die einen ML-Output anzeigt, kompromittiert ist, könnten Hacker ihr „Verhalten“ ändern oder die Ergebnisse durch einen Man-in-the-Middle-Angriff (MitM) bearbeiten.

10. Neuprogrammierung neuronaler Netze

Bei dieser Art von Angriff manipuliert ein Angreifer die Parameter des Modells. Angriffe auf die Neuprogrammierung neuronaler Netze könnten dazu führen, dass ein Modell falsche Ergebnisse trifft, die von Hackern für wirtschaftliche Zwecke kompromittiert werden.

Maßnahmen zur Reduzierung der ML-Risiken

Alle Schwachstellen ähneln sich darin, dass sie dazu führen können, dass ein Modell falsche Entscheidungen trifft oder ungewollte Konsequenzen zur Folge haben. Hier einige Tipps zur Prävention, wie sie von OWASP empfohlen werden:

Robuste Modelle: Modell-Training auf „gegnerische Variationen“ und unter Einbezug von Abwehrmechanismen.

Datenvalidierung und –verifizierung: Sicherstellung, dass die Trainingsdaten sorgfältig validiert und gesichert sind.

Eingabevalidierung: Analysen im Hinblick auf Anomalien wie unerwartete Werte, Muster oder die Erkennung und Ablehnung mutmaßlich böswilliger Eingaben.

Sichere Datenspeicherung: Verwendung von Verschlüsselungen, Datenübertragungsprotokollen und Firewalls, um die Trainingsdaten auf sichere Weise zu speichern.

Datentrennung: Trennung der Trainingsdaten von den erzeugten Daten, um die Gefährdung und das Risiko einer Kompromittierung zu verringern.

Zugangskontrollen: Zugriffskontrollen schränken den Zugriff auf Trainingsdaten, Modellvorhersagen und dem Code des Modells ein.

Verschlüsselungen: Code und Trainingsdatensätze des Modells sowie alle anderen sensiblen Informationen sollten über geeignete Verschlüsselungen verfügen.

Überwachung: Regelmäßige Überwachung und Prüfung der Daten in bestimmten Zeitintervallen dient der Erkennung von Anomalien bzw. Datenmanipulationen.

Erkennung von Anomalien: Methoden zur Erkennung von abnormalem Verhalten in den Trainingsdaten wie beispielsweise Änderungen in der Datenverteilung oder -kennzeichnung sowie Methoden zur frühzeitigen Erkennung von Datenmanipulationen.

(ID:50011075)