Parasoft-Logo

Umgang mit den Bedenken der NASA hinsichtlich der Verwendung von LLM in sicherheitskritischen Entwicklungen

By Igor Kirilenko August 19, 2025 5 min gelesen

GenAI kann technische Aufgaben wie die Erstellung von Sicherheitsnachweisen beschleunigen. Die NASA weist jedoch darauf hin, dass die Tendenz zur Generierung glaubwürdiger, aber ungeprüfter Inhalte menschliche Kontrolle in kritischen Systemen unabdingbar macht. Lesen Sie weiter und erfahren Sie, wie die Kombination von eingeschränkten LLMs mit nachvollziehbaren Beweisen und strenger Prüfung einen sichereren Weg nach vorne bietet.

Umgang mit den Bedenken der NASA hinsichtlich der Verwendung von LLM in sicherheitskritischen Entwicklungen

By Igor Kirilenko August 19, 2025 5 min gelesen

GenAI kann technische Aufgaben wie die Erstellung von Sicherheitsnachweisen beschleunigen. Die NASA weist jedoch darauf hin, dass die Tendenz zur Generierung glaubwürdiger, aber ungeprüfter Inhalte menschliche Kontrolle in kritischen Systemen unabdingbar macht. Lesen Sie weiter und erfahren Sie, wie die Kombination von eingeschränkten LLMs mit nachvollziehbaren Beweisen und strenger Prüfung einen sichereren Weg nach vorne bietet.

Generative KI hat sich in Rekordzeit zu einem alltäglichen Entwicklungswerkzeug entwickelt. Entwicklungsteams nutzen heute große Sprachmodelle (LLMs), um Code zu entwerfen und Testergebnisse zusammenzufassen – sogar um Sicherheitsnachweise in der Sprache zu verfassen, die die Aufsichtsbehörden für eingebettete sicherheitskritische Entwicklung.

Die Erstellung von Konformitätsnachweisen für sicherheitskritische Entwicklungen ist nach wie vor ein manueller und fehleranfälliger Prozess. Teams exportieren Unit-Test-Protokolle, beschriften Trace-Tabellen manuell und erstellen zeilenweise Diagramme in der Goal-Structured Notation (GSN).

Was große Sprachmodelle so nützlich macht, ist die Tatsache, dass sie diese Artefakte automatisch erstellen können, solange wir sie auf überprüfbare Quellen beschränken.

Ein kürzlich veröffentlichter NASA-Bericht warnte jedoch vor der Verwendung von LLMs in dieser Hinsicht. In dem Artikel heißt es: „Untersuchung vorgeschlagener Verwendungen von LLMs zur Erstellung oder Bewertung von Assurance-Argumenten,“ stellt die Frage, ob man einer Technologie, die natürlich klingende Texte erzeugt, vertrauen kann, wenn Leben davon abhängen. Die Autoren argumentieren, dass das grundlegende Problem darin besteht, dass LLMs auf plausibel klingende Antworten abzielen, nicht auf bewiesene Fakten. Wenn also ein so einfaches Problem wie ein einziges erfundenes Zitat auftritt, könnte dies ein ganzes Zertifizierungspaket ungültig machen. Oder Schlimmeres.

Aufbau eines Falls, dem die Prüfer vertrauen

Bei sicherheitskritischen Entwicklungen muss jede Schlussfolgerung mit einem überprüfbaren Argument untermauert werden, das die Sicherheit belegt. Dieses sogenannte Assurance-Argument bildet zusammen mit anderen Dokumenten den sogenannten Sicherheitsnachweis.

Assurance-Argumente werden typischerweise mit der Goal Structuring Notation (GSN) strukturiert, einem formalen grafischen Diagramm, das jeden Sicherheitsanspruch in evidenzbasierte Unterziele unterteilt. Diese werden durch Standards wie ISO 26262 (Automobilindustrie), DO-178C (Luftfahrt)und ähnliche Frameworks, bei denen jede Behauptung auf objektive, überprüfbare Beweise zurückgeführt werden muss. Dies ist zeitaufwändig, weshalb die Verwendung von GenAI für diesen Zweck so nützlich ist.

Wenn Sie jedoch das NASA-Dokument lesen und sich mit der Sicherheit, Qualität oder Compliance von Software befassen, sind Sie möglicherweise besorgt über die Warnsignale, die die NASA für die Verwendung von LLMs in diesem Bereich anführt.

In den folgenden Abschnitten übersetzen wir ihre Vorsicht in praktische Leitplanken und zeigen, wo disziplinierte KI noch immer einen Mehrwert liefern kann, ohne die Zustimmung zu gefährden.

Die Kernbotschaft des NASA-Berichts

Die Autoren der NASA gehen auf das Missverständnis ein, das den meisten Entwicklungsteams bereits bekannt ist: dass LLMs, weil ihre Antworten autoritär klingen, deshalb auch genau sein müssen.

Der Bericht zeigt anhand zahlreicher Beispiele, wie falsch diese Annahme ist. Es gibt LLMs, die Referenzen erfinden, Vorschriften falsch zitieren und an besonderen Gefahren vorbeigehen, die über den Erfolg oder Misserfolg eines Sicherheitsnachweises entscheiden. Das Urteil der NASA lautet: Solange wiederholbare Studien die Zuverlässigkeit nicht belegen, muss jedes von LLMs generierte Argument als experimentell behandelt und von qualifizierten Ingenieuren Zeile für Zeile überprüft werden.

Ihre Schlussfolgerung ist nicht, dass KI verboten werden sollte, sie weisen aber darauf hin, dass ihr Einsatz eher Zeit und Verantwortung verlagert, als dass er wertvolle Zeit spart. Zwar schreibt der Ingenieur nicht mehr jeden Satz selbst, aber jede Zeile, die der LLM vorschlägt, muss neu validiert werden. Jede Effizienzsteigerung in der Entwicklung, so das Papier, bringt also eine neue Aufsichtslast mit sich.

Warum GenAI bei Sicherheitsnachweisen schlecht sein könnte

Wenn Ihre Berufsbezeichnung Design Assurance, Software Safety, QA Director oder Principal Systems Engineer umfasst, wirken sich die von der NASA hervorgehobenen Probleme direkt auf Ihren Arbeitsablauf aus.

  • Prüfpfade können keine erfundenen Beweise tolerieren. Die Regulierungsbehörden werden darauf bestehen, dass jede von KI erstellte Behauptung auf ein deterministisches Artefakt zurückzuführen ist. Dinge wie Testergebnisse, Ergebnisse statischer Analysen, Abdeckungsmetriken und so weiter.
  • Die Fahrpläne müssen eine neue Schleife aufnehmen. Jemand muss jede Zeile maschinengenerierten Textes kontrollieren. Doch nun stellt sich die Frage: Wer?
  • Bei Budgets stellen sich neue ROI-Fragen. Jede behauptete Produktivitätssteigerung muss die Kosten einer zusätzlichen Prüfung der KI-generierten Dokumentation überstehen.

Wo menschliches Eingreifen mit KI und LLMs eingesetzt werden kann

Wie die NASA sagt, klingen LLMs zwar sehr korrekt, haben aber keinen eingebauten Sinn für Wahrheit. Sie können Fakten erfinden, Grenzfälle übersehen und Quellen zitieren, die nicht existieren.

Bei sorgfältiger Anwendung kann dasselbe Modell jedoch auch potenzielle Schwachstellen, sogenannte Defeater, aufzeigen. Testprotokolle können auf Abdeckungslücken und statische Analyseberichte auf wiederkehrende Verstöße überprüft werden. So kann Ihr Team Probleme beheben, bevor ein Prüfer sie entdeckt.

In allen sicherheitskritischen Bereichen – ob Avionik, Bahn oder Medizin – können KI-Tools Code schreiben, Tests vorschlagen oder Fehler gruppieren. Allerdings nur, wenn die KI-generierten Inhalte auf nachvollziehbare und erneut ausführbare Beweise verweisen. Und da LLMs auch dann zuversichtlich klingen können, wenn sie falsch liegen, muss ein menschlicher Prüfer das endgültige Prüfargument vorbereiten oder freigeben.

Bei sicherheitskritischen Arbeiten stimmen wir der Schlussfolgerung der NASA zu: Ein LLM kann hilfreich sein, aber ein qualifizierter Mensch muss dennoch die eigentliche Sicherheitsargumentation erstellen und abzeichnen. Der erforderliche Aufwand hängt von der Tiefe der Verifizierung ab, die jede Branche verlangt. Übersehene Fehler kosten in der Cloud Geld, können aber in der realen Welt Leben kosten.

Ein abgesicherter Ansatz für die Nutzung generativer KI

Das NASA-Papier weist auch darauf hin, wie viel KI-automatisierten Code moderne Pipelines mittlerweile generieren. Weit mehr, als Menschen allein überprüfen und Sicherheitsnachweise erbringen können.

Um dieses Volumen zu bewältigen, benötigen Sie Tools, die die Ergebnisse zunächst deterministisch sortieren und diese dann in einem eng gefassten, lokalen LLM erneut darstellen können. In dieser Situation zeigen Ihnen Lösungen wie die statischen Analyse-Workflows von Parasoft die wichtigsten Verstöße auf. Sie können diese geprüften Ergebnisse gruppieren und diejenigen kennzeichnen, die die Prüfer wirklich sehen müssen, ohne zusätzliche Informationen (echt oder erfunden) zu den bereits bekannten Beweisen hinzuzufügen.

Die ausgewählten Ergebnisse können dann an ein LLM mit Leitplanken weitergeleitet werden, um diese zusammenzufassen und in das richtige Format zu bringen. Leitplanken helfen, Ergebnisse gegenüber Prüfern präzise wiederzugeben. Leitplanken sind explizite Einschränkungen für die Sicht des Modells, Regeln für seine Antwortmöglichkeiten und Post-Checks für seine Ergebnisse. Sie sollen verhindern, dass das LLM neue Informationen erfindet.

Ein sicherheitskritisches Beispiel ist ein Luft- und Raumfahrtprojekt, bei dem ein eingeschränktes, lokales LLM einen 50,000 Zeilen umfassenden statischen Analysebericht in 10 Sekunden auf 45 priorisierte Fehlermuster komprimiert, sodass sich die Ingenieure auf kritische Probleme konzentrieren können.

Die Zukunft selbstheilender Tests

Es gibt auch die Beobachtung, dass KI den Begriff „selbstheilender Test“ überflüssig machen könnte, da dynamische Anpassung eine fehlerhafte Behauptung korrigieren kann, bevor ein Tester überhaupt Rot sieht. Diese Möglichkeit könnte DevOps-Teams begeistern, Sicherheitsingenieure jedoch verunsichern.

Das NASA-Papier zeigt uns, warum: Wenn die Korrektur selbst unkontrolliert oder nicht nachvollziehbar ist, ist die Lösung schlimmer als der Fehler selbst. Parasofts Ansatz besteht daher darin, jede automatisierte „Korrektur“ neben der fehlerhaften Basislinie zu protokollieren, sodass der Mensch sie dennoch abzeichnen kann.

Unsere Gedanken zu ihrer Schlussfolgerung

Die Autoren der NASA kommen zu dem Schluss, dass jedes durch LLM generierte Assurance-Argument streng als Experiment betrachtet werden sollte, bis wiederholbare Studien die Zuverlässigkeit belegen. Es ist zwar nützlich, sie zu erforschen, aber niemals sicher, wenn man sie allein auf Vertrauen setzt. Und es ist fraglich, wie viel Zeit sie tatsächlich sparen.

Da sich die KI rasant weiterentwickelt, sind Offenheit und Experimentierfreude unerlässlich. Parasoft erforscht Funktionen, die LLM-generierte Assurance-Snippets anhand von tatsächlichen Beweisen aus unseren Tools validieren. So haben wir beispielsweise kürzlich ein internes Forschungsprojekt durchgeführt, in dem untersucht wurde, wie ein domänenspezifisches Modell, das ausschließlich auf Parasoft-Artefakten und Assurance-Mustern trainiert wurde, zuverlässiger sein könnte als ein allgemeiner Chatbot.

Gemäß der Empfehlung der NASA behandeln wir alle derartigen Arbeiten als experimentell, bis die Gemeinschaft einen unabhängigen Nachweis für Sicherheit und Kostenvorteile erbringt. Insgesamt sind wir der Meinung, dass der Zeitgewinn durchaus real ist.

So stellen Sie die Sicherheit in den Vordergrund und sparen gleichzeitig Zeit

  • Verankern Sie jeden KI-Vorschlag in der Grundwahrheit. Ein Hyperlink zu Rohbeweisen macht aus „Vertrauen Sie mir“ „Überprüfen Sie mich“.
  • Ermitteln Sie die Kosten für den Gutachter. Wenn KI zwar zehn Stunden manuelle Triage einspart, aber zehn Stunden Überwachungsaufwand mit sich bringt, sollten Sie noch einmal prüfen, ob sich das lohnt.
  • Nach Risiko trennen. Verwenden Sie das strikte Playbook in lebenskritischen Bereichen. Verwenden Sie das schnellere Playbook, wenn ein Rollback einfacher ist.
  • Bestehen Sie auf Transparenz seitens der Anbieter – auch von uns. Fragen Sie, wie das Modell eingeschränkt ist, wo die Leitplanken liegen und was passiert, wenn es vom Skript abweicht.

Experimentieren Sie weiter mit dem Workflow, aber gehen Sie nicht davon aus

Ein LLM mit bewährten Testprotokollen, Trace-Links und Code-Scans ist nicht nur ein hervorragendes Tool, sondern auch unerlässlich, um auf dem neuesten Stand zu bleiben. Da es jedoch immer noch Dinge erfinden kann (und dabei überzeugend ist), benötigen Sie dennoch einen Menschen zur Faktenprüfung.

Aber sie lernen schnell. So schnell, dass einige Modelle Verstöße gegen die statische Analyse bereits besser erkennen als wir. Setzen Sie sie mit den vorliegenden Beweisen und mit Bedacht ein, und vielleicht können Sie die mühsame Überprüfung von heute in einen Vorsprung von morgen verwandeln.

Möchten Sie mehr über die Verwendung von LLMs in der sicherheitskritischen Entwicklung erfahren?

Sprechen Sie mit einem unserer Experten