Entdecken Sie das TÜV-zertifizierte GoogleTest mit Agentic AI für C/C++-Tests!
Details ansehen »
Whitepaper
Werfen Sie unten einen Blick auf die Studie.
Diese Studie untersucht, wie GitHub Copilot und die Prompt-Vorlagen von Parasoft Codekorrekturen für statische Analyseverstöße generieren, die von … erkannt wurden. Parasoft C / C ++ testBeide Tools verwendeten GPT-4o, wobei die Korrekturen mit GPT-4o-2024-08-06 für paarweise Vergleiche bewertet wurden.
Die Ergebnisse zeigen, dass die Aufgaben von Parasoft deutlich besser abschnitten als die von GitHub Copilot: Bei Fragen mit Begründungsfunktion war Parasoft in 64.45 % der Fälle überlegen, in 20.5 % gleichauf und in 15.05 % unterlegen. Aufgaben ohne Begründungsfunktion waren Copilot in 57.16 % der Fälle überlegen.
Eine manuelle Analyse legt nahe, dass die Eingabeaufforderungen von Parasoft durch Regeldokumentation und logisches Denken zu umfassenderen und robusteren Lösungen führen.
| Gewinnrate | Gleichstand | Verlustrate | |
|---|---|---|---|
| GitHub-Copilot | 0.150895 | 0.204604 | 0.644501 |
| C++-Test mit Logikfragen | 0.644501 | 0.204604 | 0.150895 |
| Gewinnrate | Gleichstand | Verlustrate | |
|---|---|---|---|
| GitHub-Copilot | 0.199488 | 0.2289 | 0.571611 |
| C++-Test ohne Begründungsfragen | 0.571611 | 0.2289 | 0.199488 |
| GitHub-Copilot | C++-Test mit Begründung | C++-Test ohne Begründung | |
|---|---|---|---|
| GitHub-Copilot | - | 0.150895 | 0.199488 |
| C++-Test mit Begründung | 0.644501 | - | 0.313433 |
| C++-Test ohne Begründung | 0.571611 | 0.186567 | - |
Die Visualisierung verdeutlicht die überlegene Leistung von Parasoft C++test bei beiden Prompt-Ansätzen:
In beiden Konfigurationen gewinnt C++test häufiger als es zu einem Unentschieden oder einer Niederlage kommt, was eine durchgängige Überlegenheit in der Qualität der Fehlerbehebungen beweist.
Diese Analyse zeigt, dass die mit den Parasoft-Prompts erzielten Korrekturen durchweg besser abschneiden als jene von GitHub Copilot. Die Leistung wurde sowohl für einfache als auch für mit Begründungen versehene Prompt-Varianten untersucht, wobei die mit Begründungen versehenen Prompts etwas besser abschnitten.
Eine manuelle Überprüfung der Beispieldaten ergab, dass die mit den Parasoft-Prompts generierten Korrekturen oft vollständiger sind (z. B. werden alle Instanzen eines Problems in benachbarten Zeilen behoben), robuster (bessere Fehlerbehandlung implementiert) und den gängigen Codierungspraktiken entsprechen.
Die überlegene Leistung wird auf zwei Schlüsselfaktoren im Design der Eingabeaufforderungen von Parasoft zurückgeführt:
Diese Elemente arbeiten zusammen, um die Fähigkeit des Modells zur Generierung von Fehlerbehebungen zu verbessern, was zu zuverlässigeren und umfassenderen Codekorrekturen führt.
Diese Studie berücksichtigt mehrere methodische Einschränkungen:
Bereit, tiefer einzutauchen?