Résultats transparents du benchmark Adlibo Prompt Guard. Testés sur 756 prompts malveillants.
Tentatives directes de contourner les instructions système
Manipulation du rôle ou de l'identité de l'IA
Extraction d'informations système ou confidentielles
Exploitation des tokens de formatage
Usurpation d'autorité ou de privilèges
Techniques DAN (Do Anything Now) et variantes
Attaques par jeu de rôle
Scénarios hypothétiques malveillants
Manipulation émotionnelle
Érosion progressive des limites
Exploitation du contexte
Encodage et obfuscation
Exploits techniques
Extraction d'informations sur le modèle
Incitation à des comportements nuisibles
Requêtes sensibles
Contenu inapproprié (NSFW)
Curated dataset of 756 malicious prompts across {categoryCount} categories
Production infrastructure (Swiss Confederation, Geneva)
Chaque test exécuté 3x pour garantir la stabilité des résultats.
Ces résultats sont obtenus sur notre infrastructure de production réelle. Nous ne gonflons pas artificiellement les métriques. Notre objectif est de fournir une protection fiable, pas des chiffres marketing.
Les résultats du benchmark sont disponibles via notre API publique.
GET https://www.adlibo.com/api/benchmark/resultsBenchmark effectué le 2026-01-20. Les performances peuvent varier en fonction de la charge et des conditions réseau. Version du benchmark: 1.0.0.