Benchmark CRT : la tokenisation améliore-t-elle vraiment la qualité des réponses LLM ?

« Si on masque les données, le LLM ne pourra pas bien répondre. » C'est l'objection la plus fréquente des entreprises qui évaluent Senseway. Notre benchmark CRT de 504 rounds la réfute factuellement.
Protocole du benchmark
- 504 rounds répartis sur 8 domaines (RH, finance, juridique, santé, immobilier, assurance, éducation, IT)
- Données 100% fictives générées spécifiquement pour le test
- Protocole reproductible : script open-source, résultats publiés
- Comparaison : même prompt envoyé en RAW (données réelles) puis en CRT (tokenisé)
- Évaluation : score global, protection PII, cohérence sémantique, structure
Résultats globaux
| Dimension | RAW | CRT | Δ |
|---|---|---|---|
| Score global | 6,98/10 | 8,63/10 | +1,65 |
| Protection PII | 6,06/10 | 10/10 | +3,94 |
| Sens / cohérence | 5,19/10 | 5,99/10 | +0,80 |
| Structure | 9,69/10 | 9,89/10 | +0,20 |
Le CRT a gagné 495 rounds sur 495 comparaisons (100%).
Pourquoi CRT améliore la qualité
Intelligence symbolique
Les LLMs ne raisonnent pas sur les mots mais sur des vecteurs d'embedding — des représentations abstraites. Les tokens Senseway ([protected.N]) fonctionnent comme des identifiants symboliques cohérents que le LLM traite naturellement.
Elimination des biais
Quand un LLM voit « Nestlé SA » dans un prompt, il active ses connaissances pré-entraînées sur Nestlé. Ce biais contextuel peut altérer l'analyse. Avec [protected.1], le LLM se concentre uniquement sur les paramètres structurels de la requête.
Exemple mesuré (domaine Finance) :
- RAW : « Analyse les risques du prêt à Helvetia Consulting SA » → le LLM associe « Helvetia » au groupe d'assurance et biaise son analyse
- CRT : « Analyse les risques du prêt à [protected.1] » → analyse de risque pure, sans contamination
Prompt enrichi
La tokenisation CRT s'accompagne d'un enrichissement contextuel : le domaine métier, les labels sémantiques et les métadonnées de l'entité sont transmis au LLM sous forme structurée. Le modèle dispose ainsi des informations nécessaires pour activer les bons circuits de raisonnement.
Performance du moteur DLP
Le moteur CRT (DataShield) a été validé sur 2 038 260 PII :
- 96,2% de taux de détection global
- 1,6% de taux de faux positifs critiques
- 0,6ms par donnée protégée
- 13 071 patterns de détection actifs
- 65+ pays couverts (CH, FR, DE, IT, ES, UK, US...)
Résultats par domaine
| Domaine | Score CRT | Détection haute valeur |
|---|---|---|
| Ressources humaines | 8,7/10 | 98,1% |
| Finance | 8,5/10 | 97,8% |
| Juridique | 8,8/10 | 97,5% |
| Santé | 8,4/10 | 96,2% |
| Immobilier | 8,9/10 | 97,9% |
| Assurance | 8,6/10 | 96,8% |
| Éducation | 8,5/10 | 97,4% |
| IT | 8,7/10 | 97,0% |
Conclusion
Le benchmark démontre que la tokenisation CRT ne dégrade pas la qualité des réponses — elle l'améliore. Ce résultat contre-intuitif s'explique par l'intelligence symbolique des LLMs : ils raisonnent mieux sur des représentations abstraites débarrassées des biais contextuels.
Consultez les résultats complets : adlibo.com/benchmark