Si vous travaillez dans la durabilité et le reporting ESG, le sol ne cesse de bouger sous vos pieds. La CSRD a fait entrer une vague d'entreprises dans le reporting obligatoire, puis la simplification Omnibus a changé qui entre dans le champ d'application et quand, tandis que la taxonomie de l'UE, la SFDR, la CSDDD et le CBAM portent chacun leurs propres seuils et échéances. Demandez à un assistant IA de confirmer l'un de ces points et la réponse revient fluide et souvent dépassée : une règle de champ d'application antérieure à la simplification, une échéance qui a depuis été déplacée, une mesure citée comme contraignante alors qu'elle n'est encore qu'une proposition.
Les modèles que vous utilisez déjà raisonnent parfaitement bien sur les règles ESG. Ce qui leur manque, c'est l'accès : un modèle généraliste ne peut pas ouvrir le texte consolidé en vigueur ni savoir ce que le dernier amendement a changé. Donnez-lui ce texte, et il cesse de deviner.
Ce texte, c'est ce qu'apporte Obsidian, avec une couverture profonde et à jour du droit européen de la durabilité. Nous avons soumis les modèles à des centaines de tâches ESG complexes couvrant la CSRD, les ESRS, la taxonomie de l'UE, la SFDR, la CSDDD et le CBAM, chacune traitée seul puis connecté à Obsidian.
L'IA est imprécise sur la réglementation ESG
Seuls, les modèles obtiennent en moyenne 72 sur 100. Connectez-les à Obsidian et la moyenne grimpe à 90. Les modèles n'ont pas changé entre ces deux chiffres. Seules les données placées devant eux ont changé.
L'ESG est le domaine où les modèles généralistes paraissent les plus solides par eux-mêmes, parce que ces référentiels sont commentés partout, et c'est exactement ce qui rend le résultat significatif : même ici, le modèle manque le champ d'application actuel, les seuils post-simplification et le fait qu'une mesure soit réellement en vigueur. La couche de données comble cet écart. gemini-3.1-flash-lite, à $0.175 par million de tokens, passe de 70 à 95 une fois connecté, le meilleur score du tableau, devant chaque modèle plusieurs fois plus cher. Un modèle de gamme légère connecté à Obsidian a battu un modèle de pointe répondant seul dans 16 duels sur 16 sur le jeu ESG.
L'IA ne peut pas vous indiquer la source ESG officielle
Pour une équipe durabilité, la citation est le livrable. Connectée à Obsidian, une réponse arrive avec l'instrument officiel joint, la directive ou le règlement derrière la CSRD, la taxonomie, la SFDR ou la CSDDD, avec son statut actuel et un lien direct. Seul, vous obtenez une référence plausible qu'il vous faut ensuite retrouver et dater vous-même, sur un terrain où la version et le statut en vigueur sont toute la réponse.
Une réponse accompagnée de la source tier-0 est une réponse que vous pouvez transmettre à un auditeur sans la revérifier. C'est la différence entre un brouillon qu'un modèle a imaginé et une obligation sur laquelle vous pouvez agir.
L'IA hallucine
Nous avons décomposé chaque réponse en affirmations factuelles individuelles et vérifié chacune contre la source officielle. L'écart entre les deux chiffres d'affirmations ancrées ci-dessus est ce qui compte sur un terrain où une échéance erronée ou un projet pris pour du droit contraignant devient une inexactitude dans un rapport publié. Ce qui disparaît, c'est l'affirmation assurée sans rien derrière elle ; le reste non ancré est du contexte ajouté, pas des références inventées.
Les données complètes, pour les puristes
Chaque modèle, dans les deux conditions. « Seul » désigne le modèle sans couche de données ; « avec Obsidian » désigne le même modèle connecté. La précision est un score de 0 à 100 attribué par un juge en aveugle face à une vérité de référence vérifiée par des humains. « Affirmations ancrées » est la part des affirmations factuelles atomiques de la réponse qui remontent à la source officielle, seul puis avec Obsidian.
| # | Modèle | Fournisseur | Gamme | Préc. seul | Préc. + Obsidian | Gain | Cite la source | Statut correct | Affirmations ancrées (seul → +Obs) | Latence | Vitesse | Prix /1M | Coût / question |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | gemini-3.1-flash-lite | léger | 69.5 | 94.6 | +25.1 | 96% | 100% | 23% → 98% | 0.86s | 127 tok/s | $0.175 | $0.000188 | |
| 2 | gpt-5.4-nano | OpenAI | léger | 56.8 | 93.7 | +36.9 | 90% | 98% | 41% → 93% | 1.59s | 75 tok/s | $0.463 | $0.000408 |
| 3 | gpt-5.4-mini | OpenAI | intermédiaire | 84.4 | 93.6 | +9.2 | 94% | 100% | 41% → 99% | 1.33s | 84 tok/s | $0.7 | $0.000689 |
| 4 | opus-4.8 | Anthropic | avancé | 81.1 | 93.3 | +12.2 | 96% | 100% | 24% → 87% | 5.94s | 65 tok/s | $10.0 | $0.019428 |
| 5 | sonnet-4.6 | Anthropic | intermédiaire | 81.0 | 92.6 | +11.6 | 94% | 100% | 24% → 73% | 7.83s | 49 tok/s | $6.0 | $0.009912 |
| 6 | haiku-4.5 | Anthropic | léger | 58.9 | 90.3 | +31.4 | 93% | 100% | 23% → 87% | 3.01s | 77 tok/s | $2.0 | $0.002546 |
| 7 | gpt-5.5 | OpenAI | avancé | 74.2 | 89.7 | +15.5 | 95% | 100% | 45% → 93% | 5.2s | 44 tok/s | $11.25 | $0.014132 |
| 8 | grok-3-mini | xAI | léger | 69.0 | 87.0 | +18.0 | 96% | 100% | 36% → 88% | 3.27s | 126 tok/s | $0.35 | $0.000617 |
| 9 | grok-4.20-reasoning | xAI | avancé | 77.7 | 86.8 | +9.1 | 91% | 95% | 30% → 88% | 3.04s | 214 tok/s | $6.0 | $0.015101 |
| 10 | grok-4.3 | xAI | intermédiaire | 74.0 | 86.4 | +12.4 | 88% | 95% | 36% → 88% | 3.2s | 126 tok/s | $1.562 | $0.002703 |
| 11 | gemini-3.1-pro | avancé | 69.3 | 86.0 | +16.7 | 88% | 95% | 31% → 96% | 6.21s | 107 tok/s | $6.0 | $0.016565 | |
| 12 | gemini-3.5-flash | intermédiaire | 67.9 | 83.7 | +15.8 | 90% | 95% | 29% → 92% | 3.41s | 180 tok/s | $3.375 | $0.0089 |
Sur l'ESG, les modèles obtiennent déjà de bons scores à partir du seul débat public, ce qui fait de la précision connectée et du bond des affirmations ancrées les tests les plus exigeants, et la couche de données réussit les deux.
Comment nous avons mesuré
- L'ensemble complet des modèles d'Anthropic, OpenAI, Google et xAI.
- Des centaines de tâches ESG complexes couvrant la CSRD, les ESRS, la taxonomie de l'UE, la SFDR, la CSDDD et le CBAM, chacune reliée à sa référence officielle et à son statut actuel. Les tâches hors de la couverture ESG actuelle d'Obsidian sont écartées, de sorte que le score reflète la qualité des réponses.
- Deux conditions : le modèle seul, puis connecté à Obsidian.
- Un juge en aveugle note chaque réponse ; les affirmations ancrées proviennent d'une vérification distincte, affirmation par affirmation, contre la source officielle.
Mettez la source ESG officielle derrière chaque réponse
Connectez Obsidian à l'IA que vous utilisez déjà et chaque réponse sur la CSRD, la taxonomie ou la SFDR revient avec son instrument officiel, sa date et son statut actuel. Offre gratuite, installation en deux minutes.
Découvrir la couche de données ObsidianCe qu'il faut en retenir
Vous n'avez pas besoin d'un modèle plus cher, et vous n'avez pas à accepter des suppositions sur un corpus qui bouge chaque trimestre. L'assistant que votre équipe utilise déjà, alimenté par des données ESG vérifiées, répond avec l'instrument en vigueur joint, si bien qu'un responsable durabilité peut agir dessus au lieu de le revérifier. Le contexte est ici aussi : la veille réglementaire ESG et CSRD et les données réglementaires tier-0. Les résultats complets toutes industries confondues sont dans le benchmark d'IA réglementaire. Pour le tester sur vos propres questions, connectez la couche de données réglementaires Obsidian.