Si vous travaillez dans la durabilité et le reporting ESG, le sol ne cesse de bouger sous vos pieds. La CSRD a fait entrer une vague d'entreprises dans le reporting obligatoire, puis la simplification Omnibus a changé qui entre dans le champ d'application et quand, tandis que la taxonomie de l'UE, la SFDR, la CSDDD et le CBAM portent chacun leurs propres seuils et échéances. Demandez à un assistant IA de confirmer l'un de ces points et la réponse revient fluide et souvent dépassée : une règle de champ d'application antérieure à la simplification, une échéance qui a depuis été déplacée, une mesure citée comme contraignante alors qu'elle n'est encore qu'une proposition.

Les modèles que vous utilisez déjà raisonnent parfaitement bien sur les règles ESG. Ce qui leur manque, c'est l'accès : un modèle généraliste ne peut pas ouvrir le texte consolidé en vigueur ni savoir ce que le dernier amendement a changé. Donnez-lui ce texte, et il cesse de deviner.

Ce texte, c'est ce qu'apporte Obsidian, avec une couverture profonde et à jour du droit européen de la durabilité. Nous avons soumis les modèles à des centaines de tâches ESG complexes couvrant la CSRD, les ESRS, la taxonomie de l'UE, la SFDR, la CSDDD et le CBAM, chacune traitée seul puis connecté à Obsidian.

72 → 90
Précision réglementaire moyenne, les mêmes modèles seuls vs connectés (sur 100)
30% → 89%
Part des affirmations factuelles d'une réponse ancrées dans la source officielle
93%
Réponses connectées ayant cité la bonne source officielle

L'IA est imprécise sur la réglementation ESG

Seuls, les modèles obtiennent en moyenne 72 sur 100. Connectez-les à Obsidian et la moyenne grimpe à 90. Les modèles n'ont pas changé entre ces deux chiffres. Seules les données placées devant eux ont changé.

Précision réglementaire en fonction du prix par million de tokens
La précision réglementaire face au prix. Connecté à Obsidian (les pastilles plus larges), chaque modèle converge vers le haut.
Précision réglementaire en fonction du temps de réponse moyen en secondes
La même chose face au temps de réponse.

L'ESG est le domaine où les modèles généralistes paraissent les plus solides par eux-mêmes, parce que ces référentiels sont commentés partout, et c'est exactement ce qui rend le résultat significatif : même ici, le modèle manque le champ d'application actuel, les seuils post-simplification et le fait qu'une mesure soit réellement en vigueur. La couche de données comble cet écart. gemini-3.1-flash-lite, à $0.175 par million de tokens, passe de 70 à 95 une fois connecté, le meilleur score du tableau, devant chaque modèle plusieurs fois plus cher. Un modèle de gamme légère connecté à Obsidian a battu un modèle de pointe répondant seul dans 16 duels sur 16 sur le jeu ESG.

L'IA ne peut pas vous indiquer la source ESG officielle

Pour une équipe durabilité, la citation est le livrable. Connectée à Obsidian, une réponse arrive avec l'instrument officiel joint, la directive ou le règlement derrière la CSRD, la taxonomie, la SFDR ou la CSDDD, avec son statut actuel et un lien direct. Seul, vous obtenez une référence plausible qu'il vous faut ensuite retrouver et dater vous-même, sur un terrain où la version et le statut en vigueur sont toute la réponse.

Une réponse accompagnée de la source tier-0 est une réponse que vous pouvez transmettre à un auditeur sans la revérifier. C'est la différence entre un brouillon qu'un modèle a imaginé et une obligation sur laquelle vous pouvez agir.

L'IA hallucine

Nous avons décomposé chaque réponse en affirmations factuelles individuelles et vérifié chacune contre la source officielle. L'écart entre les deux chiffres d'affirmations ancrées ci-dessus est ce qui compte sur un terrain où une échéance erronée ou un projet pris pour du droit contraignant devient une inexactitude dans un rapport publié. Ce qui disparaît, c'est l'affirmation assurée sans rien derrière elle ; le reste non ancré est du contexte ajouté, pas des références inventées.

Les données complètes, pour les puristes

Chaque modèle, dans les deux conditions. « Seul » désigne le modèle sans couche de données ; « avec Obsidian » désigne le même modèle connecté. La précision est un score de 0 à 100 attribué par un juge en aveugle face à une vérité de référence vérifiée par des humains. « Affirmations ancrées » est la part des affirmations factuelles atomiques de la réponse qui remontent à la source officielle, seul puis avec Obsidian.

#ModèleFournisseurGammePréc. seulPréc. + ObsidianGainCite la sourceStatut correctAffirmations ancrées (seul → +Obs)LatenceVitessePrix /1MCoût / question
1gemini-3.1-flash-liteGoogleléger69.594.6+25.196%100%23% → 98%0.86s127 tok/s$0.175$0.000188
2gpt-5.4-nanoOpenAIléger56.893.7+36.990%98%41% → 93%1.59s75 tok/s$0.463$0.000408
3gpt-5.4-miniOpenAIintermédiaire84.493.6+9.294%100%41% → 99%1.33s84 tok/s$0.7$0.000689
4opus-4.8Anthropicavancé81.193.3+12.296%100%24% → 87%5.94s65 tok/s$10.0$0.019428
5sonnet-4.6Anthropicintermédiaire81.092.6+11.694%100%24% → 73%7.83s49 tok/s$6.0$0.009912
6haiku-4.5Anthropicléger58.990.3+31.493%100%23% → 87%3.01s77 tok/s$2.0$0.002546
7gpt-5.5OpenAIavancé74.289.7+15.595%100%45% → 93%5.2s44 tok/s$11.25$0.014132
8grok-3-minixAIléger69.087.0+18.096%100%36% → 88%3.27s126 tok/s$0.35$0.000617
9grok-4.20-reasoningxAIavancé77.786.8+9.191%95%30% → 88%3.04s214 tok/s$6.0$0.015101
10grok-4.3xAIintermédiaire74.086.4+12.488%95%36% → 88%3.2s126 tok/s$1.562$0.002703
11gemini-3.1-proGoogleavancé69.386.0+16.788%95%31% → 96%6.21s107 tok/s$6.0$0.016565
12gemini-3.5-flashGoogleintermédiaire67.983.7+15.890%95%29% → 92%3.41s180 tok/s$3.375$0.0089

Sur l'ESG, les modèles obtiennent déjà de bons scores à partir du seul débat public, ce qui fait de la précision connectée et du bond des affirmations ancrées les tests les plus exigeants, et la couche de données réussit les deux.

Comment nous avons mesuré

  • L'ensemble complet des modèles d'Anthropic, OpenAI, Google et xAI.
  • Des centaines de tâches ESG complexes couvrant la CSRD, les ESRS, la taxonomie de l'UE, la SFDR, la CSDDD et le CBAM, chacune reliée à sa référence officielle et à son statut actuel. Les tâches hors de la couverture ESG actuelle d'Obsidian sont écartées, de sorte que le score reflète la qualité des réponses.
  • Deux conditions : le modèle seul, puis connecté à Obsidian.
  • Un juge en aveugle note chaque réponse ; les affirmations ancrées proviennent d'une vérification distincte, affirmation par affirmation, contre la source officielle.

Mettez la source ESG officielle derrière chaque réponse

Connectez Obsidian à l'IA que vous utilisez déjà et chaque réponse sur la CSRD, la taxonomie ou la SFDR revient avec son instrument officiel, sa date et son statut actuel. Offre gratuite, installation en deux minutes.

Découvrir la couche de données Obsidian

Ce qu'il faut en retenir

Vous n'avez pas besoin d'un modèle plus cher, et vous n'avez pas à accepter des suppositions sur un corpus qui bouge chaque trimestre. L'assistant que votre équipe utilise déjà, alimenté par des données ESG vérifiées, répond avec l'instrument en vigueur joint, si bien qu'un responsable durabilité peut agir dessus au lieu de le revérifier. Le contexte est ici aussi : la veille réglementaire ESG et CSRD et les données réglementaires tier-0. Les résultats complets toutes industries confondues sont dans le benchmark d'IA réglementaire. Pour le tester sur vos propres questions, connectez la couche de données réglementaires Obsidian.