Comment obtenir d'une IA qu'elle cite l'instrument officiel CSRD, ESRS ou taxonomie ?

Connectez votre assistant à la couche de données ESG tier-0 d'Obsidian via MCP. Elle renvoie l'instrument exact, la directive (UE) 2022/2464 pour la CSRD, le règlement (UE) 2020/852 pour la taxonomie, la directive (UE) 2024/1760 pour la CSDDD, avec son statut post-Omnibus actuel et un lien direct. Offre gratuite, environ deux minutes d'installation.

Quel modèle d'IA est le meilleur pour les questions ESG et CSRD ?

Cela dépend moins du modèle que des données. Le modèle le moins cher, une fois connecté, a égalé les modèles de pointe répondant seuls sur le jeu ESG : connectez donc l'assistant que vous utilisez déjà et choisissez la gamme selon le coût.

Les données réglementaires ESG sont-elles à jour, après la simplification Omnibus ?

La couche de données est maintenue à partir du Journal officiel de l'UE avec le statut de chaque mesure suivi, en vigueur, proposée ou modifiée, de sorte que les seuils et échéances post-Omnibus reflètent ce qui s'applique aujourd'hui plutôt que le texte pré-simplification sur lequel un modèle a été entraîné.

IA réglementaire pour l'ESG et la CSRD : Claude et ChatGPT au banc d'essai

Si vous travaillez dans la durabilité et le reporting ESG, le sol ne cesse de bouger sous vos pieds. La CSRD a fait entrer une vague d'entreprises dans le reporting obligatoire, puis la simplification Omnibus a changé qui entre dans le champ d'application et quand, tandis que la taxonomie de l'UE, la SFDR, la CSDDD et le CBAM portent chacun leurs propres seuils et échéances. Demandez à un assistant IA de confirmer l'un de ces points et la réponse revient fluide et souvent dépassée : une règle de champ d'application antérieure à la simplification, une échéance qui a depuis été déplacée, une mesure citée comme contraignante alors qu'elle n'est encore qu'une proposition.

Les modèles que vous utilisez déjà raisonnent parfaitement bien sur les règles ESG. Ce qui leur manque, c'est l'accès : un modèle généraliste ne peut pas ouvrir le texte consolidé en vigueur ni savoir ce que le dernier amendement a changé. Donnez-lui ce texte, et il cesse de deviner.

Ce texte, c'est ce qu'apporte Obsidian, avec une couverture profonde et à jour du droit européen de la durabilité. Nous avons soumis les modèles à des centaines de tâches ESG complexes couvrant la CSRD, les ESRS, la taxonomie de l'UE, la SFDR, la CSDDD et le CBAM, chacune traitée seul puis connecté à Obsidian.

72 → 90

Précision réglementaire moyenne, les mêmes modèles seuls vs connectés (sur 100)

30% → 89%

Part des affirmations factuelles d'une réponse ancrées dans la source officielle

93%

Réponses connectées ayant cité la bonne source officielle

L'IA est imprécise sur la réglementation ESG

Seuls, les modèles obtiennent en moyenne 72 sur 100. Connectez-les à Obsidian et la moyenne grimpe à 90. Les modèles n'ont pas changé entre ces deux chiffres. Seules les données placées devant eux ont changé.

Précision réglementaire en fonction du prix par million de tokens — La précision réglementaire face au prix. Connecté à Obsidian (les pastilles plus larges), chaque modèle converge vers le haut.

Précision réglementaire en fonction du temps de réponse moyen en secondes — La même chose face au temps de réponse.

L'ESG est le domaine où les modèles généralistes paraissent les plus solides par eux-mêmes, parce que ces référentiels sont commentés partout, et c'est exactement ce qui rend le résultat significatif : même ici, le modèle manque le champ d'application actuel, les seuils post-simplification et le fait qu'une mesure soit réellement en vigueur. La couche de données comble cet écart. gemini-3.1-flash-lite, à $0.175 par million de tokens, passe de 70 à 95 une fois connecté, le meilleur score du tableau, devant chaque modèle plusieurs fois plus cher. Un modèle de gamme légère connecté à Obsidian a battu un modèle de pointe répondant seul dans 16 duels sur 16 sur le jeu ESG.

L'IA ne peut pas vous indiquer la source ESG officielle

Pour une équipe durabilité, la citation est le livrable. Connectée à Obsidian, une réponse arrive avec l'instrument officiel joint, la directive ou le règlement derrière la CSRD, la taxonomie, la SFDR ou la CSDDD, avec son statut actuel et un lien direct. Seul, vous obtenez une référence plausible qu'il vous faut ensuite retrouver et dater vous-même, sur un terrain où la version et le statut en vigueur sont toute la réponse.

Une réponse accompagnée de la source tier-0 est une réponse que vous pouvez transmettre à un auditeur sans la revérifier. C'est la différence entre un brouillon qu'un modèle a imaginé et une obligation sur laquelle vous pouvez agir.

L'IA hallucine

Nous avons décomposé chaque réponse en affirmations factuelles individuelles et vérifié chacune contre la source officielle. L'écart entre les deux chiffres d'affirmations ancrées ci-dessus est ce qui compte sur un terrain où une échéance erronée ou un projet pris pour du droit contraignant devient une inexactitude dans un rapport publié. Ce qui disparaît, c'est l'affirmation assurée sans rien derrière elle ; le reste non ancré est du contexte ajouté, pas des références inventées.

Les données complètes, pour les puristes

Chaque modèle, dans les deux conditions. « Seul » désigne le modèle sans couche de données ; « avec Obsidian » désigne le même modèle connecté. La précision est un score de 0 à 100 attribué par un juge en aveugle face à une vérité de référence vérifiée par des humains. « Affirmations ancrées » est la part des affirmations factuelles atomiques de la réponse qui remontent à la source officielle, seul puis avec Obsidian.

#	Modèle	Fournisseur	Gamme	Préc. seul	Préc. + Obsidian	Gain	Cite la source	Statut correct	Affirmations ancrées (seul → +Obs)	Latence	Vitesse	Prix /1M	Coût / question
1	gemini-3.1-flash-lite	Google	léger	69.5	94.6	+25.1	96%	100%	23% → 98%	0.86s	127 tok/s	$0.175	$0.000188
2	gpt-5.4-nano	OpenAI	léger	56.8	93.7	+36.9	90%	98%	41% → 93%	1.59s	75 tok/s	$0.463	$0.000408
3	gpt-5.4-mini	OpenAI	intermédiaire	84.4	93.6	+9.2	94%	100%	41% → 99%	1.33s	84 tok/s	$0.7	$0.000689
4	opus-4.8	Anthropic	avancé	81.1	93.3	+12.2	96%	100%	24% → 87%	5.94s	65 tok/s	$10.0	$0.019428
5	sonnet-4.6	Anthropic	intermédiaire	81.0	92.6	+11.6	94%	100%	24% → 73%	7.83s	49 tok/s	$6.0	$0.009912
6	haiku-4.5	Anthropic	léger	58.9	90.3	+31.4	93%	100%	23% → 87%	3.01s	77 tok/s	$2.0	$0.002546
7	gpt-5.5	OpenAI	avancé	74.2	89.7	+15.5	95%	100%	45% → 93%	5.2s	44 tok/s	$11.25	$0.014132
8	grok-3-mini	xAI	léger	69.0	87.0	+18.0	96%	100%	36% → 88%	3.27s	126 tok/s	$0.35	$0.000617
9	grok-4.20-reasoning	xAI	avancé	77.7	86.8	+9.1	91%	95%	30% → 88%	3.04s	214 tok/s	$6.0	$0.015101
10	grok-4.3	xAI	intermédiaire	74.0	86.4	+12.4	88%	95%	36% → 88%	3.2s	126 tok/s	$1.562	$0.002703
11	gemini-3.1-pro	Google	avancé	69.3	86.0	+16.7	88%	95%	31% → 96%	6.21s	107 tok/s	$6.0	$0.016565
12	gemini-3.5-flash	Google	intermédiaire	67.9	83.7	+15.8	90%	95%	29% → 92%	3.41s	180 tok/s	$3.375	$0.0089

Sur l'ESG, les modèles obtiennent déjà de bons scores à partir du seul débat public, ce qui fait de la précision connectée et du bond des affirmations ancrées les tests les plus exigeants, et la couche de données réussit les deux.

Comment nous avons mesuré

L'ensemble complet des modèles d'Anthropic, OpenAI, Google et xAI.
Des centaines de tâches ESG complexes couvrant la CSRD, les ESRS, la taxonomie de l'UE, la SFDR, la CSDDD et le CBAM, chacune reliée à sa référence officielle et à son statut actuel. Les tâches hors de la couverture ESG actuelle d'Obsidian sont écartées, de sorte que le score reflète la qualité des réponses.
Deux conditions : le modèle seul, puis connecté à Obsidian.
Un juge en aveugle note chaque réponse ; les affirmations ancrées proviennent d'une vérification distincte, affirmation par affirmation, contre la source officielle.

Mettez la source ESG officielle derrière chaque réponse

Connectez Obsidian à l'IA que vous utilisez déjà et chaque réponse sur la CSRD, la taxonomie ou la SFDR revient avec son instrument officiel, sa date et son statut actuel. Offre gratuite, installation en deux minutes.

Découvrir la couche de données Obsidian

Ce qu'il faut en retenir

Vous n'avez pas besoin d'un modèle plus cher, et vous n'avez pas à accepter des suppositions sur un corpus qui bouge chaque trimestre. L'assistant que votre équipe utilise déjà, alimenté par des données ESG vérifiées, répond avec l'instrument en vigueur joint, si bien qu'un responsable durabilité peut agir dessus au lieu de le revérifier. Le contexte est ici aussi : la veille réglementaire ESG et CSRD et les données réglementaires tier-0. Les résultats complets toutes industries confondues sont dans le benchmark d'IA réglementaire. Pour le tester sur vos propres questions, connectez la couche de données réglementaires Obsidian.