Healthcare, finance, legal — billions are flowing into logging. The reasoning feels airtight: capture everything the AI system did, and you can answer for it later. But there is a failure mode this never closes. A perfect log can document a perfectly unauthorized decision. The record can be complete, immutable, beautifully formatted — and still describe an action nobody was entitled to take, with a rationale that reads entirely in the system's favor.
The reason is uncomfortable: a generative system can write its own governance. It can produce the log, generate the explanation, and reconstruct the path that "led" to a decision. Any authority that lives in a document is authority a fluent system can manufacture after the fact.
Two questions that look like one
Most debates here collapse two different things into a single axis, as if one replaces the other:
Enforcement — did the system block the bad output at the moment of action?
Verification — can you prove, to someone outside the system, that the enforcement actually operated as claimed?
These are orthogonal, not sequential. A runtime gate answers the first. It cannot answer the second about itself: no system certifies itself from inside. The claim "this was controlled before the consequence" is itself a claim — one that has to be evidenced to a regulator, an insurer, a court. The moment they evaluate it, they do so after. There is no escaping the after; there is only the question of whether the evidence they're handed is trustworthy.
A control no one can independently verify is just another black box. So is enforcement without independent verification.
Why "after" is the whole problem
Reconstructing a decision path after the event is not evidence of governance. It is a receipt for governance that may have been absent at the only moment it could have existed. Consider the field every thorough review is supposed to contain: the alternatives that were considered and rejected. If a system records an empty alternatives: [], you cannot tell a rigorous deliberation from a rubber stamp. And a fluent system can fill that field with a plausible rationale that was never actually weighed. The text proves nothing — because the text is exactly what generative systems are built to produce.
The one property that can't be back-filled
There is a single property a generator cannot forge: order. Forging it would require editing the past. In 1991, Haber and Stornetta showed how "before-ness" is established — by binding a record into a sequence the present cannot rewrite. That is the lever. Evidence is trustworthy not because it is detailed, but when it is:
committed before the consequence it governs,
ordered in a sequence its own author cannot rewrite,
witnessed by something other than the system under review.
We call evidence that satisfies all three contemporaneously bound. It is the observable difference between a record sealed as governance and one assembled as narrative. Crucially, this is the same discipline clinical trials enforce with pre-registration: without it, knowledge of the outcome silently contaminates the standard you claim to have applied.
When the channel never existed: NOT ASSESSABLE
There is an honest third answer most systems refuse to give. If the channel that would have captured the evidence was not active when the event occurred, the right output is not "violation" and not "compliant." It is NOT ASSESSABLE — absence of observation, not evidence of absence. A governance claim can only be assessed if the observation channels needed to falsify or corroborate it were live at the time the claim became operational. Reporting NOT ASSESSABLE honestly is what separates an evidence layer from a scoring theater.
Where the boundary sits
None of this decides whether a contradiction is acceptable. Evidence attests the conditions; an accountable authority decides admissibility. The job of the evidence layer is narrower and more durable: make the governance claim observable, contradictable, and independently evidenced — so that "we prevent failure by design" stops being an article of faith and becomes something an outsider can actually check.
See it on a real system
A complete AI Act evidence audit you can browse — and re-verify yourself, without trusting us.
Santé, finance, juridique — des milliards affluent vers la journalisation. Le raisonnement paraît imparable : capturer tout ce que le système IA a fait, et l'on pourra en répondre plus tard. Mais il reste un mode de défaillance que cela ne ferme jamais. Un journal parfait peut documenter une décision parfaitement non autorisée. Le registre peut être complet, immuable, magnifiquement formaté — et décrire malgré tout une action que personne n'avait le droit de prendre, avec une justification entièrement à l'avantage du système.
La raison est dérangeante : un système génératif peut écrire sa propre gouvernance. Il produit le journal, génère l'explication, reconstruit le chemin qui « a mené » à une décision. Toute autorité qui vit dans un document est une autorité qu'un système fluide peut fabriquer après coup.
Deux questions qui n'en semblent qu'une
La plupart des débats fondent ici deux choses distinctes en un seul axe, comme si l'une remplaçait l'autre :
Le contrôle (enforcement) — le système a-t-il bloqué la sortie au moment de l'action ?
La vérification — peut-on prouver, à quelqu'un d'extérieur, que ce contrôle a réellement opéré comme prétendu ?
Elles sont orthogonales, pas séquentielles. Un gate runtime répond à la première. Il ne peut pas répondre à la seconde sur lui-même : aucun système ne se certifie de l'intérieur. L'affirmation « ceci a été contrôlé avant la conséquence » est elle-même une affirmation — qui doit être prouvée à un régulateur, un assureur, un juge. Au moment où ils l'évaluent, c'est après. On n'échappe pas à l'après ; reste seulement la question de la fiabilité de la preuve qu'on leur tend.
Un contrôle que personne ne peut vérifier indépendamment n'est qu'une autre boîte noire. Le contrôle sans vérification indépendante aussi.
Pourquoi « l'après » est tout le problème
Reconstruire un chemin de décision après l'événement n'est pas une preuve de gouvernance. C'est le reçu d'une gouvernance peut-être absente au seul moment où elle pouvait exister. Prenez le champ que toute revue rigoureuse est censée contenir : les alternatives envisagées puis rejetées. Si un système enregistre un alternatives: [] vide, on ne distingue pas une délibération sérieuse d'un tampon automatique. Et un système fluide peut remplir ce champ d'une justification plausible jamais réellement pesée. Le texte ne prouve rien — car le texte est précisément ce que les systèmes génératifs sont faits pour produire.
La seule propriété qu'on ne peut pas reconstituer
Il existe une propriété qu'un générateur ne peut pas falsifier : l'ordre. La falsifier exigerait de réécrire le passé. En 1991, Haber et Stornetta ont montré comment établir l'« antériorité » — en liant un enregistrement dans une séquence que le présent ne peut réécrire. C'est le levier. Une preuve est fiable non parce qu'elle est détaillée, mais quand elle est :
engagée avant la conséquence qu'elle gouverne,
ordonnée dans une séquence que son propre auteur ne peut réécrire,
attestée par autre chose que le système examiné.
Une preuve qui satisfait ces trois conditions est liée de façon contemporaine. C'est la différence observable entre un enregistrement scellé comme gouvernance et un autre assemblé comme récit. C'est la discipline même qu'imposent les essais cliniques avec la pré-enregistrement : sans elle, la connaissance du résultat contamine silencieusement le standard qu'on prétend avoir appliqué.
Quand le canal n'a jamais existé : NON ÉVALUABLE
Il existe une troisième réponse honnête que la plupart des systèmes refusent de donner. Si le canal qui aurait capturé la preuve n'était pas actif au moment de l'événement, la bonne sortie n'est ni « violation » ni « conforme ». C'est NON ÉVALUABLE — absence d'observation, pas preuve d'absence. Une affirmation de gouvernance n'est évaluable que si les canaux d'observation nécessaires pour la falsifier ou la corroborer étaient actifs au moment où elle est devenue opérationnelle. Reporter honnêtement NON ÉVALUABLE, c'est ce qui sépare une couche de preuve d'un théâtre de scoring.
Où se situe la frontière
Rien de tout cela ne décide si une contradiction est acceptable. La preuve atteste les conditions ; une autorité responsable décide de l'admissibilité. Le rôle de la couche de preuve est plus étroit et plus durable : rendre l'affirmation de gouvernance observable, contredisable et attestée indépendamment — pour que « nous prévenons la défaillance par conception » cesse d'être un acte de foi et devienne quelque chose qu'un tiers peut réellement vérifier.
Voyez-le sur un système réel
Un audit de preuve AI Act complet, que vous pouvez parcourir — et re-vérifier vous-même, sans nous faire confiance.