Aller au contenu principal

Observatoire WebConforme

Méthodologie du baromètre conformité France

Comment nous auditons automatiquement un corpus de sites français publics pour alimenter notre observatoire de l'accessibilité numérique.

Dernière mise à jour :

1. Corpus audité

Le baromètre cible un corpus de 580 domaines français publicsrépartis en 10 catégories pour refléter la diversité du web FR. Au 4 mai 2026, 374 sites ont été effectivement audités (taux de réussite crawl 64,5 %). Les sites non scannés (timeout, blocage robots.txt, DNS inaccessible) sont exclus des statistiques publiées pour ne pas biaiser les pourcentages.

  • CAC 40 (40 sites cibles) — grands groupes cotés Euronext Paris
  • E-commerce (99) — top marchands FR (FEVAD, classements marchés)
  • Services gouvernementaux (99) — ministères, agences, portails publics .gouv.fr
  • Startups (97) — French Tech, Bpifrance, licornes
  • Collectivités territoriales (60) — régions, métropoles, villes > 100 000 habitants
  • Médias (49) — presse en ligne, quotidiens, magazines
  • PME services (43) — prestataires services BtoB représentatifs
  • Retail (33) — distribution généraliste et spécialisée
  • Banques & assurances (30) — établissements bancaires et assureurs FR
  • Associations (30) — associations d'utilité publique

Chaque domaine est vérifié, dédoublonné et classé avant intégration. Les seeds sont versionnés dans le code source. Extensions du corpus à 3 000+ sites programmées pour la version 2.0 (T1 2027).

2. Fréquence des scans

Le corpus complet est ré-audité une fois par mois, typiquement entre le 1er et le 5 du mois. Cette cadence permet d'observer les évolutions liées aux déploiements, refontes et corrections, sans saturer les serveurs audités. Elle alimente aussi les variations temporelles publiées dans l'étude annuelle État de l'accessibilité en France 2026.

3. Protocole technique

  • User-Agent identifié : WebConforme-Barometre/1.0 (+ URL publique vers la politique de crawl)
  • Respect strict de robots.txt via le parseur standard urllib.robotparser. Tout site qui interdit notre UA est exclu sans contestation.
  • Rate-limit 1 requête / seconde / domaine pour éviter toute charge induite.
  • Découverte des pages via sitemap.xml ; max 10 pages par site pour équilibrer représentativité et coût de crawl.
  • Moteur d'audit : navigateur Chromium headless (Playwright) + injection de axe-core (règles WCAG 2.1 AA automatisables).
  • Viewport de test : 1920×1080 (desktop), timeout 30 s par page.

4. Critères mesurés

Chaque page produit une liste de violations axe-core classées par impact (critical, serious, moderate, minor). Les règles axe-core sont cartographiées vers le RGAA v4.1 (référentiel officiel DINUM) via notre table de correspondance maintenue à jour. Le score global de chaque site est la moyenne des scores de ses pages auditées (ratio tests passés / tests totaux).

La classification suit la nomenclature DINUM officielle (4 statuts) :

  • conforme — score ≥ 95 / 100 ET zéro violation critique
  • partiellement_conforme — score entre 50 et 95 / 100 ET zéro violation critique (site audité, dans le scope RGAA, ne tenant pas le seuil interne de conformité)
  • non_conforme — score < 50 / 100 OU au moins une violation critique détectée
  • non_applicable — site hors scope RGAA (microentreprise exemptée par EAA art. 4§5, services internes, contenus archivés non mis à jour). Ce statut n'est jamais attribué à un site partiellement audité.

Cette classification est statistique et automatisée ; elle ne se substitue pas à la déclaration de conformité officielle qui ne peut être délivrée que par un audit RGAA manuel par expert certifié (décret n° 2019-768).

5. Exclusions transparentes

Sont exclus du comptage des « sites audités » sur la page d'accueil et dans nos agrégats :

  • Sites bloqués par robots.txt (statut blocked_by_robots)
  • Sites en erreur réseau persistante (DNS, TLS, 5xx) après retry
  • Pages nécessitant authentification (scan limité aux pages publiques)
  • Contenu en iframe tiers (widgets externes) — non scanné

Seuls les sites ayant au moins une page auditée avec succès entrent dans le compteur public. Cette rigueur d'exclusion est essentielle à l'intégrité des chiffres affichés.

6. Méthodologie d'anonymisation

Les données publiées sont anonymisées selon les principes suivants :

  • Chaque site est représenté par un identifiant aléatoire UUID stable, sans relation algorithmique avec le domaine ou l'URL. Stocké en base interne, jamais exporté.
  • Aucune ligne n'est publiée si le couple (catégorie, secteur) regroupe moins de 5 sites (seuil k-anonymity = 5). Les secteurs sous-peuplés sont regroupés en catégorie générique autre_<catégorie> ou exclus si même après regroupement le bucket reste sous le seuil.
  • Trois vérifications automatisées s'exécutent avant chaque publication : absence d'URL en clair, respect du seuil k≥5, isolation stricte de la table de correspondance UUID ↔ domaine.
  • Le droit à l'effacement (RGPD) est garanti via le formulaire de retrait, propagé automatiquement sur l'ensemble des exports publics régénérés.

7. Demande de correction ou de déréférencement

Tout responsable de site peut demander une ré-évaluation anticipée, une correction post-audit ou un déréférencement du baromètre public en écrivant à barometre@webconforme.fr. Les demandes sont traitées sous 14 jours ouvrés avec preuve d'identité professionnelle.

8. Mention juridique

Observatoire à visée informative. Ne constitue pas un audit officiel RGAA au sens du décret 2019-768. Les données de scan automatisé ne se substituent pas à un audit humain expert. Les scores affichés relèvent d'une évaluation automatisée partielle (30-40 % des critères RGAA sont testables machine) et ne permettent pas de certifier la conformité complète d'un site.

9. Liens croisés