Sensibilité de β₂ au choix de la période pré-intervention
Séries temporelles interrompues, Interrupted time series, ITS, Sensibilité, Biais de spécification, Tendance pré-intervention
Introduction
Dans un article précédent, nous avons présenté le modèle de régression segmentée pour les séries temporelles interrompues (ITS). Le coefficient \(\beta_2\) y mesure le changement de niveau immédiat au moment de l’intervention, tandis que \(\beta_3\) capture le changement de tendance.
Ces deux coefficients reposent sur une hypothèse rarement discutée : la tendance pré-intervention est linéaire. Lorsque cette hypothèse n’est pas vérifiée, l’estimation de \(\beta_2\) et \(\beta_3\) dépend directement de la fenêtre temporelle choisie pour la période pré-intervention — autrement dit, du point de départ de la série.
Ce choix, souvent effectué par commodité ou par habitude, est en réalité un choix analytique qui peut modifier substantiellement les conclusions de l’étude. Cet article montre pourquoi, à partir de données simulées, et propose des stratégies pour détecter et limiter ce biais.
Pourquoi \(\beta_2\) dépend de la fenêtre
Le mécanisme
Rappelons le modèle ITS :
\[Y_t = \beta_0 + \beta_1 \times t + \beta_2 \times I_t + \beta_3 \times (t - T) \times I_t + \epsilon_t\]
Le coefficient \(\beta_2\) mesure la différence entre la valeur observée juste après l’intervention et l’extrapolation de la droite pré-intervention au point \(T\) :
\[\beta_2 = \hat{Y}_{post}(T) - \hat{Y}_{pré}(T)\]
Cette extrapolation, \(\hat{Y}_{pré}(T) = \hat{\beta}_0 + \hat{\beta}_1 \times T\), est le contrefactuel du modèle : ce qu’on aurait attendu sans intervention. Si la tendance réelle pré-intervention n’est pas linéaire, la droite ajustée par OLS ne la capte pas correctement, et le contrefactuel est biaisé.
L’écart géométrique
Soit \(f(t)\) la vraie trajectoire pré-intervention et \(\hat{l}(t) = \hat{\beta}_0 + \hat{\beta}_1 t\) la droite ajustée. Le biais sur \(\beta_2\) est :
\[\text{Biais}(\hat{\beta}_2) = f(T) - \hat{l}(T)\]
Ce biais dépend de la courbure de \(f\) et de la longueur de la série utilisée pour estimer la droite.
Trois cas de figure :
- Tendance convexe (accélération) : \(f(T) > \hat{l}(T)\) — le contrefactuel est trop bas, \(\beta_2\) est surestimé.
- Tendance concave (décélération) : \(f(T) < \hat{l}(T)\) — le contrefactuel est trop haut, \(\beta_2\) est sous-estimé.
- Tendance linéaire : \(f(T) = \hat{l}(T)\) — pas de biais, quelle que soit la fenêtre.
Ce biais est d’autant plus marqué que la non-linéarité est forte et que la série est longue (car la droite intègre des périodes éloignées du régime récent).
Démonstration sur données simulées
Le scénario
Considérons un service téléphonique qui reçoit un nombre croissant d’appels par semaine. L’intervention a lieu à la semaine 40. Après l’intervention, le nombre d’appels augmente immédiatement de 10 %.
La croissance pré-intervention n’est pas constante — elle accélère dans les derniers mois :
| Période | Semaines | Croissance hebdomadaire |
|---|---|---|
| Phase 1 (montée en charge) | 1–20 | +0.5 %/semaine |
| Phase 2 (accélération) | 21–40 | +1.2 %/semaine |
| Intervention | semaine 40 | saut de +10 % |
| Post-intervention | 41–55 | +0.8 %/semaine |
Le niveau de départ est de 1 000 appels/semaine. L’effet réel de l’intervention est donc un saut de +10 %, soit environ +140 appels au point de rupture.
Modèle A : série complète (semaines 1–55)
En utilisant toute la série, la régression linéaire ajuste une droite à travers les deux phases pré-intervention (lente puis rapide). La pente estimée est une moyenne des deux régimes. Au point \(T\), la droite passe en dessous du vrai niveau pré-intervention : le contrefactuel est trop bas, et \(\beta_2\) est gonflé.
Modèle B : série récente (semaines 21–55)
En ne gardant que les 20 dernières semaines pré-intervention (la phase d’accélération), la pente estimée capte la dynamique récente. La droite au point \(T\) est proche du vrai niveau, et \(\beta_2\) reflète l’effet réel.
Comparaison chiffrée
| Modèle A (série complète) | Modèle B (série récente) | Valeur vraie | |
|---|---|---|---|
| β₁ (appels/semaine) | 9.2 | 13.6 | Variable (5 → 12) |
| Ŷ_pré(T) | 1327 | 1371 | ~1 399 |
| β₂ (appels) | 200 | 152 | ~140 |
| Interprétation | β₂ surestimé | β₂ correct | Effet réel : +10 % |
La comparaison montre que le modèle A attribue à l’intervention une partie de l’accélération pré-existante. Le modèle B, en se concentrant sur la dynamique récente, isole correctement l’effet de l’intervention.
Analyse de sensibilité sur \(\beta_2\)
Pour aller plus loin, faisons varier systématiquement le point de départ de la série pré-intervention et observons comment \(\beta_2\) réagit.
Le graphique révèle un pattern clair : plus on remonte dans le temps (point de départ précoce), plus \(\beta_2\) est élevé. Le biais diminue progressivement à mesure que le point de départ se rapproche de la phase 2, où la tendance est approximativement linéaire.
Ce type de graphique est un outil de diagnostic précieux : si \(\beta_2\) est stable quel que soit le point de départ, l’effet est robuste. S’il varie fortement, c’est le signe d’une non-linéarité pré-intervention mal spécifiée.
Impact sur \(\beta_3\)
Le même mécanisme affecte \(\beta_3\), le changement de tendance. Le modèle estime la pente post-intervention comme \(\beta_1 + \beta_3\). Si \(\beta_1\) est biaisé, \(\beta_3\) l’est aussi :
\[\hat{\beta}_3 = (\text{pente post réelle}) - \hat{\beta}_1\]
Avec notre exemple :
- Pente post réelle : \(\approx\) +8 appels/semaine
- Modèle A (\(\hat{\beta}_1 \approx\) +10.4 appels/semaine, moyenne des deux phases) : \(\hat{\beta}_3\) est faible — le modèle ne détecte quasiment pas de ralentissement
- Modèle B (\(\hat{\beta}_1 \approx\) +13.7 appels/semaine, pente récente) : \(\hat{\beta}_3\) est plus négatif — le modèle révèle que la dynamique post-intervention est plus lente que la tendance récente
L’interprétation est radicalement différente : le modèle B révèle un ralentissement post-intervention que le modèle A masque.
Que faire en pratique ?
1. Vérifier la linéarité de la tendance pré-intervention
Avant de choisir la fenêtre, il faut examiner si la tendance pré-intervention est approximativement linéaire :
- Graphiquement : les données suivent-elles une droite ?
- Formellement : ajouter un terme \(t^2\) au modèle pré-intervention et tester sa significativité. Un terme quadratique significatif indique une non-linéarité.
Si la tendance n’est pas linéaire, le choix de la fenêtre est critique.
2. Choisir la fenêtre la plus représentative
La fenêtre pré-intervention idéale est celle où :
- La tendance est approximativement linéaire
- Elle reflète la dynamique juste avant l’intervention (pas une période révolue)
- Elle contient suffisamment de points pour une estimation fiable
En cas de montée en charge ou d’accélération, démarrer la série après la phase de ramp-up.
3. Conduire des analyses de sensibilité
Faire varier systématiquement le point de départ et observer la stabilité des coefficients. C’est l’approche illustrée par les graphiques de sensibilité de cet article :
- Si \(\beta_2\) et \(\beta_3\) sont stables : l’effet est robuste, le choix de la fenêtre n’est pas critique
- Si \(\beta_2\) diminue avec des fenêtres plus courtes : une partie de l’effet apparent est attribuable à l’accélération pré-existante
- Si \(\beta_2\) change de signe : l’effet est entièrement un artefact de la mauvaise spécification de la tendance
4. Envisager des alternatives au modèle linéaire
Si la non-linéarité pré-intervention est forte et qu’on ne veut pas tronquer la série, plusieurs options existent :
- Terme quadratique (\(t^2\)) dans la composante pré-intervention
- Splines pour une tendance flexible
- ITS multi-segments avec une rupture antérieure explicite
Ces approches sont plus complexes mais évitent le dilemme entre longueur de série et biais de spécification1 2.
Conclusion
Le choix de la période pré-intervention est un choix analytique qui mérite la même attention que le choix du modèle ou des variables de contrôle. Dans toute analyse ITS, il devrait être :
- Justifié : sur la base de l’examen de la linéarité de la tendance pré-intervention
- Testé : par une analyse de sensibilité montrant la stabilité des coefficients
- Rapporté : dans la section méthodes de l’article
La non-linéarité de la tendance pré-intervention n’est pas un problème rare ou théorique. De nombreux indicateurs de santé présentent des phases d’accélération ou de décélération : déploiement progressif d’un service, saturation d’une capacité, dynamiques épidémiques. Ignorer cette non-linéarité, c’est risquer d’attribuer à l’intervention un effet qui existait déjà — ou, symétriquement, de manquer un effet réel masqué par un contrefactuel trop optimiste.