Documentation Index
Fetch the complete documentation index at: https://snakysec.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
Runbook 10 — Failover sur seconde région (note V1)
1. Statut V1
Failover automatique multi-région NON implémenté en V1.
Cette page documente la procédure manuelle de bascule sur un VPS dans une
autre région OVH (ou Scaleway en pivot extrême) pour le scénario “datacenter
détruit” type Strasbourg 2021.
V1 : RTO acceptable 8-12h pour ce scénario (rare statistiquement, force
majeure défendable contractuellement). Phase 2-3 : possible évolution vers
réplica chaud + failover automatique.
2. Quand activer
| Scénario | Activer ? |
|---|
| Datacenter OVH GRA (Gravelines) totalement HS, retour annoncé > 6h | OUI |
| Région OVH GRA partiellement dégradée mais accessible | NON (attendre rétablissement) |
| Compte OVH suspendu (litige facturation, abus signalé) | OUI vers Scaleway |
| Test annuel exercice incident complet (Q4) | OUI mode contrôlé |
3. Objectifs
- RPO : 24h (snapshots quotidiens dans repo Scaleway hors région OVH)
- RTO cible : 8-12 heures (procédure manuelle 4h + propagation DNS + validation 4-8h)
- WRT : 2 heures
4. Architecture cible failover
PRIMARY HORS SERVICE SECONDARY (this runbook)
┌─────────────────────────┐ ┌────────────────────────┐
│ OVH GRA (HS) │ ────► │ OVH RBX/SBG ou │
│ VPS snakysec │ │ Scaleway PAR │
│ HS │ │ Reconstruction │
└─────────────────────────┘ └────────────────────────┘
│ │
▼ ▼
┌───────────┐ ┌───────────┐
│ OVH bucket│ HS │ Scaleway │ ✓ accessible
│ HS │ (potentiellement) │ bucket │
└───────────┘ └───────────┘
5. Procédure
5.1 Préparation (T+0 → T+30min)
1. Confirmer le périmètre de la panne via :
- status.ovhcloud.com
- Twitter @OVHcloud
- Communiqué OVH (si majeur)
2. Décider de la région cible :
- Plan A : autre région OVH (RBX, SBG, BHS) → continuité contractuelle simple
- Plan B : Scaleway PAR → si OVH multi-région impossible
3. Vérifier que les credentials Scaleway S3 sont valides (test rclone lsd :scw:mssp-backup-scw)
5.2 Provisioning région secondaire (T+30min → T+1h30)
Plan A — autre région OVH :
1. OVH Manager → Order new VPS
2. Région : RBX (Roubaix), SBG (Strasbourg) ou BHS (Beauharnois, Canada)
3. Spec identique au primary (Comfort 8/16/160)
4. Suivre 03-rebuild-vps-from-zero.md à partir de §5.2
Plan B — Scaleway PAR (cas OVH totalement HS) :
1. Scaleway Console → Instances → Create
2. Image : Debian 12, type DEV1-L (4 CPU / 8 GB / 80 GB)
3. Région : fr-par-1
4. Bootstrap système identique à 03 §5.2
5. Restore depuis Scaleway bucket (déjà accessible) :
- Vault snapshot : --repo=scaleway
- Postgres pgbackrest : PGBACKREST_REPO=2
- Artifacts restic : --repo=scaleway
5.3 Restauration (T+1h30 → T+5h)
Identique à 03-rebuild-vps-from-zero.md §5.5-5.8.
5.4 Bascule DNS (T+5h → T+6h)
1. OVH Manager → snakysec.com → DNS Zone
2. Modifier records A (et AAAA) snakysec.com + *.snakysec.com vers nouvelle IP
3. TTL était de 300s, propagation rapide
4. Si OVH DNS aussi HS : pivot DNS provisoire vers Cloudflare DNS (gratuit)
- Création account Cloudflare → Add site snakysec.com
- Cloudflare propose les nameservers à mettre en glue records côté registrar
- Ce dernier est rarement OVH lui-même (Gandi, Namecheap...) donc accessible
5.5 Validation + communication (T+6h → T+8h)
Identique à 03 §5.10. Mention spécifique dans la communication client :
Suite à un incident d'infrastructure majeur sur le datacenter [OVH GRA],
nous avons activé notre plan de continuité et basculé sur une infrastructure
de secours [région OVH RBX / Scaleway PAR].
Cette opération a duré 8 heures, conforme à notre RTO contractuel pour les
scénarios de force majeure régionale.
Vos données sont intègres. La bascule retour vers l'infra primaire sera
planifiée avec annonce préalable une fois OVH GRA rétabli.
5.6 Bascule retour vers PRIMARY (J+N quand OVH revient)
Pas urgent, peut attendre quelques jours/semaines. Procédure :
1. Annonce client : "maintenance planifiée pour bascule retour"
2. Sync delta Postgres : pgbackrest backup --type=full sur le secondary
3. Restore sur primary depuis ce backup frais
4. Bascule DNS retour
5. Validation
6. Désactivation du secondary (économie ressource)
6. Coût additionnel exercice
| Poste | Coût |
|---|
| VPS Scaleway DEV1-L (~30j de pivot) | ~30 € prorata |
| VPS OVH backup région (~30j) | ~50 € prorata |
| Travail Nicolas (8h) | Coût d’opportunité |
| Test annuel Q4 (sur env de test) | Inclus dans le plan |
7. Hors-périmètre V1
- Failover automatique (DNS + santé probes) : Phase 2 si MRR justifie ~50€/mois VPS chaud permanent
- Réplica Postgres streaming vers seconde région : Phase 2-3
- Multi-région active-active : non envisagé V1-V2 (overkill solo MSSP)
| Version | Date | Auteur |
|---|
| 1.0 | 2026-04-26 | Nicolas Schiffgens |