Skill

cloud-architecture

Cloud architecture pattern library — Well-Architected Framework principles (operational excellence, security, reliability, performance efficiency, cost optimization, sustainability) from AWS / GCP / Azure / Oracle, multi-region deployment strategies (active-active, active-passive, pilot light, warm standby), high availability patterns (multi-AZ databases, load balancer health checks, circuit breakers, retry with exponential backoff and jitter), disaster recovery (RPO / RTO definition, backup strategies, cross-region replication, runbook documentation, DR testing cadence), cost optimization (Reserved Instances vs Savings Plans vs Spot, right-sizing, idle resource detection, FinOps practices, AWS Cost Anomaly Detection, GCP Recommender, Azure Advisor), serverless vs containers vs VMs decision framework, networking (VPC peering, Transit Gateway, Direct Connect / Interconnect / ExpressRoute, IPv6 dual-stack, private endpoints), identity (IAM least privilege, OIDC for CI/CD, AWS SSO / GCP IAM / Azure AD, federated identity), data residency and compliance (GDPR data location, HIPAA, FedRAMP), and the multi-cloud vs single-cloud trade-off. Use when designing a new system in the cloud, migrating from on-prem, choosing between AWS / GCP / Azure / Cloudflare for a specific workload, planning a DR strategy, or running a cost optimization exercise. Differentiates from terraform-patterns (infrastructure-as-code execution) and kubernetes-patterns (workload orchestration) by focusing on the architectural decisions that those tools then implement.

Install

npx claudepluginhub arnwaldn/atum-plugins-collection --plugin atum-workflows

Tool Access

This skill uses the workspace's default tool permissions.

Preview

Ce skill couvre les **décisions d'architecture cloud haut niveau** : choix de provider, stratégie HA / DR, networking, identity, FinOps. Il complète `terraform-patterns` (exécution) et `kubernetes-patterns` (workloads).

SKILL.md

Similar Skills

skill-lookup

Searches, retrieves, and installs Agent Skills from prompts.chat registry using MCP tools like search_skills and get_skill. Activates for finding skills, browsing catalogs, or extending Claude.

prompts.chat

157.6k

prompt-lookup

Searches prompts.chat for AI prompt templates by keyword or category, retrieves by ID with variable handling, and improves prompts via AI. Use for discovering or enhancing prompts.

prompts.chat

157.6k

executing-plans

Executes pre-written implementation plans: critically reviews, follows bite-sized steps exactly, runs verifications, tracks progress with checkpoints, uses git worktrees, stops on blockers.

superpowers

150.3k

Stats

Parent Repo Stars0

Parent Repo Forks0

Last CommitApr 8, 2026

Actions

View Source View Plugin View on GitHub View README

Cloud Architecture Patterns

Ce skill couvre les décisions d'architecture cloud haut niveau : choix de provider, stratégie HA / DR, networking, identity, FinOps. Il complète terraform-patterns (exécution) et kubernetes-patterns (workloads).

Règle de base : avant de coder une infra Terraform, savoir POURQUOI tu choisis cette infra. Architecture > implementation.

1. Decision tree — quel cloud / type de compute ?

Workload type
├── Site statique (marketing, blog, docs)
│   └── Cloudflare Pages, Vercel, Netlify (jamais EC2/GKE)
├── App serverless event-driven (webhook, cron, GraphQL léger)
│   ├── AWS Lambda + API Gateway + DynamoDB
│   ├── Cloudflare Workers + D1 + R2
│   └── GCP Cloud Run + Firestore
├── App full-stack web traditionnelle (Next.js, Rails, Django)
│   ├── Vercel / Netlify (frontend Next.js)
│   ├── Railway / Fly.io / Render (backend simple)
│   └── AWS ECS Fargate / GCP Cloud Run (plus de contrôle)
├── Microservices conteneurisés à grosse échelle
│   └── EKS / GKE / AKS + service mesh
├── HPC / batch processing
│   └── AWS Batch, GCP Dataflow, Spot/Preemptible VMs
├── ML training / inference
│   ├── Training : AWS SageMaker, GCP Vertex AI, Modal, RunPod
│   └── Inference : AWS Bedrock, GCP Vertex, Replicate, Together AI
├── Stateful workloads à très grosse échelle (BDD massives)
│   └── EKS/GKE + cloud-managed DB (RDS, Cloud SQL, Cosmos DB)
└── On-prem / sovereign cloud
    └── OpenShift, Rancher, Nutanix

2. Well-Architected Framework — 6 piliers

Operational Excellence

IaC partout (Terraform, Pulumi, CloudFormation)
CI/CD avec rollback
Runbooks documentés
Monitoring + alerting + dashboards

Security

Defense in depth (multiple couches)
Least privilege IAM
Encryption at rest + in transit
Audit logs centralisés
Incident response plan

Reliability

Multi-AZ minimum
Auto-scaling
Circuit breakers + retries
Backup + DR testé
Chaos engineering

Performance Efficiency

Right-sizing
Caching à plusieurs niveaux (CDN, app, DB)
Async / queue pour les workloads non-critiques
Choix de la région la plus proche des users

Cost Optimization

Reserved Instances / Savings Plans pour les baselines
Spot pour les workloads tolérants
Auto-stop dev environments la nuit
Right-sizing régulier
Tagging strict pour la traçabilité des coûts

Sustainability

Choix de régions à faible carbone (eu-west-3 < us-east-1)
Right-sizing aggressif
Auto-scaling-down quand pas de charge

3. High Availability patterns

Multi-AZ database

Region: eu-west-3
├── AZ a: RDS Primary (eu-west-3a)
├── AZ b: RDS Standby synchrone (eu-west-3b)
└── AZ c: RDS Read Replica async (eu-west-3c)

Failover automatique : a → b en 60-90 secondes (Multi-AZ)

Load balancer + health checks

Internet
   ↓
Application Load Balancer (multi-AZ)
   ↓ (health check sur /health)
Target group:
  ├── instance-1 (eu-west-3a) ✅
  ├── instance-2 (eu-west-3b) ✅
  └── instance-3 (eu-west-3c) ❌ (drained)

Circuit breaker + retry with jitter

import time
import random

def call_with_retry(fn, max_retries=3, base_delay=1):
    for attempt in range(max_retries):
        try:
            return fn()
        except Exception as e:
            if attempt == max_retries - 1:
                raise
            # Exponential backoff with jitter
            delay = base_delay * (2 ** attempt) + random.uniform(0, 1)
            time.sleep(delay)

Sans jitter, tous les clients retry exactement en même temps → thundering herd qui aggrave la panne.

4. Disaster Recovery — niveaux

Strategy	RPO	RTO	Cost	Use case
Backup & Restore	Hours	Hours-Days	$	Non-critical, dev/test
Pilot Light	Minutes	Hours	$$	Important non-critical
Warm Standby	Seconds	Minutes	$$$	Production critical
Active-Active Multi-region	~0	~0	$$$$	Mission critical

RPO et RTO définitions

RPO (Recovery Point Objective) : combien de temps de DATA tu peux perdre. Si RPO = 1h, tu acceptes de perdre 1h de transactions.
RTO (Recovery Time Objective) : combien de temps pour être de retour en ligne. Si RTO = 4h, tu acceptes 4h de downtime.

Le RTO et RPO dépendent du business, pas de la technique. Demander à la direction.

Backup strategies

Cadence backup:
├── Snapshots automatiques DB (toutes les heures)
├── Logical dump quotidien (pg_dump → S3)
├── Cross-region replication (S3 lifecycle)
└── Backup logs continu (PITR — point-in-time recovery)

Rétention:
├── Snapshots: 7 jours
├── Daily backups: 30 jours
├── Monthly backups: 12 mois
└── Yearly backups: 7 ans (compliance)

Test de restore obligatoire tous les trimestres minimum. Un backup non testé n'est pas un backup.

5. Networking

VPC design

Region eu-west-3
└── VPC 10.0.0.0/16
    ├── AZ a (10.0.0.0/19)
    │   ├── Public subnet 10.0.0.0/22 (ALB, NAT GW, Bastion)
    │   ├── Private subnet 10.0.16.0/22 (App tier)
    │   └── Database subnet 10.0.24.0/24 (RDS)
    ├── AZ b (10.0.32.0/19) — same structure
    └── AZ c (10.0.64.0/19) — same structure

Multi-VPC connectivity

Method	Use case
VPC Peering	2 VPCs same region, simple
Transit Gateway (AWS) / Hub-and-Spoke (GCP NCC)	5+ VPCs, multi-region
PrivateLink (AWS) / Service Connect (GCP)	Expose un service privé à d'autres VPCs
Direct Connect / Interconnect / ExpressRoute	On-prem ↔ cloud, dedicated bandwidth
VPN Site-to-Site	On-prem ↔ cloud, plus simple, moins cher

Private endpoints

Pour appeler S3 / DynamoDB / Cloud Storage sans passer par Internet :

AWS : VPC Endpoints (Gateway pour S3/DynamoDB, Interface pour le reste)
GCP : Private Google Access + Private Service Connect
Azure : Private Endpoints

6. Identity & Access Management

Least privilege

Mauvais : arn:aws:iam::aws:policy/AdministratorAccess partout Bon : policies custom avec Resource: et Condition: explicites

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": ["s3:GetObject", "s3:PutObject"],
      "Resource": "arn:aws:s3:::my-bucket/uploads/*",
      "Condition": {
        "IpAddress": { "aws:SourceIp": ["10.0.0.0/16"] }
      }
    }
  ]
}

OIDC pour CI/CD

GitHub Actions ──OIDC──> AWS IAM Role ──> AWS Resources

Pas de long-lived AWS access key dans les Github Secrets. Le token OIDC est short-lived (1h max).

SSO / Federation

AWS : AWS SSO (IAM Identity Center) avec Okta / Google Workspace / Azure AD
GCP : Workforce Identity Federation
Azure : Azure AD natif

Les users humains ne devraient JAMAIS avoir d'IAM users avec des access keys. Toujours SSO + temporary credentials.

7. FinOps — cost optimization

Cost categories typiques

AWS bill type:
├── Compute (EC2, ECS, Lambda) — 30-50%
├── Database (RDS, DynamoDB, ElastiCache) — 15-25%
├── Storage (S3, EBS) — 10-20%
├── Data transfer (egress, cross-AZ) — 5-15% ⚠️ souvent sous-estimé
├── Networking (NAT, ALB, VPN) — 5-10%
└── Other (CloudWatch, Route53, etc.) — 5%

Quick wins

Auto-stop dev la nuit + week-ends → -65% sur dev
Right-sizing des EC2 / RDS over-provisioned → -20-40%
Reserved Instances / Savings Plans sur la baseline → -30-60%
Spot instances pour workloads tolérants (CI, batch, ML training) → -70%
S3 lifecycle vers Intelligent-Tiering / Glacier → -50% sur l'archive
CloudFront / CDN pour réduire l'egress → -30-50% sur le bandwidth
VPC endpoints pour S3/DynamoDB → élimine le NAT Gateway cost
Delete unattached EBS volumes / Elastic IPs / snapshots orphelins

Outils FinOps

AWS Cost Explorer + Cost Anomaly Detection + Trusted Advisor
GCP Cost Management + Recommender
Azure Cost Management + Advisor
Cloudability / Spot.io / CloudHealth — third-party cross-cloud
Kubecost — pour K8s spécifiquement
OpenCost — Kubecost open source

Tagging strict

Environment: prod | staging | dev
Project:     api | frontend | analytics
Owner:       team-platform | team-data
CostCenter:  engineering | marketing

Sans tagging, impossible d'allouer les coûts par équipe / projet.

8. Multi-cloud vs single-cloud

Single-cloud (recommandé pour la majorité)

Pour : intégration profonde, coût opérationnel minimal, expertise concentrée Contre : vendor lock-in, single point of failure si AWS down

Multi-cloud actif-actif

Pour : true HA, leverage in negotiation, regulatory (data sovereignty) Contre : complexité X10, coûts de gestion énormes, expertise rare, services least-common-denominator

Multi-cloud passif (DR cross-cloud)

Pour : DR ultra-robuste sans le coût opérationnel de l'actif-actif Contre : test compliqué, coût modéré

Recommandation : single-cloud par défaut. Multi-cloud uniquement si justifié par compliance, regulations, ou business critique.

9. Compliance & data residency

GDPR

Data des EU users dans des régions EU (eu-west-1 Ireland, eu-west-3 Paris, eu-central-1 Frankfurt)
Data Processing Agreement (DPA) avec le cloud provider
Right to erasure : workflows de suppression doc
Sub-processors disclosure

HIPAA (US healthcare)

BAA (Business Associate Agreement) avec le provider
Encryption at rest mandatory
Audit logs immuables
Access reviews trimestriels

FedRAMP / IL5 (US gov)

Régions GovCloud uniquement
Certifications-vérifiés provider
ITAR si export-controlled data

SOC 2

Le provider doit être SOC 2 Type II certifié
Tu dois faire ton propre SOC 2 sur tes contrôles
Audit annuel par un cabinet externe

10. Anti-patterns

All-in-one IAM admin — un compromise = game over
Pas de DR plan — l'incident arrive un jour ou l'autre
Backups jamais testés — restore impossible le jour J
No tagging — facture cloud incompréhensible
Data egress non-contrôlé — facture surprise
Pas de Reserved Instances sur la baseline — overpaying 40%+
Pas de monitoring du coût — drift permanent
Single-AZ en prod — n'importe quelle panne AZ = downtime
Région unique pour audience globale — latence inacceptable
VPN client-to-site mal configuré → split tunnel exposing private subnet
NAT Gateway cher utilisé pour S3 au lieu de VPC Endpoint
Lambda dans VPC sans VPC endpoints → cold start énorme + NAT cost

Checklist livraison architecture

Quand déléguer

Implémentation Terraform → skill terraform-patterns (ce plugin)
K8s workloads → skill kubernetes-patterns (ce plugin)
Sécurité applicative → agent security-expert (atum-compliance)
Compliance EU AI Act / GDPR → agent compliance-expert (atum-compliance)
Pentesting → agent penetration-tester (atum-compliance)
CI/CD setup → agent ci-cd-engineer (atum-stack-backend)

cloud-architecture

Install

Tool Access

Preview

SKILL.md

Similar Skills

cloud-architecture

Install

Tool Access

Preview

SKILL.md

Cloud Architecture Patterns

1. Decision tree — quel cloud / type de compute ?

2. Well-Architected Framework — 6 piliers

Operational Excellence

Security

Reliability

Performance Efficiency

Cost Optimization

Sustainability

3. High Availability patterns

Multi-AZ database

Load balancer + health checks

Circuit breaker + retry with jitter

4. Disaster Recovery — niveaux

RPO et RTO définitions

Backup strategies

5. Networking

VPC design

Multi-VPC connectivity

Private endpoints

6. Identity & Access Management

Least privilege

OIDC pour CI/CD

SSO / Federation

7. FinOps — cost optimization

Cost categories typiques

Quick wins

Outils FinOps

Tagging strict

8. Multi-cloud vs single-cloud

Single-cloud (recommandé pour la majorité)

Multi-cloud actif-actif

Multi-cloud passif (DR cross-cloud)

9. Compliance & data residency

GDPR

HIPAA (US healthcare)

FedRAMP / IL5 (US gov)

SOC 2

10. Anti-patterns

Checklist livraison architecture

Quand déléguer

Ressources

Similar Skills

Cloud Architecture Patterns

1. Decision tree — quel cloud / type de compute ?

2. Well-Architected Framework — 6 piliers

Operational Excellence

Security

Reliability

Performance Efficiency

Cost Optimization

Sustainability

3. High Availability patterns

Multi-AZ database

Load balancer + health checks

Circuit breaker + retry with jitter

4. Disaster Recovery — niveaux

RPO et RTO définitions

Backup strategies

5. Networking

VPC design

Multi-VPC connectivity

Private endpoints

6. Identity & Access Management

Least privilege

OIDC pour CI/CD

SSO / Federation

7. FinOps — cost optimization

Cost categories typiques