Audits existing AI system architectures against best practices — structural integrity, AI quality attributes, pattern adherence, anti-pattern detection, security compliance, and technical debt inventory. This skill should be used when the user asks to "audit AI architecture", "review ML system quality", "assess AI technical debt", "evaluate AI compliance", "detect AI anti-patterns", "review AI security posture", or mentions AI architecture review, AI system assessment, AI quality audit, drift monitoring audit, or AI governance review.
From maonpx claudepluginhub javimontano/mao-discovery-frameworkThis skill is limited to using the following tools:
references/audit-checklists.mdreferences/audit-framework.mdreferences/remediation-patterns.mdEnables AI agents to execute x402 payments with per-task budgets, spending controls, and non-custodial wallets via MCP tools. Use when agents pay for APIs, services, or other agents.
Compares coding agents like Claude Code and Aider on custom YAML-defined codebase tasks using git worktrees, measuring pass rate, cost, time, and consistency.
Designs and optimizes AI agent action spaces, tool definitions, observation formats, error recovery, and context for higher task completion rates.
Auditar arquitecturas de sistemas de IA existentes contra mejores prácticas, identificando gaps en calidad, seguridad, patrones, y deuda técnica. Produce un informe de auditoría con findings categorizados por severidad, evidencia por cada hallazgo, y un roadmap de remediación priorizado por impacto y urgencia.
Evidence-based, not opinion-based. Cada finding debe tener evidencia adjunta — código, configuración, métricas, o entrevista. Un hallazgo sin evidencia es una opinión, no un resultado de auditoría.
Severity drives priority, not sequence. No auditar linealmente de arriba a abajo. Empezar por las dimensiones de mayor riesgo para el sistema específico (seguridad en regulados, quality attributes en producción, deuda en sistemas legacy).
Remediation is part of the audit. Un informe que solo lista problemas sin soluciones ejecutables es un documento de quejas. Cada finding incluye patrón de remediación, esfuerzo estimado, y dependencias.
Parámetros:
MODO: [express | standard | deep]
FORMATO: [ejecutivo | técnico | híbrido]
VARIANTE: [structural | quality | security | debt | genai | full]
FOCO: [pipeline | model | serving | monitoring | all]
Detección automática:
- Si existe codebase con ML code → FOCO=all (scan completo)
- Si el input menciona "seguridad" o "compliance" → VARIANTE=security
- Si el input menciona "deuda" o "legacy" → VARIANTE=debt
- Si existe LangChain/LlamaIndex/Bedrock → VARIANTE incluye genai
- Default: MODO=standard, VARIANTE=full, FOCO=all
Evalúa la estructura interna del sistema AI contra el modelo de 6 capas.
Load references:
Read ${CLAUDE_SKILL_DIR}/references/audit-framework.md
Evaluación:
Herramientas de detección:
Entregable: Diagrama de dependencias actual, violations catalogadas, score de integridad estructural.
Evalúa quality attributes específicos de AI con métricas medibles.
Attributes evaluados:
| Attribute | Threshold | Current | Gap | Severity |
|---|---|---|---|---|
| Accuracy | >= .88 | [measured] | [delta] | [severity] |
| Fairness | >= 90% parity | [measured] | [delta] | [severity] |
| Explainability | >= 0.7 | [measured] | [delta] | [severity] |
| Robustness | +/-10% | [measured] | [delta] | [severity] |
| Drift Detection | < 1 hour | [measured] | [delta] | [severity] |
| Latency P95 | < 500ms | [measured] | [delta] | [severity] |
| Availability | >= 99.9% | [measured] | [delta] | [severity] |
Proceso:
Entregable: Scorecard de quality attributes con gaps, tendencias, y comparación vs. thresholds.
Escanea el sistema por patrones implementados y anti-patrones presentes.
Load references:
Read ${CLAUDE_SKILL_DIR}/references/audit-checklists.md
Patterns esperados vs. encontrados:
Anti-patterns detectados:
Entregable: Matriz de patrones (esperado/encontrado/gap), lista de anti-patrones con evidencia y severidad.
Evalúa la postura de seguridad y compliance del sistema AI.
OWASP LLM Top 10 Assessment (para sistemas GenAI):
Data Security:
Model Security:
Compliance:
Entregable: Security controls matrix (required/implemented/gap), compliance gap analysis, risk rating.
Cataloga deuda técnica específica de AI con impacto cuantificado.
Debt types:
Cuantificación:
Entregable: Inventario de deuda priorizado por impact × urgency × reversibility.
Transforma findings en un roadmap ejecutable priorizado por valor y esfuerzo.
Load references:
Read ${CLAUDE_SKILL_DIR}/references/remediation-patterns.md
Priorización:
Roadmap phases:
Para cada finding:
Entregable: Roadmap visual (Mermaid Gantt), tabla de findings con remediaciones, dependency graph.
| Audit Mode | Coverage | Depth | Effort | When to Use |
|---|---|---|---|---|
| Express | Top findings only | Surface | 1-2 días | Quick health check, time-boxed |
| Standard | All 6 dimensions | Moderate | 3-5 días | Regular audit, pre-scaling |
| Deep | All 6 dimensions + code review | Maximum | 5-10 días | Pre-regulation, due diligence, post-incident |
Sistema sin monitoreo: Muchas métricas de quality attributes serán "desconocidas". El primer finding es "implementar observabilidad básica antes de poder auditar quality attributes".
Sistema legacy sin documentación: La auditoría debe hacer reverse engineering. Aumentar esfuerzo de S1 (structural). Usar import analysis y dependency graphs como fuente primaria de evidencia.
Sistema pre-producción: No hay métricas de producción. Auditar diseño y tests, no runtime. Reducir peso de S2 (quality attributes en producción) y aumentar S3 (pattern adherence) y S4 (security).
Multi-team ownership: Findings pueden cruzar boundaries de equipo. Documentar ownership por finding. Roadmap debe considerar coordinación cross-team.
Post-incident audit: Foco en la cadena causal del incidente. S4 (security) y S2 (quality) tienen prioridad. Remediation roadmap empieza por la causa raíz del incidente.
| Skill | Relación |
|---|---|
ai-software-architecture | Proporciona el modelo de 6 capas contra el que se audita |
ai-conops | Proporciona thresholds y modos operacionales como baseline |
ai-pipeline-architecture | Pipeline patterns contra los que se audita |
ai-design-patterns | Catálogo de patrones y anti-patrones para detección |
ai-testing-strategy | Testing matrix como checklist de coverage |
genai-architecture | Patrones GenAI contra los que se auditan sistemas LLM |
aws-architecture-audit | Auditoría AWS-específica (complementaria) |
aws-architecture-design | Diseño AWS contra el que se audita |
ai-architecture-implementation | Recibe roadmap de remediación para ejecutar |
security-architecture | Framework de seguridad general complementario |
tech-debt-assessment | Assessment de deuda técnica general complementario |
if FORMATO == "ejecutivo":
Executive summary (1 página) + top 10 findings + roadmap visual
Audiencia: C-Level, sponsors, decision makers
if FORMATO == "técnico":
Full 6-section audit report + all findings + detailed remediation
Audiencia: Arquitectos, tech leads, ML engineers
if FORMATO == "híbrido":
Executive summary + technical deep-dive completo
Audiencia: Technical leads que reportan a C-Level
## {System Name} — AI Architecture Audit Report
### Executive Summary
[Scorecard visual: 6 dimensiones con score, top 5 critical findings, roadmap overview]
### S1: Structural Integrity [Score: X/5]
[Layer analysis, dependency violations, module cohesion findings]
### S2: Quality Attributes [Score: X/5]
[Attribute scorecard with gaps, trends, threshold compliance]
### S3: Patterns & Anti-Patterns [Score: X/5]
[Pattern matrix, anti-pattern list with evidence]
### S4: Security & Compliance [Score: X/5]
[Controls matrix, OWASP LLM assessment, compliance gaps]
### S5: Technical Debt Inventory [Score: X/5]
[Debt catalog with quantification]
### S6: Remediation Roadmap
[Prioritized roadmap with phases, Gantt, dependency graph]
### Appendix: Evidence Log
[All findings with tagged evidence]