Gestão de Crises (War Room)
Procedimentos para lidar com problemas críticos em produção com o AIOS, incluindo gatilhos de escalonamento, workflows de hotfix, procedimentos de rollback e padrões de comunicação.
Condições de Acionamento
Ative o protocolo de war room quando qualquer uma dessas condições ocorrer:
- Produção fora do ar ou severamente degradada
- Perda de dados ou violação de segurança detectada
- Função crítica de negócio indisponível
- Degradação de performance afetando a maioria dos usuários
- Falhas em cascata entre serviços
Classificação de Severidade
| Severidade | Descrição | Tempo de Resposta |
|---|---|---|
| P0 | Serviço completamente fora do ar; perda de dados | Imediato (minutos) |
| P1 | Funcionalidade principal quebrada; impacto significativo nos usuários | Dentro de 1 hora |
| P2 | Performance degradada; workaround disponível | Dentro de 4 horas |
| P3 | Problema menor; impacto limitado nos usuários | Próximo sprint |
Problemas P0 e P1 acionam o protocolo completo de war room. Problemas P2 usam uma versão expedita. Problemas P3 seguem o Story Development Cycle padrão.
Protocolo de War Room
1. Reunir
Ative os agentes-chave:
@devops -- Infraestrutura e deploy
@dev -- Investigação de código e correções
@qa -- Verificação e testes de regressãoPara incidentes P0, também envolva @architect para análise em nível de sistema.
2. Triagem
- Identifique o sintoma (o que os usuários veem)
- Verifique deploys recentes (
git log --oneline -10) - Verifique o status da infraestrutura (dashboard do provedor de hospedagem, monitoramento)
- Verifique o status de serviços externos (APIs de terceiros, bancos de dados)
- Correlacione o timing com mudanças recentes
3. Contenção
Aplique a mitigação mais rápida em ordem de preferência:
- Rollback — Reverter para o último deploy estável conhecido
- Feature Flag — Desativar a funcionalidade problemática
- Hotfix — Alteração mínima de código para restaurar o serviço
4. Workflow de Hotfix
Para hotfixes, use o Story Development Cycle no modo YOLO:
@dev *develop hotfix-{issue}Características do modo YOLO:
- Zero a um prompts (execução autônoma)
- Todas as decisões registradas em
decision-log-hotfix-{issue}.md - Pular criação de story para problemas P0
- Escopo mínimo: corrigir apenas o problema imediato
5. Verificar
@qa *qa-gateMesmo para hotfixes, verifique que:
- A correção resolve o problema reportado
- Nenhuma nova regressão é introduzida
- A funcionalidade principal permanece intacta
6. Deploy
@devops *push --expediteO push expedido pula o ciclo completo de revisão e marca o PR para merge imediato.
7. Post-Mortem
Após a resolução, documente o incidente:
- Linha do tempo — Registro cronológico dos eventos desde a detecção até a resolução
- Causa raiz — Análise técnica do que falhou e por quê
- Impacto — Usuários afetados, duração, impacto no negócio
- Resposta — O que foi feito e com que rapidez
- Prevenção — Criar stories para prevenir recorrência
Gatilhos de Escalonamento
As seguintes condições acionam escalonamento automático:
| Gatilho | Origem | Alvo do Escalonamento |
|---|---|---|
max_iterations_reached | QA Loop (5 iterações) | @aios-master |
verdict_blocked | QA gate retorna BLOCKED | @aios-master |
fix_failure | Correção do Dev falha após retentativas | @architect |
manual_escalate | Usuário executa *escalate-qa-loop | @aios-master |
| Violação constitucional | Qualquer agente detecta violação | BLOQUEAR até resolução |
Comandos de Escalonamento
*escalate-qa-loop # Forçar escalonamento do QA loop
*stop-qa-loop # Pausar e salvar estado
*resume-qa-loop # Retomar do estado salvoProcedimentos de Rollback
Rollback de Código
# Identificar o último commit estável
git log --oneline -20
# Reverter o(s) commit(s) problemático(s)
@devops *push # com commit de revertRollback de Banco de Dados
Se o problema envolve migrações de banco de dados:
- Identifique a migração problemática
- Execute a migração reversa ou aplique uma migração corretiva
- Verifique a integridade dos dados
- Nunca delete dados de produção sem backup
Rollback de Infraestrutura
Para problemas em nível de infraestrutura, @devops gerencia:
- Reverter configurações de deploy
- Escalar recursos de volta aos níveis anteriores
- Restaurar a partir de backups se necessário
Padrões de Comunicação
Durante o Incidente
- Atualizações de status a cada 15-30 minutos para P0/P1
- Propriedade clara — Uma pessoa coordena; agentes executam
- Log de decisões — Cada ação e decisão documentada com timestamps
Após a Resolução
- Relatório de incidente — Compartilhado em até 24 horas
- Stories preventivas — Criadas no backlog em até 48 horas
- Atualizações de monitoramento — Alertas e dashboards atualizados para detectar problemas similares
Checklist de Prevenção
Para reduzir a probabilidade de crises futuras:
- Testes automatizados cobrem caminhos críticos
- Feature flags disponíveis para funcionalidades principais
- Monitoramento e alertas configurados para métricas-chave
- Procedimentos de rollback documentados e testados
- Estratégia de backup de banco de dados verificada
- Contatos e canais de resposta a incidentes estabelecidos