Skip to Content
PlaybookGuias de WorkflowGestão de Crises

Gestão de Crises (War Room)

Procedimentos para lidar com problemas críticos em produção com o AIOS, incluindo gatilhos de escalonamento, workflows de hotfix, procedimentos de rollback e padrões de comunicação.

Condições de Acionamento

Ative o protocolo de war room quando qualquer uma dessas condições ocorrer:

  • Produção fora do ar ou severamente degradada
  • Perda de dados ou violação de segurança detectada
  • Função crítica de negócio indisponível
  • Degradação de performance afetando a maioria dos usuários
  • Falhas em cascata entre serviços

Classificação de Severidade

SeveridadeDescriçãoTempo de Resposta
P0Serviço completamente fora do ar; perda de dadosImediato (minutos)
P1Funcionalidade principal quebrada; impacto significativo nos usuáriosDentro de 1 hora
P2Performance degradada; workaround disponívelDentro de 4 horas
P3Problema menor; impacto limitado nos usuáriosPróximo sprint

Problemas P0 e P1 acionam o protocolo completo de war room. Problemas P2 usam uma versão expedita. Problemas P3 seguem o Story Development Cycle padrão.

Protocolo de War Room

1. Reunir

Ative os agentes-chave:

@devops -- Infraestrutura e deploy @dev -- Investigação de código e correções @qa -- Verificação e testes de regressão

Para incidentes P0, também envolva @architect para análise em nível de sistema.

2. Triagem

  1. Identifique o sintoma (o que os usuários veem)
  2. Verifique deploys recentes (git log --oneline -10)
  3. Verifique o status da infraestrutura (dashboard do provedor de hospedagem, monitoramento)
  4. Verifique o status de serviços externos (APIs de terceiros, bancos de dados)
  5. Correlacione o timing com mudanças recentes

3. Contenção

Aplique a mitigação mais rápida em ordem de preferência:

  1. Rollback — Reverter para o último deploy estável conhecido
  2. Feature Flag — Desativar a funcionalidade problemática
  3. Hotfix — Alteração mínima de código para restaurar o serviço

4. Workflow de Hotfix

Para hotfixes, use o Story Development Cycle no modo YOLO:

@dev *develop hotfix-{issue}

Características do modo YOLO:

  • Zero a um prompts (execução autônoma)
  • Todas as decisões registradas em decision-log-hotfix-{issue}.md
  • Pular criação de story para problemas P0
  • Escopo mínimo: corrigir apenas o problema imediato

5. Verificar

@qa *qa-gate

Mesmo para hotfixes, verifique que:

  • A correção resolve o problema reportado
  • Nenhuma nova regressão é introduzida
  • A funcionalidade principal permanece intacta

6. Deploy

@devops *push --expedite

O push expedido pula o ciclo completo de revisão e marca o PR para merge imediato.

7. Post-Mortem

Após a resolução, documente o incidente:

  1. Linha do tempo — Registro cronológico dos eventos desde a detecção até a resolução
  2. Causa raiz — Análise técnica do que falhou e por quê
  3. Impacto — Usuários afetados, duração, impacto no negócio
  4. Resposta — O que foi feito e com que rapidez
  5. Prevenção — Criar stories para prevenir recorrência

Gatilhos de Escalonamento

As seguintes condições acionam escalonamento automático:

GatilhoOrigemAlvo do Escalonamento
max_iterations_reachedQA Loop (5 iterações)@aios-master
verdict_blockedQA gate retorna BLOCKED@aios-master
fix_failureCorreção do Dev falha após retentativas@architect
manual_escalateUsuário executa *escalate-qa-loop@aios-master
Violação constitucionalQualquer agente detecta violaçãoBLOQUEAR até resolução

Comandos de Escalonamento

*escalate-qa-loop # Forçar escalonamento do QA loop *stop-qa-loop # Pausar e salvar estado *resume-qa-loop # Retomar do estado salvo

Procedimentos de Rollback

Rollback de Código

# Identificar o último commit estável git log --oneline -20 # Reverter o(s) commit(s) problemático(s) @devops *push # com commit de revert

Rollback de Banco de Dados

Se o problema envolve migrações de banco de dados:

  1. Identifique a migração problemática
  2. Execute a migração reversa ou aplique uma migração corretiva
  3. Verifique a integridade dos dados
  4. Nunca delete dados de produção sem backup

Rollback de Infraestrutura

Para problemas em nível de infraestrutura, @devops gerencia:

  • Reverter configurações de deploy
  • Escalar recursos de volta aos níveis anteriores
  • Restaurar a partir de backups se necessário

Padrões de Comunicação

Durante o Incidente

  • Atualizações de status a cada 15-30 minutos para P0/P1
  • Propriedade clara — Uma pessoa coordena; agentes executam
  • Log de decisões — Cada ação e decisão documentada com timestamps

Após a Resolução

  • Relatório de incidente — Compartilhado em até 24 horas
  • Stories preventivas — Criadas no backlog em até 48 horas
  • Atualizações de monitoramento — Alertas e dashboards atualizados para detectar problemas similares

Checklist de Prevenção

Para reduzir a probabilidade de crises futuras:

  • Testes automatizados cobrem caminhos críticos
  • Feature flags disponíveis para funcionalidades principais
  • Monitoramento e alertas configurados para métricas-chave
  • Procedimentos de rollback documentados e testados
  • Estratégia de backup de banco de dados verificada
  • Contatos e canais de resposta a incidentes estabelecidos
Last updated on