Gestão de Crises (War Room)
Procedimentos para lidar com problemas críticos em produção.
Condições de Acionamento
- Produção fora do ar ou severamente degradada
- Perda de dados ou violação de segurança
- Função crítica de negócio indisponível
Protocolo de War Room
1. Reunir
Ative os agentes-chave:
@devops — Infraestrutura e deploy
@dev — Investigação de código e correções
@qa — Verificação e testes de regressão2. Triagem
- Identifique o sintoma (o que os usuários veem)
- Verifique deploys recentes (
git log --oneline -10) - Verifique o status da infraestrutura
- Verifique o status de serviços externos
3. Contenção
Opções (em ordem de preferência):
- Rollback — Reverter para o último deploy estável conhecido
- Feature Flag — Desativar a funcionalidade problemática
- Hotfix — Alteração mínima de código para restaurar o serviço
4. Correção
@dev *develop hotfix-{issue}Use o modo YOLO para velocidade. Pule a criação de story para problemas P0.
5. Verificar
@qa *qa-gateGaranta que a correção resolve o problema sem regressões.
6. Deploy
@devops *push --expedite7. Post-Mortem
Após a resolução:
- Documente a linha do tempo dos eventos
- Identifique a causa raiz
- Crie stories preventivas
- Atualize monitoramento/alertas