Gestão de Crises (War Room)

Procedimentos para lidar com problemas críticos em produção com o AIOS, incluindo gatilhos de escalonamento, workflows de hotfix, procedimentos de rollback e padrões de comunicação.

Condições de Acionamento

Ative o protocolo de war room quando qualquer uma dessas condições ocorrer:

Produção fora do ar ou severamente degradada
Perda de dados ou violação de segurança detectada
Função crítica de negócio indisponível
Degradação de performance afetando a maioria dos usuários
Falhas em cascata entre serviços

Classificação de Severidade

Severidade	Descrição	Tempo de Resposta
P0	Serviço completamente fora do ar; perda de dados	Imediato (minutos)
P1	Funcionalidade principal quebrada; impacto significativo nos usuários	Dentro de 1 hora
P2	Performance degradada; workaround disponível	Dentro de 4 horas
P3	Problema menor; impacto limitado nos usuários	Próximo sprint

Problemas P0 e P1 acionam o protocolo completo de war room. Problemas P2 usam uma versão expedita. Problemas P3 seguem o Story Development Cycle padrão.

Protocolo de War Room

1. Reunir

Ative os agentes-chave:


@devops  -- Infraestrutura e deploy
@dev     -- Investigação de código e correções
@qa      -- Verificação e testes de regressão

Para incidentes P0, também envolva @architect para análise em nível de sistema.

2. Triagem

Identifique o sintoma (o que os usuários veem)
Verifique deploys recentes (git log --oneline -10)
Verifique o status da infraestrutura (dashboard do provedor de hospedagem, monitoramento)
Verifique o status de serviços externos (APIs de terceiros, bancos de dados)
Correlacione o timing com mudanças recentes

3. Contenção

Aplique a mitigação mais rápida em ordem de preferência:

Rollback — Reverter para o último deploy estável conhecido
Feature Flag — Desativar a funcionalidade problemática
Hotfix — Alteração mínima de código para restaurar o serviço

4. Workflow de Hotfix

Para hotfixes, use o Story Development Cycle no modo YOLO:


@dev *develop hotfix-{issue}

Características do modo YOLO:

Zero a um prompts (execução autônoma)
Todas as decisões registradas em decision-log-hotfix-{issue}.md
Pular criação de story para problemas P0
Escopo mínimo: corrigir apenas o problema imediato

5. Verificar


@qa *qa-gate

Mesmo para hotfixes, verifique que:

A correção resolve o problema reportado
Nenhuma nova regressão é introduzida
A funcionalidade principal permanece intacta

6. Deploy


@devops *push --expedite

O push expedido pula o ciclo completo de revisão e marca o PR para merge imediato.

7. Post-Mortem

Após a resolução, documente o incidente:

Linha do tempo — Registro cronológico dos eventos desde a detecção até a resolução
Causa raiz — Análise técnica do que falhou e por quê
Impacto — Usuários afetados, duração, impacto no negócio
Resposta — O que foi feito e com que rapidez
Prevenção — Criar stories para prevenir recorrência

Gatilhos de Escalonamento

As seguintes condições acionam escalonamento automático:

Gatilho	Origem	Alvo do Escalonamento
`max_iterations_reached`	QA Loop (5 iterações)	@aios-master
`verdict_blocked`	QA gate retorna BLOCKED	@aios-master
`fix_failure`	Correção do Dev falha após retentativas	@architect
`manual_escalate`	Usuário executa `*escalate-qa-loop`	@aios-master
Violação constitucional	Qualquer agente detecta violação	BLOQUEAR até resolução

Comandos de Escalonamento


*escalate-qa-loop     # Forçar escalonamento do QA loop
*stop-qa-loop         # Pausar e salvar estado
*resume-qa-loop       # Retomar do estado salvo

Procedimentos de Rollback

Rollback de Código


# Identificar o último commit estável
git log --oneline -20
 
# Reverter o(s) commit(s) problemático(s)
@devops *push   # com commit de revert

Rollback de Banco de Dados

Se o problema envolve migrações de banco de dados:

Identifique a migração problemática
Execute a migração reversa ou aplique uma migração corretiva
Verifique a integridade dos dados
Nunca delete dados de produção sem backup

Rollback de Infraestrutura

Para problemas em nível de infraestrutura, @devops gerencia:

Reverter configurações de deploy
Escalar recursos de volta aos níveis anteriores
Restaurar a partir de backups se necessário

Padrões de Comunicação

Durante o Incidente

Atualizações de status a cada 15-30 minutos para P0/P1
Propriedade clara — Uma pessoa coordena; agentes executam
Log de decisões — Cada ação e decisão documentada com timestamps

Após a Resolução

Relatório de incidente — Compartilhado em até 24 horas
Stories preventivas — Criadas no backlog em até 48 horas
Atualizações de monitoramento — Alertas e dashboards atualizados para detectar problemas similares

Checklist de Prevenção

Para reduzir a probabilidade de crises futuras:

Testes automatizados cobrem caminhos críticos
Feature flags disponíveis para funcionalidades principais
Monitoramento e alertas configurados para métricas-chave
Procedimentos de rollback documentados e testados
Estratégia de backup de banco de dados verificada
Contatos e canais de resposta a incidentes estabelecidos