Plataforma
Do alerta à ação — automaticamente
A maioria das ferramentas para no "caiu". O Qualimonitor anexa o porquê — e, com guardrails, o próximo passo.
Causa provável
Trânsito upstream — a perda começa no hop 7 (AS26599), confirmada de 5 das 6 regiões.
- probe interna: rede local limpa
- rota mudou: Level3 → Cogent, há 40 min
- 3 outros monitores degradados no mesmo AS
entregue via webhook · e-mail · incidente na status page
Avise bem
Webhook, e-mail e incidente automático na status page no segundo em que o monitor muda de estado. O alerta já carrega o diagnóstico — seu time abre a mensagem, não o notebook.
Diagnostique sozinho
Na degradação — perda de pacote, latência subindo, checagem falhando — a plataforma dispara a bateria completa por conta própria: MTR de todas as regiões, DNS, SSL e diff contra o baseline saudável. O veredito diz onde mora o problema: no seu servidor, no seu DNS ou no trânsito de alguém.
Corrija sozinho em breve
Playbooks corretivos: trocar um registro DNS para o firewall reserva, reiniciar um serviço pela probe privada, chamar seu runbook. Sempre atrás de quórum, cooldown e — se você quiser — um botão de aprovação humana.
Conduza o processo
Incidentes abrem, atualizam e resolvem junto com o monitor, e a status page acompanha sozinha. Integração com sistemas de chamado e cadeias de escalonamento são os próximos passos do roadmap.
Guardrails de fábrica
Uma automação que pode mexer em produção precisa merecer confiança primeiro. Toda ação corretiva roda atrás de quatro portões: quórum (só age quando regiões suficientes concordam que caiu de verdade), cooldown anti-flapping com teto de ações por hora, modo dry-run que mostra o que seria feito sem fazer, e log auditável por ação com aprovação humana opcional.
O alerta enriquecido é um webhook comum — aponte para o Slack, seu SIEM ou seus próprios scripts:
POST https://hooks.seutime.com/alertas
{
"monitor": "api.cliente.com",
"event": "degraded",
"verdict": {
"summary": "Perda inicia no hop 7 (AS26599) em 5 de 6 regiões",
"layer": "transit",
"confidence": 0.92
},
"evidence": {
"mtr_reports": 6,
"dns": "ok",
"ssl": "ok",
"baseline_diff": "route_change"
},
"report_url": "https://app.qualimonitor.com/r/abc123"
} Dúvidas
Perguntas frequentes
Uma automação pode agir sem humano?
Só se você configurar assim. Todo playbook corretivo aceita uma etapa de aprovação — o alerta chega com um botão de aprovar, e nada toca produção até alguém apertar. O modo totalmente automático é opt-in, por playbook.
Como vocês evitam agir num falso positivo?
Quórum. Uma ação corretiva só dispara quando a falha é confirmada de várias regiões — uma probe com rota ruim é uma observação de roteamento, não um gatilho. Você escolhe quantas regiões precisam concordar.
E se o monitor ficar oscilando (flapping)?
Cooldown e teto de ações: depois de agir, o playbook espera antes de poder agir de novo, e gatilhos repetidos escalam para humanos em vez de repetir a ação em loop.
O que existe hoje e o que é roadmap?
Hoje: webhooks, e-mail, incidente automático na status page e diagnóstico multi-região. Em desenvolvimento: vereditos enriquecidos com diff de baseline, playbooks corretivos (failover de DNS, restart via probe privada) e integração com sistemas de chamado. Esta página marca itens de roadmap como tal.
Isso substitui meu RMM ou meu pipeline de CI?
Não — alimenta os dois. O Qualimonitor é a camada de rede que detecta, diagnostica e documenta; o payload do webhook foi desenhado para ser consumido pelo que já roda a sua operação.