Мне нравятся метрики

Мне нравятся метрики. Но я не люблю алерты.

Весь этот стек - prometheus (или victoriametrics) + grafana + alertmanager + loki, а если нужен нормальное хранение - thanos (storage, compactor, query…). Поднять несложно - а потом ныряешь в ад обслуживания.

Свои дашборды для своих метрик, свои фильтры для логов. Бывало что приходилось внедрять всё это, включая дашборды для приложения - когда разработчик не добавил ни метрик, ни трейсов.

Сделал свою статус-страницу на обычных метриках: healthcheck подов и вычисляемые правила. Горжусь до сих пор. Конечно, не конкурент betterstack uptime monitor (бесплатный, кастомный домен, брендинг, несколько проверок). Но это было моё. Я сделал, оно работало в проде и было надёжным.

Да, метрики люблю - алерты в 3 ночи нет (привет, стандартный тезис про ИИ). Автоматизация - вот ключ. Ради этого и придумали вычислительные машины.

Зачем ставить алерт, если можно сразу задать действие? Порог, правила, действие. Автоскейлинг, рестарт, восстановление, банхаммер, принятие решений…

И всё это без ИИ. Если можешь описать правила словами - можешь автоматизировать скриптом в килобайты памяти.

PS: иногда в моменте выгоднее выключить сервис, чем масштабировать до небес)