Prometheus бесплатный. Пока не посчитаешь.

Prometheus бесплатный. Пока не посчитаешь.

Смотришь на кластер - и начинаешь считать: а это что за поды?

prometheus-0           3387 MB
prometheus-1           3028 MB
thanos-store-0          439 MB
thanos-store-1          899 MB
thanos-query            486 MB
thanos-query            139 MB
thanos-compact          300 MB
thanos-bucket            13 MB
grafana                 334 MB
kube-state-metrics       40 MB
prometheus-operator      21 MB
prometheus-adapter       24 MB
blackbox-exporter        16 MB
node-exporter ×8         ~10 MB каждый

Это только мониторинг. ~9.5 GB RAM, 20+ подов.


kube-prometheus-stack разворачивает всё это одной командой. Дефолты почти разумные - надо только включить хранилище и выставить лимиты под свой кластер. По умолчанию ни того ни другого нет.

На трёхнодовом кластере стек мониторинга легко занимает 20-30% ресурсов кластера. Это до того как начал мониторить само приложение. На больших проектах мы обычно выделяем отдельный nodepool под мониторинг - минимум две ноды. Чтобы мониторинг не аффектил рабочую нагрузку. И чтобы рабочая нагрузка не влияла на мониторинг.

Это уже не просто ещё несколько подов. Это отдельные машины которые работают круглосуточно.


Главный пожиратель - Prometheus. И RAM и диск зависят от трёх вещей: сколько метрик, как часто скрейпишь, сколько хранишь.

Грубая математика: 100 000 метрик × 30 дней retention × скрейп каждые 15 секунд ≈ 25-40 GB. Это небольшой кластер. Нагруженный - 500K метрик → 200-300 GB. И это только Prometheus.


Стоимость обслуживания считают реже чем стоимость ресурсов.

Обновление стека - раз в квартал разумно, breaking changes бывают (да и при minor версии тоже, хоть и не должен). Ревизия алертов - старые rules устаревают вместе с приложениями, алерт на сервис которого уже нет это просто шум. Grafana дашборды - кто-то должен их поддерживать. Обычно никто. Потом “а почему тут данные не показываются” - а сервис переименовали три месяца назад.

Реалистично: 2-4 часа в месяц если всё здорово. Плюс время на инциденты.


Prometheus бесплатный.

За Datadog ты не платишь - ты же его не покупал.

Берут временем людей, ресурсами кластера и вниманием которое надо поддерживать чтобы это работало.

Ты знаешь сколько это стоит тебе?