“Прод упал” - это не задача. Это начало разговора. DevOps знает какой прод упал - или ждёт пока объяснят?
Листал ленту LinkedIn. Увидел пост про “многие девопсы не знают” - и там вопрос: “прод упал, что сделаешь первым делом?”
Ответил в комментарии: “спрошу какой именно прод”.
Меня поддержало мало людей. Большинство рассказало как они в AWS будут что-то проверять.
Ребят, а с чего вы взяли что это в AWS?
У одного моего клиента инфраструктура: AWS, GCP, Alibaba и AWS-CN. Чем мне помогут логи AWS?
По-хорошему — алерт от мониторинга уже ответил бы на этот вопрос. Но раз звонок случился:
Итак, прод упал. Что я сделаю первым? Я спрошу: что конкретно упало, что видит клиент, как давно?
Потом - документация, ранбуки. Потом логи и метрики.
Не после того как посмотрю логи. До.
Кто не спрашивает - тот тушит соседний дом вслепую.