«Ну и заодно дай доступ к CloudSQL.»
Вы сделали чтобы работало, отлично! Давайте теперь сделаем чтобы оно работало надежно и выгодно.
IT-инфраструктура · DevOps · Облака
Вы сделали чтобы работало, отлично! Давайте теперь сделаем чтобы оно работало надежно и выгодно.
Мистер Коди из Трассы 60 записывал лжецов в книжечку. «Все говорят» в LinkedIn - та же ложь: нет данных, только хайп.
Реальный кластер: только мониторинг занимает 20+ подов и 9.5 GB RAM. Что «бесплатный» Prometheus стоит на самом деле - в ресурсах, времени и внимании.
Как ботнет, взрыв метрик и один дашборд положили HA мониторинг на Thanos — каждую реплику по очереди.
Переезд с S3 может не окупиться никогда.
Когда приходит сигнал "прод упал" — первый вопрос не "что смотреть", а "какой именно прод". И почему AWS тут ни при чём.
Если о падении прода вы узнали от клиента — у вас не продакшен, а MVP.
Как одна строка в Helm values запустила бесконечный цикл исключений, забила диск и положила managed БД на OVH. Бэкап был. Повезло.
Им нужен Kubernetes. Это не мнение - я проверил.
Компания платила $7 000 в месяц за два инструмента мониторинга на AWS. Причина: никто не задавал вопрос пять лет.
Критиковал чарты Bitnami за сложность - пока сам не написал свой. Десять итераций, и вот уже 220 строк. Универсальность стоит сложности.
Потратил 2 часа делать правильно: CodeBuild, Terraform, VPC endpoints. Потом посчитал. Правильное решение стоило дороже самой проблемы.
Обновление нод кластера — не одна команда. Drain, upgrade, uncordon — одна нода за раз. И всё это в голове у одного человека.
Обновление инфраструктуры — это не кнопка.
От бабушкофона в MS Authenticator до исчезнувшего /usr/bin/python — обновления ломают. Это не лень. Это выученная боль.
Когда соглашаешься на низкую ставку, цена определяет отношение — в обе стороны. Система которую я выработал.
Никто не смотрел внутрь два года. Незачем было. Я посмотрел - там жил призрак уволенного коллеги. Он ушёл. Скрипты - остались.
Когда FinOps инженер реально окупается? Математика, проблема полномочий и что делать, если расходы на облако меньше $500k в год.
Руководство в стиле Григория Остера - как сделать жизнь коллег невыносимой и обеспечить себе вечную незаменимость.
Как предпочтения PM обошлись стартапу в $2000 в год - и почему это всё равно не было провалом.
ECS против EKS: реальная стоимость - $73/мес фиксированно за control plane и 20-30% времени команды на поддержку вместо фич.
Как жёсткий лимит App Runner в 120 секунд сломал видеостриминг, стоил неделю переделок и заставил смотреть на ECS и Cloud Run.
CA-сертификат на VPN-серверах протух тихо - без мониторинга, без алертов. Как проверить свои сертификаты и настроить алерты до инцидента.
Копипаста Kubernetes-конфигов привела к падению прода. Сравнение Helm, Kustomize и гибридного подхода - ошибки деплоя снизились на 80%.
Два реальных инцидента: лимит коннектов к БД убил прод без ошибок и предупреждений. Почему connection pooling и мониторинг - не опция.
Dev-версия зависимости в проде уронила прод через 2 дня. Почему надёжный CI/CD требует автоматических проверок, а не надежды на то, что все помнят правила.
Один API, 15 млн запросов: AWS Lambda $33 против GCP Cloud Functions $16. Реальный расчёт и почему архитектура экономит больше, чем выбор провайдера.
Пароль LDAP-админа в git-репозитории в переменной PASSWORD. Почему секреты попадают в код и что реально помогает изменить культуру команды.
Нашёл потери на $17,000 в год: устаревший тариф, забытая нода, нулевой автоскейлинг. Клиент хотел внедрение без аудита. Почему это рулетка с продакшеном.
Bitnami без предупреждения переехали с образами MongoDB и положили тысячи Kubernetes-деплоев. Решение: зеркалить критичные образы в собственный реджистри.
Google закрыл goo.gl в 2018-м без возможности миграции. 15 лет в инфраструктуре — одно правило: бесплатное для экспериментов, критическое под контролем.
Три реальных аудита вскрыли $50k потерь через кладбища снапшотов, зомби-ресурсы и IAM-хаос. Фреймворк ROI для расчёта окупаемости аудита вашей инфраструктуры.
Почему тег :latest — это не «последняя стабильная», а «что сейчас там лежит». Два реальных инцидента: Azure Kubernetes и MongoDB v8 в dev.
Jenkins говорит «успех», а production лежит. Почему pull-based ArgoCD замечает то, что пропускает CI/CD — и кто реально контролирует ваш прод.
В одном AWS аккаунте — 126 IAM пользователей, пароли до 10 лет, MFA не у всех, половина не логинилась годами. Вопрос не лояльности, а статистики.
Nginx-Ingress + Cert-Manager внутри GKE против managed ALB: стоимость, компромиссы и когда что выбирать. 20 сервисов за $90-255 вместо $367.
20 микросервисов в GKE, каждый со своим LB: $500-600/месяц. Один Application LB с host-based routing снизил счёт до $367. Как устроена экономия.