До 42% расходов на облачную инфраструктуру — чистые потери.
Не «неоптимально». Потери.
Пока финансовые директора задаются вопросом, почему IT-расходы растут быстрее выручки, инфраструктура тихо истекает деньгами: забытые снапшоты, серверы с загрузкой 15%, неиспользуемые Reserved Instances.
В этой статье — три реальных аудита: $45k сэкономлено, 50% снижение расходов за один час и предотвращённая катастрофа на $50k+ в Black Friday. Плюс — как посчитать, является ли ваша инфраструктура источником прибыли или дырой в бюджете.
Скрытая цена «всё работает»
В IT есть опасная фраза: «Работает — не трогай».
Звучит разумно. И в целом это так.
Но, как всегда, зависит от контекста. Иногда хочется улучшить что-то ради самого улучшения — и это что-то ломает. (Особенно в UI. #OnePlus — почему вы решили, что циферблат на 24 часа лучше мирового стандарта в 12?)
Но здесь я хочу говорить об оптимизации, при которой результат не меняется — а надёжность и эффективность растут.
Сервисы работают. Клиенты не жалуются. Мониторинг зелёный. В чём проблема?
Проблема в том, что «работает» и «работает эффективно» — это совершенно разные вещи. Автомобиль с тремя спущенными шинами технически ездит — просто обходится вам в целое состояние на бензин и замену шин при скорости пешехода.
Инфраструктура устроена так же. Она может работать безупречно и одновременно:
- Запускать серверы с загрузкой 10–20%, за которые вы платите 100%
- Хранить снапшоты и бэкапы многолетней давности, которые никто никогда не откроет
- Платить по on-demand ценам, хотя можно зафиксировать скидку 40–60%
- Держать oversized-инстансы «на вырост»
- Гонять тестовые окружения 24/7, когда ими пользуются 8 часов в неделю
Каждый пункт кажется мелочью. По отдельности, может, и так. Но они складываются. $50/месяц здесь, $200 там — и вот уже тысячи долларов ежемесячно, которые могли бы финансировать новые фичи, найм или напрямую улучшать маржу.
Реальная стоимость — не только деньги. Это альтернативные издержки: что вы могли бы построить вместо этого.
Кейс: когда «стабильно» значит «дорого»
SaaS-компания пришла ко мне с, казалось бы, простым запросом: «Можешь посмотреть наш AWS-счёт? Мы платим $21 000/месяц, и это кажется многовато».
Всё работало. Инфраструктура была крепкой — грамотно спроектированной, с мониторингом, без аутеджей. С технической точки зрения команда сделала хорошую работу.
Но «технически правильно» и «финансово оптимизировано» — разные стандарты.
Что показал аудит
Я начал только с EC2 — не со всего аккаунта, только с compute-слоя. Вот что нашёл:
Кладбище снапшотов: $960/месяц на снапшоты 2019–2021 годов, которых никто не касался годами. Команда добросовестно создавала бэкапы, но так и не настроила retention-политики. Каждый созданный снапшот хранился вечно.
Серверы «на всякий случай»: Три сервера m5.2xlarge (8 vCPU, 32 ГБ RAM) с загрузкой CPU 12–15%. Логика была понятной — «нам может понадобиться burst-мощность в пики». Вот только пики так и не пришли. Стоимость: $329/месяц за мощность, которой не пользовались.
Хаос с моделями оплаты: Смесь устаревших обязательств и упущенных возможностей. 13 Reserved Instances ($720/год), купленных для проекта, которого больше нет, — при том что реальные продакшн-серверы работали на дорогом on-demand. Никто не пересматривал стратегию два года. Переход на Savings Plans и чистка мёртвых RI: экономия $1 500/месяц.
«Остановлен, но не удалён»: Семь EC2-инстансов, остановленных несколько месяцев назад, но так и не удалённых. Когда останавливаешь инстанс — платить за compute перестаёшь, но за подключённые EBS-тома — нет. Стоимость: $34/месяц за диски серверов, которые больше никогда не запустятся.
Осиротевшие тома: 18 EBS-томов, отцепленных от инстансов — скорее всего при отладке или миграциях — и забытых. Критичных данных там не было (проверили), но счётчик начислений шёл 8–14 месяцев. Стоимость: $244/месяц.
И это только EC2. Мы ещё не смотрели networking, load balancers, NAT-шлюзы, Lambda, S3 и десяток других AWS-сервисов.
Результат
Итого найдено экономии по EC2: $3 787/месяц или $45 444/год.
18% всего бюджета на инфраструктуру — найдено примерно за неделю анализа.
Но вот что делает этот кейс показательным: каждая найденная проблема была невидима с точки зрения технического мониторинга. CloudWatch показывал зелёное. Аптайм — 99,9%. Время отклика — отличное.
Потери были спрятаны в биллинге, а не в производительности.
Компания взяла отчёт и реализовала большинство рекомендаций за 30 дней. Финансовый директор был в восторге. Инженеры — честно говоря, с облегчением: подозревали, что переплачивают, но не было времени разобраться.
Кейс: 126 IAM-пользователей и $5 000 проблема
«Можешь сократить расходы на AWS?»
Mid-size B2B SaaS, $48k/год на AWS. Плановый бюджетный ревью.
Что нашли
Неделя 1 — очевидное:
- 26 неиспользуемых Elastic IP ($1 092/год)
- Сервисы удалены 3 года назад, IP до сих пор арендуются
- Стоимость аудита: отбита в первый же день
Затем настоящие потери:
- Забытые Lightsail-инстансы
- ВМ с нулевыми метриками месяцами
- Бэкапы баз данных удалённых проектов
Итого: $400/месяц = $4 800/год
Затем — безопасная бомба:
- 126 IAM-пользователей (300+ по всем аккаунтам)
- ~20 реально активных
- Пароли старше 10 лет
- Сотрудники, ушедшие 8+ лет назад
- MFA опциональный
Сложность
Найти потери: 1 час
Получить разрешение на удаление: 1 неделя
Организационная сложность > техническая сложность
Результат
Снижение расходов на 10%, $5k/год сэкономлено
100+ векторов атаки устранено
Контекст: При AWS-расходах $48k/год $5k может казаться мелочью. Но сложите:
- Несколько незамеченных неэффективностей
- Годы накопленных потерь
- Нерешённые риски безопасности
Маленькие течи топят большие корабли. $400/месяц складываются.
Фреймворк ROI: когда аудит окупается?
Поговорим о математике, которая важна для бизнеса.
Аудит инфраструктуры не бесплатен. В зависимости от сложности — от $2 000 до $10 000+ за полноценный ревью. Поэтому вопрос не «смогу ли я сэкономить?», а «сэкономлю ли я больше, чем заплачу?»
Вот как об этом думать.
Базовый расчёт
Большинство аудитов находит экономию в 10–30% ежемесячных расходов. Возьмём консервативные 15%.
При расходах $10 000/месяц на инфраструктуру:
- 15% экономии = $1 500/месяц
- Годовая экономия = $18 000
- Трёхлетняя = $54 000
Если аудит стоит $5 000, вы в ноль на четвёртом месяце. Дальше — чистая прибыль.
Но в этом расчёте не учтены два критичных фактора.
Скрытые расходы, которые вы не отслеживаете
Потери инфраструктуры — это не только AWS-счёт:
Время инженеров: Сколько часов в месяц команда тратит на отладку проблем, которых не должно быть? На перезапуск упавших сервисов? На расследование проблем с производительностью из-за неправильно подобранных ресурсов?
Если два инженера тратят 10 часов/месяц на инфраструктурные пожары — это $600–1 000 нагрузки (зависит от зарплат). За год: $7 200–12 000. Оптимизированная инфраструктура устраняет большую часть этого.
Альтернативные издержки: Каждый доллар, потраченный на потери, — это доллар, не потраченный на рост. $1 500/месяц экономии могут финансировать part-time разработчика, маркетинговую кампанию или лучший инструментарий для команды.
Стоимость риска: Сколько стоит утечка данных из-за тех 300 неактивных IAM-пользователей, которых никто не почистил? Это не ежемесячные расходы — это катастрофические разовые потери, которые могут уничтожить бизнес.
Эффект сложных процентов
Оптимизация инфраструктуры — не разовое действие. Практики и системы, которые вы внедрите, продолжают экономить деньги и предотвращать проблемы месяц за месяцем, год за годом.
Компания, экономящая $2 000/месяц после аудита:
- Год 1: $24 000 сэкономлено
- Год 2: $24 000 сэкономлено (плюс инфляционная корректировка)
- Год 3: $24 000 сэкономлено
$72 000 за три года от разовых инвестиций в $5 000. ROI — 1 440%.
Когда аудит может не окупиться
Честно: есть ситуации, где ценность аудита ограничена:
- Очень маленькая инфраструктура (до $1 000/месяц) — экономия может не покрыть стоимость (хотя если найдём 50% потерь — ROI всё равно разумный)
- Совсем новая инфраструктура (до 6 месяцев) — потери ещё не успели накопиться (но вы делали архитектурный ревью? Есть план масштабирования?)
- Недавно аудированная (менее 12 месяцев назад) — если не было существенных изменений
Но даже в этих случаях уверенность в том, что всё в порядке, имеет свою ценность.
Калькуляторный подход
Быстрая формула для оценки потенциальной экономии:
Потенциальная ежемесячная экономия = (Текущие расходы × 0.15) + (Инженерные часы на проблемы × 2 × Часовая ставка)
Месяцев до окупаемости = Стоимость аудита / Потенциальная ежемесячная экономия
ROI за три года = ((Потенциальная ежемесячная экономия × 36) - Стоимость аудита) / Стоимость аудита × 100%
Для большинства компаний с расходами $5 000+/месяц аудит окупается за 2–4 месяца.
Что пропускают без аудита: чеклист
После десятков аудитов инфраструктуры начинаешь видеть паттерны. Это проблемы, которые почти никогда не замечают внутренние команды — не потому что некомпетентны, а потому что изнутри их не видно.
Слепые зоны по расходам
Зомби-ресурсы: Остановленные инстансы, неиспользуемые тома, забытые Elastic IP, брошенные load balancers. Как подписки, которые забыли отменить — небольшие ежемесячные списания, складывающиеся в тысячи за год.
Несоответствие модели оплаты: On-demand для предсказуемых нагрузок, оплата за Reserved Instances, которые не используются, упущенные Savings Plans с экономией 40–60%.
Расползание хранилища: Снапшоты, которые накапливаются бесконечно, retention-политики на «навсегда», логи в дорогих S3-тирах, хотя Glacier стоил бы на 80% дешевле.
Оверпровижининг: Серверы под пиковую нагрузку, работающие с загрузкой 10% 23 часа в сутки. «Вдруг понадобится мощность» — дорогая страховка.
Разница цен по регионам: Ресурсы в дорогих регионах (us-east-1), хотя более дешёвые (us-east-2, us-west-2) подошли бы. Один и тот же сервер может стоить на 5–10% меньше в зависимости от региона.
Уязвимости безопасности, которых никто не замечает
IAM-хаос: Сотни аккаунтов, многие неактивны годами. Каждый активный credential — потенциальный вектор атаки. В одном аудите мы нашли пользователя, не заходившего 12 лет, но с правами администратора.
Чрезмерно широкие роли: Разработчики с доступом к продакшн-базам, который им не нужен; приложения с полным S3-write, хотя нужен только read; Lambda с правами admin.
Незашифрованные данные: Базы без encryption at rest, открытые S3-бакеты, секреты в переменных окружения вместо секретных хранилищ.
Устаревшие security groups: Правила firewall, открытые для «временного тестирования» три года назад и забытые. Port 22 открыт в мир вместо ограниченных IP.
Отсутствие MFA: Аккаунты администраторов без многофакторной аутентификации. Это как оставить мастер-ключ от офиса под ковриком.
Архитектурные риски
Нет резервирования: Единые точки отказа, которые положат весь сервис. Одна база данных, один сервер приложений, одна availability zone.
Отсутствие бэкапов: Или хуже — бэкапы есть, но никто их не проверял. Непроверенный бэкап — это кот Шрёдингера: одновременно рабочий и сломанный — до того момента, когда он отчаянно понадобится.
Обрывы масштабирования: Инфраструктура, нормально работающая при текущей нагрузке, но катастрофически отказывающая при 2x или 5x трафика. Нет нагрузочного тестирования, нет плана масштабирования, нет запаса.
Узкие места производительности: Запросы к базе, сканирующие миллионы строк, N+1 проблемы, отсутствующие индексы, неоптимизированные изображения, API-вызовы в циклах.
Пробелы в мониторинге: Вы отслеживаете, что сервисы работают, но не почему они медленные, когда они вот-вот упадут и что происходит при реальном взаимодействии пользователей с продуктом.
Неэффективность процессов
Ручные деплои: Инженеры ходят по SSH на серверы, копируют файлы, перезапускают сервисы вручную. Медленно, ненадёжно, не масштабируется.
Нет Infrastructure as Code: Конфигурация живёт в чьей-то голове или разбросана по вики. Поднять новое окружение — дни. Disaster recovery — теория.
Отсутствие документации: Никто не знает, почему были приняты те или иные архитектурные решения, что делают разные сервисы, как дебажить типичные проблемы. Знания сконцентрированы в одном-двух людях — что будет, когда они уйдут?
Alert fatigue: Столько ложных срабатываний, что инженеры их игнорируют. Или хуже — критические алерты приходят в ящики, которые никто не читает.
Нет тестовых окружений: Разработчики тестируют в продакшне или на ноутбуках. Staging не соответствует продакшну. Баги доходят до клиентов.
Паттерн
Что объединяет все эти проблемы: они невидимы — до тех пор, пока не становятся катастрофическими.
Мониторинг не алертит на потери в бюджете. Дашборды не показывают дыры в безопасности. Команда не замечает архитектурные риски — пока не оказывается в середине аутеджа.
Именно поэтому важен внешний аудит. Свежий взгляд, системный подход и опыт работы с сотнями инфраструктур помогают увидеть то, что внутренняя команда не замечает.
Реальная цена: что не оптимизируешь — субсидируешь
Неудобная правда: каждый доллар, потраченный впустую на инфраструктуру, — это доллар, который платят ваши клиенты.
Неэффективность всплывает где-нибудь. Может, в замедленной разработке фич, потому что команда тушит пожары вместо того, чтобы строить. Может, в более высоких ценах из-за сжатой маржи. Может, в неспособности конкурировать с более эффективными соперниками, которые могут демпинговать, потому что их инфраструктура работает экономно.
Скрытый налог потерь инфраструктуры затрагивает всё:
Скорость продукта: Когда команда тратит 20% времени на инфраструктурные проблемы — аутеджи, проблемы масштабирования, неожиданные счета — это на 20% меньше времени на фичи, которые хотят клиенты. Конкуренты не стоят на месте.
Ограничения найма: Те $3 000/месяц, которые вы теряете на oversized-серверах? Это половина зарплаты разработчика. В tech побеждают таланты — а потраченные впустую деньги на инфраструктуру — это люди, которых вы не можете нанять.
Гибкость бизнеса: Когда инфраструктура непредсказуема и дорога, вы не можете экспериментировать. Не можете тестировать новые рынки, пробовать новые продукты, быстро разворачиваться. Каждое решение становится тяжёлым, потому что вы не уверены, выдержат ли системы или бюджет.
Стресс и моральный дух: Ничто не выжигает команды инженеров быстрее, чем постоянная борьба с пожарами. Ненадёжная инфраструктура — это аутеджи по выходным, звонки в 2 ночи и ощущение, что что-то вот-вот сломается. Это не просто финансовые потери — это человеческие.
Побеждают не те компании, у которых лучшие технологии. А те, чьи технологии работают стабильно, масштабируются предсказуемо и стоят меньше ожидаемого — давая пространство инвестировать в то, что действительно важно.
Что дальше: от осознания к действию
Если вы дочитали до этого места, вы, вероятно, в одном из трёх состояний:
Состояние 1: Подозреваете. Кажется, что переплачиваете или есть риски, но вы не уверены и нет времени разбираться.
Состояние 2: Знаете. Знаете, что проблемы есть — команда упоминала — но они кажутся управляемыми, и есть более важные приоритеты.
Состояние 3: Беспокоитесь. Активно волнуетесь об инфраструктурных расходах, масштабируемости или надёжности и ищете решения.
Независимо от состояния, путь вперёд один: видимость.
Нельзя оптимизировать то, что не измеряешь. Нельзя починить то, чего не видишь. И нельзя принимать обоснованные решения об инфраструктуре, не понимая, что реально происходит под капотом.
Хорошая новость: получить эту видимость — не многомесячный проект. Сфокусированный аудит инфраструктуры — с анализом реального использования, расходов, архитектуры и рисков — занимает 1–2 недели и стоит долю того, что вы, вероятно, тратите впустую ежемесячно.
Что входит в нормальный аудит
- Полная инвентаризация: Каждый ресурс, каждый сервис, каждый центр затрат
- Анализ использования: За что платите vs. что реально используете
- Архитектурный ревью: Единые точки отказа, лимиты масштабирования, узкие места производительности
- Аудит безопасности: Контроль доступа, шифрование, пробелы в соответствии требованиям
- Дорожная карта оптимизации расходов: Приоритизированные рекомендации с оценкой ROI
- Руководство по внедрению: Как реально исправить найденное с реалистичными сроками
Результат — не 200-страничный отчёт, пылящийся на полке. Это приоритизированный план действий: быстрые победы на этот месяц, стратегические улучшения на следующий квартал и долгосрочные оптимизации с накопительным эффектом.
Инвестиции vs. отдача
Комплексный аудит инфраструктуры обычно стоит $3 000–10 000 в зависимости от сложности. Для большинства бизнесов с расходами $5 000+/месяц он окупается за 2–4 месяца только за счёт прямой экономии — не считая снижения рисков, улучшения производительности и освободившегося времени инженеров.
Если бы вам предложили способ увеличить прибыльность бизнеса на 15–20% за единовременную плату в размере трёхмесячного прироста — вы бы взяли?
Именно это и есть аудит инфраструктуры.
Начнём с разговора
Если вам интересно, имеет ли смысл аудит для вашего бизнеса — давайте поговорим. 30 минут, где обсудим, что беспокоит в вашей IT-инфраструктуре. Я, конечно, предложу помощь, но без обязательств ;)
Мы можем:
- Обсудить вашу инфраструктуру в общих чертах (если она сложная — всё не охватим, но составим впечатление)
- Поговорить о том, что не даёт спать — расходы, масштабирование, надёжность
- Выявить очевидные красные флаги, которые стоит изучить
- Понять, имеет ли смысл формальный аудит в вашей ситуации
Без давления, без обязательств — просто честный разговор о том, имеет ли это деловой смысл для вас.
Хотите обсудить вашу инфраструктуру? Свяжитесь со мной в LinkedIn или запишитесь на бесплатную консультацию.
Подробнее об оптимизации облачных расходов — на itaudit.yushkov.org.