Я нашёл $50 000 потерянных денег в трёх аудитах. Вот что чаще всего упускают.

До 42% расходов на облачную инфраструктуру — чистые потери.

Не «неоптимально». Потери.

Пока финансовые директора задаются вопросом, почему IT-расходы растут быстрее выручки, инфраструктура тихо истекает деньгами: забытые снапшоты, серверы с загрузкой 15%, неиспользуемые Reserved Instances.

В этой статье — три реальных аудита: $45k сэкономлено, 50% снижение расходов за один час и предотвращённая катастрофа на $50k+ в Black Friday. Плюс — как посчитать, является ли ваша инфраструктура источником прибыли или дырой в бюджете.

Скрытая цена «всё работает»

В IT есть опасная фраза: «Работает — не трогай».

Звучит разумно. И в целом это так.

Но, как всегда, зависит от контекста. Иногда хочется улучшить что-то ради самого улучшения — и это что-то ломает. (Особенно в UI. #OnePlus — почему вы решили, что циферблат на 24 часа лучше мирового стандарта в 12?)

Но здесь я хочу говорить об оптимизации, при которой результат не меняется — а надёжность и эффективность растут.

Сервисы работают. Клиенты не жалуются. Мониторинг зелёный. В чём проблема?

Проблема в том, что «работает» и «работает эффективно» — это совершенно разные вещи. Автомобиль с тремя спущенными шинами технически ездит — просто обходится вам в целое состояние на бензин и замену шин при скорости пешехода.

Инфраструктура устроена так же. Она может работать безупречно и одновременно:

Запускать серверы с загрузкой 10–20%, за которые вы платите 100%
Хранить снапшоты и бэкапы многолетней давности, которые никто никогда не откроет
Платить по on-demand ценам, хотя можно зафиксировать скидку 40–60%
Держать oversized-инстансы «на вырост»
Гонять тестовые окружения 24/7, когда ими пользуются 8 часов в неделю

Каждый пункт кажется мелочью. По отдельности, может, и так. Но они складываются. $50/месяц здесь, $200 там — и вот уже тысячи долларов ежемесячно, которые могли бы финансировать новые фичи, найм или напрямую улучшать маржу.

Реальная стоимость — не только деньги. Это альтернативные издержки: что вы могли бы построить вместо этого.

Кейс: когда «стабильно» значит «дорого»

SaaS-компания пришла ко мне с, казалось бы, простым запросом: «Можешь посмотреть наш AWS-счёт? Мы платим $21 000/месяц, и это кажется многовато».

Всё работало. Инфраструктура была крепкой — грамотно спроектированной, с мониторингом, без аутеджей. С технической точки зрения команда сделала хорошую работу.

Но «технически правильно» и «финансово оптимизировано» — разные стандарты.

Что показал аудит

Я начал только с EC2 — не со всего аккаунта, только с compute-слоя. Вот что нашёл:

Кладбище снапшотов: $960/месяц на снапшоты 2019–2021 годов, которых никто не касался годами. Команда добросовестно создавала бэкапы, но так и не настроила retention-политики. Каждый созданный снапшот хранился вечно.

Серверы «на всякий случай»: Три сервера m5.2xlarge (8 vCPU, 32 ГБ RAM) с загрузкой CPU 12–15%. Логика была понятной — «нам может понадобиться burst-мощность в пики». Вот только пики так и не пришли. Стоимость: $329/месяц за мощность, которой не пользовались.

Хаос с моделями оплаты: Смесь устаревших обязательств и упущенных возможностей. 13 Reserved Instances ($720/год), купленных для проекта, которого больше нет, — при том что реальные продакшн-серверы работали на дорогом on-demand. Никто не пересматривал стратегию два года. Переход на Savings Plans и чистка мёртвых RI: экономия $1 500/месяц.

«Остановлен, но не удалён»: Семь EC2-инстансов, остановленных несколько месяцев назад, но так и не удалённых. Когда останавливаешь инстанс — платить за compute перестаёшь, но за подключённые EBS-тома — нет. Стоимость: $34/месяц за диски серверов, которые больше никогда не запустятся.

Осиротевшие тома: 18 EBS-томов, отцепленных от инстансов — скорее всего при отладке или миграциях — и забытых. Критичных данных там не было (проверили), но счётчик начислений шёл 8–14 месяцев. Стоимость: $244/месяц.

И это только EC2. Мы ещё не смотрели networking, load balancers, NAT-шлюзы, Lambda, S3 и десяток других AWS-сервисов.

Результат

Итого найдено экономии по EC2: $3 787/месяц или $45 444/год.

18% всего бюджета на инфраструктуру — найдено примерно за неделю анализа.

Но вот что делает этот кейс показательным: каждая найденная проблема была невидима с точки зрения технического мониторинга. CloudWatch показывал зелёное. Аптайм — 99,9%. Время отклика — отличное.

Потери были спрятаны в биллинге, а не в производительности.

Компания взяла отчёт и реализовала большинство рекомендаций за 30 дней. Финансовый директор был в восторге. Инженеры — честно говоря, с облегчением: подозревали, что переплачивают, но не было времени разобраться.

Кейс: 126 IAM-пользователей и $5 000 проблема

«Можешь сократить расходы на AWS?»

Mid-size B2B SaaS, $48k/год на AWS. Плановый бюджетный ревью.

Что нашли

Неделя 1 — очевидное:

26 неиспользуемых Elastic IP ($1 092/год)
Сервисы удалены 3 года назад, IP до сих пор арендуются
Стоимость аудита: отбита в первый же день

Затем настоящие потери:

Забытые Lightsail-инстансы
ВМ с нулевыми метриками месяцами
Бэкапы баз данных удалённых проектов

Итого: $400/месяц = $4 800/год

Затем — безопасная бомба:

126 IAM-пользователей (300+ по всем аккаунтам)
~20 реально активных
Пароли старше 10 лет
Сотрудники, ушедшие 8+ лет назад
MFA опциональный

Сложность

Найти потери: 1 час
Получить разрешение на удаление: 1 неделя

Организационная сложность > техническая сложность

Результат

Снижение расходов на 10%, $5k/год сэкономлено
100+ векторов атаки устранено

Контекст: При AWS-расходах $48k/год $5k может казаться мелочью. Но сложите:

Несколько незамеченных неэффективностей
Годы накопленных потерь
Нерешённые риски безопасности

Маленькие течи топят большие корабли. $400/месяц складываются.

Фреймворк ROI: когда аудит окупается?

Поговорим о математике, которая важна для бизнеса.

Аудит инфраструктуры не бесплатен. В зависимости от сложности — от $2 000 до $10 000+ за полноценный ревью. Поэтому вопрос не «смогу ли я сэкономить?», а «сэкономлю ли я больше, чем заплачу?»

Вот как об этом думать.

Базовый расчёт

Большинство аудитов находит экономию в 10–30% ежемесячных расходов. Возьмём консервативные 15%.

При расходах $10 000/месяц на инфраструктуру:

15% экономии = $1 500/месяц
Годовая экономия = $18 000
Трёхлетняя = $54 000

Если аудит стоит $5 000, вы в ноль на четвёртом месяце. Дальше — чистая прибыль.

Но в этом расчёте не учтены два критичных фактора.

Скрытые расходы, которые вы не отслеживаете

Потери инфраструктуры — это не только AWS-счёт:

Время инженеров: Сколько часов в месяц команда тратит на отладку проблем, которых не должно быть? На перезапуск упавших сервисов? На расследование проблем с производительностью из-за неправильно подобранных ресурсов?

Если два инженера тратят 10 часов/месяц на инфраструктурные пожары — это $600–1 000 нагрузки (зависит от зарплат). За год: $7 200–12 000. Оптимизированная инфраструктура устраняет большую часть этого.

Альтернативные издержки: Каждый доллар, потраченный на потери, — это доллар, не потраченный на рост. $1 500/месяц экономии могут финансировать part-time разработчика, маркетинговую кампанию или лучший инструментарий для команды.

Стоимость риска: Сколько стоит утечка данных из-за тех 300 неактивных IAM-пользователей, которых никто не почистил? Это не ежемесячные расходы — это катастрофические разовые потери, которые могут уничтожить бизнес.

Эффект сложных процентов

Оптимизация инфраструктуры — не разовое действие. Практики и системы, которые вы внедрите, продолжают экономить деньги и предотвращать проблемы месяц за месяцем, год за годом.

Компания, экономящая $2 000/месяц после аудита:

Год 1: $24 000 сэкономлено
Год 2: $24 000 сэкономлено (плюс инфляционная корректировка)
Год 3: $24 000 сэкономлено

$72 000 за три года от разовых инвестиций в $5 000. ROI — 1 440%.

Когда аудит может не окупиться

Честно: есть ситуации, где ценность аудита ограничена:

Очень маленькая инфраструктура (до $1 000/месяц) — экономия может не покрыть стоимость (хотя если найдём 50% потерь — ROI всё равно разумный)
Совсем новая инфраструктура (до 6 месяцев) — потери ещё не успели накопиться (но вы делали архитектурный ревью? Есть план масштабирования?)
Недавно аудированная (менее 12 месяцев назад) — если не было существенных изменений

Но даже в этих случаях уверенность в том, что всё в порядке, имеет свою ценность.

Калькуляторный подход

Быстрая формула для оценки потенциальной экономии:

Потенциальная ежемесячная экономия = (Текущие расходы × 0.15) + (Инженерные часы на проблемы × 2 × Часовая ставка)

Месяцев до окупаемости = Стоимость аудита / Потенциальная ежемесячная экономия

ROI за три года = ((Потенциальная ежемесячная экономия × 36) - Стоимость аудита) / Стоимость аудита × 100%

Для большинства компаний с расходами $5 000+/месяц аудит окупается за 2–4 месяца.

Что пропускают без аудита: чеклист

После десятков аудитов инфраструктуры начинаешь видеть паттерны. Это проблемы, которые почти никогда не замечают внутренние команды — не потому что некомпетентны, а потому что изнутри их не видно.

Слепые зоны по расходам

Зомби-ресурсы: Остановленные инстансы, неиспользуемые тома, забытые Elastic IP, брошенные load balancers. Как подписки, которые забыли отменить — небольшие ежемесячные списания, складывающиеся в тысячи за год.

Несоответствие модели оплаты: On-demand для предсказуемых нагрузок, оплата за Reserved Instances, которые не используются, упущенные Savings Plans с экономией 40–60%.

Расползание хранилища: Снапшоты, которые накапливаются бесконечно, retention-политики на «навсегда», логи в дорогих S3-тирах, хотя Glacier стоил бы на 80% дешевле.

Оверпровижининг: Серверы под пиковую нагрузку, работающие с загрузкой 10% 23 часа в сутки. «Вдруг понадобится мощность» — дорогая страховка.

Разница цен по регионам: Ресурсы в дорогих регионах (us-east-1), хотя более дешёвые (us-east-2, us-west-2) подошли бы. Один и тот же сервер может стоить на 5–10% меньше в зависимости от региона.

Уязвимости безопасности, которых никто не замечает

IAM-хаос: Сотни аккаунтов, многие неактивны годами. Каждый активный credential — потенциальный вектор атаки. В одном аудите мы нашли пользователя, не заходившего 12 лет, но с правами администратора.

Чрезмерно широкие роли: Разработчики с доступом к продакшн-базам, который им не нужен; приложения с полным S3-write, хотя нужен только read; Lambda с правами admin.

Незашифрованные данные: Базы без encryption at rest, открытые S3-бакеты, секреты в переменных окружения вместо секретных хранилищ.

Устаревшие security groups: Правила firewall, открытые для «временного тестирования» три года назад и забытые. Port 22 открыт в мир вместо ограниченных IP.

Отсутствие MFA: Аккаунты администраторов без многофакторной аутентификации. Это как оставить мастер-ключ от офиса под ковриком.

Архитектурные риски

Нет резервирования: Единые точки отказа, которые положат весь сервис. Одна база данных, один сервер приложений, одна availability zone.

Отсутствие бэкапов: Или хуже — бэкапы есть, но никто их не проверял. Непроверенный бэкап — это кот Шрёдингера: одновременно рабочий и сломанный — до того момента, когда он отчаянно понадобится.

Обрывы масштабирования: Инфраструктура, нормально работающая при текущей нагрузке, но катастрофически отказывающая при 2x или 5x трафика. Нет нагрузочного тестирования, нет плана масштабирования, нет запаса.

Узкие места производительности: Запросы к базе, сканирующие миллионы строк, N+1 проблемы, отсутствующие индексы, неоптимизированные изображения, API-вызовы в циклах.

Пробелы в мониторинге: Вы отслеживаете, что сервисы работают, но не почему они медленные, когда они вот-вот упадут и что происходит при реальном взаимодействии пользователей с продуктом.

Неэффективность процессов

Ручные деплои: Инженеры ходят по SSH на серверы, копируют файлы, перезапускают сервисы вручную. Медленно, ненадёжно, не масштабируется.

Нет Infrastructure as Code: Конфигурация живёт в чьей-то голове или разбросана по вики. Поднять новое окружение — дни. Disaster recovery — теория.

Отсутствие документации: Никто не знает, почему были приняты те или иные архитектурные решения, что делают разные сервисы, как дебажить типичные проблемы. Знания сконцентрированы в одном-двух людях — что будет, когда они уйдут?

Alert fatigue: Столько ложных срабатываний, что инженеры их игнорируют. Или хуже — критические алерты приходят в ящики, которые никто не читает.

Нет тестовых окружений: Разработчики тестируют в продакшне или на ноутбуках. Staging не соответствует продакшну. Баги доходят до клиентов.

Паттерн

Что объединяет все эти проблемы: они невидимы — до тех пор, пока не становятся катастрофическими.

Мониторинг не алертит на потери в бюджете. Дашборды не показывают дыры в безопасности. Команда не замечает архитектурные риски — пока не оказывается в середине аутеджа.

Именно поэтому важен внешний аудит. Свежий взгляд, системный подход и опыт работы с сотнями инфраструктур помогают увидеть то, что внутренняя команда не замечает.

Реальная цена: что не оптимизируешь — субсидируешь

Неудобная правда: каждый доллар, потраченный впустую на инфраструктуру, — это доллар, который платят ваши клиенты.

Неэффективность всплывает где-нибудь. Может, в замедленной разработке фич, потому что команда тушит пожары вместо того, чтобы строить. Может, в более высоких ценах из-за сжатой маржи. Может, в неспособности конкурировать с более эффективными соперниками, которые могут демпинговать, потому что их инфраструктура работает экономно.

Скрытый налог потерь инфраструктуры затрагивает всё:

Скорость продукта: Когда команда тратит 20% времени на инфраструктурные проблемы — аутеджи, проблемы масштабирования, неожиданные счета — это на 20% меньше времени на фичи, которые хотят клиенты. Конкуренты не стоят на месте.

Ограничения найма: Те $3 000/месяц, которые вы теряете на oversized-серверах? Это половина зарплаты разработчика. В tech побеждают таланты — а потраченные впустую деньги на инфраструктуру — это люди, которых вы не можете нанять.

Гибкость бизнеса: Когда инфраструктура непредсказуема и дорога, вы не можете экспериментировать. Не можете тестировать новые рынки, пробовать новые продукты, быстро разворачиваться. Каждое решение становится тяжёлым, потому что вы не уверены, выдержат ли системы или бюджет.

Стресс и моральный дух: Ничто не выжигает команды инженеров быстрее, чем постоянная борьба с пожарами. Ненадёжная инфраструктура — это аутеджи по выходным, звонки в 2 ночи и ощущение, что что-то вот-вот сломается. Это не просто финансовые потери — это человеческие.

Побеждают не те компании, у которых лучшие технологии. А те, чьи технологии работают стабильно, масштабируются предсказуемо и стоят меньше ожидаемого — давая пространство инвестировать в то, что действительно важно.

Что дальше: от осознания к действию

Если вы дочитали до этого места, вы, вероятно, в одном из трёх состояний:

Состояние 1: Подозреваете. Кажется, что переплачиваете или есть риски, но вы не уверены и нет времени разбираться.

Состояние 2: Знаете. Знаете, что проблемы есть — команда упоминала — но они кажутся управляемыми, и есть более важные приоритеты.

Состояние 3: Беспокоитесь. Активно волнуетесь об инфраструктурных расходах, масштабируемости или надёжности и ищете решения.

Независимо от состояния, путь вперёд один: видимость.

Нельзя оптимизировать то, что не измеряешь. Нельзя починить то, чего не видишь. И нельзя принимать обоснованные решения об инфраструктуре, не понимая, что реально происходит под капотом.

Хорошая новость: получить эту видимость — не многомесячный проект. Сфокусированный аудит инфраструктуры — с анализом реального использования, расходов, архитектуры и рисков — занимает 1–2 недели и стоит долю того, что вы, вероятно, тратите впустую ежемесячно.

Что входит в нормальный аудит

Полная инвентаризация: Каждый ресурс, каждый сервис, каждый центр затрат
Анализ использования: За что платите vs. что реально используете
Архитектурный ревью: Единые точки отказа, лимиты масштабирования, узкие места производительности
Аудит безопасности: Контроль доступа, шифрование, пробелы в соответствии требованиям
Дорожная карта оптимизации расходов: Приоритизированные рекомендации с оценкой ROI
Руководство по внедрению: Как реально исправить найденное с реалистичными сроками

Результат — не 200-страничный отчёт, пылящийся на полке. Это приоритизированный план действий: быстрые победы на этот месяц, стратегические улучшения на следующий квартал и долгосрочные оптимизации с накопительным эффектом.

Инвестиции vs. отдача

Комплексный аудит инфраструктуры обычно стоит $3 000–10 000 в зависимости от сложности. Для большинства бизнесов с расходами $5 000+/месяц он окупается за 2–4 месяца только за счёт прямой экономии — не считая снижения рисков, улучшения производительности и освободившегося времени инженеров.

Если бы вам предложили способ увеличить прибыльность бизнеса на 15–20% за единовременную плату в размере трёхмесячного прироста — вы бы взяли?

Именно это и есть аудит инфраструктуры.

Начнём с разговора

Если вам интересно, имеет ли смысл аудит для вашего бизнеса — давайте поговорим. 30 минут, где обсудим, что беспокоит в вашей IT-инфраструктуре. Я, конечно, предложу помощь, но без обязательств ;)

Мы можем:

Обсудить вашу инфраструктуру в общих чертах (если она сложная — всё не охватим, но составим впечатление)
Поговорить о том, что не даёт спать — расходы, масштабирование, надёжность
Выявить очевидные красные флаги, которые стоит изучить
Понять, имеет ли смысл формальный аудит в вашей ситуации

Без давления, без обязательств — просто честный разговор о том, имеет ли это деловой смысл для вас.

Хотите обсудить вашу инфраструктуру? Свяжитесь со мной в LinkedIn или запишитесь на бесплатную консультацию.

Подробнее об оптимизации облачных расходов — на itaudit.yushkov.org.