Степан Аракелян: «Успех архитектуры – не идеальный дизайн, а способность пережить свои ошибки»

11.09.25, Чт, 12:13, Мск,

Разработчик высоконагруженных платформ поделился опытом создания систем, которые выдерживают миллионы запросов в минуту.

У любого крупного бизнеса есть высоконагруженная система и, как правило, не одна. Группа компаний Б1 и HeadWork Analytics провели совместное исследование и выяснили, что в 2024 году объем рынка инфраструктуры высоконагруженных систем в России составил 560 млрд руб., а до 2030 года ожидается его рост на 15% в год.[1] Такие платформы играют ключевую роль в обеспечении быстрой обработки запросов и эффективной работы даже при значительных нагрузках, что особенно важно для онлайн-сервисов, социальных сетей и потоковых медиа с миллионами пользователей. Для стабильного функционирования таких систем необходимы продуманная архитектура, инновационные технологии, оптимизация производительности и высокий уровень кибербезопасности. Эти аспекты обусловлены необходимостью выдерживать пиковые нагрузки, обеспечивать высокую доступность и отказоустойчивость систем, говорит технический директор инновационной iGaming-компании (NDA) Степан Аракелян, который занимается проектированием и развитием высоконагруженных платформ. Он рассказал о внедрении инновационных идей в системную архитектуру и о том, каким видит будущее высоконагруженных систем.

– Степан, в чем заключаются сложности работы с высоконагруженными платформами?

– Highload — это не только про большое количество запросов, но и про их непредсказуемый рост, когда трафик может увеличиться в 8–10 раз за минуту. Задержки недопустимы — например, у нас 2 секунды задержки в ставке могут стоить репутации и денег. Поэтому архитектура должна быть гибкой и самоадаптирующейся. В highload всегда приходится идти на компромиссы: жертвовать строгой консистентностью ради скорости, использовать буферы и кэши для защиты базы. Мы сейчас уделяем больше внимания качеству, даже если это замедляет разработку. Проблему «шторок» решили через асинхронные очереди, бэкпрешур и приоритет критичных процессов. Ранее ошибки в релизах вызывали серьезные сбои, теперь используем GitOps и канареечные релизы с автоматическим откатом — это позволяет выпускать новые версии без простоев. Для меня успешная архитектура — это не идеальный дизайн, а способность быстро восстанавливаться и учиться на ошибках. Это живая система, которая должна приносить пользу бизнесу и радовать пользователей.

– Вы внедрили ряд системных инструментов для создания современных, конкурентоспособных решений в игровой индустрии. Расскажите, что они собой представляют?

– Я обеспечил переход на событийную архитектуру с Kafka, чтобы избавиться от жесткой синхронности. Это дает возможность масштабировать отдельные процессы независимо и реагировать на события почти мгновенно. Для аналитики строю ClickHouse кластер – он позволит формировать сложные отчеты в реальном времени даже при миллионах событий в час. Redis стал нашим «ускорителем» – хранит горячие данные и результаты сложных расчетов, при этом он достаточно прост в обращении. Kubernetes с автоскейлом и сервис-мешем Istio обеспечивает быструю реакцию на нагрузку. Далее планирую использовать Flink для стримингового антифрода. Мне нравится, что все эти технологии дают не просто «модный стек», а реальную ценность: меньше задержек, меньше ошибок и больше предсказуемости.TAdviser 20 лет. Как российский ИТ-рынок эволюционировал с 2005 по 2025 годы. Спецпроект 24 т

– В случае высокой пиковой нагрузки как быстро вы можете масштабировать вашу систему и за счет чего?

– В среднем мы можем увеличить мощность за 1–3 минуты. Это достигается за счет HPA/KEDA, «теплых» узлов, которые готовы к запуску в любой момент, и продуманного шардинга данных. Для меня важно, чтобы масштабирование было не только быстрым, но и умным, поэтому стараюсь не просто «наращивать железо», а понимать, где именно возникает нагрузка, и усиливать только нужные компоненты. В будущем хочу уйти в масштабирование по бизнес-метрикам: например, увеличивать мощности не просто по CPU, а в зависимости от числа активных ставок или депозитов.

– В игровой индустрии высокая нагрузка и масштабируемость критичны, но при этом не менее важно обеспечить надежную защиту системы. Какие меры безопасности вы внедрили для устойчивости к DDoS-атакам и предотвращения мошенничества?

– Мы приняли комплекс мер для защиты системы от DDoS-атак и мошеннических действий. С внешней стороны установлена многоуровневая защита: фильтрация трафика с помощью географических ограничений, система обнаружения и блокировки DDoS-атак, а также веб-приложенческий файрвол (WAF), который отслеживает и блокирует подозрительные запросы. Внутри системы мы реализовали модель Zero Trust — ничего и никому внутри не доверяем по умолчанию. Добавили лимиты на количество вызовов API, чтобы избежать перегрузок, и ввели механизм circuit breakers, который временно блокирует подозрительные действия, не допуская катастрофических сбоев. Для нас важно выстроить такой уровень безопасности, который надежно защищает систему, но при этом не мешает нормальной работе пользователей. В итоге мы добились хорошего баланса между надежностью и удобством.

– Для того чтобы работа платформы соответствовала международным требованиям и пользователи доверяли ей, вы создали многофункциональную платежную систему. В чем ее особенность?

– Она мультикаскадная, с умным роутингом: транзакция идет туда, где выше вероятность одобрения. Есть smart-retry, который повторяет платеж по альтернативному маршруту, если первый не прошел. Система поддерживает карты, локальные кошельки, банковские переводы.

– Еще одним шагом стало внедрение автоматизированных систем мониторинга, оповещения и развертывания. Как это повлияло на стабильность и качество работы высоконагруженной платформы?

– Да, у нас есть автоматизированные конвейеры мониторинга, алертов и выкладки. Также планирую создать сервис, который будет ежедневно генерировать отчеты о работе системы, чтобы потом можно было отдавать их на аналитику. Система сама контролирует SLO, а если что-то идет не так – сигнал уходит дежурному, релиз откатывается, и пользователь ничего не замечает. Это решение – стандарт качества для подобных систем. Многие компании стремятся к нему, используя разные технологии и подходы. Для меня важно не просто собрать «зоопарк технологий», а выстроить процесс так, чтобы он был предсказуемым и воспроизводимым.

– Каким вы видите будущее высоконагруженных систем?

– Я верю, что будущее highload – это real-time ML, когда искусственный интеллект не просто анализирует данные, а принимает решения прямо в момент события. Например, подсказывает игроку персональные предложения или мгновенно меняет лимиты при подозрительной активности. Плюс самоисцеляющиеся системы, которые сами определяют проблему и исправляют ее без участия человека. Мне нравится работать там, где технологии на грани возможностей – именно это дает чувство, что ты создаешь что-то по-настоящему новое.


Автор: Дмитрий Архипов

Примечания