2025/03/12 09:59:12

Эксплуатация ЦОДов в условиях постоянно меняющегося рынка

Поговорили с Павлом Костюриным, руководителем группы комплексного сервиса и эксплуатации инженерных систем компании «Инфосистемы Джет», о том, как обеспечить непрерывность бизнеса заказчиков в условиях постоянного изменения технологического ландшафта.

Павел
Костюрин
По данным Uptime Institute, 2/3 всех инцидентов в ЦОДах связаны с человеческой ошибкой. Продуманная эксплуатация позволяет избежать их.

Какие задачи решают сервис и эксплуатация ЦОДов? В чем роль системного интегратора?

Павел Костюрин: Сервис и эксплуатация решают главную задачу — бесперебойный доступ к сервисам, размещенным в ЦОДе.

Современный ЦОД — это живой организм, требующий пристального внимания. Какова бы ни была его стоимость, сколько бы стоек в нем ни было установлено, все инженерные и ИТ-системы ЦОДа требуют обязательного обслуживания. Практически все инженерное оборудование имеет рекомендуемые производителем графики проведения регламентных работ, а сложные системы вообще не подлежат гарантии без заключения сервисного договора с авторизованной организацией.

Роль системного интегратора в организации комплексного обслуживания и эксплуатации ЦОДов очень важна. Большинство инженерных компаний на рынке ЦОД имеют узкую специализацию (кондиционирование, энергетика, пожаротушение, слаботочные системы и т.д.), и, когда случаются проблемы на стыке систем, оказывается, что инцидент есть, но расследовать его не получается, потому что подрядчики кивают друг на друга.

У системных интеграторов комплексный подход, и есть большое преимущество — главные инженеры проектов, обладающие высокой межсистемной экспертизой. Другими словами — заключая договор на комплексное сервисное обслуживание с интегратором, вы можете быть уверены, что любая проблема будет решена, независимо от своей сложности и масштаба.

В чем специфика обслуживания разных типов ЦОДов: модульных, корпоративных, коммерческих, ЦОДов для телекома и мега-ЦОДов? Как определить, какой уровень сервиса (SLA) оптимален?

Павел Костюрин: Выбор формата обслуживания ЦОДа определяется критичностью процессов, которые он обеспечивает. Если речь о банке, то все финансовые операции во время сбоя будут невозможны, а значит, банк потеряет огромные суммы и получит недовольных клиентов. Поэтому для финансовых организаций отказоустойчивый ЦОД — это вопрос прибыли и репутации. Если же ЦОД используется в научном центре и вычисления нужны для исследований, то здесь простой менее критичен.

Каждая организация выбирает тот тип сервисного обслуживания, который сможет обеспечить непрерывность бизнеса: от поддержки 24/7 до регулярных выездов команды техобслуживания, также возможно постоянное присутствие службы эксплуатации на объекте. Если корпоративный или микро-ЦОД можно без опасений доверить команде эксплуатации на аутсорсе, то для крупных коммерческих ЦОДов, предоставляющих свои мощности в аренду, нужна собственная команда.

Для контейнерных ЦОДов в труднодоступных местах, где нет инфраструктуры для размещения технических специалистов, нецелесообразно создавать собственную команду эксплуатации с размещением на объекте. Оптимальный вариант — договор с компанией, которая обеспечивает сервис и мониторинг и в случае возникновения нештатной ситуации может оперативно приехать на место.

Какие самые прихотливые клиенты-ЦОДы в целом и из вашей практики?

Павел Костюрин: Самые прихотливые клиенты, конечно, коммерческие дата-центры. Причина в том, что они подписывают со своими заказчиками жесткие SLA о доступности своей инфраструктуры, соответственно, соглашение об уровне сервиса с исполнителем, который эту инфраструктуру обслуживает, должно включать в себя еще более сжатые сроки (временные показатели).

Какие есть риски при импортозамещении инженерных решений для ЦОДов, которые нужно учесть при эксплуатации?

Павел Костюрин: Технологический рынок России сейчас испытывает беспрецедентное санкционное давление — большинство производителей ушли из страны и прекратили поставки.

Появились российские производители, пришли китайские, которые приняли эстафету и наполнили рынок предложениями своего оборудования.

Рисков, сопутствующих поставке нового оборудования, сейчас достаточно много: это срыв поставки, задержка поставки, курсы валюты. Но в рамках строительной концепции всегда можно поменять производителя, заменить оборудование.

С обслуживанием и эксплуатацией действующих ЦОДов все гораздо сложнее. Представьте ЦОД заказчика, на обслуживание которого заключено соглашение об уровне сервиса 24х7х4, fix time, включая запчасти. Как сервисной организации быть? Как не нарушить SLA, учитывая, что оборудованию уже около 10 лет, а запчасти теперь по прямым каналам купить невозможно? Сложно, но можно.

Устанавливать аналоги (компрессоры, вентиляторы), ремонтировать платы электроники на элементном уровне. Параллельный импорт никто не отменял, но нужно понимать, что шевелиться сейчас нужно сильно заранее, чтобы не нарушить сроки.

Рисков при проведении работ стало больше, нужно помнить об этом, предоставляя ИТ-заказчику подробные планы проведения работ.

К сожалению, есть и практически безвыходные ситуации с оборудованием, запчасти на которое невозможно достать совсем никак. В данном случае заказчику ничего не остается, как менять полностью единицу вместо ее ремонта. Такова реальность.

Стало ли аварий больше за последние два года, когда возникли сложности с поставками оборудования?

Павел Костюрин: Я бы не сказал, что стало больше аварий именно из-за проблем с импортом запчастей, скорее стало сложнее ремонтировать тяжелое оборудование. С такими трудностями столкнулись владельцы ЦОДов, у которых на объекте установлены ДРИБП (дизельные роторные источники бесперебойного питания) старше 10 лет или чиллеры, оборудованные компрессорами и контроллерами Danfoss Turbocor. Выполнить капитальный ремонт этого оборудования в текущих условиях — задача очень непростая.

Сейчас есть тренд с георезервированием — переносом части ЦОДов на Урал и в Сибирь. Означает ли это, что команда эксплуатации переезжает вместе с ЦОДами? Или как обслуживание обеспечивается удаленно?

Павел Костюрин: Нужно для начала определиться, чем в нашей терминологии сервисное обслуживание отличается от эксплуатации.

Сервисное обслуживание — выполнение регламентных работ с рекомендованной производителем периодичностью, реагирование на инциденты, устранение неисправностей, оказание консультаций, и все это согласно утвержденному соглашению об уровне сервиса (SLA).

Эксплуатация ЦОД — это комплекс мероприятий, направленных на поддержание инженерной инфраструктуры и систем жизнеобеспечения ЦОД в оптимальном рабочем состоянии, а также обеспечение таких проектных значений, как температура, влажность, электроснабжение. Для обеспечения этих условий служба эксплуатации должна постоянно находиться на объекте.

Конечно, рациональность размещения в ЦОДе службы эксплуатации сильно зависит от размера ЦОДа — например, в небольших серверных разумнее будет ограничиться удаленным круглосуточным мониторингом.

И, отвечая на вопрос, я могу заверить, что подход к обслуживанию и эксплуатации ЦОДа мало зависит от места его размещения. Если этот ЦОД большой, в нем размещаются критичные сервисы, но находится он за Уралом, разумным решением будет создать на площадке службу эксплуатации с круглосуточными дежурствами на объекте, так же как и в любом другом дата-центре столицы. Другое дело, что подготовленный персонал в регионах сложнее подобрать, но вопрос о подготовленности ресурсов на рынке — это тема для отдельного обсуждения.

Какие проблемы позволяет выявить аудит инженерной инфраструктуры?

Павел Костюрин: Интенсивное развитие рынка ЦОДов в совокупности с растущими потребностями в оперативном внедрении новых сервисов и бизнес-процессов зачастую не позволяет владельцам и топ-менеджменту дата-центров своевременно оценить риски несоответствия мощностей инженерной инфраструктуры ставящимся перед ней задачам. Вместе с тем инженерное оборудование ЦОДов, построенных в 2010–2014 годах, сегодня активно устаревает и нуждается в модернизации. Избежать аварий и простоев бизнеса может помочь услуга аудита ЦОДа, предлагаемая системными интеграторами рынка инженерных систем.

Проведение аудита дает возможность получить объективную оценку состояния инженерной инфраструктуры и принять меры для поддержания безаварийной работы оборудования, устранить недоработки или скрытые недостатки отдельных систем и всего объекта в целом. Такое обследование помогает определить параметры, необходимые для непрерывной и правильной эксплуатации критичного оборудования и приложений.

Перед топ-менеджментом ЦОДа встает вполне логичный вопрос: чьими силами проводить аудит? Своими? Силами интегратора? Определенно, наилучшим вариантом будет связка заказчик — интегратор. Никто лучше службы эксплуатации заказчика не знает всех нюансов работы аудируемого объекта, так же как никто лучше интегратора, предоставляющего услугу аудита инженерной инфраструктуры ЦОДа и, самое главное, принимавшего участие во всех этапах строительства дата-центра, не представляет, как именно инженерные системы должны работать. Когда нужен аудит?

Практика показывает, что нагрузка на инженерное оборудование приближается к критической точке примерно через четыре-пять лет после начала эксплуатации ЦОДа. Конечно, для каждого ЦОДа этот срок индивидуален, но, как правило, за это время основное инженерное оборудование устаревает, а плотность ИТ-оборудования возрастает. Для заказчиков, чьи бизнес-процессы не стоят на месте, а совершенствуются и требуют год от года все больших и больших ресурсов, модернизация — процесс неизбежный. Для того чтобы сформулировать требования, в соответствии с которыми нужно будет модернизировать инженерную инфраструктуру, и необходимо проводить аудит.

Из-за чего чаще всего происходят отказы на ЦОДах и как снизить этот показатель?

Павел Костюрин: Ежегодно в мире происходят десятки серьезных сбоев в крупных ЦОДах, обслуживающих тысячи серверов, а также тысячи аварий на ЦОДах меньшего размера, обслуживающих одну или несколько компаний. По данным исследования инцидентов Uptime Institute, на проблемы, связанные с человеческой ошибкой, приходится 2/3 всех инцидентов.

И в большинстве случаев этих проблем можно избежать, если уделить должное внимание обучению персонала и хорошо продуманным и отрепетированным процессам эксплуатации. Только подробно описанные регламенты могут повлиять на ситуацию и снизить вероятность влияния человеческого фактора на инфраструктуру ЦОД.