Rambler's Top100
Статьи ИКС № 2 2020
31 марта 2020

COVID-19 и ЦОДы: минимизация рисков на критических объектах

Рекомендации, предложенные экспертами Uptime Institute, помогут операторам ЦОДов противостоять воздействию коронавируса, а также разработать стратегии и процедуры на случай эпидемических ситуаций в будущем. 

В условиях пандемии критически важные объекты сталкиваются с особыми трудностями, как из-за возможного отсутствия ключевых сотрудников по причине болезни или карантина, так и в силу других факторов, которые могут повлиять на способность оператора поддерживать непрерывную работу объекта. К счастью, поддержание высокой готовности у отрасли ЦОДов записано в генах и проверено богатым опытом противостояния отключениям электропитания, пожарам, сложным погодным условиям и прочим потенциально опасным событиям. Применяемые в большинстве ЦОДов процедуры обеспечения непрерывности процессов могут быть адаптированы и к вызовам пандемии.

Подготовка бизнеса

В первую очередь необходимо разработать план готовности к пандемии. Если специального плана нет, можно использовать тот, что был подготовлен к другим ЧС. План должен включать многоуровневое реагирование, четко определять действия, которые необходимо предпринять на каждом уровне, и обстоятельства, ведущие к эскалации на следующий уровень. Большинство организаций имеют план действий в условиях ЧС из трех-пяти уровней – от принятия мер предосторожности до приостановки эксплуатации и в наихудших случаях – полного закрытия площадки с переводом критических приложений и операций на резервные площадки. В плане должны быть предусмотрены ситуации, когда персонал не сможет получить доступ на площадку или, напротив, должен покинуть ее в кратчайший срок.

Кроме того, следует оценить влияние пандемии на ИТ- (клиентские) сервисы. Реакция некоторых клиентов на COVID-19 может сказаться на объемах интернет-трафика, рабочих нагрузках и уровне доступности сервисов. Операторам рекомендуется обсудить с клиентами любые возможные воздействия на их работу, особенно при планируемых обновлениях или миграциях систем, наращивании мощностей, а также вероятные задержки намеченных проектов.

Важно поддерживать коммуникации с персоналом, клиентами и партнерами. В быстро меняющихся условиях совещания следует проводить часто: ежедневно или даже дважды в день. Необходимо оперативно информировать персонал о течении пандемии и лучших практиках поддержания безопасной и здоровой рабочей среды. Кроме того, следует дать персоналу четкие указания относительно поведения при проявлении симптомов заболевания (в том числе у членов семьи), порядка и продолжительности самостоятельного карантина, предоставления больничного, страхового покрытия и т.п.

Следует быть готовым к нарушениям в цепочке поставок. В дополнение к обеспечению основных ресурсов, нужно наладить поставки продукции, препятствующей распространению инфекции: дезинфицирующих салфеток, средств для мытья рук, масок, перчаток, бесконтактных термометров и т.д. Также рассмотрите вероятность долгосрочного нарушения цепочки поставок критических запчастей. Компоненты, производимые в Китае или других регионах, сильно пострадавших от эпидемии, могут оказаться малодоступными в течение многих месяцев. (Обратите внимание, что ряд крупнейших заводов по производству оборудования отопления, вентиляции и кондиционирования (ОВК) располагаются в Италии).

Важно избегать ненужных рисков. Отложите или отмените проекты и мероприятия, которые могут увеличить риск заражения, повлечь за собой высокие затраты или повысить нагрузку на поставщиков, партнеров и персонал.

Защита площадки и персонала

В то время как многие шаги, которые необходимо предпринять, подразумевают участие партнеров, защита непосредственно площадки и персонала – первоочередная задача самого оператора ЦОДа.

Санитарная обработка

При вирусной пандемии санитарная обработка очень важна. Уровень защиты помогут повысить следующие шаги:
  • Усиление уборки объекта: ежедневно проводите несколько циклов очистки, особенно поверхностей, на которые приходится большое число контактов (дверные ручки, выключатели освещения, кнопки лифта, поручни, водопроводные краны и т.п.).
  • Размещение дезинфицирующего средства для рук и дезинфицирующих салфеток (а также бытовых мусоросборников) по всему объекту. Сделайте вывески с напоминанием персоналу и посетителям о необходимости их регулярного использования. Требуйте, чтобы персонал дезинфицировал все рабочие места в начале и в конце каждой смены.
  • Использование для дезинфекции аэрозоли. Это более эффективно, чем протирание поверхностей дезинфицирующими растворами, поскольку распыляемый антисептик покрывает поверхности на более длительный период времени.
  • Глубокая очистка пространства машзалов. Увеличьте частоту как стандартных действий по уборке (внешних поверхностей стоек с оборудованием и т.п.), так и глубокой уборки (полная очистка оборудования, уборка под фальшполом, за фальшпотолком, распыление дезинфицирующих составов и т.п.).
  • Ограничение применения тамбур-шлюзов и/или их дезинфекционная обработки после каждого использования. Тамбур-шлюзы могут быть местом размножения вируса, поскольку являются малыми, изолированными, обычно непроветриваемыми пространствами и на их внутренних поверхностях вирусы могут жить в течение многих часов, если не дней.
  • Пересмотр сроков плановой замены воздушных фильтров в системе ОВК. Заменяйте воздушные фильтры чаще и/или используйте более эффективные фильтры.
  • Возможный наем специализированной уборочной компании, которая следует рекомендациям по дезинфекции, выпущенным регулирующими органами (в России – Роспотребнадзором).
  • Возможное расширение круга специализированных компаний по уборке технологических помещений и машинных залов исходя из двух сценариев. Предупредительный сценарий: для уборки используются одобренные моющие средства и материалы, которые удаляются с объекта и утилизируются сразу по завершении уборки. Сценарий с подтвержденным заражением COVID-19 на объекте: уборщик использует костюм биологической защиты, перчатки, бахилы и средства; все они удаляются с объекта сразу по завершении уборки.
Ограничение доступа

Доступ на критический объект строго контролируется – что весьма полезно с точки зрения снижения риска инфицирования. Дополнительно рекомендуем:
  • На КПП при входе на территорию ЦОДа осматривать проходящих, измерять температуру бесконтактными методами и дезинфицировать. Вход на площадку должен быть разрешен только в том случае, если состояние посетителя не вызывает сомнений.
  • Придерживаться консервативного подхода: рассматривать любой подозрительный симптом как возможный случай инфекции COVID-19 (как правило, проведение оперативных тестов на COVID-19 на месте невозможно).
  • Совместно с отделом кадров и/или отделом по охране труда разработать опросный лист для выявления заболевающих и обязать всех посетителей объекта (включая сотрудников) перед доступом на площадку заполнять этот лист.
  • Установить информационные стойки по самооценке состояния здоровья у всех входов и в людных местах.
Организация работы персонала

Приведенные ниже рекомендации следует рассмотреть вместе с руководителями подразделений по управлению кадрами и обеспечению безопасности.
  • Протестируйте все соединения VPN для обеспечения надежного доступа, затем переведите весь персонал, не отвечающий за критические процессы в ЦОДе, на надомную работу. Обеспечьте доступ через VPN к системе управления зданием для удаленного мониторинга ЦОДа. Дайте персоналу подробные инструкции по подключению через VPN.
  • Обеспечьте доступ к стандартным и аварийным эксплуатационным процедурам для возможности удаленного управления в случае необходимости. Убедитесь в точности описания данных процедур, а также в том, что они могут быть корректно исполнены лицами, для которых это не входит в должностные обязанности.
  • Задействуйте технологии удаленного мониторинга/управления (например, удаленные «умные» руки), автоматизации и т.д. Заранее проведите стресс-тестирование применяемых технологий и процедур.
  • Отложите/отмените все личные встречи – используйте электронную почту, телефонную и аудио/видеоконференцсвязь.
  • Будьте готовы к сложностям, вызванным снижением численности работающих. Разработайте матрицу угроз для различных сценариев невыхода сотрудников на работу (например, менее чем 25%, 25–50%, 50–75%, 75–99%). Для каждого сценария учитывайте влияние на бизнес (критические и некритические функции), эксплуатацию ЦОДа, уровень сервиса и т.д.
  • Отправляйте на самоизоляцию и удаленную работу в течение следующих 14 дней сотрудников с симптомами заболевания. Сотрудникам, имевшим тесный контакт с подтвержденным носителем COVID-19, следует также уйти на карантин на 14 дней.
  • Пересмотрите назначения критически важных сотрудников и их заместителей и убедитесь, что заместители полностью обучены и проинструктированы о ролях и обязанностях критически важных сотрудников, которых им может потребоваться временно заменить.
Ограничение перемещений

Во время вспышки эпидемии компании и органы власти вводят ограничения на перемещения. Соответствующие правила будут ужесточаться или смягчаться в зависимости от ситуации. Необходимо рассмотреть возможность введения следующих мер:
  • Запретить поездки (или сократить их число), не являющиеся неотложными.
  • Запретить перемещения между площадками (или сократить их число). Если такая поездка необходима, убедитесь, что вероятность перекрестного заражения минимизирована.
  • Заранее планировать визиты для технического обслуживания. Госорганы или компании могут ослаблять правила или делать исключения для обслуживания критического оборудования. Операторы должны заранее спланировать пути реализации ТО и получить необходимые разрешения, если таковые требуются.
Управление сменами

В идеале принципы резервирования, используемые для архитектуры и процедур эксплуатации ЦОДов, должны равным образом применяться и к персоналу. На многих площадках, разумеется, такие принципы уже реализованы. Во время эпидемии рекомендуется следующее:
  • Создать команды ответственного персонала, убедившись, что у каждой команды есть необходимые навыки и опыт, достаточный для эффективного управления объектом. Разделить команды между площадками, не допуская перемещений между площадками и исключая контакты персонала, работающего на основной площадке, с персоналом резервной площадки. По возможности организовать задачи таким образом, чтобы команды работали в отдельных зонах объекта, не входя в контакт друг с другом и не посещая рабочих пространств другой команды.
  • Убедиться, что члены одной команды всегда работают в одной и той же смене, исключив таким образом любые контакты с другими сменами. Не допускать близкого взаимодействия между сменами. Приходящие на смену работники должны сохранять дистанцию по крайней мере 2 м с уходящими работниками. Это относится, в частности, к их передвижению в лифтах. Разделяемые рабочие пространства заступающий на смену персонал должен протирать дезинфицирующими салфетками. Согласно рекомендациям медицинского персонала или руководства, работникам следует использовать маски во время смены.
  • Внедрить систему отслеживания контактов. Ежедневно регистрировать информацию о состоянии здоровья и местонахождении персонала, представителей поставщиков и прочих вовлеченных лиц, чтобы не пропустить проявление заражения коронавирусом или любые другие болезненные симптомы (в том числе обычной простуды).
Защита эксплуатации объекта

Чтобы гарантировать поддержание высокого уровня доступности ЦОДа, в части эксплуатационных процессов рекомендуем следующее:
  • В соответствии с лучшими практиками отрасли разбить задачи на критические и некритические для облегчения расстановки приоритетов.
  • Отложить все несущественное обслуживание (например, ежеквартальное обслуживание системы управления электроснабжением) и значительные проекты, насколько это возможно.
  • Если это несущественно, отложить высокорисковое тестирование (например, проведение «холодных» пусков и имитацию отключения внешнего питания) до того времени, когда риски пандемии сойдут на нет.
  • Пересмотреть планы аварийного восстановления, стандартные и аварийные эксплуатационные процедуры, методики их исполнения, приоритеты и т.д., и обновлять их по мере необходимости с учетом текущих условий и прогноза их изменения.
  • Проводить тренинги для поставщиков (удаленно, по мере возможности), чтобы они могли выполнить основные эксплуатационные процедуры в случае 100%-ного невыхода на работу основного персонала ЦОДа.
  • Подготовиться к нарушениям цепочки поставок компонентов, таких как элементы кабельной разводки, серверные стойки, критические запчасти и др. Создать ЗИП большего объема, чем обычно.
  • Разработать план действий для ситуаций, когда при отказе ключевого оборудования у вас может не оказаться необходимых ресурсов вследствие нарушения цепочки поставок.
  • Убедиться, что установленные процедуры на случай выхода из строя оборудования ясны и доведены до персонала. Пересмотреть аварийные эксплуатационные процедуры, чтобы убедиться, что они ясно описывают как то, что должно быть сделано, чтобы гарантированно привести отказавшее оборудование в безопасное состояние (когда ремонт невозможен), так и то, что должно быть исполнено для обеспечения непрерывности работ (например, переключение на обходные цепи, переход на резервные компоненты, миграция нагрузок и/или критических приложений на резервные ресурсы).
  • Исследовать устойчивость архитектуры ЦОДа – если уровень резервирования недостаточен для продолжения работы при выходе из строя одного или нескольких компонентов, рассмотреть альтернативный план действий, гарантирующий сохранение доступности.
  • Максимально заполнить топливные емкости.
  • Иметь в резерве альтернативный вариант комплектования штата персонала (если это возможно и экономически оправданно).
Факторы, повышающие риск

Повседневные задачи, которые выполняются опытным собственным персоналом, хорошо знакомым с рабочей средой, имеют самые низкие риски. Операторам ЦОДов рекомендуется попытаться устранить внешние факторы, процессы и действия, которые привносят неопределенность. Обратите внимание на следующие моменты.

Присутствие на объекте консультантов и представителей поставщиков
  • Устраните (насколько возможно) доступ всех поставщиков, присутствие которых не является необходимым, и отслеживайте тех, кто должен присутствовать. 
  • Пересмотрите программу обучения поставщиков и включите в нее информирование о расширенных процедурах охраны здоровья, обеспечения безопасности и правилах работы площадки.
  • Если присутствие на объекте консультанта или иного внешнего лица необходимо, выделите уборные исключительно для посетителей и проводите полную уборку по окончанию визита. Запретите посетителям приносить еду на объект и использовать комнаты отдыха сотрудников.
Стороннее управление объектом и другие сторонние сервисы

Согласно исследованию Uptime Institute, две трети всех площадок используют сторонние сервисы (аутсорсинг). Необходима четкая координация между всеми заинтересованными компаниями, чтобы персонал не был дезориентирован противоречивыми указаниями. Предусмотрите следующее:
  • Вместе с партнерами проработайте политики реагирования и процедуры эскалации.
  • Определите периодичность и способы информирования всех сторон.
  • Ознакомьтесь с условиями всех соглашений SLA в отношении численности персонала в смену и других показателей. Обсудите с партнерами их способность выполнить SLA.
  • Обсудите заранее, смогут ли поставщики услуг восполнить недостаток локального персонала путем перевода опытных работников из другого региона.
ЦОДы в районах сильного поражения

Многие действия, описанные в этом документе, определяются самой компанией, но объекты, работающие в зонах сильного поражения, могут быть подчинены внешним государственным ограничениям. В таких зонах разумно применять самые строгие правила.

Ужесточите правила доступа посетителей:
  • Введите предварительный осмотр всех запланированных посетителей до их появления на объекте.
  • Отправляйте посетителям опросные листы по электронной почте за 48 ч до посещения (или еще раньше) и требуйте их заполнения до подтверждения визита. Убедитесь, что все ответы остаются актуальными на момент прибытия. Разрешайте посещение, только если ответы указывают на низкую вероятность инфицирования.
  • Запретите незапланированные посещения.
  • Введите проверку температуры (с использованием бесконтактных термометров) до входа на объект.
Установите дополнительные правила организации работы сотрудников:
  • По возможности назначьте по крайней мере одного самоизолированного сотрудника по каждой позиции в каждой смене для вызова при ЧС.
  • Учитывая, что инкубационный период заболевания COVID-19, как полагают, составляет две недели, предусмотрите двухнедельную ротацию рабочих смен: команда А работает в отдельной области без пересечения с другими командами в течение двух недель. Затем в течение следующих двух недель на место команды А заступает команда В, а команда А отправляется на двухнедельный карантин.
  • Проанализируйте, как проходят обеденные перерывы персонала объекта. Выделите отдельного уборщика исключительно для поддержания гигиены комнаты отдыха. Закройте кафетерии и кухонные зоны.
  • Подготовьтесь к продолжительному размещению персонала на объекте, но используйте эту меру только в самом крайнем случае, так как в таких условиях вирус может распространяться быстрее.
Строительные работы на объекте
  • Для организаций, вовлеченных в строительство ЦОДа, работы по его расширению в условиях пандемии представляют особую проблему. Скорость строительства сильно влиянет на стоимость, и задержки в одной области работ могут повлиять как на многие другие области, так и на других поставщиков. Однако мы рекомендуем:
  • Приостановить все несущественные проекты, если это возможно.
  • Если проект должен продолжаться, координировать работу с подрядчиками таким образом, чтобы гарантировать, что все субподрядчики/поставщики применяют адекватные меры предосторожности.
  • По возможности создать отдельный безопасный вход для всех участвующих в проекте сторон и изолировать персонал проекта от служб эксплуатации. Сотрудники, которым поручен надзор за исполнением проекта, должны заниматься только этим и не взаимодействовать с дежурным эксплуатационным персоналом.
Коммерческие ЦОДы

Коммерческие ЦОДы сталкиваются с большим числом посетителей, чем корпоративные. Это, в частности, действующие и потенциальные клиенты, а также различный обслуживающий персонал. Рекомендуем следующее:
  • Отложите все осмотры, туры по ЦОДу и другие несущественные мероприятия на объекте.
  • Во избежание неудобств и неудовлетворенности потенциальных клиентов действуйте проактивно: заранее проинформируйте их о плане готовности к COVID-19 и его влиянии на доступ на объект. В этих сообщениях следует подчеркнуть, что реализуемые шаги направлены на обеспечение максимальной доступности инфраструктуры ЦОДа ради блага клиентов.
  • Информируйте клиентов о доступных технологиях, которые позволят им управлять рабочими нагрузками удаленно (например, удаленный мониторинг через средства DCIM, удаленные «умные» руки и т.п.).
  • Ограничьте доступ к общим пространствам, таким как комнаты для клиентов и т.п. Убедитесь, что во всех общих зонах присутствуют средства санитарной обработки (и мусорные контейнеры), в том числе рядом с торговыми автоматами.
Объекты смешанного использования

Некоторые небольшие ЦОДы и серверные помещения располагаются в зданиях смешанного использования – офисных комплексах, производственных предприятиях или административных центрах. В этих случаях, хотя описанные в данном документе принципы применимы, правила обычно устанавливают руководители всего объекта. Поэтому очень важно четко прописать исключения из общих требований и правил пользования зданием в отношении обслуживания критической инфраструктуры и доступа к ней персонала.

Общие рекомендации

Реагирование на уровне компании в целом
  • Постоянно следите за ситуацией. Обращайтесь к доступным источникам информации за обновлениями и дополнительными указаниями.
  • Делитесь опытом. В частности, ЦОДам в районах, менее затронутых пандемией, важно получать информацию от ЦОДов, оказавшихся в регионах с более тяжелой ситуацией, чтобы лучше подготовиться.
  • Держите документацию наготове. Всегда может потребоваться получить разрешение ключевым сотрудникам ездить на работу (особенно, если в районе ограничено перемещение).
  • Разъясните процесс эскалации. Убедитесь, что бизнес-подразделения, особенно критически важные, полностью проинформированы об уровнях реагирования и конкретных событиях, которые могут потребовать эскалации.
  • Удостоверьтесь в согласованных действиях бизнес- и технических подразделений. Требуйте, чтобы бизнес-подразделения чаще общались со службой эксплуатации ЦОДа и ИТ-отделом относительно изменений политик, влияющих на работу ЦОДа/ИТ-служб, например, о направлении сотрудников на удаленную работу или предписании клиентам использовать онлайн-сервисы.
Реагирование на уровне ЦОДа 
  • Пересмотрите приоритеты технического обслуживания. Определите, какие задачи могут быть понижены в приоритете, выполнены в последнюю очередь или не выполнены вообще, если эксплуатационный персонал будет сокращен до минимума.
  • Убедитесь в эффективности коммуникационных средств. Установите правила, согласно которым команды, изолированные друг от друга, будут вести общение (телефон, видеоконференция) на регулярной основе, и протестируйте средства коммуникации заранее.
  • Избегайте совместного использования рабочего пространства. По возможности выделяйте разные помещения для персонала смен: например, дневная смена занимает рабочий офис, вечерняя – комнату для переговоров, а ночная – офис руководителя объекта.
  • Избегайте совместного использования оборудования. Предоставьте каждому сотруднику индивидуальные средства. Если оборудование должно быть использовано совместно (например, телефоны смены, планшеты, клавиатуры и т.д.), дезинфицируйте его в начале каждой смены.
  • Подготовьтесь к экстренному размещению персонала в ЦОДе. Хотя размещение персонала на объекте рекомендуется рассматривать только как крайнюю меру, перемещения могут быть заблокированы в середине смены, поэтому приготовьтесь к таким обстоятельствам.
  • Заранее договоритесь с местными властями о том, чтобы ЦОД был определен как критический объект (подобно больнице или отделению полиции) и получите разрешения на перемещения для ответственного персонала. Разъясните критичность приложений, поддерживаемых площадкой (например, онлайн-банкинг, обеспечение связи и т.д.). Получите необходимые средства жизнеобеспечения – еду, основные гигиенические средства и медикаменты.
  • Если возможно, найдите отель в непосредственной близости от площадки (в идеале – в шаговой доступности), который может быть использован для отдыха персонала между сменами.
  • Пересмотрите вопросы отложенного обслуживания. Рассмотрите последствия отложенного обслуживания, поскольку оно может увеличить риск выхода из строя компонентов или систем. Всегда имейте в распоряжении план реагирования на любую значительную проблему, по мере необходимости координируя работу с поставщиками.
  • Если проблему выхода оборудования из строя нельзя решить своевременно, убедитесь, что процедуры безопасного отключения и изолирования оборудования достаточно надежны для нейтрализации потерь (по крайней мере на время перевода рабочих нагрузок на другой объект).
  • Поощряйте документирование и передачу знаний от опытного персонала; это может выполняться в форме аннотированных процедур и руководств, видеоконференций между соответствующими сторонами и т.д.
  • Рассматривайте «восстановившийся» персонал как потенциально инфицированный и находящийся в зоне риска. Имеющаяся на сегодня информация указывает, что люди, преодолевшие заболевание и выздоровевшие, имеют лишь ограниченный иммунитет и могут заразиться повторно.
Выводы

Многие из новых правил, введенных в действие в условиях пандемии, вероятно, будут навсегда включены в принципы управления критически важными объектами. Это может увеличить общие расходы.

Отрасль ЦОДов испытывает дефицит квалифицированного персонала. Текущие события заставляют индустрию, учебные заведения и коммерческие организации активнее заниматься подготовкой и обучением кадров.

Использование средств автоматизации и удаленного мониторинга может позволить объектам работать эффективнее, дольше и с меньшей численностью персонала. Пандемия усилит долгосрочную тенденцию более широкого внедрения таких средств. То же относится к инструментам удаленной совместной работы.

Эта пандемия не будет последней. За прошедшие двадцать лет различные вирусные вспышки уже вызывали массовые смерти и экономический спад. Глобализация означает, что таких эпидемий будет больше, и некоторые могут стать намного более смертоносными. Поэтому все организации должны быть подготовлены к ним, так же, как они готовы к более заурядным происшествиям, подобным перебоям в электроснабжении.

Есть предположение, что в дальнейшем вирус COVID-19, как грипп, будет давать ежегодные рецидивы. Планы обеспечения непрерывности бизнеса должны обновляться, включать новые профилактические меры (например, требование, чтобы ответственный персонал проходил прививки в начале каждого сезона гриппа) и меры по обеспечению устойчивости цифровых сред, резервированию площадок и т.д.

Публикуется в сокращении.

Uptime Institute Intelligence team
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!