Rambler's Top100
Статьи
Алексей ВИЛЬСОН  14 мая 2020

Когда пауза невозможна: как правильно подготовиться к кризису

Непрерывность бизнеса – важнейшее условие для работы большинства современных компаний. Остановка бизнес-процессов на несколько минут в некоторых случаях приводит к убыткам в сотни миллионов долларов.

Так произошло, например, с авиакомпанией Delta Airlines в 2016 году, когда сбой электропитания на одном из ее объектов в Атланте повлек за собой задержку и отмену более тысячи рейсов по всему миру.

Компаниям приходится работать в условиях, которые могут внезапно и резко измениться, могут произойти события, негативно влияющие на бизнес, – пандемия, блэкауты, природные катаклизмы, изменения законодательства и т.п. Эти проблемы могут приводить к остановке бизнеса и финансовым потерям. К реагированию на кризисные ситуации необходимо готовиться заранее, причем сценариев реагирования должно быть несколько, чтобы предусмотреть максимальное количество рисков.

С чего начать?

На первом этапе нужно проанализировать влияние возможных внешних факторов на основные направления работы компании. Затем – выделить критичные бизнес-процессы и критическую инфраструктуру, поддерживающую их функционирование. Рабочая группа определяет возможные риски и угрозы, беря во внимание принятые в компании процедуры и процессы. Задача рабочей группы – оценить процессы с точки зрения рисков и определить необходимые сценарии минимизации этих рисков.

Эксперты группы контактируют с представителями разных отделов компании, выявляя слабые места в бизнес- и организационных процессах. Результат этой работы – определение максимально допустимого времени простоя (maximum allowable outage) для разных направлений деятельности и для компании в целом.

Правильно проведенная работа по оценке рисков приводит к следующим результатам:
  • определены критичные активы компании;
  • есть понимание, откуда могут прийти угрозы и каковы возможные сценарии их реализации;
  • есть понимание, как противостоять возможным угрозам для снижения рисков.
Что потом?

Далее следует разработать проект обеспечения непрерывности бизнеса. Основная часть этого проекта – развернутый план, который предусматривает различные сценарии реагирования на угрозы и контроль выполнения сценариев, а также устанавливает правила действий в нештатных ситуациях (business continuity plan). Кстати, иногда план непрерывности бизнеса путают с планом восстановления после наступления кризиса. У них много общего, но это не одно и то же. План восстановления – лишь часть большого проекта, о котором говорится выше.

У плана непрерывности бизнеса есть и другие составные части:
  • план непрерывности операций, включая бизнес-процессы и мероприятия;
  • план коммуникаций в период кризиса;
  • план защиты критически важных объектов инфраструктуры;
  • план реагирования на киберугрозы;
  • план восстановления после уже произошедшего сбоя;
  • план действий сотрудников в период кризиса.
Все планы можно условно разбить на три направления, включая реагирование на чрезвычайные ситуации, управление инцидентами и восстановление нормальной работы после ЧС. В первом случае нужно определить последовательность действий, которая запускается в случае возникновения ЧС. Во втором – определить меры, которые позволят уменьшить негативное влияние произошедшего инцидента. В третьем – разработать алгоритм действий для восстановления работы компании или отдельного ее направления до требуемого уровня.

Крайне важно предусматривать не только технические решения, но и разного рода организационные меры – например, проведение тренингов, опросов, консультационную поддержку сотрудников. Так, в Orange выполнению сотрудниками взятых на себя обязательств способствует внедрение в практику управления элементов непрерывности бизнеса, основанных на положениях международных стандартов 9K/27K/22301.

Убеждаемся в том, что все работает

Что касается тестирования разработанных решений и планов, то наиболее эффективно тестирование, максимально приближенное к реальным ситуациям. Осуществитьна практике подобное крайне сложно (никто, наверное, не будет выдергивать патч-корды из оборудования, чтобы проверить стрессоустойчивость системы во время блэкаутов), поэтому обычно компании проводят настольные тесты.
 
Orange, например, раз в квартал во всех своих офисах в России, включая Москву, Нижний Новгород и Новосибирск, проводит учения по пожарной безопасности. Объявляется пожарная тревога, отключаются лифты, включается вентиляция, сотрудники в плановом порядке выводятся из офисов на улицу. Менеджмент получает уведомления о срабатывании пожарной сигнализации. Затем делается проверка – все ли сотрудники выведены на улицу (на каждом этаже есть ответственный за пожарную безопасность), и лишь после этого люди возвращаются в офисы.
 
Тестирование помогает не только проверить жизнеспособность составленных планов, но и оценить, достаточно ли ресурсов для решения возникающих проблем. Ну а сотрудники получают знания и навыки, необходимые для эффективных действий в случае возникновения инцидентов.
 
Для того чтобы убедиться в жизнеспособности планов, необходимо регулярно выполнять техническое обслуживание важных систем, проводить проверки инфраструктуры и команды. Провайдеры связи для того, чтобы снизить вероятность инцидентов, физически разделяют каналы связи, настраивают сервисное оборудование для автоматического перенаправления трафика, плюс отслеживают задержки связи. Если задержки увеличиваются, то автоматически вступают в действие сценарии, которые предназначены для решения этой проблемы. 
 
Примеры выхода из кризисных ситуаций

В ходе нашей работы нечасто, но все же случаются по-настоящему серьезные вызовы, каждый из которых заставляет быстро искать подходящее решение и сразу же приводить его в исполнение.

Например, несколько лет назад вышел из строя один из спутников, обеспечивающих связь для наших клиентов в Сибири и на Дальнем Востоке. Для устранения последствий этой аварии нам пришлось принять срочные меры: перенастроить собственное передающее оборудование в иркутском хабе, а также еще 200 спутниковых терминалов. Многие из них находились на удаленных объектах в местности с плохо развитой транспортной инфраструктурой и суровыми климатическими условиями, например, на горнорудных комбинатах или буровых установках. В ряде случаев консультации представителей заказчика проводились удаленно, но большая часть работы была проведена нашими инженерами на местах.

Другой пример – наводнение 2013 года в Хабаровске, где расположен макрорегиональный технический центр Orange. Чтобы избежать выхода из строя оборудования в узлах связи, расположенных в разных районах города, специалистам пришлось демонтировать это оборудование и перенести его в помещения, которым не угрожало затопление. В ряде узлов, где вероятность затопления была не столь высокой, установили датчики протечки, чтобы оперативно отреагировать на опасность.

Управление непрерывностью бизнеса – целый комплекс мер и действий, направленных на предотвращение появления инцидентов или же уменьшение негативного влияния чрезвычайных ситуаций на работу компании, если предотвратить кризис не удалось. Разработать этот комплекс нужно до появления проблем, в противном случае действия компании во время кризиса будут хаотичными, разнонаправленными и должного эффекта не дадут.

Алексей Вильсон, глава департамента информационной безопасности, Orange Business Services
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!