Rambler's Top100
Статьи ИКС № 03-04 2015
Грег ШЕРРИ  21 апреля 2015

Насколько уязвим ваш ЦОД?

Влияние ошибок, обусловленных человеческим фактором, на бесперебойную работу ЦОДа многие специалисты до сих пор недооценивают. Однако высокий процент сбоев по вине человека подталкивает к изменению такой позиции.

Грег ШЕРРИ, профессор, Московский государственный университет экономики, статистики и информатики

По получившим широкую известность оценкам Uptime Institute, порядка 70% сбоев в ЦОДах вызваны ошибкой оператора. Исследования, проведенные в последние годы, показывают, что даже в ЦОДах классов надежности Tier III и Tier IV весьма высокая доля происшествий и сбоев была прямым или косвенным следствием человеческих ошибок.

Зачастую в инструкциях и корпоративных предписаниях не предусмотрен подробный разбор каждого происшествия в ЦОДе для установления его истинной причины. А ведь это одно из ключевых требований, способствующих пониманию системных уязвимостей и обнаружению слабых мест в используемых процедурах! Только таким путем можно предотвратить повторное возникновение сбоя.

Нередко бывает, что «еще чуть-чуть», и случилась бы серьезная неприятность. Эти аспекты могут остаться незамеченными, нигде не зафиксированными, и тогда никакие меры приняты не будут. Все эти «еще чуть-чуть» должны рассматриваться как самостоятельные происшествия, которые, по счастью, обошлись без последствий. Они должны быть проанализированы, как если бы сбой действительно имел место; по ним должны быть написаны отчеты и приняты меры, исключающие возможность их повторения.

Модель швейцарского сыра в риск-менеджменте

Еще в 1990 г. Джеймс Ризон из Манчестерского университета в Великобритании разработал модель для описания ситуаций, потенциально ведущих к катастрофе. Она получила название модели швейцарского сыра, поскольку для визуального отображения «траектории» возможного происшествия используются ломтики сыра с дырками, которые могут прийтись (либо не прийтись) на один и тот же участок. Каждая дырка в ломтике сыра – потенциальная ошибка. Если в соседнем ломтике на этом же месте дырки нет, сбоя не произойдет. Однако если дырки проходят через все ломтики насквозь, складывается траектория возможного происшествия, и рано или поздно оно случится. Таким образом, сбои всегда являются результатом сочетания возможностей для ошибки.

Так, дуговой разряд может возникнуть, если система содержит упущения на культурном, инженерном, системном и человеческом уровне (см. рисунок).

Когда ошибки, относящиеся к разным слоям, образуют «сквозной путь», это создает предпосылки к тому, чтобы инцидент произошел.

Культурный слой. Принято ли в организации проводить мероприятия, направленные на предотвращение сбоев? Серьезно ли относятся к мерам безопасности и охраны труда?

Инженерный слой. Грамотно ли спроектированы, установлены и эксплуатируются системы объекта? Принимались ли во внимание вопросы безопасности?

Системный слой. Существуют ли письменные инструкции, гарантирующие, что только обученный персонал будет проводить работы, потенциально опасные для здоровья или могущие нарушить бизнес-процессы? Соблюдаются ли эти инструкции на практике?

Человеческий слой. Удалось ли создать безопасную рабочую обстановку для персонала, чтобы уменьшить воздействие внешних факторов на производительность и свести возможный риск к минимуму?

Если в перечисленных четырех слоях есть зоны, где могут возникнуть «дыры», тогда сбой – лишь вопрос времени, которое пройдет до того, как они выстроятся в ряд и нежелательное событие наступит. Если совпали «отверстия» в трех слоях, и лишь по счастливой случайности на четвертом уровне происшествие удалось предотвратить, то ситуацию следует рассматривать как тревожный звонок.

Цена простоя

Необходимо отдавать себе отчет в том, какими будут последствия и во сколько обойдутся возможные перебои в работе и простои ЦОДа. К сожалению, немногие компании осознают масштаб последствий, оценивают недополученную прибыль от внеплановой остановки ЦОДа и убытки, которые придется понести, если законом и договорами предусмотрены штрафы и неустойки за непредоставление услуг. Следует учитывать и неизбежные репутационные потери.

Последствия простоя для бизнеса можно оценить, учитывая несколько составляющих:

 

  • упущенная прибыль;
  • репутационные потери;
  • утрата рыночных позиций, занятие ниши конкурентами.

 

Необходимо также принимать в расчет следующие соображения: время простоя – это не только период неработоспособности объекта, но и время, необходимое для восстановления штатных режимов работы систем и бизнес-процессов. Утрата репутации на рынке может приводить к прямым убыткам в результате падения курса акций. Для компаний, работающих на рынке финансовых услуг, простой означает существенные потери в результате приостановки торгов и биржевых операций.

Только всесторонняя оценка финансовых последствий неработоспособности системы позволяет составить бюджет мероприятий, направленных на предотвращение инцидентов. Тогда на объекте можно будет внести изменения в инструкции и процедуры, скорректировать режимы технического обслуживания, организовать обучение и таким путем минимизировать или устранить риск сбоев в будущем.

Согласно подходу Uptime Institute, чтобы обеспечить надежную работу ЦОДа, необходимо согласовать между собой три основных элемента системы: People (люди), Processes (процессы), Places (местоположение). Применительно к ЦОДу имеются в виду соответственно персонал, инфраструктура и рабочие процедуры, а также услуги третьих сторон, оказываемые на данном участке. Все эти факторы должны соответствовать единому уровню надежности: нельзя построить ЦОД с надежностью Tier IV, если нанятый персонал соответствует классу Tier I и управляет объектом по своим правилам.

В чем основная причина сбоев?

Легко сказать, что первопричина всех сбоев – недостаточное обучение. Однако даже самые подготовленные специалисты могут допускать ошибки, особенно на фоне дополнительных факторов:

 

  • спешка, сжатые сроки выполнения работ;
  • усталость;
  • отвлекающие факторы, отсутствие сосредоточенности;
  • попытки упростить работу, пойти кратчайшим путем;
  • перекладывание ответственности;
  • психологическая нагрузка из-за необходимости не допускать простоев;
  • плохо организованное техническое обслуживание;
  • неграмотное оперативное управление;
  • производственные условия и обстановка.

 

Большая часть этих факторов – следствие просчетов в организации управления и недостаточного понимания того, какой вред делу могут нанести низкая мотивация персонала и потенциальные ошибки, заложенные еще на этапе планирования, особенно если работоспособность объекта имеет критическую важность.

Что касается производственной обстановки: необходимо обеспечивать людям безопасные рабочие места, поскольку успешно выполнять сложные задачи можно только в условиях безопасности и относительного комфорта. Однако в ЦОДе специалисты часто вынуждены работать в тесноте, температура может быть слишком высокой или слишком низкой, освещенность может быть недостаточной, и все это на фоне постоянного шума от оборудования, который может превышать безопасный уровень в 80 дБ. Ко всему прочему, работы обычно выполняются в вечерние и ночные часы, а также в выходные дни.

В других отраслях, связанных с повышенной опасностью, – авиации, ядерной энергетике, медицине – в свое время проводились специальные исследования и была разработана методология, позволяющая свести к минимуму риск человеческой ошибки и возможные отрицательные последствия. ЦОДы постепенно занимают центральное место буквально во всех областях нашей жизни, поэтому чрезвычайно важно, чтобы их проектирование, строительство и эксплуатация обеспечивали нужный уровень надежности и отвечали потребностям пользователей. А учитывая высокий процент сбоев по вине человека, необходимо обратить серь­езное внимание на влияние человеческого фактора. Существует методология, которую можно адаптировать к ЦОДам для дальнейшего использования.

Методология HEART

Методология Human Error And Reduction Technique (HEART) позволяет оценить влияние человеческого фактора и минимизировать связанные с ним риски. Изначально она разрабатывалась под задачи здравоохранения, однако многие ее положения можно применить к ЦОДам.

Данный подход предлагает любое действие, в котором требуется участие человека, предварительно оценивать на возможность ошибки. Необходимо выделить ключевые типы задач и учесть, какие внешние факторы – условия, способствующие совершению ошибки (Error Pro­du­cing Conditions, EPC), – могут повлиять на их выполнение. Методология HEART выделяет девять основных типов задач и 38 факторов, способствующих совершению ошибки.

Задачи варьируются от нетиповых заданий, которые необходимо выполнить в сжатые сроки, и сложных задач, требующих предварительных знаний, до рутинных операций, выполняемых регулярно без особого труда. В зависимости от уровня сложности, характерного для определенного типа задач, вероятность ошибки может быть больше или меньше, а под влиянием внешних условий она может возрасти.

Используя научный подход, оценивая причины и последствия человеческих ошибок, их влияние на надежность и работоспособность современных ЦОДов, можно значительно уменьшить количество проблем, вызванных человеческим фактором. 

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!
Поделиться: