Рубрикатор |
Статьи | ИКС № 08-09 2013 |
Михаил ЗОЛОТАРЁВ | 03 сентября 2013 |
SLA как залог
Ключевые показатели способности датацентра к бесперебойному оказанию услуг должны быть отражены в SLA.
Какие же критерии можно внести в договорные документы, чтобы они отражали и ожидания клиентов, и возможности оператора ЦОДа, и реально снижали риски для бизнеса клиента?
Аварийные остановки и плановые простои
Для плановых отключений вполне адекватным представляется обычный метод компенсации за сверхплановый простой. Только не нужно отводить на плановый простой «8 минут в месяц» вместо «96 минут в год» (96/12 = 8). За 8 минут ничего сделать не получится, да и ежемесячные плановые отключения в дата-центре уровня Tier III по TIA-942 – это нонсенс.
А вот для аварийных отключений такой метод работает плохо. Секундный перебой в питании реально влечет за собой многочасовое восстановление работоспособности корпоративных ИС и высокую вероятность безвозвратной потери данных, так что для банка или биржевого брокера ущерб может оказаться больше, чем плата за услуги дата-центра за все время размещения. Казалось бы, если назначить очень большую компенсацию за аварийное отключение, то оператор сделает все, чтобы таких случаев не было, – но на практике эффект будет обратным.
В хорошем дата-цент-ре аварийные отключения редки, хотя нельзя их исключить вовсе. Предположим, системы нашего ЦОДа имеют уровень надежности, которому соответствует примерно одна авария за три года. Вероятность того, что в первый год произойдут две аварии, а потом пять лет не будет ни одной, тоже ненулевая, примерно 1,5%. Назначив «разорительную» компенсацию, мы получим следующее. Во-первых, нужно будет существенно поднять расценки, ведь рано или поздно придется платить компенсацию. Во-вторых, высок риск полного разорения оператора дата-центра: пара аварий подряд – и всем клиентам надо искать новый ЦОД, а этот идет с молотка. В-третьих, если случилась авария, то нужно найти ее причины и принять меры, чтобы не допустить повторения. Но эти меры, как правило, требуют расходов, а бюджет оператора как раз получит сильнейший удар в виде компенсации клиентам, после чего оператор, наоборот, начнет экономить на техническом обслуживании.
Попробуем взглянуть глубже. Серьезному клиенту важен не объем компенсации, а свидетельства того, что риски возникновения сбоев находятся под контролем и принимаются адекватные меры для их минимизации. Где бы клиент ни разместил свои ИТ-системы, в собственном дата-центре или в коммерческом, риск инфраструктурных сбоев в любом случае будет ненулевым. Ожидать, что бизнес стоимостью в десятки миллионов долларов (типичный дата-центр) сможет полностью компенсировать соответствующие риски миллиардному бизнесу (типичный клиент из финансового сектора), было бы наивно. Но выход все-таки есть. Собственно, это классика современного менеджмента качества – производственные процессы с доказанной устойчивостью качества. Поставщик имеет право отгружать только продукцию, произведенную в рамках производственных процессов, для которых имеются надлежащие доказательства их стабильности.
Бесперебойность в дата-центре
Попробуем применить данный подход к коммерческому дата-центру. Бесперебойность работы инфраструктуры ЦОДа – непосредственный результат нескольких процессов, связанных с инженерными системами: это их проектирование; поставка, монтаж и испытания; текущая эксплуатация оборудования; модернизация и ремонт. Чем же можно гарантировать устойчивость качества результатов каждого из этих процессов?
Во время проектирования инженерных систем клиент, как правило, не стоит за плечом у проектировщика, но он может положиться на его репутацию (особенно если это генеральный проектировщик), на результаты аудита проекта третьей стороной, на репутацию заказчика (если компания уже вела успешные проекты дата-центров) и структур, осуществляющих финансирование (если ими уже удачно запущены технически сложные проекты), наконец, на собственную экспертизу решений проекта. Можно также ориентироваться на умеренную и оправданную долю инноваций в проектных решениях.
Конечно, и у ведущих производителей иногда случаются огрехи, но в общем и целом при поставке, монтаже и испытаниях инженерных систем разумный клиент будет полагаться на репутацию производителей оборудования и опыт эксплуатации конкретных используемых моделей, на репутацию организаций, ведущих монтаж и пусконаладку, на адекватную программу испытаний и озвученную их политику, на наличие у ЦОДа собственного оборудования для проведения испытаний (особенно периодических) и на результаты испытаний в максимально широком диапазоне условий и их сочетаний (желательно с предъявлением объективных подтверждений).
Убедить клиента в том, что эксплуатация оборудования инженерных систем осуществляется грамотно, на техобслуживании не экономят, а оборудование не перенагружают, будет легче, если оператор уже эксплуатирует с хорошим уровнем бесперебойности другие дата-центры, если в команде сотрудников есть «звезды» с высокой персональной репутацией в области правильной организации эксплуатации ЦОДа, если процессы эксплуатации открыты для аудита со стороны клиента. Кроме того, на обслуживание оборудования должны быть заключены сервисные контракты с официальными сервисными центрами.
Периодическая модернизация и серьезные (выходящие за рамки текущей эксплуатации) ремонты являются неотъемлемой частью жизни любого дата-центра. Чтобы клиент был уверен в их успешности, оператор должен продемонстрировать ему регламенты уведомления о плановых работах, политику испытаний и приемки, документальные результаты испытаний, а также четкую процедуру планирования и контроля с аудитом, проводимым либо клиентом, либо третьей стороной.
Пункты для SLA
Что из перечисленного выше можно внести в текст SLA? Если дата-центр уже спроектирован и построен, то часть документации проекта может быть предоставлена потенциальному клиенту до подписания контракта, а в договоре достаточно указать адрес оказания услуг.
Кроме того, в договоре имеет смысл отразить следующие пункты.
Помимо этого в SLA включаются другие параметры, регламентирующие действия каждой из сторон и их ответственность за качество конечных сервисов: ограничения на плановые отключения, нормативы скорости ответа технической поддержки и т. д. Таким образом, правильно составленный SLA поможет клиенту выстроить эффективную систему мер по обеспечению непрерывности своего бизнеса.1. Политика раскрытия информации: например, клиент может иметь право в любой момент заглянуть в журналы обслуживания оборудования и сверить выполненные мероприятия с планом, а также ознакомиться с ключевыми результатами испытаний принятого в эксплуатацию оборудования.
2. Право клиента провести аудит деятельности оператора дата-центра по обеспечению надежности, с указанием объема, порядка назначения сроков, ограничений по частоте и времени.
3. Обязательства оператора ЦОДа провести независимый аудит и предоставить его материалы.
4. Ключевые характеристики инженерных систем и применяемого оборудования, соблюдение которых клиент может проверить («ИБП в конфигурации N+1», «утилизация мощности инженерных систем не более 80%», «запас топлива на площадке на 48 ч непрерывной работы на 100% мощности» и т.п.).
5. Обязанность оператора продемонстрировать по запросу наличие определенного оборудования для испытаний.
6. Ключевые моменты, касающиеся обеспеченности персоналом, которые могут быть продемонстрированы по требованию («круглосуточное дежурство инженера с соответствующей квалификацией» и т.п.).
7. Право клиента запросить у поставщика оборудования подтверждение того, что оборудование было должным образом введено в эксплуатацию.
8. Право клиента запросить у сервисных организаций подтверждение того, что соответствующий контракт заключен и выполняется.
9. Ключевые параметры процедуры уведомления о работах, плановых отключениях, о действиях в аварийных и неотложных ситуациях.