Rambler's Top100
Статьи ИКС № 11 2014
Заурбек АЛЕХИН  Дмитрий БАСИСТЫЙ  11 ноября 2014

Маленькие помощники для больших задач: средства автоматизации эксплуатации ЦОДа

Качественная эксплуатация инженерной инфраструктуры ЦОДа почти всегда требует применения средств автоматизации. 

Заурбек АЛЕХИН, независимый консультант  Дмитрий БАСИСТЫЙ, независимый консультант 
Эти средства должны быть интегрированы между собой, а их наличие должно быть предусмотрено еще на стадии проектирования системы эксплуатации.

Эксплуатация инженерной инфраструктуры – одна из наиболее важных задач, связанных с функционированием любого центра обработки данных. В нескольких предыдущих работах* авторов обсуждалась операционная модель эксплуатации (ОМЭ), теперь же мы остановимся на инструментальном обеспечении эксплуатации – на системах автоматизации.

Задачи эксплуатации сводятся к отслеживанию текущего состояния, планированию и выполнению различных работ, учету и контролю. Качество этих процессов может быть улучшено с помощью специализированных технологий.

Хотя автоматизация эксплуатации не является критически необходимым элементом операционной модели, по ряду направлений без нее не обойтись. Цели автоматизации следующие:

  • повышение эффективности работ;
  • собственно исполнение работ;
  • создание дополнительных возможностей управления.

Особенности эксплуатации инженерной инфраструктуры ЦОДа

Процессам эксплуатации инженерной инфраструктуры (ИИ) ЦОДа присущи некоторые особенности, которые нехарактерны, скажем, для эксплуатации ИТ-оборудования.

Так, в ходе эксплуатации ИИ ЦОДа персонал обычно не имеет прямых контактов с конечными потребителями сервисов.

Правильно организованная эксплуатация ИИ ЦОДа направлена на предотвращение аварийных ситуаций, а не на их устранение. Соответственно, доля плановых мероприятий высока.

При надлежащем уровне проектирования и построения объекта отдельные отказы ИИ ЦОДа не могут и не должны оказывать серьезного влияния на предоставление услуг инфраструктуры (в основном – за счет резервов мощностей и дублирования). Устранение отказов ИИ обычно требует использования ЗИПа и занимает существенно больше времени, чем устранение отказов ИТ-оборудования, поскольку требует проведения механических работ.

Инциденты в ИИ ЦОДа, как правило, нельзя ликвидировать удаленно, путем консультирования потребителей услуг. Для этого нужны ремонтные мероприятия или по меньшей мере дополнительные регулировки и настройки. Влияние инцидентов ИИ зачастую намного масштабнее, чем влияние ИТ-инцидентов. По сути, они вызывают кратное число инцидентов поддерживаемых ЦОДом ИТ-сервисов. Резервирование ИТ-оборудования при прочих равных значительно дороже и встречается реже.

Виды систем автоматизации и их назначение

Сегодня существуют следующие основные виды систем автоматизации эксплуатации:

  • системы мониторинга и управления оборудованием;
  • системы мониторинга параметров сервисов;
  • системы автоматизации управления (взаимодействия);
  • системы процессного управления;
  • системы структурированного хранения и обработки данных;
  • системы ведения технической документации;
  • справочно-информационные системы.

Перечисление можно продолжать. Если посмотреть на весь спектр систем с более высокого уровня абстракции, то его можно условно разделить на инструменты непосредственного управления и контроля ИИ, технологии управления работами, технологии учета и вспомогательные решения. Первые нужны техническим специалистам для выполнения работ, контроля состояний объекта, выявления отклонений и т.д., вторые – менеджерам для управления действиями технических специалистов. Технологии учета помогают учитывать и контролировать материальные объекты, вспомогательные решения обеспечивают хранение справочной и исторической информации, оповещение о нештатных ситуациях, повышают качество взаимодействия специалистов и т.п.

Зачастую эти системы встречаются не в чистом виде, их функции пересекаются. К тому же, как правило, они создаются разными вендорами с разными подходами к проектированию и реализации продуктов. В результате при попытке охватить все задачи тем или иным набором технологий оказывается необходимым не только произвести интеграцию систем, но и принять ряд архитектурных решений, в том числе исключить дублирующие интерфейсы и повторный ввод данных, сформировать мастер-данные и т.п.

Что есть на рынке?

Однозначно отнести имеющиеся на рынке продукты к тому или иному классу нелегко, поскольку и классы определены нечетко, и продукты обычно содержат элементы, решающие задачи разных классов.

Инструменты непосредственного управления и контроля ИИ

Чаще всего при автоматизации эксплуатации ЦОДов вспоминают о системах DCIM (Data Centre Infrastructure Management). Такие решения имеются у большинства крупных вендоров как инженерного, так и ИТ-обо-рудования. В их основе обычно лежит система мониторинга и сбора информации о событиях с отдельных устройств и ее аналитической обработки. Используя полученные данные, система подает сигналы для дистанционного управления устройствами. Типы контролируемых состояний и сигналов, возможности аналитики сильно зависят как от самой системы DCIM, так и от конкретного оборудования ЦОДа. Вариативность систем данного класса увеличивается из-за включения в них возможностей управления ИТ-оборудованием, сетями, виртуализацией и т.д.

Если речь идет об эксплуатации именно инженерных систем ЦОДа, близкими к DCIM (но вовсе не эквивалентными) являются решения класса BMS (Building Management System). Их основа – система мониторинга оборудования зданий, к которому в общем случае могут быть отнесены все инженерные системы, а также системы охраны периметра.

Технологии управления работами

Большинство решений этого класса так или иначе связано с регистрацией и обработкой заявок. Это системы типа Help Desk. Разнообразие подобных продуктов огромно. Все крупные производители ПО имеют в своем портфеле хотя бы один продукт с похожим функционалом. Помимо этого, есть большое число локальных поделок, попыток создания SaaS-решений и т.п.

С точки зрения эксплуатации ЦОДа система управления заявками, безусловно, необходима. В то же время значительно больший объем работ инициируется в соответствии с планом, а не по внешней заявке. Речь идет о регламентном обслуживании. Для этих задач предназначены системы типа CMMS (Computerized Maintenance Management Systems). Если такую систему дополнить функциями контроля жизненного цикла активов, то получится система EAM (Enterprise Asset Management). Важно понимать, что имеются в виду именно производственные (а не финансовые) активы. У ведущих производителей ПО, конечно, есть решения такого типа. Это сложные, комплексные системы, ориентированные на крупные предприятия. Для потребителей меньших масштабов существует широкий спектр аналогов, содержащих некоторую отраслевую специфику. Решения типа CMMS или EAM при эксплуатации ЦОДа в том или ином виде применяться должны. К сожалению, специализированного отраслевого решения (т.е. именно для эксплуатации ЦОДов) пока нет.

Технологии учета

Для ведения бизнеса учет имущества обязана вести любая организация. В то же время учет часто носит формальный характер и не очень полезен с точки зрения реальной деятельности. Именно поэтому стали возникать специализированные решения. Например, в ИТ-среде большое внимание уделяется управлению конфигурациями и построению базы конфигураций CMDB (Configuration Management Data Base). Многие производители ПО делают ведение базы конфигураций элементом более общего решения, но, как оказалось, развитие идет в нескольких направлениях. Например, появились решения типа ITAM (Information Technology Asset Management). Весьма полно задача решается в рамках уже упоминавшихся систем EAM.

Основной функционал должен быть направлен на ведение детального учета имеющегося оборудования, его состояния и действий, которые были с ним произведены, включая закупку, логистику, монтаж, ремонт и т.д. Используются эти данные в первую очередь для повышения эффективности планирования обслуживания оборудования, его своевременной замены и контроля затрат.

Вспомогательные решения

В эту группу входят разнородные решения, объединяемые только по признаку их потенциальной полезности при эксплуатации ЦОДа.

Наиболее важны системы хранения справочной информации. К сожалению, стандартной технологии здесь нет, и в результате все обычно сводится к некоторому каталогизатору и собственно хранилищу справочных данных, представленных в разных форматах. Автоматическое наведение порядка в этом хозяйстве невозможно, а иные варианты требуют квалифицированного внимания и поэтому затратны.

Часто могут быть полезны специализированные решения для обеспечения связи персонала службы эксплуатации независимо от конечного оборудования (офисного компьютера, специальной рабочей станции, планшета, смартфона и т.д.). Они удобны, экономят время и повышают эффективность взаимодействия.

Отдельного внимания заслуживают системы оповещения. С одной стороны, это – более простой вариант системы взаимодействия, с другой стороны, к ней предъявляются существенно более высокие требования по надежности и своевременности доведения информации. Для обеспечения последнего могут применяться специальные технические решения (радиосвязь и т.п.).

Вторичными, но при этом гораздо более сложными являются технологии анализа и оптимизации. Будучи надстройками над основными системами (мониторинга, процессного управления, учета), они предназначены для совершенствования различных аспектов эксплуатации, в том числе корректировки процессов обслуживания, периодов проведения работ, внесения изменений в инженерные системы объекта.

Область применения автоматизации

В операционную модель эксплуатации ЦОДа входят следующие элементы:

  • организационная модель;
  • процессы управления, обслуживания и обеспечения;
  • ресурсы.

Об автоматизации организационной модели речь не идет, поскольку она рассматривает отношения подчиненности и зоны ответственности – вопросы, которые решаются в иной плоскости. А вот при оптимизации различных процессов и управлении ресурсами автоматизация вполне уместна.

Существенного прогресса при реализации ОМЭ можно достичь именно в случае применения специальных технологий управления ресурсами и управления процессами. Они дают возможность не только повысить качество исполнения процессов, но и снизить затраты. Конечно, моментального эффекта ожидать не стоит: автоматизация управления – это определенная тенденция, связанная с принципиально новым подходом к обслуживанию, который еще надо сформировать, в том числе в виде некой культуры.

Наиболее важны, на наш взгляд, системы управления процессами планового технического обслуживания, управления материальными ресурсами (ЗИПом и материалами), а также формирование и ведение базы знаний по обслуживанию. Основой текущего функционирования объекта должно стать ведение электронного журнала учета отказов и управления их устранением. Прочие технологии тоже будут полезны, но приоритет их внедрения ниже.

Сегодняшняя практика

Использование систем мониторинга и управления оборудованием стало уже скорее правилом, нежели исключением. Конечно, зачастую это локальные, моновендорные решения. Реже встречаются комплексные решения мониторинга и управления инженерной инфраструктурой ЦОДа, построенные в том числе на базе систем BMS. Затрудняет создание таких решений необходимость обеспечивать удаленный мониторинг и управление для отдельного оборудования – это не только затратно (из-за покупки дополнительных модулей и т.п.), но и может диктовать перечень производителей и конкретные модели оборудования. Такой вариант не всегда учитывается при строительстве и закупках, а последующие изменения могут оказаться слишком дорогими.

Многие применяют решения для управления поступившими заявками. Нередко они реализуются путем подключения службы эксплуатации ЦОДа к уже имеющейся (или внедряемой) в организации системе управления ИТ-заявками с незначительной ее адаптацией. В остальных случаях такие системы внедряются либо по требованию внешних клиентов, либо благодаря энтузиазму руководителя службы эксплуатации.

Учет и управление материальными активами в ЦОДе обычно есть. И даже в нескольких видах: в бухгалтерии, в системах мониторинга, в системе управления заявками, на бумаге. Но ни один из вариантов не является полным, и часто они содержат противоречивую информацию.

Вспомогательные решения тоже применяются, но скорее как некие «бантики», что, впрочем, не исключает их полезности в текущей деятельности службы эксплуатации.

Идеальный вариант автоматизации

Для наилучшего соответствия операционной модели эксплуатации инженерной инфраструктуры и достижения ожидаемой эффективности автоматизация службы эксплуатации ЦОДа должна охватывать основные группы элементов ОМЭ. Единого универсального решения здесь нет, поэтому ориентироваться надо на интеграцию некоего набора систем.

Основой должна быть комплексная система учета и управления материальными активами. Задачи учета и управления могут быть разделены между несколькими модулями и даже несколькими системами, но важно, чтобы еще на этапе проектирования архитектуры была обеспечена целостность и непротиворечивость учета.

Далее определяется порядок автоматизации процессов поддержания данных учета в актуальном состоянии, в том числе вследствие проведения работ либо в связи с иными событиями. То есть определяются перечень причин изменения данных, набор интерфейсов и способы их актуализации.

Вторая важнейшая задача – собственно автоматизация исполнения ключевых эксплуатационных процессов, к которым относятся мониторинг текущего состояния, текущие регулировки и настройки оборудования и систем, техническое обслуживание и ремонт, устранение отказов. От грамотной реализации этих процессов главным образом и зависит успех эксплуатации ЦОДа. Обратим внимание на то, что выбираемые технологии обязательно должны использовать имеющиеся данные об объектах обслуживания и быть тесно связаны с соответствующими системами.

Комплексная система мониторинга и управления должна своевременно и полномасштабно информировать персонал службы эксплуатации о текущем состоянии объекта в целом и отдельного оборудования в частности, позволять корректировать настройки оборудования в ручном и автоматизированном режимах. Должны быть предусмотрены возможность связи и отражение в системе учета состояний объектов обслуживания полученных данных об объектах и выполненных действиях. Несоответствие наблюдаемых объектов имеющимся в системе учета состояний данным является основанием для экстренного выявления причин расхождений и их устранения.

Система автоматизации процессов технического обслуживания, основываясь на информации об имеющемся оборудовании и его состоянии, помогает автоматизировать планирование технического обслуживания и ремонта оборудования, назначать исполнителей и отслеживать ход работ. Многие функции будут требовать ввода информации со стороны исполнителей, но при правильном проектировании самой системы и рабочих интерфейсов это не должно вызвать особых затруднений.

Тесно интегрированной с предыдущими системами (возможно, с некоторым модулем в рамках одной из них) должна быть система автоматизации процесса устранения отказов. Она, конечно, не будет заниматься планированием, но задачи назначения исполнителей и контроля исполнения идентичны предыдущим. Существенное отличие – необходимость оперативного контроля и соблюдения сроков работ, поскольку сроки устранения отказов могут быть явно обозначены в договорах и быть при этом достаточно жесткими.

Еще одна важнейшая система – система справочно-информационного обеспечения персонала службы эксплуатации в ходе исполнения работ и обучения. Это некое хранилище документации по оборудованию, порядку исполнения работ, особым ситуациям и т.д. При его создании необходимо проследить, чтобы информация была действительно доступна и всегда актуальна и чтобы ее поиск не занимал много времени (в идеале в форме назначения конкретной работы должна быть прямая ссылка на справочные документы).

Дополнить общую картину должны решения, обеспечивающие оперативность взаимодействия, аналитические и оптимизационные подсистемы, возможно, технологии визуализации, например, системы 3D-моделирования. Конечно, за исключением систем оперативной связи, все это – вспомогательные технологии, которые должны строиться на перечисленном выше наборе основных систем. Часть вспомогательных функций уже присутствует в упомянутых системах, может быть, в ограниченном виде. Решение об их внедрении должно приниматься с учетом более детального определения целей автоматизации и имеющегося функционала.

Четвертый важнейший элемент – интеграция с системами автоматизации эксплуатации более высоких уровней ЦОДа. Как правило, имеется в виду система ITSM (Information Technology Service Management). Инженерная инфраструктура ЦОДа предназначена для обеспечения работы ИТ-инфраструктуры и размещенных на ней прикладных систем, поэтому строить ее эксплуатацию изолированно от более высоких уровней как минимум недальновидно. Информационный обмен здесь должен быть двунаправленным, поскольку события на каждом из уровней могут являться причиной и/или следствием событий на другом уровне, и гораздо правильнее, если при эксплуатации будут использоваться все возможные способы оперативной передачи значимой информации.

Однако мы вовсе не призываем в обязательном порядке создавать единую систему. При определенных условиях это возможно, но чаще различия в подходах к реализации одних и тех же процессов на разных уровнях инфраструктуры настолько значимы, что попытка погрузить их в единое решение окажется неудачной, не позволяя правильно расставить приоритеты для каждого уровня. В общем случае целесообразнее говорить именно об интеграции решений с сохранением их уникальности и особенностей реализации процессов.

Как приблизиться к идеалу

Деятельность по эксплуатации инженерной инфраструктуры ЦОДа должна быть структурирована и описана в соответствующей операционной модели эксплуатации. Само описание может быть выполнено на бумаге, в виде набора документов. В ходе (ре-)формирования службы эксплуатации изложенные в ОМЭ принципы должны отразиться в правилах, практических действиях, применяемых инструментах. Автоматизированные системы – это набор ключевых инструментов, и строить их следует в соответствии с заложенными в ОМЭ требованиями. Безусловно, полнота описания ОМЭ сильно влияет на выбор и построение систем автоматизации. Наличие существенных пробелов не позволит сформировать корректные требования к системам, а последующая реализация некорректных требований приведет к непредсказуемому результату.

Конечно, ситуацию можно будет улучшить. Но это сопряжено с дополнительными затратами, поскольку фактически придется до- (или пере-)делать то, что оказалось неполным или некорректным в описании операционной модели. Кстати, при автоматизации уже действующей службы эксплуатации некоторый реинжиниринг неизбежен: наверняка внедряемое решение не будет бесконечно гибким, а заложенная в нем логика будет иметь под собой в качестве основания некоторый накопленный опыт, от которого просто так отмахиваться не стоит.

Обязательное условие – формирование программы автоматизации на базе единой целевой архитектурной модели автоматизации, учитывающей обозначенные ранее ключевые элементы и особенности их взаимодействия, а также заложенные в ОМЭ правила реализации конкретных элементов. В этом случае дальнейшие мероприятия не должны вызвать существенных трудностей.

* * *

Идеальная модель автоматизации эксплуатации должна содержать в себе ряд ключевых элементов, опирающихся на набор программных продуктов, с обязательной их интеграцией.

Основа успеха – своевременное проектирование целевой архитектуры, отражающей место каждого из необходимых элементов, приоритеты использования, последовательность построения и способы их интеграции.

Создаваемое решение должно обязательно предусматривать взаимодействие со службами эксплуатации инфраструктур более высоких уровней ЦОДа.

Правильно построенная автоматизация, являясь неотъемлемой частью ОМЭ, позволит управлять не только качеством эксплуатации, но и многими иными аспектами, включая затраты на эксплуатацию и развитие объекта.

___________________________________________________________

*Алехин З. Операционная устойчивость ЦОДа: новое увлечение или реальная потребность? //«ИКС» № 1-2’2013, с. 76, № 3, с. 84.

Алехин З., Басистый Д. Анатомия некоторых процессов операционной модели эксплуатации инженерной инфаструктуры ЦОД. //«ЦОДы.РФ» № 6-7’ 2014.

Поделиться:
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!