Rambler's Top100
Статьи ИКС № 2 2007
Федор КРАСНОВ  01 февраля 2007

Сетевой дозор: выбор дежурного

Какую систему класса Fault Management выбирает оператор мультисервисной сети и почему? Например, «Комкор» при выборе наиболее подходящей для себя системы исходил главным образом из необходимости поставить «единого дежурного» на все участки своей многосоставной сети.

Постановка задачи: точно обнаружить и быстро устранить!

Ф.В. Краснов, КОМКОРУвеличение разнообразия предоставляемых ОАО «Комкор» услуг, рост масштаба и усложнение сетевой инфраструктуры привели к тому, что к 2006 г. повышение точности обнаружения неполадок на сети и скорости их исправления стало для компании задачей «первого ряда».

Первым шагом в ее решении была реформа структуры Центра управления сетью (ЦУС). Ранее ЦУС занимался мониторингом оборудования на основе отдельных специализированных систем от вендоров и нескольких «самописных» систем. Теперь же в его задачу стало входить обеспечение работоспособности не просто конкретных элементов сети, а услуги в целом. Для этого требуется обнаруживать проблемы сети в режиме, близком к реальному времени; выявлять первопричины неполадок и их последствия для клиентов; координировать действия по устранению проблем клиентов и сети; выполнять стандартные операции по активации составных технических сервисов. Справиться с этими обязанностями можно только с помощью автоматизированной системы контроля неполадок в сети и управления сетью в случае сбоя (Fault Management), работающей вместе с системой Service Inventory.

Системы класса Fault Management широко представлены на рынке, остается выбрать наиболее подходящую. Но с какими мерками подойти к ответственному выбору?

Три кита Fault Management

Требования к системам Fault Management можно рассматривать в трех функциональных аспектах – с точки зрения модели сети, алгоритмов выявления первопричин неполадок (Root Cause Analysis, RCA) и быстроты их обнаружения.
  1. Система должна поддерживать существующую сложную модель сети оператора, обеспечивая хранение и обработку базы знаний о сетевых элементах и событиях, которые с ними ассоциируются; вести учет статистической информации о каждом типе сетевого элемента и события независимо от того, в каком контексте они используются; обеспечивать учет динамической информации о специфической конфигурации сетевого элемента в контексте его использования.
  2. Алгоритмы оперативной диагностики сетевых проблем (RCA) должны основываться на имеющейся модели сети и ее текущем состоянии. Система должна располагать средой для разработки и исполнения корреляционных алгоритмов поиска первопричины неполадок, иметь возможность разработки алгоритмов для борьбы с «шумом» в событиях (дубли, задержки, потери, ошибочные события и др.).
  3. Система должна обеспечивать высокую скорость предоставления результатов в режиме, близком к реальному времени. Архитектура системы автоматизации сбора событий должна быть распределенной. Система должна поддерживать сегментированную фильтрацию событий по технологическим доменам, обеспечивать коррелирование информации и контроль в распределенной среде.

Отбор кандидатов

Определив требования, надо определить кандидатов, которые будут проверяться на соответствие им. Для того чтобы составить предварительный, «длинный» список систем-претендентов, можно обратиться к оценкам наиболее авторитетных на телекоммуникационном рынке аналитических компаний. Специалисты «Комкора» изучили отчеты компании Heavy Reading за текущий год и за несколько предыдущих лет. В расчет брались показатели узнаваемости бренда, производительности, качества/надежности, обслуживания/поддержки, цена. Так были отобраны 13 систем – решения известных производителей, большинство из которых представлены и на российском рынке – Agilent Technologies, Computer Associates, IBM (с продуктом Tivoli), Lucent Technologies, Marconi, Micromuse (ныне IBM), Nortel, Harris, Hewlett-Packard, Telcordia Technologies, SaskTel, Smarts (ныне EMC) и Spirent.

Чтобы составить короткий список систем-кандидатов, можно изучить отчеты других аналитиков (например, Gartner) и сопоставить их. Можно отнестись к отчетам по принципу «здесь поверим, здесь не верим, здесь понимаем, что имеется в виду»... Такие отчеты создаются по экспертным оценкам, когда опрашивается несколько тысяч человек, работающих на телекоммуникационном рынке, и на основе их ответов составляются рейтинги по всем классам соответствующих систем. Но и данные аналитиков лучше проверять или по меньшей мере не принимать слепо на веру. Например, по соотношению качество/надежность одна система превосходит другую в 8 раз, а по цене – в 25. Очевидна некая неадекватность, но в чем она состоит?.. В любом случае, когда перед оператором выстроился ряд интеграторских и вендорских предложений, надо сформулировать собственные критерии их выбора.

У «Комкора» в короткий список вошли два продукта: система Smarts InCharge, с 2005 г. принадлежащая корпорации ЕМС, и Micromuse Netcool (принадлежащая теперь IBM). Это наиболее яркие представители систем класса Fault Management, характерные каждая в своем роде. Окончательный выбор делался исходя из того, какая система лучше подходит именно для «Комкора», полнее соответствует особенностям сети и требованиям корпорации.

Соревнование двух систем

Сравнение систем производилось с точки зрения «трех китов» – модели сети, алгоритмов RCA и быстроты обнаружения сетевых проблем.

Модель Micromuse Netcool – зонтичная, «ассимилирующая» различные технологии, как бы пропуская их через свои архитектурные слои. Первый слой – «Сбор данных» – поддерживает широкий набор источников (более 1000) – сети передачи данных и телефонии (VoIP, MPLS, Cable, DSL, Wireless и др.), приложения (triple play) и серверы (ERP, CRM, OSS, hosting). Второй слой – «Консолидация» – обеспечивает быструю и масштабируемую обработку событий. В третьем архитектурном слое – «Анализ и автоматизация» – осуществляется моделирование услуг и оценка влияния событий на бизнес. И четвертый – «Представление» – выполняет генерацию отчетов. Такова архитектура интегрированных приложений, дающая возможность «видеть» всю сеть независимо от используемых на ней технологий. Зонтичная система позволяет одному сотруднику ЦУС быстро увидеть потенциально опасное событие, возникшее на любом участке сети.

Система же InCharge представляет собой единый продукт, который настраивается под различные технологические домены, и при внедрении этой системы ее пришлось бы устанавливать под каждую технологию отдельно.

Второй ключевой момент – сравнение алгоритмов RCA. Алгоритм поиска первопричины сбоев на сети, заложенный в Netcool, называется Downstream Suppression («нисходящее подавление»). Как он работает? Предположим, что вышел из строя коммутатор S1. Так называемые пинги (контрольные сообщения, посылаемые с целью проверки работоспособности устройства) от АСУПС через S1 до серверов Н1, Н2, Н3 проходить не будут. Тогда ближайший «пингуемый» сетевой элемент – S1 – будет определен как первопричина сбоя. Корреляция событий осуществляется на основе правил, с помощью специального программного продукта Impact. Кроме широких возможностей по реализации специфических правил корреляции (правила записываются на высокоуровневом языке и могут содержать сложную логику, необходимую для корреляции событий по внешним OSS-системам – Inventory, CRM и т.д.), есть простые процедуры поддержки кода (возможности развития логики, поддержка версионности, возвращения на предыдущую версию правил и т.д.) и методики оптимизации правил (код-профайлинг, оптимизация процедур и данных БД под конкретные сетевые топологии).

В качестве алгоритма RCA в системе ЕМС Smarts InCharge используется технология CodeBook Tech – метод кодирования и декодирования событий. Суть процесса корреляции состоит в том, чтобы найти проблемы, чьи коды оптимально соответствуют наблюдаемому вектору событий (симптомов) на сети. Книга кодов позволяет переходить от полученных симптомов к вызвавшей их проблеме. В системе заложена возможность генерировать книгу кодов на основании описания поведенческой модели, для чего разработан язык MODEL (Manager Objects DЕfinition Language). Плюсы этого подхода – минимизация разработки (обеспечивается настройка поведенческих моделей), минимизация процедур обслуживания (адаптация к изменениям топологии сети происходит динамически), высокая производительность (механизм поиска по кодам линейно зависит от нагрузки), управляемая точность (за счет поиска наиболее близкого кода возможно определение проблемы по неполному набору событий сети), возможность «коробочных» решений (при адаптации решения для технологического домена под конкретную топологию сети достаточно изменения настроек).

Быстрота обнаружения неполадок связана с первыми двумя факторами, в Netcool она зависит от реализации интеграционных связок (кластерное решение), в InCharge – достигается за счет математических моделей алгоритмов.

Подводя итоги этого «конкурса красоты», специалисты «Комкора» отдали предпочтение системе Netcool: ее зонтичная структура наилучшим образом соответствует сложной структуре сети компании, обеспечивая консолидированное представление проблем от широкого набора устройств и предоставляя ряд возможностей для поиска первопричины сбоев и интеграции с другими OSS-системами. Эти ее качества перевесили достоинства системы InCharge в плане точности автоматического поиска первопричины сетевых проблем.

Дежурный по сети – под зонтиком

Итак, «Комкор» остановил свой выбор на продукте Micromuse Netcool. Эта система фактически стала индустриальным стандартом и используется большинством крупнейших провайдеров во всем мире. Внедрение Netcool позволит «Комкору» получать в режиме реального времени достоверную картину доступности и функционирования сетевых сервисов. Решение обеспечит централизованный мониторинг всей сетевой инфраструктуры «Комкора», включая сети DWDM, SDH, IP/MPLS, КТВ, PON, оборудование участков «последней мили», а также систем бесперебойного питания. Система сможет оперативно локализовать причины нештатных ситуаций и оценить их влияние на качество предоставления услуг. Анализ исторической информации, накопленной в системе, позволит предотвращать возможные сбои и оптимизировать использование сетевых ресурсов. Netcool позволит объединить 15 систем мониторинга в одну, благодаря чему станет возможным прозрачно контролировать не только работу сетевых ресурсов, но и каждую услугу отдельно взятого клиента.

Справка

ОАО «Комкор» обеспечивает своим клиентам весь мультисервисный спектр услуг: высокоскоростной доступ в Интернет, передачу данных, предоставление цифровых каналов связи, построение корпоративных сетей, защиту информации, услуги центра данных, а также кабельное телевидение. «Комкор» продолжает активное строительство сети, постоянно внедряет новые услуги.

В соответствии с этим в компании производится масштабная модернизация бизнес6процессов. О проекте автоматизации WorkFlow, который ведется в сопряжении с рядом проектов, связанных с созданием учетных систем (Inventory, биллинга, CRM, мониторинга), «ИКС» уже писал (№ 9'2006, с. 58–61). С июня 2006 г. реализуется программа модернизации OSS/BSS6систем, первым этапом которой стало внедрение системы Fault Management, предназначенной для мониторинга и управления сетевой инфраструктурой.

Проект включает в себя пять этапов, общие инвестиции компании составят около $1 млн. Единая система мониторинга заработала уже в декабре 2006 г., а полностью проект будет завершен в апреле 2007 г. Внедрение программного обеспечения Netcool осуществляет системный интегратор «АМТ6Груп».


Техно- и бизнес-аргументы в пользу Fault Management
  • Существенное уменьшение количества сообщений о неисправностях, которые должны обработать сервисные службы компании6оператора, за счет автоматического связывания нескольких исходных причин с тысячами получаемых сообщений о неисправностях и отказах.
  • Резкое сокращение среднего времени устранения неисправностей и отказов – с часов до минут, а в отдельных случаях до секунд.
  • Повышение эффективности эксплуатации и снижение OРEХ за счет: автоматического обнаружения проблем и оповещения персонала об их возникновении, их изоляции и сокращения среднего времени их устранения; увязки уровня управления инфраструктурой с уровнями сервисов и бизнеса для сквозного и согласованного управления инфраструктурой в терминах бизнеса; повышения коэффициента использования активов и повышения прозрачности инфраструктуры; использования единого инструментария.
  • Уменьшение стоимости владения инфраструктурой и CАРEХ за счет: автоматизации сложнейших задач; повышения коэффициента использования активов и повышения прозрачности инфраструктуры; обоснованного управления инвестициями в инфраструктуру благодаря своевременному определению «узких мест». Сосредоточение мониторинга всех операций в рамках одной консоли дает возможность эффективно управлять развитием сети, сохраняя при этом определенный уровень функционирования ИТ6ресурсов.
  • Обеспечение непрерывности бизнеса вследствие повышения уровня эксплуатационной готовности наиболее важных услуг и приложений благодаря упреждающему мониторингу их функционирования и выявлению проблем до того, как они начнут негативно сказываться на доходности бизнеса.
  • Повышение лояльности клиентов благодаря выбору приоритетов восстановительных действий на основе оценки степени их воздействия на предоставляемые услуги.
  • Обеспечение стабильного качества услуг посредством комплексного управления неисправностями и отказами в масштабе реального времени.
  • Повышение конкурентоспособности и доходности компании6оператора за счет оптимизации бизнес6процессов, быстрого освоения рынка и улучшения качества услуг.
  • Повышение управляемости компании за счет полной прозрачности сквозных бизнес6процессов.

Аргументы сформулировали «Квазар-Микро» и Inline Technologies


Практика внедрения Fault Management

Централизованная система управления и мониторинга (ЦСУиМ) сети передачи данных на основе решения Netcool внедрена в 2006 г. в Ленинградском областном филиале ОАО «Северо6Западный Телеком».

Проект стартовал в конце 2004 г. Система была призвана обеспечить получение данных о состоянии всех элементов сети с целью контроля качества предоставления услуг. На первом этапе решение охватило основное оборудование сети передачи данных – маршрутизаторы Cisco, коммутаторы Catalyst 3550 и 3750, мультиплексоры MP62104, а также ряд других устройств. На втором этапе ЦСУиМ была расширена: приобретены недостающие лицензии, оснащены операторские рабочие места и протестировано оборудование на взаимодействие с системой. В итоге компания получила надежный инструмент для контроля работы оборудования сети передачи данных. По результатам годичной эксплуатации базового решения Micromuse принято решение о необходимости полномасштабного охвата всех технологических ресурсов оператора.

По материалам компаний
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!