Rambler's Top100
Статьи ИКС № 12 2011
Сергей НОВИЦКИЙ  06 декабря 2011

Как переехать за уикэнд

Опыт перебазирования ИТ-оборудования с одной площадки ЦОДа на другую. Нет способа без сбоев перевезти оборудование в другой дата-центр за 48 часов, кроме как скрупулезно готовиться к этому полтора месяца, убежден Сергей НОВИЦКИЙ, директор департамента сопровождения информационных технологий банка «Хоум Кредит».

Невозможное всегда кажется таковым, пока кто-нибудь не докажет обратное.

Нельсон Мандела

Сергей НОВИЦКИЙ, банк «Хоум Кредит»Ни минуты простоя

У банка с 21 млн клиентов и географией от Калининграда до Дальнего Востока не бывает «незначимых» информационных систем, «некритичных» сбоев и «нерабочего» времени суток. Так что когда председатель правления банка «Хоум Кредит» говорит «бесперебойность», он буквально имеет в виду ноль часов ноль минут простоя. Даже минимальный сбой в работе ИТ-сервисов и соответствующих бизнес-процессов может отразиться на клиентах. Так что репутация банка – один из его основных активов – во многом зависит и от качества ИТ-обеспечения ключевых процессов.

Для того чтобы гарантировать бесперебойную работу ИТ-систем, мы разместили часть своего оборудования в коммерческом дата-центре – в дополнение к основной корпоративной площадке. Кстати, выбор провайдера – это весьма нетривиальная задача в условиях, когда требуется не просто качество, а качество за разумные деньги. На этом этапе важно сразу точно определить требования к функциональности, надежности и безопасности дата-центра, равно как и ожидания по поводу стоимости услуг.

Мы не можем разместить оборудование в каком-нибудь ИТ-сарае только потому, что это будет стоить три копейки. Для нас критична надежность на уровне 99,99% и соответствующая организация дата-центра: независимые электроподача, источники питания и системы пожаротушения, грамотная первая линия поддержки в режиме 24×7. С другой стороны, платить астрономические суммы за какие-то совершенно немыслимые параметры надежности тоже неэффективно. В конце концов, у нас нет задачи пережить ядерную зиму; нам нужна надежная ИТ-поддержка бизнеса на оптимальных условиях.

Однако какую бы ИТ-площадку компания ни выбрала (или построила сама) в качестве дополнительной, вполне вероятно, что рано или поздно она столкнется с проблемой переезда. И вот на этом хотелось бы остановиться подробнее, поскольку у банка «Хоум Кредит» есть интересный опыт. Нам удалось организовать переезд более 30 серверных стоек с «боевыми» системами фактически за двое суток: в пятницу вечером начался демонтаж оборудования на старой площадке, а в понедельник утром все уже работало в штатном режиме на новой. Единственный сбой (на сетевом оборудовании) случился спустя неделю, и его удалось быстро устранить.

Учимся на ошибках

Простота задачи физического перемещения ИТ-систем – только кажущаяся, и этому нашу команду научил один эпизод, который произошел примерно за полгода до «большого» переезда. Тогда нам впервые понадобилось перебросить в корпоративный дата-центр несколько стоек с тестовым оборудованием. Мы не сомневались, что с такой простой задачей справимся без особых хлопот: наняли компанию, специализирующуюся на перевозках оборудования, согласовали сроки… Но мало того что переезд состоялся на день позже намеченного, так еще после установки на нашей площадке новое оборудование просто не заработало. На восстановление его работоспособности тоже ушли сутки, причем нам пришлось привлечь к процессу вендоров и собственно перевозчика, по вине которого все это произошло. Да, мы изначально понимали, что, поскольку оборудование тестовое, угрозы бизнесу нет, однако это вовсе не значит, что компанию устраивал такой вариант развития событий.

Тот промах многому нас научил: мы отчетливо осознали, что видимая простота задачи переезда весьма обманчива, потому что любая осечка здесь может привести к катастрофическим последствиям. Кто видел, как его сервер с системой хранения данных случайно «прикладывают» о какой-нибудь угол, тот меня поймет. Одно «железо» здесь стоит порядка миллиона долларов, но дело даже не в этом: в такие моменты вы думаете не о том, гарантийный это случай или нет, а о том, что на пострадавшем «железе» у вас хранятся – или хранились (!) – данные. А если у вас несколько десятков стоек с такими серверами, и они вовсе не тестовые, а самые что ни на есть рабочие?

Словом, нам было о чем подумать после, и я рад констатировать, что мы сумели извлечь из ситуации несколько ценных уроков. Это позволило нам вскоре реализовать по-настоящему серьезный проект, и в компании его высоко оценили.

Шаг первый – аудит

В следующий раз перед нами стояла задача перевезти несколько десятков стоек из одного дата-центра нашего провайдера, компании DataLine, в другой в пределах Москвы. С чего же начать?

Помня о первой неудаче, мы прежде всего зафиксировали серьезное отношение к этому проекту, присвоив ему самый высокий уровень приоритетности. Затем мы сформулировали для себя главные вопросы: какие угрозы и риски нас могут ждать? какие бизнес-процессы и каким образом будут затронуты? как обеспечить непрерывность этих процессов в контексте переезда и связанных с ним рисков? Чтобы ответить на эти вопросы максимально точно, мы провели внутренний аудит, к участию в котором привлекли, с одной стороны, коллег из бизнес-подразделений компании, а с другой – всех вендоров и интеграторов, с продуктами и услугами которых мы сегодня работаем.

Аудит выявил несколько ИТ-сервисов, которые использовались в обслуживании сотен тысяч клиентов и при этом никак не были продублированы.

К слову, аудит, как и многие другие инструменты, эффективен лишь в том случае, если все участники процесса понимают, зачем это делается, и готовы работать на результат. В нашем банке бизнес и ИТ действительно понимают друг друга – это результат последовательных усилий с обеих сторон. Мы стараемся максимально вникать в суть каждого бизнес-процесса, за ИТ-обеспечение которого несем ответственность. Помимо всего прочего, это позволяет говорить с бизнесом на понятном ему языке. Со своей стороны, бизнес-подразделения «Хоум Кредит» также очень плотно вовлечены в ИТ-процессы, готовы вникать и разбираться. Таким образом, возникает взаимное доверие, основанное на понимании и активном обмене знаниями. Это очень помогает – и в текущей работе, и тем более при реализации сложных проектов, связанных с большими рисками.

Привлекая к аудиту перевозимого оборудования и систем вендоров, интеграторов и провайдера дата-центра, мы хотели иметь уверенность в том, что каждая машина, каждая система или приложение после установки на новой площадке, во-первых, заработает, во-вторых – заработает корректно. При этом часть оборудования за последние 3–4 года у нас не выключалась ни разу. То есть в теории все понимали, как «железо» должно себя вести, если его выключить и потом включить, – а на практике этого никто никогда не проверял...

Наши партнеры посмотрели всё, от больших СХД до маленьких серверов и сетевого оборудования. По каждой «железке», платформе и приложению мы получили исчерпывающий отчет о текущем состоянии, прогноз их поведения после переезда и соответствующие рекомендации. В ряде случаев единственным способом получить достоверный прогноз было тестирование: не дожидаясь переезда, мы отключали отдельные машины и приложения, смотрели на работу системы в целом, а затем подключали обратно. Здесь, повторюсь, нам очень помогли партнерские отношения с коллегами из бизнеса, их поддержка и понимание необходимости таких прогонов.

И так мы прошли проект дюйм за дюймом, выверяя каждый шаг.

Шаг второй – планирование

Проведя аудит, мы приступили к планированию. Наши партнеры (чей опыт организации таких переездов стал для нас большим подспорьем) сошлись на том, что нормальный срок реализации подобного проекта – месяц. Проблема заключалась в том, что месяца мы просто не могли себе позволить: корпоративная площадка, будучи рассчитана всего на 30% ИТ-нагрузки, не потянула бы ее полностью (соответственно оборудование, создающее 70% нагрузки, было размещено у провайдера).

Итак, у нас было только два дня на реализацию проекта. Причем за эти два дня мы должны были успеть все: и перевезти серверное оборудование, и реорганизовать коммуникационные каналы, чтобы корпоративный дата-центр смог полноценно взаимодействовать с новой площадкой сразу после установки и подключения серверов.

Надо ли говорить, что первая реакция партнеров на наше предложение уложиться в пару дней была: «Это невозможно!». Некоторые сомневались даже в том, что в принципе возможно перевезти такое количество оборудования – даже в щадящие сроки – без серьезных накладок. И все же после серии жарких дебатов мы вместе с партнерами приступили к разработке плана двухдневного переезда.

Пожалуй, никаких секретов здесь не было: мы детально прописали все этапы подготовки и непосредственно переезда; мы четко обозначили ответственных за каждый участок работы; мы в ежедневном режиме «сверяли часы» и регулярно по минутам проговаривали переезд (кто, что и в какой последовательности будет делать, начиная с отключения оборудования на старой площадке). Как уже упоминалось, мы устраивали тестовые прогоны от-дельных моментов. Да, наши методы были традиционными, но именно соблюдение этих банальных правил и дает результат. Более того, я лично убежден в том, что нет иного способа без сбоев переехать за 48 часов, кроме как скрупулезно готовиться к этому полтора месяца.

И наконец – переезд

В самом переезде приняли участие около 40 человек: менеджеры банка, курирующие процесс; примерно 15 человек со стороны DataLine, отвечавших за отключение и демонтаж оборудования, перевозку, установку и подключение инфраструктуры на новой площадке; плюс человек десять сотрудников HP. Мы привлекли вендора к перевозке соответствующего оборудования high-end, поскольку, во-первых, у HP есть соответствующий опыт, отработанные процедуры и т.д., а во-вторых, в ряде случаев это обязательное условие сохранения гарантии.

Несмотря на детальную подготовку и на то, что переезд прошел в срок и без осложнений, мы, конечно, не могли совсем исключить вероятность возникновения проблем с синхронизацией корпоративной площадки с новым дата-центром. Поэтому соответствующие бизнес-подразделения были заранее предупреждены о возможных сбоях в работе приложений. Примерно через неделю после переезда у нас действительно случился небольшой сбой на уровне каналов, но этот сбой был единственным, проблема была устранена за несколько минут и более не возникала.

  
Вероятно, большинству своих коллег я не открыл здесь новых истин. Умение учиться на своих ошибках, использовать чужой опыт для движения вперед, равно как и умение ставить правильные вопросы и добиваться четких ответов – все это общеизвестные правила успешной реализации проектов. Плюс, конечно, готовность проверять и проговаривать даже те моменты, которые навскидку кажутся очевидными и не стоящими внимания, – именно эта привычка позволяет выявлять слабые места во внешне безупречном плане. Наш кейс еще раз подтвердил: удачный проект – это, как правило, красивая идея плюс следование правилам, которые большинству кажутся слишком простыми и очевидными. 
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!