Rambler's Top100
Все новости Новости компаний

А как у них? Немного о работе ЦОДов Facebook

22 ноября 2013

В ЦОДах Facebook каждый системный администратор обслуживает не менее 20 000 серверов. В этом заслуга «интегрированного подхода» к обслуживанию, применяемого в компании.

Компания Facebook давно является лидером в построении Internet-инфраструктуры, ориентированной на высокую степень масштабируемости. Это в полной мере относится и к персоналу, работающему в центрах обработки данных (ЦОД) компании.

Обслуживание ЦОД является для компании Facebook  (имеющей в настоящее время 1,15 миллиарда пользователей, из которых ежедневно на сайт заходят 720 миллионов)  ключевой задачей.  Число контентных позиций, которыми делятся между собой пользователи Facebook каждый день, составляет 4,75 миллиарда, а “лайкают” они ежедневно 4,5 миллиарда позиций. Компания хранит в настоящее время более 240 миллиардов фотографий и каждый месяц ее фотохранилище увеличивается на 7 петабайтов фотоданных.

Каждый сотрудник ЦОД может обслуживать не менее 20 000 серверов, а некоторые системные администраторы, по словам директора Facebook по обслуживанию ЦОД  Дельфины Эберли, умудряются обслуживать до 26 000 систем.

Компания Facebook стала настоящим чемпионом по повышению коэффициента нагрузки системных администраторов, выражаемого количеством серверов, приходящихся на одного сисадмина - у других компаний он редко превышает 10 000. Успех компании в этом деле подтверждает большой потенциал интегрированного подхода к обслуживанию,  при котором группы обслуживания работают в тесном контакте с другими группами подразделения IT и ЦОД в целом.

Для того чтобы справляться огромными объемами работы, Facebook разработала программное обеспечение, автоматизирующее многие аспекты обслуживания ЦОД. В его состав входит приложение CYBORG,  которое обнаруживает проблемы, которые могут возникать в серверах, и пытается самостоятельно их устранить. Когда приложение исчерпывает свои возможности по автоматическому восстановлению того или иного сервера, оно посылает тревожное сообщение в систему отслеживания неполадок, которая исполняя роль диспетчера, передает его одному из сотрудников ЦОД, для того, чтобы он занялся “расследованием” проблемы.

“Наша цель состоит в том, чтобы не держать техника непосредственно в дата-центре на постоянной основе, а вызывать его только тогда, когда он действительно необходим для физического обслуживания того или иного сервера”, сказала г-жа Эберли.

Г-жа Эберли утверждает, что упор на автоматизацию делается не только потому что Facebook заинтересована в ЦОД, которые работают без постоянного присутствия обслуживающего персонала или обслуживаются роботами, но и потому, что компания высоко ценит своих сотрудников.

Вопросы состава и загрузки бригад обслуживания рассматриваются в компании Facebook, еще на стадии проектирования технических средств ЦОД. Пример: все серверы конструируются так, чтобы их можно было обслуживать на передней панели – благодаря этому у ремонтников не возникает необходимости заходить в “горячие” проходы. Далее, конструкция серверов такова, что  замену дисководов и других компонентов можно производить без применения каких-либо инструментов.  Результат: время, затрачиваемое на ремонт серверов, сократилось в компании Facebook на 54%.

“Эксплуатационный персонал Facebook тщательно отслеживает частоты отказов оборудования, и полученная информация анализируется и учитывается при принятии решений по закупкам новой техники”, сказала г-жа Эберли. Система управления активами и система отслеживания неполадок контролируют накопители на жестких дисках и другие компоненты по их серийным номерам, что дает возможность накапливать подробнейшую информацию обо всех единицах оборудования на протяжении всего их жизненного цикла.

Г-жа Эберли сказала: “Несмотря на то, что эти системы очень сложны, их разработка не потребовала привлечения целой армии разработчиков. Компания Facebook имеет всего трех инженеров-программистов, выделенных в состав эксплуатационной группы. Эти сотрудники играют жизненно важную роль в функционировании наших ЦОД”.

По материалам DataCenter Knowledge

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!
Поделиться:

Оставить свой комментарий:

Для комментирования необходимо авторизоваться!

Комментарии по материалу

Данный материал еще не комментировался.