Рубрикатор |
Статьи | ИКС № 07-08 2015 |
Мэттью МЕСКОЛЛ  | 08 сентября 2015 |
Системы локального охлаждения и надежность
Как построить удобные в обслуживании и вместе с тем отказоустойчивые решения, используя технологии локального охлаждения?
Первые мэйнфреймы охлаждались водой на уровне процессоров. Позднее распространение получила распределенная серверная модель, а воду сменил воздух. Обычно в центрах обработки данных по периметру машинного зала устанавливаются системы прецизионного кондиционирования и охлаждения (Computer Room Air Condition, CRAC), подающие холодный воздух в пространство под фальшполом. Через перфорированные плитки фальшпола этот воздух поступает к ИТ-оборудованию. В таких CRAC-системах используются модули непосредственного охлаждения, работающие за счет испарения хладагента (Direct-Expansion, DX), или модули с захоложенной водой (chilled water). Для простоты оба типа модулей охлаждения будем называть просто модулями CRAC. Такая схема применялась в последние несколько десятилетий, когда машинные залы вычислительных центров заполнялись в основном оборудованием с низкой энергетической плотностью (менее 2–4 кВт на стойку). Однако с распространением стоек высокой плотности охлаждения с помощью модулей CRAC и подаваемого в пространство под фальшполом воздуха стало недостаточно.
Для решения проблемы производители систем прецизионного охлаждения разработали технологию замкнутого локального охлаждения (Close Coupled Cooling, CCC), предусматривающую установку такой системы в непосредственной близости от генерирующего тепло оборудования. CCC предполагает применение систем охлаждения, размещаемых между стойками (in-row), в самих стойках (in-rack) или над стойками (above-rack), либо же использование шкафов с встроенными в заднюю дверь теплообменниками (Rear-Door Heat Exchanger, RDHx). Обычно для большей эффективности охлаждения вендоры рекомендуют организовывать холодные и горячие коридоры. В ЦОДах это считается лучшей практикой. По мере увеличения плотности оборудования в стойках в связи с консолидацией и виртуализацией ИТ-нагрузки технология CCC превращается из решения для «нестандартной» ситуации в предпочтительный метод охлаждения. Должным образом реализованное решение CCC может отвечать предъявляемым к ЦОДу требованиям безостановочного обслуживания и отказоустойчивости.
В то время как система подготовки воздуха может предусматривать его увлажнение, решение CCC обеспечивает только охлаждение оборудования в ЦОДе. Предполагается, что читатель знаком с основами проектирования систем CRAC на базе захоложенной воды или модулей DX в соответствии с требованиями отказоустойчивости и обслуживания без остановки ЦОДа (Concurrent Maintainability and Fault Tolerant, CM/FT). В данной статье эти вопросы рассматриваются лишь применительно к системам CCC в машинном зале, но не к центральной системе охлаждения и кондиционирования.
Соответствие требованиям отказоустойчивости и безостановочного обслуживания
Прежде всего проясним требования к безостановочному обслуживанию (Tier III) и бесперебойному функционированию (Tier IV).
Система, обслуживаемая без остановки ИТ-оборудования ЦОДа (CM), должна содержать компоненты для избыточного производства холода и независимые пути распределения хладагента. Это означает, что каждый такой компонент или путь распределения можно вывести из эксплуатации для технического обслуживания, ремонта или замены, и это не повлияет на работу критичных ИТ-систем.
Чтобы соответствовать таким требованиям, для предотвращения протечек при обслуживании трубопроводов, стыков и клапанов система должна позволять использовать сухие трубы (без протекающей или подаваемой под давлением жидкости). Допускается осушение трубопроводов в процессе их демонтажа, но не разрешаются ремонтные работы на трубопроводе без прекращения эксплуатации или замораживание участка трубопровода при ремонте. Отказоустойчивая система (FT) может выглядеть так же, как CM-система, но она должна самостоятельно реагировать на отказы, в том числе предусматривать режим непрерывного охлаждения (continuous cooling) и отделение трубопроводов с захоложенной водой и/или хладагентом от помещения, где эта система используется (обычно от машинного зала).
Существуют несколько различных типов и конфигураций систем CCC. Для простоты в данной статье они разбиты на две группы: устанавливаемые над стойками или между ними и двери с встроенным теплообменником (RDHx). Хотя есть и другие решения локального охлаждения, при их использовании для построения CM/FT-систем можно опираться на те же принципы.
Системы CCC, устанавливаемые над стойками и между ними
Если в соответствии с требованиями бизнеса необходимо обеспечить безостановочность работы и/или отказоустойчивость (CM/FT) в дата-центре высокой плотности, то инфраструктура CCC должна иметь особые характеристики, отличные от характеристик систем охлаждения, которые обычно устанавливаются в помещении. В первую очередь нужно принимать во внимание воздушные потоки. Конфигурация CM/FT-системы на базе модулей CRAC предусматривает наличие нескольких резервных единиц охлаждающего оборудования, обслуживающего помещение в целом. Когда один из модулей выводится из эксплуатации или перестает работать из-за отказа, ИТ-оборудование охлаждается остальными модулями CRAC. Охлажденный воздух поступает в холодный коридор через перфорированные плитки фальшпола. Отключение того или иного модуля охлаждения не должно повлиять ни на один холодный коридор. Такая схема допускает использование одного или двух резервных модулей CRAC на весь машинный зал (рис. 1, где IT - ИТ-стойки, IR - внутрирядные системы).
Например, для системы на рис. 1 (резервирование N + 2, N = 6) модули IR1 и IR2 нельзя выводить из эксплуатации одновременно, так как для ИТ-оборудования в конце холодного коридора поток воздуха будет недостаточен. Такая конфигурация может отвечать требованиям CM, если персонал будет планировать работы так, чтобы не останавливать в одно и то же время и IR1, и IR2. Конфигурация отвечает требованиям FT, поскольку одиночный отказ не выведет IR1 и IR2 из строя одновременно.
Система CCC обеспечивает охлаждение в конкретном холодном коридоре – там, где она установлена. Другими словами, модули CCC не могут охлаждать разные холодные коридоры так, как это делают системы CRAC. Поэтому резервный модуль CCC должен находиться в том коридоре, где необходимо охлаждение. Также нужно принимать во внимание расстояние от модуля охлаждения до ИТ-оборудования. Обычно модули CCC, размещаемые между стойками или над ними, могут подавать холодный воздух лишь на ограниченное расстояние. В проекте ЦОДа должен учитываться наихудший сценарий, который может реализоваться при отказе оборудования или его обслуживании.
После выбора необходимого количества модулей охлаждения и места их расположения в холодном коридоре проектировщики должны определиться с методом охлаждения – непосредственным воздушным охлаждением (DX), захоложенной водой или закачанным в систему хладагентом. Модули DX с воздушным охлаждением обычно комплектуются собственными узлами конденсации. В случае DX-модулей никаких специальных требований учитывать не нужно, необходима лишь правильная прокладка трубопроводов.
Трубопроводы до модулей с захоложенной водой представляют собой традиционные трубы с холодной водой или распределительный блок (Cooling Distribution Unit, CDU). В первом случае холодная вода подается непосредственно к модулям CCC аналогично системам CRAC. Системы трубопроводов с захоложенной водой проектируются согласно требованиям CM/FT точно так же, как в случае модулей CRAC для всего машинного зала.
Во втором случае, когда применяются CDU, есть некоторые особенности. Трубопроводы с захоложенной водой к модулю CDU и к одноконтурным модулям CRAC машинного зала тоже проектируются в соответствии с требованиями CM/FT, однако проектировщики должны учитывать влияние отказа CDU или его вывода из эксплуатации на каждый холодный коридор.
Если отдельно взятый CDU в каком-либо из коридоров дает больше холода, чем резервные модули охлаждения, то такая конфигурация не отвечает требованиям CM/FT. В FT-конфигурации модули CDU, находящиеся вне серверной или машинного зала, должны быть соответствующим образом разделены, чтобы в любом случае число выводимых из эксплуатации систем не превышало количества резервных модулей. FT-система также должна отвечать требованиям непрерывного охлаждения, т.е. должна предоставлять возможность выявлять, изолировать неисправность, ограничивать ее влияние и при этом продолжать функционировать. В системе CCC с отводом тепла с помощью захоложенной воды механическую часть подсистемы непрерывного охлаждения можно комбинировать с аккумулирующим баком с холодной водой, являющимся частью центральной системы охлаждения.
В системе CCC, в которой отвод тепла во внешний воздух осуществляется с помощью хладагента и блока конденсации, для обеспечения непрерывного охлаждения, вероятно, потребуется система бесперебойного питания.
В некоторых системах CCC хладагент подается под давлением. Такие системы отводят тепло с хладагента на систему охлаждения всего здания – систему с захоложенной водой, гликолем или внешним блоком конденсации.
В данной статье мы не будем различать системы с захоложенной водой и гликолем: с точки зрения соединения трубопроводов они схожи. Теплообмен происходит в установленном в помещении чиллере или теплообменнике, которые мы будем считать идентичными. Требования к обеспечению CМ/FT у систем с подаваемым под давлением хладагентом практически такие же, что и у систем с захоложенной водой из чиллера, в которых используется CDU.
Систему, питающую все компоненты CCC, нужно проектировать так, чтобы электропитание не было уязвимым звеном, влияющим на характеристику CM/FT механической системы. Конфигурация электрической подсистемы механической CM-системы должна быть такой, чтобы при запланированном отключении любой части системы электропитания число выводимых из эксплуатации модулей охлаждения не превышало числа резервных модулей. Это требование касается каждого холодного коридора в отдельности, а не только помещения в целом. Проектирование модулей CCC, соответствующих CDU, чиллеров или теплообменников с резервированием 2N значительно упрощает систему распределения электроэнергии.
Питание по плечу A одной половины модулей и по плечу B – другой половины с учетом расположения систем CCC обычно позволяет получить конфигурацию, отвечающую требованиям CM.
В системе охлаждения с резервированием N + R для распределения электропитания нужна особая координация. Как правило, у модулей должно быть два ввода электропитания, для чего могут использоваться внутренний выключатель ввода резерва на несколько модулей, внешний ручной или внешний автоматический выключатель ввода резерва. Данное требование распространяется на все компоненты системы CCC, которым необходимо питание для охлаждения критичной зоны, включая модули охлаждения, расположенные между стойками или над ними, чиллеры в помещении, теплообменники и CDU (рис. 2).
Например, на рис. 2 показана система ССС, в которой подача захоложенной воды из центральной системы осуществляется с резервированием 2N, блоки CDU и система распределения в помещении также резервируются по схеме 2N. Внутрирядные модули имеют резервирование N + 1, где N = 5. Любой внутрирядный модуль, вентиль или CDU можно обслуживать при N работающих модулях (чтобы не загромождать схему, возвратный трубопровод для захоложенной воды не показан. Он должен соответствовать трубопроводу для подачи захоложенной воды). Данная конфигурация может отвечать требованиям FT при соответствующей автоматизации вентилей, наличии системы управления и защиты от протечек.
Когда в любой части FT-инфраструктуры электропитания механической системы происходит отказ, число выводимых из эксплуатации модулей охлаждения не должно превышать числа резервных модулей. К FT-системе электропитания применимы те же принципы, что и к CM-системам, однако все выключатели ввода резерва должны быть автоматическими, не требующими вмешательства человека в случае отказа. Кроме того, для непрерывного охлаждения вентиляторы, компрессоры, чиллеры в помещении, теплообменники и CDU должны иметь бесперебойное питание. Для обеспечения непрерывного охлаждения система CCC, использующая для отвода тепла во внешний воздух DX и блоки конденсации, требует бесперебойного питания всех своих компонентов.
При проектировании в соответствии с требованиями CM/FT необходимо также принимать во внимание средства управления данными системами.
Шкафы с встроенными в заднюю дверь теплообменниками
В модулях RDHx обычно используется захоложенная вода или закачанный хладагент и блоки CDU, чиллеры в помещении или теплообменники. Эти модули должны отвечать всем требованиям CM/FT, предъявляемым к внутрирядным системам охлаждения CCC. Основное внимание следует обращать на воздушные потоки при запланированном выводе двери из эксплуатации или ее отказе.
Когда системы охлаждения RDHx обслуживают ИТ-оборудование всего ЦОДа, может использоваться конфигурация с продувом стоек спереди назад. Если из эксплуатации выводятся одна или несколько дверей, горячий воздух от соответствующих стоек будет поступать на стойки, расположенные сзади них, что при определенном уровне тепловой нагрузки может привести к перегреву последних. Такая конфигурация не отвечает требованиям CM/FT, согласно которым при запланированном обслуживании или отказе должно обеспечиваться достаточное охлаждение всего критичного оборудования. Размещение стоек в конфигурации с горячими и холодными коридорами может не соответствовать этому требованию, поскольку при отказе или отключении двери шкафа с теплообменником воздух из соответствующей стойки будет циркулировать в горячем коридоре, что приведет к перегреву серверов в верхней части стойки и, возможно, в соседних стойках. Аналогичная проблема с воздушными потоками возможна в случае неработоспособности системы RDHx у стоек в конце рядов.
Системы CCC все чаще применяются в качестве единственных систем охлаждения в ЦОДах. Однако при развертывании систем локального охлаждения, отвечающих требованиям CM/FT, приходится решать дополнительные сложные задачи, выходящие за рамки тех проблем, которые характерны для систем охлаждения на основе CRAC. Это связано с другим характером воздушных потоков и необходимостью гарантировать, что остановка для обслуживания или отказы компонентов систем охлаждения и распределения не приведут к ситуации, когда требуемая дополнительная мощность превысит возможности резервных модулей охлаждения. Для этого необходим тщательный анализ и аккуратное проектирование всех составляющих системы.