Rambler's Top100
Реклама
 
Статьи ИКС № 4 2025
Владимир КУЗНЕЦОВ  30 марта 2026

Серверы для ИИ: что выбрать

Об использовании ИИ-серверов задумываются сегодня многие компании. Но им важно понимать, для каких целей эти серверы нужны – для обучения моделей или для инференса, так как характеристики оборудования для этих задач и требования, предъявляемые ими к окружению, существенно различаются.

Серверы для задач искусственного интеллекта – это специализированные вычислительные системы, архитектура которых позволяет выполнять максимально быстрые параллельные вычисления. Вычислительная мощность ИИ-серверов обеспечивается графическими (GPU) или тензорными (TPU) процессорами. GPU обладают тысячами упрощенных вычислительных ядер, а TPU – специализированными матричными модулями (MXU). И те и другие созданы для одновременного выполнения огромного количества однотипных операций, таких как перемножение матриц, лежащее в основе работы нейронных сетей.

ИИ-серверы выполняют две основные задачи (табл. 1):
  • Обучение моделей (training). Это ресурсоемкий процесс «тренировки» модели на больших массивах данных с постоянным пересчетом миллиардов параметров. 
  • Инференс (inference). Процесс использования уже обученной модели для получения ответа на поставленный вопрос на основе новых данных (например, генерация текста в чат-боте).
Ключевые компоненты ИИ-сервера:
  • Вычислительные блоки (GPU/TPU). В один корпус можно устанавливать четыре, восемь или 10 GPU. Для эффективного обмена данными между ними задействуются высокоскоростные интерфейсы NVLink (внутри сервера) и InfiniBand (между серверами).
  • Память. Видеопамять GPU (High Bandwidth Memory, HBM) сегодня имеет объем в диапазоне 40–141 Гбайт на один ускоритель. Эта память нужна, чтобы обеспечивать GPU данными без простоев. Ее объем ограничивает размер модели и величину «пакета данных» (batch). В итоге на сервер обычно устанавливают ОЗУ ем­костью от сотен гигабайт до нескольких терабайт.
  • Хранилище. Чтобы избежать простоев дорогих GPU, для работы с огромными датасетами используются массивы быстрых накопителей NVMe SSD.
Табл. 1. Архитектура и комплектация серверов в зависимости от выполняемой задачи

Сервер с восемью GPU обычно потребляет 5–10 кВт. Поскольку для отвода тепла воздушного охлаждения может оказаться недостаточно, возможно применение прямого жидкостного охлаждения (direct-to-chip), при котором теплоотводящие пластины устанавливаются непосредственно на процессоры и GPU, а теплоноситель циркулирует через них.

Для объединения серверов в кластеры необходимы высокоскоростные сетевые карты (100, 200, 400 Гбит/с) InfiniBand или Ethernet с RDMA (RoCE). Последние обеспечивают передачу данных по Ethernet напрямую из памяти одного сервера в память другого.

CPU в ИИ-сервере занимается «организацией» вычислений: готовит и подает данные на GPU, работает с дисками и сетью, управляет очередями задач и процессами. Чем «тяжелее» обучение, тем важнее количество ядер CPU и объем ОЗУ.

В инференсе небольшие и не требующие высокой скорости задачи можно выполнять и на одних CPU. Для более сложных моделей и минимизации задержек применяют серверы с GPU-ускорением (до нескольких GPU на узел). CPU остается «координатором», а основные вычисления проводятся на GPU.

Использование дорогостоящего сервера, предназначенного для обучения, в задачах инференса возможно, но крайне неэффективно. Попытка же обучить большую модель на инференс-сервере обречена на неудачу из-за нехватки памяти и вычислительной мощности. Поэтому инфраструктура ИИ у компаний и облачных провайдеров четко разделена на мощные кластеры для обучения и оптимизированные пулы серверов для инференса.

Мировой рынок ИИ-серверов: объемы и игроки

Мировой рынок серверов для ИИ быстро растет. По оценке Market Research Future, его объем в 2024 г. составил $23,7 млрд, в 2025-м ожидается $31,9 млрд, а к 2034 г. – $457,9 млрд (CAGR около 34,5%). По прогнозу IDC, выручка сегмента к 2027 г. может достичь $49,1 млрд.

Лидер рынка – компания Nvidia, которая выступает на нем в двух ключевых ролях:
  • поставщика ключевых компонентов, производящего GPU (чипы серий A100, H100, B200/GB200) и сетевые решения (InfiniBand, ConnectX) с экосистемой ПО (CUDA), которые для ИИ являются стандартом де-факто;
  • поставщика готовых решений, выпускающего высокопроизводительные системы – от серверных платформ Nvidia DGX (например, DGX H100) до полноценных суперкомпьютеров Nvidia DGX SuperPOD. Оба решения представляют собой готовые к работе, полностью интегрированные и оптимизированные для задач искусственного интеллекта аппаратно-программные платформы.
Основной конкурент Nvidia в сегменте чипов – компания AMD с ускорителями серии Instinct MI300X. На рынке также действуют крупные OEM-производители и сборщики систем. В их число входят Dell Technologies (линейка PowerEdge), Hewlett Packard Enterprise, Supermicro, Lenovo и российские вендоры. Они либо интегрируют GPU Nvidia и AMD в свои серверные платформы, либо (в случае с Nvidia) лицензируют дизайн эталонной платформы HGX для создания собственных решений.

Рост рынка сегодня тормозится дефицитом серверных GPU, который обусловлен всплеском спроса и узкими местами в производстве, в частности, в выпуске HBM-памяти и CoWoS-­упаковке микросхем (Chip-on-Wafer-on-Substrate – технология, в которой GPU и HBM-память монтируются на общий кремниевый интерпозер). Это задерживает поставку оборудования и влияет на графики реализации крупных ИИ-проектов.

Российский рынок: кто и что производит/поставляет

На российском рынке представлены как готовые системы мировых брендов, так и появившиеся недавно отечественные платформы для ИИ-нагрузок. По оценкам ИСИЭЗ НИУ ВШЭ, доля российского оборудования в закупках для ИИ составляет около 14%.

В приведенных в табл. 2 примерах российских ИИ-серверов представлены как узлы из восьми GPU класса HGX/DGX, так и конфигурации с одним–четырьмя GPU (PCIe) для инференса. Назначение – обучение или инференс – определяется задачей заказчика и спецификацией сервера.
Табл. 2. ИИ-серверы, предлагаемые российскими производителями*

Интеграторы и поставщики предлагают готовые 8-GPU системы для ИИ-кластеров (табл. 3). В прайс-листах встречаются Nvidia DGX H800, Dell PowerEdge XE9680 и Asus ESC N8-E11V. Комплектации обычно подстраивают под проект: меняют процессоры, объем ОЗУ и локальное NVMe-хранилище, сетевые адаптеры (вплоть до 400/800 Гбит/с), а также схемы питания и охлаждения – это прямо указано в описаниях. В базовой комплектации такие серверы, как правило, берут в качестве строительных блоков кластеров обучения.
Табл. 3. Примеры моделей ИИ-серверов от реселлеров*

Что учесть дата-центрам при размещении ИИ-оборудования

Требования к инфраструктуре ЦОДов различны для кластеров обучения и ферм инференса, и это должно быть учтено еще на этапе проектирования.

Нагрузка на конструкции и планировка

Обучение: стойки с многопроцессорными GPU-узлами, SmartNIC и усиленным охлаждением могут весить более 1,8 т. Это требует перехода к размещению «на плите», отказа от высоких фальшполов и проверки несущей способности перекрытий.

Инференс: нагрузки не столь высоки. Оборудование часто размещается в стандартных стойках, но с учетом роста плотности мощности.

Охлаждение – ключевой вызов

Обучение: мощность энергопотребления в стойке достигает 30–60 кВт и более. Стандартом становится прямое жидкостное охлаждение. Иммерсионное охлаждение, при котором серверы полностью погружаются в диэлектрическую жидкость, также начинает применяться, но пока довольно редко.

Для кластеров обучения резервируют места для CDU (Central Distribution Unit) и разводку «технологического» контура охлаждения (TCS). CDU размещают непосредственно в стойке или как напольные блоки в сервисном коридоре для простоты обслуживания и изоляции контуров.

Инференс: тепловыделение ниже, чем при обучении. Развертывание жидкостного контура не требуется. Зачастую достаточно усиленного воздушного охлаждения с правильной организацией холодных/горячих коридоров. Ключевая задача – обеспечить эффективную подачу холодного и отвод горячего воздуха.

Сети

Для обучения обязательны скорости 400/800 Гбит/с (InfiniBand NDR/XDR или Ethernet с RDMA). Длины кабелей критичны (например, для InfiniBand в SuperPOD – примерно 50 м).

Для инференса достаточно высокоскоростного Ethernet (100–200 Гбит/с).

Электроснабжение

Для стойки обучения необходимы десятки киловатт, что повышает требования к подводящим кабелям/шинопроводам и блокам распределения питания (PDU), а также может заставить изменить подход к организации распределения электропитания (отказаться от PDU, перейти на среднее напряжение и пр.). Для инференса требования к питанию значительно ниже.

Планировка помещений

Для кластеров обучения зону высокоплотных стоек проектируют отдельно, выдерживая ширину проходов согласно стандартам OCP: холодный – не менее 1,4 м, горячий – не менее 1,2 м; далее – по расчетам для систем изоляции воздушных потоков и обслуживания. Магистрали питания и оптики прокладывают по кратчайшим трассам.

Для ферм инференса с воздушным охлаждением требования к планировке менее строгие и обычно соответствуют стандартной практике ЦОДов: организация холодных и горячих коридоров с достаточной шириной для обслуживания (как правило, не менее 1–1,2 м). Планировка часто модульная, что позволяет наращивать мощность по мере роста нагрузки.

Вопрос, который часто задают инженеры ЦОДов: зачем собирать высокоплотные стойки, почему не распределить те же ресурсы по большему числу менее нагруженных стоек. Ответ связан не столько с энергетикой, сколько с характером задач.

Обучение больших моделей требует интенсивного обмена данными между ускорителями; когда восемь GPU связаны в одном узле в пределах одной стойки, значительная часть обмена остается «внутри», а межузловой трафик и количество оптики сокращаются. Если те же ускорители разнести по множеству разных серверов и стоек, вырастут задержки, усложнится трассировка. Кроме того, жидкостные контуры проще обслуживать там, где тепло и мощность сконцентрированы, чем распылять их по залу. 

Что учесть заказчику при выборе ИИ-сервера

Выбор серверного решения для ИИ зависит от задачи: обучение моделей или инференс. 

Профиль задач

Обучение и дообучение больших моделей. Базовый элемент – кластер из серверов с восемью GPU в каждом, связанных высокоскоростной сетью (200/400 Гбит/с) и оснащенных быстрыми NVMe-накопителями. Критически важны поддержка NVLink/NVSwitch и большой объем HBM-памяти (например, Nvidia H100, A100).

Инференс и пилотные проекты. Достаточно серверов с одним–четырьмя GPU (например, Nvidia L40S, T4, A10), а тестирование гипотез удобно проводить на компактных 2U-системах. Ключевые параметры – задержка и энергоэффективность.

Сетевая инфраструктура

Для обучения сеть рекомендуют проектировать с запасом под 400/800 Гбит/с. Часто используют Ethernet с RDMA (RoCE) – так весь трафик (ИИ, хранение, сервисный) идет в одном стеке без отдельного InfiniBand. Но RoCE требует настроить сеть «без потерь». Если такого опыта нет, можно использовать типовую схему от вендора/интегратора. 

Для инференса обычно хватает обычного Ethernet 25–100 Гбит/с.

Сроки поставки и стратегия развертывания

Сроки поставки топовых GPU (H100, H200) могут достигать 12–18 месяцев, что напрямую влияет на график проектов. Многие компании предусматривают «эластичность» инфраструктуры, используя облачные GPU-сервисы для старта и компенсации пиковых нагрузок.

Совместимость и управление

При выборе сервера имеет смысл проверить, что контроллер управления (BMC) поддерживает Redfish/IPMI. Наличие OpenBMC или полноценного API у поставщика упрощает включение в корпоративный мониторинг и автоматизацию.

Помимо серверов Nvidia/AMD можно рассматривать специализированные ускорители для узких задач (например, SOPHGO для видеоаналитики) с обязательной проверкой поддержки нужных фреймворков/драйверов и способов развертывания.

Перед тиражной закупкой целесо­образно провести пилотирование на стенде у поставщика/интегратора: прогнать сценарии, проверить совместимость ПО и системы управления, измерить энергопотребление и теплопакет.

Требования импортозамещения

Для госсектора и проектов с соответствующими требованиями необходимо проверять статус оборудования в Едином реестре российской радиоэлектронной продукции Минпромторга. 

Расчет совокупной стоимости владения (TCO)

Энергопотребление, охлаждение и сетевая инфраструктура становятся значимой частью TCO. Поэтому при выборе конфигурации важно учитывать не только капитальные затраты на «железо», но и операционные расходы.

GPU-сервер в аренду: гибкая альтернатива закупке

Аренда вычислительных мощностей – хороший выбор для быстрого запуска проектов, тестирования гипотез и обработки пиковых нагрузок без капитальных вложений. Аренда позволяет оперативно менять ресурсы в соответствии с конкретными задачами: обучение на мощных конфигурациях и инференс на более доступных.

Ключевые сценарии использования

Обучение моделей: запуск ресурсоемких вычислений на мощных GPU (Nvidia A100, H100) без простоя дорогостоящего оборудования между проектами.

Инференс: обслуживание моделей с эластичным масштабированием под изменчивый трафик запросов.

Эксперименты и разработка: тестирование алгоритмов и прототипирование на различных конфигурациях перед принятием решения о закупке.

Две основные модели предоставления ресурсов
  • Виртуальные серверы с vGPU. Почасовые тарифы с предустановленными ML-стеками (PyTorch, TensorFlow) для быстрого старта.
  • Выделенные физические серверы. Полный доступ ко всем ресурсам сервера для максимальной производительности и изоляции.
На российском рынке представлен широкий спектр конфигураций (табл. 4) – от Nvidia T4 и L4 для инференса до A100, H100 и даже H200 для обучения. Для сложных долгосрочных задач обучения чаще выбирают выделенные серверы, а для инференса и экспериментов – vGPU или менее мощные конфигурации.
Табл. 4. Примеры предложений российских облачных провайдеров*

Инфраструктурные требования, такие как размещение в ЦОДе уровня Tier III, соответствие требованиям закона № 152-ФЗ (УЗ-1), наличие частных сетей и выделенного трафика, ведущими провайдерами также обеспечиваются.

Владимир Кузнецов, обозреватель «ИКС-Медиа»
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!