GPU-кластеры в дата-центрах: как ИИ меняет инфраструктуру ЦОД

Если дата-центр раньше был библиотекой — теперь он стал научной лабораторией, где каждый ватт на счету, а каждый GPU — объект особого внимания

Ещё десять лет назад разговор о «высокой плотности» в дата-центре вызывал у инженеров улыбку: 8–10 кВт на стойку считалось пределом, а воздушное охлаждение — универсальным решением. Сегодня всё изменилось. Эпоха искусственного интеллекта (ИИ) и машинного обучения (ML) внесла в мир дата-центров не просто новые нагрузки, а новую физику — физику экстремальной вычислительной плотности, где доминируют не процессоры, а графические ускорители, или GPU.

Эта трансформация не сводится к «больше серверов, мощнее кондиционеры». Она затрагивает всю иерархию инфраструктуры — от электропитания и теплового управления до сетевой архитектуры, систем хранения и даже методологии эксплуатации. Проектировщики, инженеры и операторы ЦОД теперь работают не с универсальными вычислительными модулями, а с специализированными ИИ-фабриками, в которых каждый компонент — от ИБП до Kubernetes — должен быть продуман с учётом уникальных характеристик GPU.

Энергетика: плотность, с которой нельзя шутить

Если провести аналогию, то современный GPU-сервер — это не просто «машина», а соревновательный болид на трассе вычислений. Он потребляет в десять раз больше энергии, чем его «гражданский» CPU-аналог: от 50 до 100 кВт на одну стойку [1]. Это сравнимо с одновременной работой нескольких электроплит — только в пределах одного шкафа шириной 60 см.

Такая плотность не просто меняет расчёт мощности — она требует пересмотра всей архитектуры распределения электроэнергии. Системы ИБП, шинопроводы, PDU — всё должно быть рассчитано не на пиковую нагрузку «в теории», а на устойчивое энергопотребление в реальных условиях эксплуатации.

Не менее важно и соотношение стоимости: GPU составляют до 65 % стоимости серверного оборудования [2]. Это значит, что каждый простой, каждый неоптимальный цикл — это не просто потеря времени, а прямой урон по инвестициям. При этом энергопотребление одного современного ускорителя, например NVIDIA H100, достигает 1 389 Вт [2,3] — почти как небольшой обогреватель, только с совершенно иной функцией.

Практический вывод:

Проектирование ЦОД под ИИ-нагрузки начинается с чёткого понимания требуемой плотности. Если вы закладываете 10–15 кВт/стойку, вы уже проигрываете. Минимум — 30–50 кВт, а для перспективных решений — до 100 кВт. Это не «фича», а новый базовый уровень.Современные GPU-серверы, такие как NVIDIA H100 или AMD Instinct MI300X, потребляют от 50 до 100 кВт на стойку — в 10 раз больше, чем типичная CPU-нагрузка [1]. GPU составляют до 65 % стоимости серверного оборудования [2], а энергопотребление одного ускорителя достигает 1 389 Вт [2,3].

Охлаждение: когда воздух перестаёт быть носителем

Если энергетика — это «сердце» ЦОД, то система охлаждения — его лёгкие. И при плотности выше 50 кВт на стойку эти лёгкие начинают задыхаться.

Воздушное охлаждение, долгое время считавшееся стандартом, сталкивается с фундаментальными физическими ограничениями. Например, для отвода 50 кВт при перепаде температуры 11 °C требуется поток воздуха около 3,7 м³/с [1]. Это эквивалентно скорости ветра 20 км/ч, направленного прямо в стойку — и это только на одном шкафу.

Ещё важнее то, что мощность, потребляемая вентиляторами, растёт пропорционально кубу скорости потока. То есть, чтобы удвоить воздушный поток, нужно увеличить электропотребление вентиляторов в восемь раз. В условиях, когда GPU уже «съедают» десятки киловатт, такая добавка становится неприемлемой.

Реальный инцидент, задокументированный в отраслевой литературе, говорит сам за себя: 250 стоек по 6 кВт подняли температуру в зале с 22 °C до 32 °C всего за 75 секунд при отказе охлаждения [1]. Представьте теперь ту же динамику при 80–100 кВт на стойку — это уже не авария, а тепловая катастрофа.

Жидкостное охлаждение: не альтернатива, а необходимость

На смену воздуху приходят жидкостные технологии. Системы прямого жидкостного охлаждения (DLC) подают охлаждающую жидкость непосредственно к GPU и CPU, минуя воздушные зазоры. Это обеспечивает в 10–100 раз более эффективную теплопередачу, чем воздух [4].

Ещё более радикальное решение — погружное охлаждение, при котором серверы полностью погружаются в диэлектрическую жидкость. Такой подход не только обеспечивает максимальную охлаждающую способность, но и исключает необходимость в вентиляторах, снижая их долю в энергобалансе с 15 % до менее 5 % [5].

Компания Google, например, достигла PUE 1,1 в своих ИИ-модулях благодаря централизованной жидкостной системе, способной работать без чиллеров большую часть года [5]. Это не рекорд, а новая норма для крупных ИИ-ЦОД.

Практический вывод:

Если вы планируете плотность выше 30 кВт/стойку, воздушное охлаждение — это историческая стадия. Лучше сразу проектировать гибридную или полностью жидкостную систему, совместимую с существующими форм-факторами серверов и с возможностью поэтапного масштабирования.

Сетевая архитектура: где задержка дороже гигабита

В мире GPU-кластеров скорость — это не только пропускная способность, но и задержка. GPU — это не изолированные вычислители, а элементы распределённой нейронной сети, где даже микросекундная задержка может свести на нет месяцы разработки.

Современная архитектура строится по трём уровням:

Внутриузловой уровень — NVLink обеспечивает до 1,8 ТБ/с между GPU в одном сервере [6];
Межузловой уровень — InfiniBand (задержка 1–2 мкс) или RoCE-Ethernet (400–800 Гбит/с) [7,8,9];
Уровень хранения — выделенные 400-Гбит/с интерфейсы к параллельным файловым системам [6].

InfiniBand остаётся «золотым стандартом»: кластер с вчетверо меньшим количеством GPU может превосходить Ethernet-аналог по эффективности [8,10]. Однако RoCE (RDMA over Converged Ethernet) становится всё более привлекательным — особенно в условиях ограниченного бюджета.

Ключевым элементом становится топология сети. Архитектура spine-leaf без избыточной подписки обеспечивает неблокирующую полосу пропускания между любыми узлами — критически важное условие для масштабирования. Современные развертывания уже оперируют 8 192 GPU в единой сети [11].

Практический вывод:

Не экономьте на сетевой архитектуре. Неблокирующая топология — не роскошь, а минимальное требование для кластеров от 256 GPU. Иначе ваш H100 будет простаивать в ожидании данных, как профессор на экзамене у неподготовленного студента.

Хранилища: данные должны приходить «вовремя»

Для ИИ-нагрузок критична не ёмкость, а пропускная способность ввода-вывода. Традиционные NAS/SAN здесь неэффективны — они просто не рассчитаны на параллельный доступ сотен GPU.

На смену им приходят параллельные файловые системы (PFS): Lustre, BeeGFS, WekaIO. Они разделяют данные на независимые потоки и отдают их десяткам GPU одновременно [12].

Особую роль играет GPUDirect Storage — технология, позволяющая сетевым адаптерам напрямую читать данные в память GPU, минуя CPU и шину PCIe. Это снижает задержку на 30–50 % и значительно повышает эффективность [6,12].

Практический вывод:

Планируйте хранилище в связке с сетью и GPU. Минимальный функциональный набор: NVMe-oF + InfiniBand + GPUDirect. Без этого вы рискуете превратить свой кластер в «дорогой обогреватель».

Управление: от ручного контроля к единым платформам

Традиционные DCIM-системы, созданные для мониторинга виртуальных машин и веб-серверов, не справляются со сложностью GPU-инфраструктур [13]. Здесь нужен интеллектуальный подход, объединяющий данные от всех слоёв: электроснабжения, охлаждения, IT и программного стека.

Стандарт де-факто — NVIDIA DCGM (Data Center GPU Manager): мониторинг, диагностика, управление питанием, экспорт метрик в Kubernetes [14,15]. Однако в условиях геополитической неопределённости зависимость от иностранных решений может поставить под угрозу устойчивость всего проекта.

Практический вывод:

Для российских условий оптимальный путь — внедрение отечественных DCIM/UISM-решений с открытой архитектурой и API-совместимостью с DCGM. Это обеспечит и функциональность, и информационный суверенитет.

Энергоэффективность: PUE ушёл на пенсию

PUE (Power Usage Effectiveness) долгое время был «священной коровой» дата-центров. Но при современных значениях 1,1–1,2 он перестал отражать реальную картину. Поэтому появилась новая метрика — TUE (Total Usage Effectiveness):

TUE=PUE×ITUE

TUE=PUE×ITUE

где ITUE — эффективность самого IT-оборудования. Например, для высокоэффективного GPU-сервера ITUE = 1,34, а для устаревшего — 1,67 [17]. Разница — 25 % энергии, потраченной «впустую».

Сами GPU тоже стремительно «зеленеют»:

NVIDIA H100 — в 2 раза эффективнее A100 [18],
AMD MI300X — в 28,3 раза эффективнее по сравнению с 2020 годом [19].

Практический вывод:

Оценивайте оборудование не только по вычислительной мощности, но и по энергоэффективности на 1 TFLOP. Это может сократить TCO на 10–30 %.

Экономика: загрузка решает всё

Начальные инвестиции в GPU-кластер могут достигать $60 000 за 4 ускорителя A100 [20]. Но экономика сильно зависит от утилизации:

При 40 % загрузке собственный кластер на 25 % дешевле облака,
При 8 % — в 4 раза дороже [21,2].

Оптимальные значения:

80–90 % — при обучении моделей,
50–60 % — при inference [21].

Современные практики:

«Inference днём, обучение ночью» — повышает загрузку до 60–85 % [23],
Репликация моделей на одном GPU — увеличивает пропускную способность на 7–34 % [22].

Практический вывод:

Без чёткой стратегии загрузки и команды ML-инженеров инвестиции в GPU-кластер могут оказаться неоправданными. Лучше начинать с пилотного проекта и постепенно масштабироваться.

Ближайшее будущее: ИИ-фабрики как новый стандарт

Прогнозы однозначны:

Кластеры до 32 000 GPU в одном комплексе [27,28],
Электропитание на уровне гигаватта,
Жидкостное охлаждение — обязательный стандарт [5],
Сети 800G и 1,6T, оптика вплотную к чипу (CPO) [29].

Google уже развернул более гигаватта жидкостно-охлаждаемых ИИ-чипов [5]. Это не эксперимент — это масштабируемая реальность.

Заключение: инженерия как искусство

GPU-кластеры требуют не просто технических решений, а системного мышления. Успех возможен только при:

Глубоком понимании тепловых, энергетических и сетевых ограничений,
Инвестициях в современные системы управления, включая отечественные DCIM,
Чёткой стратегии эксплуатации и оркестрации (Kubernetes + GPU Operator [25,26]).

Эпоха универсальных ЦОД завершается. Будущее — за специализированными ИИ-фабриками, где каждая система — от ИБП до Kubernetes — оптимизирована под GPU. Те, кто это поймёт сегодня, получат ключ к завтрашнему ИИ.

Использованные источники

[1] Introl, Liquid Cooling GPU Data Centers – 50kW Thermal Limits Guide

[2] GenAI Tech, Data Center Prediction for…

[3] SemiAnalysis, AI Datacenter Energy Dilemma

[4] ASUS, Thermal Management Solutions for Data Centers

[5] SemiAnalysis, Multi-Datacenter Training – OpenAI’s…

[6] NVIDIA, H200 NVL Reference Architecture

[7] Juniper, AI Data Center Comparison

[8] Arc Compute, InfiniBand vs Ethernet Analysis

[9] NVIDIA, InfiniBand Clustering Whitepaper

[10] WhiteFiber, Ethernet vs InfiniBand Analysis

[11] DriveNets, Network Cloud-AI GPU Cluster Architecture

[12] DataCore, Parallel File Systems Guide

[13] DatacenterDynamics, AI in DCIM

[14] NVIDIA, DCGM Documentation

[15] NVIDIA, DCGM GitHub Repository

[17] Lawrence Berkeley National Laboratory, TUE Metrics

[18] NVIDIA, GPU Power Efficiency Documentation

[19] AMD, 30x25 Energy Efficiency Update

[20] RunPod, GPU Cloud Cost Analysis

[21] Uptime Institute, GPU Cluster Economics

[22] ArXiv, GPU Bottlenecks in LLM Inference

[23] Red Hat, GPU ROI Optimization

[25] DevZero, GPU Utilization Measurement

[26] Introl, GPU Deployments Guide

[27] SemiAnalysis, Datacenter Anatomy Part 2

[28] RunPod, Top Cloud GPU Providers

[29] FiberMall, Optical Interconnection Networks

GPU-кластеры в современных дата-центрах