В ТРЕНДЕ

Hot Spots в центрах обработки данных

Hot Spot, он же Горячая точка в центре обработки данных — это не просто локальная температурная аномалия. Это сигнал о фундаментальном разбалансировании между потребляемой мощностью и возможностями систем охлаждения эту мощность отводить. Когда температура воздуха на входе в серверное оборудование превышает 27 °С (согласно стандартам ASHRAE TC 9.9), разрушается основное условие надёжной и экономичной работы всей цифровой инфраструктуры.

В последние годы проблема горячих точек качественно изменила свой характер. Это перестало быть частной инженерной ошибкой и превратилось в системный вызов, определяющий архитектуру современного ЦОД. Причина заключается в экспоненциальном росте плотности мощности в стойках. По данным McKinsey, в 2022 году средняя плотность составляла примерно 8 кВт на стойку. К 2024 году она выросла примерно до 12–17 кВт на стойку в типичных ЦОД. Для гиперскейловых объектов, развёртывающих искусственный интеллект, значения существенно выше: 30–40 кВт и даже 80–150 кВт на стойку в специализированных AI-ЦОД. По прогнозам, к 2027 году средние значения для AI-нагрузок достигнут 50 кВт на стойку.

Глубокое понимание механизмов образования горячих точек и владение практическими стратегиями их управления перестало быть опциональным знанием — это фундамент профессиональной компетентности в области проектирования и эксплуатации ЦОД.

Для кого написана эта статья и почему её содержание по-разному воспринимается специалистами

Проблема горячих точек значима для различных профессиональных групп, каждая из которых воспринимает её в собственном контексте.

Инженеры-проектировщики инфраструктуры видят горячие точки как сигнал о неверных расчётах, требующий дорогостоящих переделок. Их мир — гидродинамические модели, распределение воздушных потоков, соответствие стандартам ASHRAE TC 9.9. Для них критично предсказать явление на этапе проектирования, используя численное моделирование (CFD).

Операторы и инженеры по эксплуатации сталкиваются с горячими точками ежедневно в режиме реального времени. Это активные тревоги, красные индикаторы, управление рисками в условиях неполной информации. Они часто вынуждены работать реактивно, пока проблема не будет устранена на системном уровне.

Руководители центров обработки данных и финансовые директора мыслят категориями PUE (Power Usage Effectiveness), стоимости электроэнергии и надёжности оборудования. Горячие точки для них — это явное воплощение неэффективности: избыточное охлаждение некоторых зон, повышенный износ оборудования, сокращение жизненного цикла компонентов. По исследованиям, охлаждение потребляет от 30 до 55% всей электроэнергии ЦОД, поэтому горячие точки прямо влияют на операционные затраты.

Архитекторы высокоплотных AI-инфраструктур столкнулись с принципиально новой реальностью. Специализированные процессоры NVIDIA Blackwell потребляют около 1200 Вт. Стойка, содержащая несколько таких ускорителей, может генерировать 80–120 кВт тепла. Традиционное воздушное охлаждение физически не в состоянии справиться с таким потоком. Для них горячие точки — это не исключение, а неизбежное следствие без применения жидкостного охлаждения.

Физика формирования горячих точек: три основных механизма

Физика формирования горячих точек: три основных механизма

Горячая точка не возникает случайно. Она является результатом одного или нескольких физических процессов, нарушающих баланс между поступающим холодным и выходящим горячим воздухом.

Первый механизм: холодный байпас (bypass airflow)

Холодный воздух, нагнетаемый через перфорированные плиты под полом, должен проходить через вентиляционные отверстия серверного оборудования. Однако часто он поднимается над стойками, минуя оборудование, и смешивается с горячим воздухом. Масштаб проблемы значителен. По исследованиям Uptime Institute (проведённым в начале 2000-х годов на выборке из 19 помещений общей площадью около 15800 м²), в типичных ЦОД только 40% поступающего холодного воздуха непосредственно охлаждал оборудование, а оставшиеся 60% теряли свою холодопроизводительность через смешивание с горячим воздухом.

Основные источники холодного байпаса следующие: неправильное расположение перфорированных плиток в холодном проходе, через которые холодный воздух поднимается над стойками вместо того, чтобы входить в них; значительные неуплотнённые кабельные отверстия в полу и стойках; отсутствие или неправильное размещение глухих панелей в пустых слотах стоек; технологические зазоры между стойками.

Практический пример такой проблемы и её решения: на одном из объектов (документировано в EPA case study) инженеры выявили избыточный холодный байпас объёмом примерно 2300 м³/мин. Герметизация полов и установка правильных панелей-заглушек снизили температуру в наиболее горячих точках на 7–9 °С, полностью решив локальную проблему с охлаждением.

Второй механизм: горячая рециркуляция (hot recirculation)

Горячий воздух, выходящий из задней панели стойки, поднимается как более лёгкий по плотности. В отсутствие надлежащей системы удаления, этот воздух попадает обратно в холодный коридор и повторно всасывается в переднюю часть той же стойки или соседней. Явление наиболее выражено в верхних частях стоек, где происходит вертикальная стратификация температуры воздуха.

Результат горячей рециркуляции — значительный температурный градиент внутри одной стойки: верхние серверы и коммутаторы получают заметно более горячий воздух, чем нижние компоненты. Верхняя часть стойки, где традиционно размещаются сетевые коммутаторы и консоли управления, становится наиболее уязвимой, так как эти компоненты часто имеют менее эффективное охлаждение, чем основные вычислительные серверы.

Третий механизм: неравномерное распределение и избыточное охлаждение

Парадоксально, но горячие точки могут возникать в результате избытка охлаждения. Если в ЦОД установлено больше холодильных агрегатов (CRAC/CRAH), чем требуется для обслуживания фактической нагрузки, каждый агрегат работает с пониженной производительностью. При этом некоторые холодильные устройства замыкаются на собственный выход холодного воздуха, снижая его температуру ниже оптимальной точки. Система теряет способность правильно распределять охлаждение по всему помещению. Результат — чередование чрезмерно холодных зон (где охлаждение работает избыточно) и перегретых зон.

Эти три механизма редко действуют изолированно. Обычно они проявляются одновременно, взаимно усиливая друг друга и создавая сложные, плохо предсказуемые паттерны температурных аномалий.

Стандарты и критерии: рекомендации ASHRAE и инженерная практика

Температурные требования для оборудования ЦОД устанавливаются ASHRAE TC 9.9. Рекомендуемый диапазон входной температуры воздуха составляет 18–27 °С для всех основных классов оборудования. Температура 27 °С служит практической границей, выше которой оборудование считается находящимся в неоптимальных условиях.

Помимо рекомендуемого диапазона, ASHRAE определяет допустимые (максимально допустимые) диапазоны, которые более широкие и зависят от класса оборудования. Класс A1 (наиболее чувствительное оборудование) допускает 15–32 °С. Классы A2, A3 и A4 имеют расширенные допустимые диапазоны до 35–45 °С. Эти расширенные диапазоны используются при оценке возможности временного перегруза на существующей инфраструктуре, однако проектирование новых объектов должно ориентироваться на рекомендуемый диапазон 18–27 °С.

Практический опыт показывает, что входная температура в оптимальном случае должна составлять 18–24 °С, выходная — 35–45 °С. Разница между входной и выходной температурой (ΔT) более 20 °С указывает на проблемы с распределением воздуха. Относительная влажность рекомендуется в диапазоне 40–60%. Эти параметры не являются абстрактными рекомендациями — они напрямую связаны с надёжностью оборудования и экономикой операции.

Диагностика: от простых датчиков к интегрированным системам управления

Выявление и анализ горячих точек осуществляется на нескольких уровнях сложности.

Уровень 1: точечные датчики температуры

Традиционный подход — размещение термопар или резистивных датчиков в холодных проходах на разных высотах. Это экономично и может обнаружить явные аномалии. Однако такой метод предоставляет только моментальные снимки и не показывает динамику температурных процессов или пространственное распределение поля.

Уровень 2: системы мониторинга в реальном времени

ASHRAE рекомендует установку минимум 6 датчиков на каждую стойку: три спереди (вершина, середина, низ холодного прохода) и три сзади (для контроля выходящего горячего воздуха). Высокоплотные ЦОД используют дополнительные датчики для более детальной картины. Современные системы управления инфраструктурой ЦОД (DCIM) интегрируют температурные датчики с информацией об электроснабжении и охлаждении, создавая единую экосистему для мониторинга. Такие системы предоставляют тепловые карты, автоматические оповещения при отклонениях и интеграцию с системами охлаждения для автоматической корректировки.

Уровень 3: вычислительное моделирование воздушных потоков (CFD)

Computational Fluid Dynamics (численная гидродинамика) позволяет создавать трёхмерные модели воздушных потоков и распределения температуры в помещении ЦОД. CFD-анализ позволяет инженерам предсказать точное расположение горячих точек до строительства или модификации, оценить влияние перемещения оборудования или установки перегородок и избежать дорогостоящих переделок на этапе эксплуатации.

Технологии охлаждения: эволюция и применимость

Воздушное охлаждение: пределы возможностей

Для традиционных корпоративных ЦОД с плотностью 10–15 кВт на стойку воздушное охлаждение при правильной организации (с использованием принципов Hot/Cold Aisle Containment) остаётся эффективным и экономичным. Однако при плотностях выше 20–30 кВт на стойку воздушное охлаждение становится технически и экономически нецелесообразным. Требуемые объёмы воздушного потока становятся практически неуправляемыми.

Жидкостное охлаждение: необходимость и варианты

По мере роста плотности мощности переход к жидкостному охлаждению становится необходимостью. Существует несколько подходов:

Rear-door heat exchangers (RDHX): теплообменники, монтируемые на задней дверце стойки. Охлаждают выходящий из оборудования горячий воздух через циркулирующую жидкость. Поддерживают плотности до 25–30 кВт на стойку и служат практическим переходным решением для ЦОД.

Прямое жидкостное охлаждение (Direct-to-Chip): охлаждающая жидкость циркулирует через микроканалы непосредственно на процессорах и ускорителях. Двухфазные системы DTC могут рассеивать мощность до 170 кВт с температурой корпуса около 56 °С. Требует более сложной инфраструктуры и координации с производителями, но обеспечивает высокую эффективность.

Двухфазное иммерсионное охлаждение: оборудование полностью погружается в нетоксичную диэлектрическую жидкость. При нагреве жидкость закипает (фазовый переход), эффективно отводя тепло. По исследованиям разных производителей, такие системы могут снизить энергопотребление охлаждения на 84–90% по сравнению с воздушным охлаждением. PUE (Power Usage Effectiveness) таких систем может снизиться до 1.05–1.10 (для сравнения, среднее значение PUE традиционного ЦОД в 2020–2022 годах составляло 1.58).

Стратегии управления горячими точками

Краткосрочные меры оптимизации

Установка заглушек: закрытие всех пустых слотов в стойках глухими панелями критически важно. Это направляет холодный воздух через оборудование, минуя возможность его бесполезного поднятия над стойками.

Управление кабельными проходами: герметизация избыточных кабельных отверстий в полу и стойках снижает утечку холодного воздуха и повышает эффективность распределения охлаждения.

Изоляция горячих и холодных коридоров: физическое разделение холодного и горячего воздуха с помощью перегородок может снизить энергопотребление охлаждения на 10–15%.

Среднесрочные инвестиции

Развёртывание систем мониторинга (DCIM): постоянный мониторинг с полным набором датчиков позволяет операторам выявлять проблемы на ранних стадиях и оптимизировать охлаждение на основе реальных данных.

Внедрение CFD-моделирования: использование численного моделирования воздушных потоков позволяет инженерам предсказать и устранить проблемы проектирования до реализации.

Добавление теплообменников на двери стоек: для ЦОД, готовых к гибридному охлаждению, это позволяет поддерживать плотности 25–30 кВт на стойку без полной переделки инфраструктуры.

Долгосрочная стратегия: переход к жидкостному охлаждению

Прогнозы указывают на продолжающийся рост плотности мощности. По данным NVIDIA и аналитических прогнозов, следующее поколение GPU (Feynman, ожидается в 2028 году) потребует около 4400 Вт на один ускоритель. Это поднимет плотность стойки на уровни 140–240+ кВт. Воздушное охлаждение при таких параметрах физически невозможно.

Стратегический переход требует четырёх компонентов:
  1. Проактивное планирование: на этапе проектирования ЦОД необходимо закладывать инфраструктуру, поддерживающую жидкостное охлаждение в будущем: усиленное электроснабжение, гибкие трубопроводные системы, интеграция с системами сбора и рециркуляции тепла.
  2. Правильный выбор технологии: для плотностей выше 30 кВт жидкостное охлаждение перестаёт быть опцией и становится необходимостью. Выбор между различными технологиями должен быть основан на анализе полной стоимости владения за период 5–10 лет.
  3. Следование открытым стандартам: использование спецификаций Open Compute Project обеспечивает совместимость оборудования и защищает от привязки к пропатентованным решениям.
  4. Интеграция с платформами управления: жидкостное охлаждение требует более сложного контроля и предиктивной аналитики, чем воздушное охлаждение.

Инструментарий как условие выживания

Проектирование и эксплуатация современного ЦОД без серьёзного инструментария практически невозможны. CFD-моделирование, DCIM-платформы и системы мониторинга в реальном времени — это не опциональные дополнения, а основа современной инфраструктуры.

Для проектировщиков: CFD-инструменты позволяют виртуально исследовать различные сценарии до реальной реализации, избегая дорогостоящих переделок и гарантируя соответствие стандартам.

Для операторов: DCIM-платформы интегрируют данные о температуре, мощности и охлаждении, предоставляя полный контроль. Современные системы включают алгоритмы предиктивной диагностики.

Для руководителей: аналитические инструменты для расчёта PUE, DCRE и других метрик позволяют объективно оценивать эффективность и принимать обоснованные решения.

Организации, которые сегодня инвестируют в понимание своей тепловой ситуации, развёртывают современные инструменты диагностики и мониторинга, проактивно планируют переход к новым технологиям охлаждения, получат конкурентное преимущество. Те же, кто откладывает эти решения, столкнутся с растущими операционными расходами и постепенной потерей конкурентоспособности.

Заключение

Горячие точки в ЦОД — это не просто локальная инженерная проблема. Это наглядное воплощение фундаментального вызова, стоящего перед отраслью: как управлять экспоненциальным ростом плотности мощности, сохраняя надёжность и экономичность.

Успешное управление требует трёх компонентов. Во-первых, глубокое понимание физики явления: механизмы холодного байпаса, горячей рециркуляции и неравномерного распределения охлаждения поддаются предсказанию, моделированию и контролю. Во-вторых, проактивная диагностика и мониторинг с использованием современного инструментария. В-третьих, технологическая готовность к переходу на жидкостное охлаждение, который становится неизбежным по мере роста плотности мощности.

Будущее ЦОД принадлежит организациям, которые сегодня понимают термическую реальность своей инфраструктуры и действуют на основе этого понимания.
2026-01-29 10:00 Улучшаем ЦОД Развитие индустрии