В ТРЕНДЕ

ИБП в ЦОД: как ваш «спаситель» может стать «предателем»

Представьте: вы стоите в диспетчерской своего ЦОДа. Серверные стойки гудят, как улей после медосбора. Температура в холодном коридоре — строго 22 °C, влажность — 50 %, ИБП работает в on-line режиме, дизель-генераторы в боевой готовности. У вас всё по Tier IV: дублированная шина питания, АВР, модульные ИБП с N+1, батарейные комнаты с климат-контролем до ±0,5 °C. Вы спокойны. ЦОД, по вашему мнению, выдержит даже зомби-апокалипсис.

И тут — тишина.

Серверы молчат.

Клиенты звонят в панике.

А причина? Не ураган. Не криворукие монтажники. Не хакеры.

ИБП.

Тот самый, что должен был обеспечить бесперебойную работу.

Вот так, без сирен и вспышек — просто отказ на уровне силовой электроники или старой батареи, которая «ещё вроде держит».
Не будем драматизировать — но такие сценарии происходят регулярно. И сегодня мы поговорим не о том, как выбрать ИБП, а о том, как не дать ему вас подвести.

Цифры, которые не врут (но их часто не читают

Uptime Institute — это, если можно так выразиться, «санитар леса» для ЦОД. Каждый год они публикуют отчёт Global Data Center Survey, и цифры там — не для слабонервных:

  • В 2024 году 54 % всех значимых простоев в ЦОДах были вызваны сбоями в системах электроснабжения [1].
  • Из них около 40–42 % — напрямую связаны с отказами ИБП или его компонентов [1].
  • Более 60 % подобных аварий произошли в ЦОДах без полноценной DCIM-системы (Data Center Infrastructure Management) [1].
  • И кульминация: 85 % всех инцидентов так или иначе вызваны человеческим фактором — ошибками при эксплуатации, пропущенными сигналами тревоги, устаревшими процедурами ТО [2].

Показательный пример — инцидент в Google Cloud в марте 2024 года: шестичасовой простой в Tier III ЦОДе. Причина? Не поломка, не перегрузка. Некорректная последовательность переключений в системе ИБП [3]. То есть — ошибка оператора, а не оборудования. Система не предупредила, не скорректировала, не заблокировала опасную операцию. Просто молча выполнила команду. И всё — клиенты без сервиса, репутация под ударом.

Вывод №1: технология, не связанная в единый «организм» с системой мониторинга и управления, — это не резерв, а рулетка.

Что именно ломается — и почему

ИБП не «чёрный ящик». Это сложная система, и каждая её часть — потенциальная точка отказа. Разберём по частям (с цифрами и по-русски):

1. Аккумуляторные батареи — 45 % отказов

Наиболее распространённый тип — VRLA (свинцово-кислые герметичные). По паспорту — срок службы 5 лет. На практике — 3–4 года, особенно если температура в батарейной превышает 25 °C. Правило: каждые +8,3 °C — вдвое сокращается срок службы [4]. То есть при 33 °C ваша «пятимиллионная» батарея умрёт за 2–2,5 года.

Литий-ионные (Li-ion) — модно, компактно, долговечны (до 15–25 лет по данным производителей). Но! Они чувствительны к термическому разгону, требуют сложной BMS (Battery Management System), и стоят на 30–35 % дороже [5].

Практический совет: Если используете VRLA — строго соблюдайте температурный режим (ГОСТ Р 57717-2017 рекомендует ≤25 °C). Для Li-ion — убедитесь, что BMS интегрирована в DCIM и поддерживает предиктивный контроль (SOH, SOC, импеданс).

2. Силовые модули и инверторы — 25 % отказов

Средняя плотность нагрузки в стойках растёт: с 7 кВт в 2021 г. до 12 кВт в 2024 г. [1]. Это значит — ИБП работает ближе к пределу. Частые переключения на батареи, пиковые нагрузки, скачки — всё это ведёт к перегреву силовых ключей и деградации полупроводников.

Практический совет: Выбирайте ИБП с модульной архитектурой и активным охлаждением. Убедитесь, что система охлаждения ЦОДа учитывает выделение тепла от ИБП (не только серверов!).

3. Системы управления (BMS/SCADA) — 15 % отказов

Программные сбои, устаревшая прошивка, несогласованность между ИБП, АВР и генераторами. Особенно критично для Li-ion: BMS — ваш последний щит против пожара.

4. Дизель-генераторы и АВР — 25 % отказов

Не железо, а логика переключения. Например, генератор не запустился, потому что контроллер АВР «подумал», что напряжение ещё в норме — хотя ИБП уже перешёл на батареи [1].

Вывод №2: 80 % отказов ИБП — не из-за «сломавшегося железа», а из-за некорректной эксплуатации, старения компонентов и отсутствия мониторинга.

От «планового ТО» к предиктивной аналитике

Традиционный подход: «Меняем батареи раз в 4 года — так написано в инструкции».

Это как менять колёса на Volvo каждые 30 000 км, даже если протектор целый. Дорого, неэффективно, и — что хуже — не гарантирует надёжности.

Современный подход — Condition-Based Maintenance (CBM): обслуживание по фактическому состоянию, а не по календарю.

Ключевой параметр — импеданс (внутреннее сопротивление) батареи:

  • Рост импеданса = деградация (для VRLA);
  • Резкое падение = возможный термический разгон (для Li-ion).

Методы измерения:

  • DC-метод: R = (OCV – Vₗₒₐd) / Iₗₒₐd — прост, но требует нагрузки.
  • AC-метод (1 кГц): быстрый, неинвазивный, подходит для ежедневного мониторинга.
  • EIS (электрохимическая импедансная спектроскопия): «золотой стандарт», но дорогой и сложный.

Рекомендация: Используйте AC-метод для ежедневного мониторинга и EIS раз в 6 месяцев для калибровки моделей.

Важно: Разовые ручные замеры — не мониторинг. Это «фотография» в момент времени. Чтобы увидеть тренд, нужны ежедневные автоматизированные данные.

DCIM — не «красивый экран», а ваша страховка от коллапса

Без DCIM вы — как капитан яхты с биноклем в тумане. Вы видите опасность, только когда врезаетесь.

DCIM — это «мозг» ЦОДа. Он:

  • собирает данные от ИБП, СО, BMS, АВР;
  • строит тренды по импедансу, температуре, нагрузке;
  • предсказывает отказ за 3–6 месяцев;
  • автоматически эскалирует тревоги;
  • минимизирует участие человека в критических операциях.

Примеры:

  • Schneider Electric EcoStruxure: Asset Health Index + удалённый мониторинг экспертов [6];
  • ProUPS (Università della Svizzera italiana): ИИ-модель прогнозирования отказов ИБП [7];
  • Российские решения: всё чаще появляются локальные DCIM-платформы с поддержкой ГОСТ, СТО и интеграцией с ИБП ведущих брендов (Vertiv, Delta, Eaton).

Вывод №3: Без DCIM вы не реализуете ни одну современную стратегию управления надёжностью. Вы зависите от памяти инженера — а она, увы, не резервируется.

Заключение: Кто останется на плаву

ЦОД больше не «серверная комната». Это цифровой организм, где надёжность — не про «железо», а про данные, связность и предсказуемость.

Те, кто остаётся на уровне бумажных журналов ТО, разовых проверок и интуиции — обречены. Особенно когда плотность стоек перешагнёт 20 кВт/стойку, а ИИ-нагрузки станут нормой.

Что делать — по пунктам:

  1. Выбирайте ИБП с нативной сетевой поддержкой (Modbus TCP, SNMP, BACnet).
  2. Мониторьте батареи на уровне ячейки: напряжение, температура, импеданс.
  3. Интегрируйте всё в DCIM — не для отчётов, а для предотвращения аварий.
  4. Переходите на предиктивное обслуживание — забудьте про «раз в 4 года».
  5. Обучайте персонал работе с данными, а не только с отвёртками.

Потому что в ближайшем будущем ЦОДом будет управлять алгоритм, а не человек.

А ваша задача сегодня — дать этому алгоритму правильные данные.

Иначе его решение окажется последним — для вашего ЦОДа и вашей репутации.

Источники

  1. Uptime Institute, Global Data Center Survey 2024https://uptimeinstitute.com
  2. Ponemon Institute, Cost of Data Center Outageshttps://www.ponemon.org
  3. Google Cloud Status Dashboard, March 2024 Incident Report — https://status.cloud.google.com
  4. IEEE Std 1188-2005 (Recommended Practice for Maintenance, Testing, and Replacement of VRLA Batteries)
  5. Schneider Electric, Lithium-ion vs. VRLA Batteries in UPS Systems, 2023 — https://www.se.com
  6. Schneider Electric EcoStruxure for Data Centers — https://www.se.com/ru/ru/work/solutions/system-architecture/data-centers/
  7. ProUPS Project, Università della Svizzera italiana — https://www.usi.ch/en/research/proj/proups
2025-12-15 10:00 Улучшаем ЦОД Развитие индустрии