Мониторинг и управление инженерной инфраструктурой ЦОД

15 июля 2006 LAN
LAN
июль, 2006 г.
Игорь Мызгин, менеджер направления "интеллектуальное здание", Открытые Технологии

Важность современных центров обработки данных (ЦОД) для бизнеса постоянно увеличивается. Между тем требуемый уровень надежности невозможно обеспечить только за счет построения ЦОД из качественных элементов. Поэтому все больше организаций начинают понимать необходимость внедрения единой системы мониторинга и управления инженерной инфраструктурой ЦОД, которая позволит достичь желаемого.


Современный ЦОД представляет собой комплексное инженерное сооружение, обеспечивающее функционирование бизнес-процессов. Его основу составляют три функциональных блока:

  • телекоммуникационная система, реализующая взаимосвязь элементов ЦОД, а также прием/передачу данных между центром и пользователями его сервисов;
  • техническая архитектура (серверы доступа, серверы приложений, серверы СУБД, сеть хранения данных), поддерживающая функционирование бизнес-приложений, доступ пользователей к приложениям и хранение данных;
  • инженерная инфраструктура, обеспечивающая оптимальные условия для функционирования вышеприведенных систем и деятельности обслуживающего персонала. В свою очередь, инженерную инфраструктуру ЦОД можно разделить на подсистему обеспечения функционирования и подсистему обеспечения безопасности. Первая включает системы общего электроснабжения, бесперебойного электроснабжения, гарантированного электроснабжения, технологического кондиционирования, а также монтажные конструктивы. В подсистему безопасности входят охранно-пожарная сигнализация, системы автономного газового пожаротушения и видеонаблюдения, контроля и управления доступом.


Классификация ЦОД по надежности

Учитывая, что современный ЦОД может содержать десятки и даже сотни серверов, а также разнообразное телекоммуникационное оборудование и другие компоненты, в рамках определения его надежности принято говорить о суммарном времени недоступности сервисов или неполного предоставления сервиса (не всем пользователям или с недостаточной скоростью реакции). Суммарный простой ЦОД за год в часах, деленный на 8760 (24 ч в 365 сут.), характеризует вероятность его недоступности. Вычтя эту величину из 100%, мы получаем степень доступности, которая для современных ЦОД обычно колеблется в пределах от 99% (87,6 ч простоя в год) до 99,995% (0,4 ч простоя в год).

Многолетние исследования The Uptime Institute в области надежности центров обработки данных позволили создать классификацию ЦОД по степени надежности и выделить необходимые минимальные критерии для достижения заданных уровней надежности. В рамках данной классификации необходимо четко разделять понятия "отказоустойчивая площадка" и "площадка непрерывной эксплуатации". Первая может выдержать как минимум один серьезный отказ инженерной инфраструктуры без потери качества предоставления сервисов. Вторая допускает проведение регламентных работ на инженерной инфраструктуре без остановки деятельности ЦОД и без снижения качества предоставления сервисов.

В состав современного ЦОД входят десятки элементов инженерной инфраструктуры (ИБП, кондиционеры, распределительные щиты, иные элементы). Возможны случаи, когда по одной инженерной системе площадка отвечает требованиям полного резервирования системы и соответствует уровню IV, а по другим — резервированию класса N+1 и уровню II.
Ниже приведены характеристики всех классов надежности.

Уровень I. Имеются фидер электроснабжения и контур охлаждения; для основных подсистем резервирование компонентов не предусматривается; эксплуатационная готовность — 99,671%.

Уровень П. Имеются фидер электроснабжения и контур охлаждения; для основных подсистем предусмотрено резервирование; эксплуатационная готовность – 99,741%.

Уровень III. Имеются два и более независимых фидеров питания (один из них активный, другой резервный), каждый из которых в состоянии полностью обеспечить электроснабжение ЦОД, предусмотрено несколько систем охлаждения; техническое обслуживание производится без остановки эксплуатации; эксплуатационная готовность — 99,982%.

Уровень IV. Имеются два и более независимых активных фидеров питания, каждый из которых может полностью обеспечить ЦОД электроснабжением, а также несколько систем охлаждения; обеспечивается отказоустойчивость; техническое обслуживание может производиться одновременно с эксплуатацией; эксплуатационная готовность — 99,995%.

Численные значения эксплуатационной готовности были рассчитаны в ходе анализа The Uptime Institute и служб эксплуатации ЦОД крупнейших компаний США. Указанных показателей удалось достичь лишь 10% ведущих компаний, у остальных уровень эксплутационной готовности при соответствующих уровнях надежности был еще ниже, причем основная причина — ошибки и неточности в работе обслуживающего персонала ЦОД.

По мнению аналитиков The Uptime Institute, невозможность достигнуть показателей уровня эксплуатационной готовности выше 99,995%, даже при построении высоконадежного ЦОД уровня IV, обусловлена ненулевой вероятностью человеческих ошибок как при проектировании, так и при эксплуатации систем.


От чего зависит надежность ЦОД

Архитектура современных ЦОД изначально проектируется в расчете на возможные отказы оборудования. Современные бизнес-приложения допускают распараллеливание процессов сбора, обработки, хранения и предоставления данных пользователям и предусматривают механизмы защиты от аппаратных сбоев (контроль завершения транзакций, проверка кода CRC). Кластерные решения и балансировка нагрузки еще больше повышают надежность и доступность сервисов ЦОД. В результате сбой на уровне приложений и аппаратной инфраструктуры воздействует на предоставление сервисов пользователям в низкой или средней степени. Механизмы самокоррекции, а также развитые механизмы мониторинга состояния позволяют уменьшить влияние отказа отдельных элементов на систему в целом.

Между тем в современных ЦОД инженерная инфраструктура зачастую предусматривает лишь резервирование N+1 или реализована вообще без резервирования (когда резерв N+1 вследствие потребности в дополнительных мощностях трансформируется в оборудование без резерва, так сказать «встает под нагрузку») и не обладает развитыми системами самодиагностики и раннего обнаружения возникающих неисправностей (аналогичным SMART, например). Сбой на уровне инженерной инфраструктуры приводит к изменению динамического баланса параметров окружающей среды с их выходом за допустимые пределы, в результате возможен отказ серверов и иного оборудования ЦОД. Выход из строя элементов инженерной инфраструктуры ЦОД может вызвать как локальный отказ оборудования (перегрев оборудования в одном шкафу), так и отказ значительной части ЦОД (отказ в ГРЩ или отключение всей системы кондиционирования).

Большинство аппаратных средств рассчитано на работу при температуре воздуха +22+/-2°С и относительной влажности 50+/-10%. Отклонение температуры от указанных параметров приводит к сокращению срока службы оборудования (например, аккумуляторных батарей), ухудшению его характеристик, снижению надежности, сбоям в работе или даже полной остановке (перегрев из-за высокой температуры окружающей среды). Низкая влажность в помещении ведет к накоплению статического электричества, разряд которого способен вывести из строя электронные элементы. Вследствие высокой влажности образуется конденсат, вызывающий коррозию, из-за чего может даже произойти короткое замыкание печатных проводников и возникнуть неисправность узлов аппаратуры.

Отказ системы электроснабжения, перегрузка линий электропитания, утечка тока, короткие замыкания в оборудовании способны вызвать срабатывание автоматических выключателей и устройств контроля дифференциального тока. В результате происходит обесточивание той или иной части оборудования, а поиск неисправности затрудняется вследствие разветвленной структуры системы и отсутствия информации о состоянии распределительных устройств.

Такие аварийные ситуации, как утечка воды из дренажных систем кондиционеров под фальшпол, отключение приточно-вытяжной вентиляции, нештатное положение люков вентиляции и дымогазоудаления, могут приводить к неконтролируемым процессам.

Из вышесказанного можно сделать вывод, что сбои на уровне инженерной инфраструктуры носят более масштабный характер, чем на уровне приложений и оборудования, и влекут за собой сбои в иных элементах архитектуры ЦОД.


Типичные проблемы инженерной инфраструктуры

Внедрение высоконадежных решений в различных системах инженерной инфраструктуры (например, схемы резервирования оборудования 2(N+1)) сопряжено с рядом проблем, зачастую сводящих на нет все вложения в отказоустойчивую инженерную инфраструктуру ЦОД.

Время реакции на событие. В большинстве случаев время реакции на многие важные события (протечка жидкостей, остановка вентиляторов, повреждения изоляции, обесточивание элементов инженерной инфраструктуры, перегрев оборудования) невозможно гарантировать, поскольку такие события определяются визуально инженерами дежурной смены в процессе визита в серверное помещение. Как правило, обслуживающий персонал не имеет информации о местонахождении очага проблемы и причине, ее вызвавшей, что значительно увеличивает срок устранения.

Адекватность реакции. Стрессовое состояние вполне естественно при форс-мажорных обстоятельствах, поэтому реакция сотрудников центра может быть неадекватной или неоптимальной при возникновении аварии, пожара, обрушения строительных конструкций. Учебные тревоги и регулярный инструктаж уменьшают риск ошибок, но не устраняют его.

Высокое значение человеческого фактора. Исследования, проведенные организацией The Uptime Institute, показали, что более 6о% отказов инженерной инфраструктуры на этапах проектирования, монтажа или эксплуатации было вызвано человеческим фактором. Причем на этап эксплуатации приходится более половины отказов.

Необходимость интервального регламентного обслуживания. Срок эксплуатации инженерной инфраструктуры колеблется от пяти до 25 лет. Для его увеличения следует периодически проводить регламентное обслуживание, плановую замену отдельных комплектующих со сравнительно малым сроком эксплуатации и внеплановую — при окончании ресурса или отказе. Опыт эксплуатации современных ЦОД показывает, что контроль (без автоматизированных средств) и своевременное обслуживание оборудования выполняются нерегулярно, не в срок и не в полном объеме.

Внутренние ограничения инженерных систем ЦОД. Довольно часто оборудование инженерной инфраструктуры имеет ограничения по масштабированию, вводу/ выводу данных, способам управления. Большинство кондиционеров, например, замеряет температуру "горячего" потока воздуха и на основании этого параметра корректирует мощность охлаждения воздушного потока. Локальная температура около охлаждаемых объектов не учитывается, и, соответственно, не гарантируется поддержание необходимых для работы оборудования параметров окружающей среды.

Отсутствие единой системы мониторинга состояния ЦОД. Часть инженерных систем ЦОД оснащается собственными средствами мониторинга и управления, не совместимыми друг с другом (кондиционеры, источники бесперебойного питания). А у другой части иногда их нет вообще (системы электропитания и приточно-вытяжной вентиляции). Полная информация о состоянии всех инженерных систем ЦОД и параметрах окружающей среды отсутствует, тем самым затрудняется оперативная оценка общего состояния центра.

Невозможность прогнозирования/упреждения сбоев. Отказ инженерной инфраструктуры ЦОД ведет к отказу вышележащих уровней, поэтому потребность в предупреждении отказов и ранней диагностике состояния оборудования очень высока. Существующее оборудование инженерной инфраструктуры не предусматривает мониторинг отдельных элементов с требуемым уровнем детализации. А отсутствие информации о состоянии и работе инженерной инфраструктуры лишает персонал дежурной смены возможности предупредить и своевременно выявить отказы.


Автоматизированная система управления

Обычно каждая инженерная система имеет законченную самодостаточную архитектуру и не предусматривает алгоритмы взаимодействия с прочими инженерными системами. Таким образом, сведение оперативной информации о состоянии инфраструктуры в единый центр управления штатными средствами подсистем невозможно.

Автоматизированная система мониторинга и управления (АСМУ) позволяет за счет установки дополнительных контроллеров, конвертеров сигналов и системы сбора данных (Supervisory Control and Data Acquisition, SCADА) соединить в цельную логическую структуру все инженерные подсистемы ЦОД. В результате формируется единая среда мониторинга и управления, а события, происходящие в одной из подсистем, могут воздействовать на другие подсистемы.

Если у той или иной инженерной системы имеются штатные системы управления, тогда информационное взаимодействие с системой мониторинга и управления организуется посредством шлюзов или преобразователей протоколов. При отсутствии встроенных систем управления устанавливаются необходимые датчики, преобразователи сигналов, приводы и управляющие устройства. Оборудование объединяется в единую информационную среду посредством одного или нескольких протоколов передачи данных, а его физическое соединение обеспечивает выделенная кабельная система. Вся информация, получаемая от периферийных устройств и инженерных систем, поступает на систему SCADА.

SCADA представляет собой специализированное программное средство, осуществляющее сбор информации с удаленных объектов, визуализацию и управление этими объектами. Обычно система работает в режиме реального времени. Данные поступают от распределенных контроллеров сбора данных, различных датчиков, систем управления инженерными подсистемами и т. п. Полученная информация отображается на мнемосхемах, записывается в архив и используется для автоматизированного управления системами. В случае необходимости на базе сервера SCADA может быть развернуто несколько рабочих мест.


Архитектура решения

Реализация системы мониторинга и управления инженерной инфраструктурой позволяет решить многие проблемы благодаря целому ряду функциональных возможностей.

Практически мгновенная реакция на событие. Данные от наиболее критичных точек можно получать ежесекундно или чаще, что обеспечивает быструю реакцию системы и минимизирует возможные отрицательные последствия при возникновении чрезвычайных ситуаций.

Отсутствие человека при принятии решения в экстренной ситуации. Большинство современных угроз известно, поэтому для их устранения выработан алгоритм действий, которому необходимо следовать. За счет объединения всех инженерных систем в единую логическую сеть с механизмами принятия решений, встроенными в контроллеры автоматизированной системы управления, гарантируется надлежащая реакция всей инженерной инфраструктуры ЦОД на чрезвычайные ситуации.

Снижение значимости человеческого фактора в рамках эксплуатации инженерной инфраструктуры. Автоматизированная система позволяет задавать необходимые параметры работы инженерных систем, контролировать их соблюдение, в непрерывном режиме с помощью независимых средств контроля следить за показателями окружающей среды, электропитания, состояния технологического оборудования. В случае выхода параметров за заданные границы или обнаружения отказов дежурному персоналу посылаются тревожные сообщения, а также выдаются рекомендации по ликвидации аварийной ситуации.

Расширение возможностей оборудования. Увеличение количества точек контроля позволяет гарантировать соблюдение необходимых параметров окружающей среды. К примеру, регулирование работы системы обеспечения микроклимата может производиться не только на основе температуры горячего воздуха, подаваемого в кондиционер, но и с учетом данных, полученных с дополнительных датчиков, установленных непосредственно в местах поступления воздуха в какое-либо устройство.

Единая среда мониторинга и управления. Дежурный персонал имеет единый мнемонический интерфейс контроля и управления всеми инженерными системами ЦОД. Это облегчает восприятие информации персоналом и позволяет контролировать все параметры систем в реальном времени, своевременно обнаруживать изменения в работе и производить техническое обслуживание или ремонт.

Прогнозирование отказов элементов инженерной инфраструктуры. Подключив дополнительные датчики и измеряя нестандартные параметры, можно вовремя узнать о вероятной аварии. Например, датчики прогиба перекрытий при достижении определенного значения подадут сигнал, что давление на перекрытие достигло максимально допустимых показателей и дальнейшее увеличение нагрузки приведет к обрушению строительных конструкций.

Кроме того, обеспечиваются следующие преимущества:

  • круглосуточное автоматическое поддержание заданных климатических параметров в любой точке помещения без участия человека и вне зависимости от температуры снаружи здания и режимов работы оборудования с различным уровнем выделения тепла;
  • возможность определения состояния систем с рабочей станции SCADA за счет отображения всех нужных параметров в системе визуализации. Это освобождает от необходимости визуального контроля параметров встроенных в оборудование средств управления. Как показывает практика, инспекторская проверка редко бывает своевременной;
  • увеличение срока службы и сохранности оборудования при форс-мажорных обстоятельствах. Это обеспечивается за счет достижения оптимальных параметров окружающей среды и практически мгновенного времени реакции на события;
  • доступ к отчетам для анализа аварийных ситуаций наряду с анализом состояния оборудования за определенные промежутки времени. События, происходящие в любом из компонентов системы, автоматически регистрируются в журналах, структура которых, в свою очередь, позволяет гибко и просто анализировать ситуации;
  • протоколирование происходящих событий и действий персонала;
  • единый интерфейс пользователя. Для мониторинга и управления всеми инженерными системами ЦОД нужен гибкий и удобный интерфейс, реализованный в соответствии с едиными принципами. Это удается обеспечить за счет свободного построения системы визуализации;
  • получение дежурным персоналом справочной информации от АСМУ — начиная с температуры воздуха вне помещения и заканчивая рекомендациями по техническому обслуживанию инженерных систем. Надежность инженерных систем напрямую влияет на степень доступности сервисов ЦОД и должна быть выше надежности остальных элементов ЦОД. В процессе проектирования следует применять схемы резервирования, обеспечивающие не меньшую отказоустойчивость, чем схемы резервирования, используемые при планировании технической архитектуры ЦОД.

Центр обработки данных, не оснащенный отлаженной автоматизированной системой управления инженерной инфраструктурой, не в состоянии обеспечивать уровень надежности сервисов, который требуется современному бизнесу. Наличие единой автоматизированной системы мониторинга и управления инженерной инфраструктурой ЦОД рекомендовано для любого уровня его эксплуатационной надежности и обязательно для достижения надежности выше 99,984% (согласно исследованиям The Uptime Institute и стандарта ANSI-TIA-942/2005).




Предыдущая новость:
Евгений Акимов о тенденциях в области защиты информации
Следующая новость:
Аварийное планирование в центрах данных