Сопровождение "тяжелых" систем: подходы и особенности.

26 февраля 2004 PC Week
PC Week
#6, 24 февраля, 2004г.
Николай Рыжов
Техническая поддержка и услуги
Директор

Что такое сопровождение и почему оно необходимо

Начиная разговор о сопровождении корпоративных информационных систем (КИС), надо прежде всего объяснить, почему существует необходимость в такой услуге. В самом деле, ведь основой ИС обычно являются флагманские модели серверов и дисковых массивов с максимально высоким уровнем производительности и надежности. Казалось бы, это должно защитить от серьезных неприятностей и свести к минимуму потребность в специальном обслуживании. Однако даже самая совершенная система защиты не устраняет риск отказа полностью: достаточно вспомнить аварии космических кораблей из-за неисправности отдельного компонента, несмотря на тройную систему контроля при их конструировании и производстве. Центр обработки данных крупного предприятия включает множество элементов (процессоров, дисков, коммутаторов, различного сетевого оборудования). И хотя обычно они проходят тщательное тестирование, все же вероятность выхода из строя одного из них не исключена.

Даже непродолжительный простой информационной системы способен нанести серьезный урон бизнесу тех организаций, чья деятельность во многом зависит от ИТ.

Приведу пример из российской практики: 30 мая 2003 г. в результате аварии в московской сети сотового оператора МТС остались без связи сотни тысяч абонентов. Произошел сбой ПО на одном из столичных коммутаторов, обслуживающем центр города. Однако даже после его оперативного восстановления из-за лавинообразного роста нагрузки на него абоненты МТС продолжали испытывать сложности.

В случае выхода из строя процессинго-вого центра банка, выполняющего операции с кредитными карточками, их владельцы не смогут расплатиться за покупки и услуги, что скажется на лояльности клиентов. Таким образом, для крупной современной компании жизненно необходимо обеспечить максимальную надежность работы своих критически важных систем.

В качестве иллюстрации приведу результаты исследования Meta Group о потерях из-за сбоев (диаграмма 1).



Решить эту проблему можно с помощью кластерных комплексов высокой доступности (High Availability — НА), создания резервного центра, страхования рисков и другими мерами. Однако первые два типа являются очень дорогостоящими: ведь фактически они дублируют основной сервер или центр обработки данных, что означает удвоение стоимости ИТ-системы и к тому же требует расходов на построение необходимой сетевой инфраструктуры и приобретение ПО кластеризации. Кроме того, при выходе из строя одного из узлов кластера уменьшается его надежность. Поэтому необходимо как можно быстрее восстановить его работоспособность, а с такой задачей могут успешно справиться только специально подготовленные инженеры.

В то же время страхование рисков не распространяется на убытки, связанные с потерей имиджа компании, а они могут оказаться значительно выше, чем прямые финансовые потери. Вот еще несколько данных:

  • изучение последствий землетрясения в Сан-Франциско показало, что 60% фирм, не восстановивших данные в течение двух недель, обанкротились (исследования Gartner Group);

  • средняя стоимость часа простоя колеблется от 18 тыс. долл. в случае локального сбоя ЛВС до 6,4 млн. долл. (для брокерской фирмы). Средняя стоимость восстановления данных составляет около 50 тыс. долл. в час (данные Ассоциации планирования в чрезвычайных ситуациях и стратегических исследований);

  • цена потерь при невозможности работать с компьютерами так велика, что счет часто становится отрицательным.

Брокерская фирма (или компания, осуществляющая коммерческую деятельность через Интернет) может потерять до 40% своих клиентов на протяжении 24 часов и 80% — в течение пяти дней. Восстановление потерь в стоимости акций за один день займет до трех лет (источник — SunGard);

  • косвенно оценить потерю имиджа компании от простоя информационной системы можно по формуле: объем продаж в год х 0,001 х количество дней простоя в год.

Таким образом, при объеме продаж $10 000 000 и общем времени простоя 10 дней стоимость потерь имиджа компании от простоя ИС может составить $100 000 (И. Дуров. Техническое обслуживание: от гарантии до аутсорсинга. Jet Info №9 (124)/2003).

Одним из наиболее эффективных способов защиты от рисков, связанных с перебоями в работе или падением производительности критически важных приложений, являются услуги по сопровождению программно-аппаратного комплекса, на котором такие приложения выполняются. Сопровождение включает в себя комплекс следующих мероприятий:

  • техническая поддержка (восстановление работоспособности системы в фиксированной конфигурации);

  • изменение конфигурации ИТ-комп-лекса (инсталляция нового ПО и оборудования, его конфигурирование и настройка);

  • проведение технических консультаций для персонала;

  • оптимизация работы ИТ-системы (например, повышение общей производительности, достижение оптимального использования дискового пространства систем хранения, сокращение окна резервного копирования и послеаварийно-го восстановления данных);

  • ведение технической документации (паспортов комплекса и регламентов работ по восстановлению его работоспособности и профилактике);

  • профилактические мероприятия, включая определение соответствия используемого ПО целям и задачам заказчика на данный момент, и при необходимости — установка новых версий ПО и заплат.
  • Кроме того, в сфере сопровождения лежит вопрос обеспечения информационной безопасности. Комплексный подход в данном вопросе состоит в предупреждении неожиданных критических ситуаций. Проведение анализа политик безопасности, проверка на соответствие стандартам, выработка рекомендаций — вот далеко не полный перечень решаемых вопросов.

    Диаграмма 2 иллюстрирует, что процент незапланированных перерывов в работе компаний, вызванных сбоем ПО и аппаратуры, достигает довольно большого значения.



    Почему вопросами сопровождения должны заниматься профессионалы?

    Сопровождение — это многосторонний процесс. Но почему бы заказчику не выполнять его силами своего ИТ-подразделения? Хотя такой вариант сопровождения в принципе возможен, он невыгоден экономически. Прежде всего речь идет об очень сложных системах, обслуживать которые способен только высококвалифицированный персонал. Так что затраты на оплату труда будут весьма ощутимыми, а кроме того, значительных средств потребует его обучение. К тому же, если сопровождением системы занимаются штатные ИТ-специалисты компании, то их опыт неизбежно будет ограничен комплексом оборудования и ПО, имеющимся на их предприятии. А кругозор сотрудника сервисного центра, обслуживающего ИТ-системы в разных компаниях, значительно шире. Он способен эффективнее решить многие проблемы просто потому, что уже сталкивался с ними у других клиентов. Еще один недостаток сопровождения собственными силами связан с тем, что необходимость в соответствующих операциях возникает далеко не каждый день (разумеется, при условии, что обслуживаемый комплекс обладает высокой надежностью, что обязательно для "тяжелых" систем), и поэтому большая часть рабочего времени высокооплачиваемого штатного специалиста, выделенного для их выполнения, будет уходить впустую. Наконец, резервирование в критически важных системах требуется обеспечить не только для оборудования, но и на уровне обслуживающего персонала, т. е. таких специалистов по сопровождению должно быть несколько.

    Поскольку для большинства заказчиков эксплуатация ИТ-систем не является основным бизнесом, то им не имеет смысла содержать целый штат собственных специалистов по сопровождению. Для них более привлекательным вариантом будет передача этого направления на аутсорсинг в компанию, имеющую специализированный сервисный центр. При этом они получат квалифицированные услуги, которые будут оказывать специалисты, имеющие разносторонние знания и опыт, и смогут сосредоточиться на своей основной деятельности.

    Замечу, что консультации персонала заказчика — одна из важных возможностей, предоставляемых клиенту при покупке сервисного обслуживания. Как показывает наш опыт, большинство проблем, возникающих у заказчика в процессе эксплуатации ПО и оборудования, может быть устранено путем дистанционного общения специалиста заказчика и инженера сопровождения. Это означает существенную экономию людских и временных ресурсов.


    Три кита сопровождения

    Немаловажным фактором в организации сопровождения являются ресурсы. Самый главный из них — это инженерные кадры. Чтобы обеспечить функционирование тяжелых систем, понадобятся квалифицированные специалисты с большим багажом знаний, а еще лучше — с сертификатами, такие знания подтверждающими. В идеале это должны быть специалисты, владеющие как "железной", так и софтверной частью обслуживаемых продуктов. Однако обычно к решению каждой из проблем приставлен "узкий" специалист, которых в такой ситуации, как правило, имеется десяток вместо одного специалиста "широкого профиля". И тогда актуальной становится задача их взаимодействия при решении проблем, возникающих на стыках различных платформ (например, если используется сервер одного производителя, а дисковая система хранения — от другого, даже при наличии матрицы совместимости и интегрированных интерфейсных карт). Возможно и такое: каждый специалист говорит, что у него все нормально, а система в целом не функционирует.

    Поэтому чем шире диапазон знаний, тем лучше: тогда специалист будет договариваться сам с собой.

    Другой необходимый ресурс — это установленные регламенты. Для обеспечения качественного сервиса важно иметь хорошо отработанный порядок действий (регламентов) в различных ситуациях. Должны быть разработаны специальные процедуры, описывающие порядок действий технического персонала при возникновении нештатных ситуаций, порядок восстановления работы оборудования и т. п. В идеале такие действия отрабатываются до автоматизма и включают в себя локализацию и квалификацию неисправности. Для устранения причин неполадок важно правильно квалифицировать сбой, который может быть либо восстановлен, либо компенсирован. Так, если произошел сбой дисков и неисправное дисковое пространство выбрасывается из рабочей среды, оборудование может продолжать нормальную работу. Или, например, в современных сложных серверах работа организована таким образом, что при обнаружении какой-то неисправности они сами могут изменить свою конфигурацию, перезагрузившись. И ситуацию, когда сервер сообщает, что у него на пару процессоров стало меньше, но тем не менее он продолжает работу, описать в определенных регламентах для того, чтобы на каждый случай можно было принимать соответствующие меры. Если сопровождение осуществляется централизованно, в регламенте должно быть прописано, каким образом и куда следует обращаться системному администратору (телефоны, e-mail, факсы). При этом надо четко определить перечень информации, которая передается от администратора системы лицу, ответственному за восстановление ее работоспособности.

    Третий ресурс, складской, не менее важен, чем два предыдущих. Где взять запасную часть, необходимую для восстановления работоспособности системы? Кто должен осуществлять мониторинг подлежащих замене деталей? Что-то ломается, замене подлежат какие-то компоненты, их нужно где-то приобретать и хранить. И здесь, так же как и при устранении неисправностей, нужно иметь утвержденные нормативы, которые позволят сказать, какие компоненты и в каком количестве должны находиться на складе.

    В данном контексте можно рассматривать в качестве ресурса и хорошо развитую процедуру взаимодействия с вендорами. Складской ресурс обеспечивается разными способами. Заказчик может создать склад у себя, может пользоваться складом вендора на тех или иных условиях, может обратиться к третьей организациии. И если используются не собственные ресурсы, то должны быть четко определены процедуры и условия, в соответствиии с которыми осуществляются заказ и доставка деталей.

    Хороший пример в данном случае — это ситуация с заказным ПО при возникновении ошибок, и здесь без вендора вообще не обойтись. Если ПО произведено не внутри компании-заказчика силами ее специалистов, то программным кодом владеет организация, выпустившая это ПО. Соответственно, лишь эта организация может выпустить заплату на обнаруженную ошибку. Наконец, только вендор может легально предоставить заказчику новую версию ПО.


    Чем хороший сервисный центр отличается от плохого?

    Принципы оптимальной организации сервисных центров, специализирующихся на "тяжелых" программно-аппаратных комплексах, отрабатывались многие годы и поэтому у разных ИТ-компаний очень схожи. Однако имеются и важные для заказчика различия. В чем же преимущества услуг сопровождения, которые предлагает хороший сервисный центр?

    Во-первых, это готовность максимально удовлетворить потребности клиента. Понятно, что в договоре на сопровождение практически нельзя предусмотреть все возможные ситуации, когда возникает потребность в услугах сервисного центра, поэтому его специалисты стараются по мере сил максимально выполнить запросы и пожелания заказчиков, порой выходящие за рамки формальных обязательств сервисного центра.
    В отношениях с заказчиками формализм сведен к необходимому минимуму.
    Но внутри сервисного центра без формализма нельзя добиться четкой организации работы.

    Второе преимущество хорошего сервисного центра — высочайший класс подготовки его специалистов. Круг их знаний охватывает аппаратные и программные платформы ведущих мировых производителей. Сегодня инженерам сервисного центра по обслуживанию "тяжелых" систем не обойтись без сертификатов Sun Microsystems, Hewlett-Packard, IBM, Cisco, Enterasys, Avaya, APC, Oracle, Veritas, Checkpoint и других вендоров. Система обучения должна быть направлена на подготовку разносторонних специалистов — ведь ИС крупного предприятия в большинстве случаев представляет собой "слоеный пирог" или "зоопарк" из продуктов разных компаний, а стало быть, для ее обслуживания явно недостаточно знаний только в одной сфере, поскольку часто проблемы возникают в пограничных областях.

    Поясним значение такой разносторонности на следующем примере. Почувствовав, что ваша система начала исчерпывать свои ресурсы, вы скорее всего подумаете о покупке нового, более мощного оборудования. Но решение проблемы может лежать гораздо ближе и стоить намного меньше. Скажем, повысить производительность СУБД Oracle удастся как специальной настройкой параметров самой базы данных, так и ядра операционной системы сервера, на котором установлен Oracle. Максимальной производительности СУБД можно добиться только сочетанием обоих методов, но для этого специалист по сопровождению должен хорошо разбираться как в Oracle, так и в серверной ОС. Таким образом вы избегаете ненужного и затратного наращивания мощностей, т. е. грамотная оценка и тюнинг производительности сохраняют ваши инвестиции.

    Наконец, третье основное преимущество хорошего сервисного центра — это ориентация на развитие регионального сервиса. Расширять географию своего присутствия в регионах компания может через представительства, которые, в частности, занимаются обслуживанием клиентов в своем регионе и помимо менеджера имеют в штате как минимум двух сервисных инженеров. По существу, каждое представительство вдобавок ко всему прочему выполняет и функции регионального сервисного центра. Учитывая российские расстояния, значение такого сопровождения для предприятий, расположенных за несколько тысяч километров от Москвы, трудно переоценить, тем более что ни у одного из крупнейших вендоров нет за пределами столицы разветвленной сети сервисных центров для обслуживания "тяжелых" решений. Элементарный подсчет показывает, что в границах Москвы время прибытия сервисного инженера к заказчику может составлять 2—4 ч, в то время как для Тюмени, например, эта цифра выливается в день-полто-ра. Нетрудно оценить преимущество наличия регионального сервисного центра: определите, сколько стоит простой оборудования в час, и произведите соответствующие вычисления.

    Конечно, сопровождение можно отдать партнерам в регионах. Но в таком случае надо быть уверенными, что они располагают теми ресурсами, о которых мы говорили в начале, или хотя бы большей их частью. Чтобы иметь уверенность в региональных партнерах, нужно провести их сертификацию. Попытки убедить партнеров в том, что необходимо пройти эту процедуру, на мой взгляд, не всегда дают должный эффект. Куда более успешным кажется мне путь, когда в регионах создаются собственные сервисные центры, поскольку при этом вопрос о необходимости обучения персонала решается автоматически.

    Кроме того, имея свои сервисные центры в регионах, компания владеет единой технологей сопровождения, а значит, не возникает разногласий по поводу того, какой она должна быть. В этом случае можно консолидировать всю информацию о проблемах и в дальнейшем использовать ее для решения подобных вопросов. Не нужно разделять ответственность с партнером, потому что за все отвечает одна компания. Сеть собственных региональных представительств позволяет решать вопросы единообразия в таких сферах, как управление, подходы к ответственности, процедуры и консолидация информации.


    Основные подходы к сопровождению

    В первую очередь это сервис-интеграция. Что это такое? Сервис-интеграция подразумевает перечень услуг, касающихся продуктов различных вендоров. Это относится и к оборудованию, и к ПО. Услуги, которые оказываются по отношению к "тяжелым" системам, должны носить интегрированный характер. Ведь сопровождать приходится комплекс разных устройств, настоящий "зоопарк", а следовательно, решать несколько проблем, которые могут возникать на стыках разных систем.

    Немаловажным аспектом является наличие иерархической системы услуг. Любая КИС состоит из различных модулей, обладающих разными уровнями критичности и соответственно разными уровнями обслуживания. Например, если в каком-то терминале происходят неприятности, это не настолько критично, как если бы неприятности происходили в центральной системе управления. Сопровождение "тяжелых" систем должно разделяться на определенные уровни с разными характеристиками, такими, например, как время реагирования на проблемы. Это понятие называется временем обслуживания для разных иерархических систем.

    Персонифицированный подход (выделенная группа) можно назвать "штучным" товаром, это не продукт массового потребления. При таком "штучном" подходе очень важно распределение с точки зрения инженерных кадров: необходимо, чтобы сопровождением "тяжелой" системы занималась выделенная группа специалистов, которые, чтобы не возникало дополнительных вопросов, должны быть знакомы с ее конфигурацией. Даже если система хорошо задокументирована, требуется какое-то время на прочтение этой документации. Персонифицированный подход — это и информационное обеспечение: научный прогресс не стоит на месте, вендоры разрабатывают новое оборудование и ПО. Очень важно, чтобы вся информация доходила до менеджмента, эксплуатирующего систему. И желательно, чтобы эта информация была отсортирована, то есть имела отношение к продуктам, установленным в данной системе. Важны также личные взаимоотношения между владельцами системы и теми, кто отвечает за ее сопровождение. Тогда и задачи решаются быстрее.

    Гибкий подход + жесткий регламент. Гибкость подхода заключается в том, что задачи оперативно решаются независимо от формальных обязательств по сопровождению. Всегда могут возникнуть проблемы, решение которых не укладывается в формальные рамки, и решать их нужно оперативно на тех или иных условиях. При гибком подходе эти условия могут оговариваться уже после того, как задача решена. Но сами процедуры решения проблем должны быть жестко регламентированы. Гибкость подхода должна быть обращена к системщику, а жесткий регламент — к организации, которая обеспечивает сопровождение. Сочетание гибкого подхода и жесткого регламента дает наилучший результат.

    История взаимоотношений + планы развития. История взаимоотношений и сопровождения должна быть зафиксирована. Это особенно важно при использовании различных автоматизированных систем, которые обрабатывают запросы и способы их выполнения. Такая история позволяет:

    • оперативно возвращаться к прошлому и искать те решения, которые уже применялись;
    • анализировать ситуацию и разрабатывать план развития системы с целью повышения ее производительности, надежности и т. д.

    Стендовая лаборатория. В реальной жизни, когда, с одной стороны, мы сталкиваемся с разработкой планов развития, а с другой — с непосредственным сопровождением, желательно моделировать возможные ситуации не на боевом оборудовании системы, которое находится у заказчика под нагрузкой, а на отдельном комплексе, чтобы не проводить экспериментов на "живом организме". При сопровождении "тяжелой" системы неплохо иметь мощную и разветвленную стендовую лабораторию, позволяющую моделировать ситуации в работе действующей системы, чтобы выработать оперативные способы решения проблем. К тому же в стендовой лаборатории можно, например, протестировать новые программные продукты, которые планируются для внедрения в данную систему. Случаи, когда необходимо тестировать новые продукты, возникают довольно часто.

    Многоуровневая система связи. При обслуживании "тяжелых" систем важна многоуровневая и хорошо отлаженная система связи. Эксплуатирующий персонал должен иметь постоянную надежную связь с сопровождающими систему сотрудниками. А поскольку мобильная связь зависит от оператора, подвержена сбоям и т.д., ее следует продублировать таким образом, чтобы было несколько независимых друг от друга каналов.

    Итак, мы рассказали о необходимости сопровождения, о самых важных его ресурсах, а также обозначили основные подходы к организации этого процесса, которые свидетельствуют о высокой значимости профессионального подхода.




    Предыдущая новость:
    Применение сбалансированной системы показателей
    Следующая новость:
    Предбиллинг как требование рынка