Управление рисками информационных технологий

Применение технологии больших данных на основе продукта Splunk/Hunk для оптимизации работы ИТ-служб

Одной из ключевых метрик эффективности работы ИТ является время устранения инцидентов.

В большинстве сложных, гетерогенных сетей эта скорость ограничена отсутствием одного хранилища под все события ИТ. Фактически, после возникновения инцидента каждый профильный специалист проводит микро-расследование в своих системах и, не найдя ошибок, передаёт эстафету дальше. Цепочка идёт от Service Desk к администраторам серверов, потом к администраторам баз данных, к специалистам по сетям, прикладному ПО и т.д.  В итоге вместо того, чтобы решать проблему всем одновременно, параллельно проводя анализ работы системы, все делают это последовательно, чем увеличивают время разрешения инцидента пропорционально количеству профильных специалистов.

В недавнем прошлом очевидному решению этой проблемы путём консолидации всех журналов в одном месте препятствовал фактор масштаба – обычно объём журналов с приемлемым уровнем детализации был очень велик, а искать информацию по всему этому объёму нужно очень быстро. Причём ИТ-системы развиваются, и журналы меняются со временем, что делало решение этой задачи очень сложной и дорогой.  

В реальности такая задача уже довольно давно решена – достаточно посмотреть на поисковые системы типа Google или Яндекс, чтобы понять, что именно требуется сделать. Тут вам и огромный объем данных, и быстрый поиск, и меняющийся заранее неизвестный формат web-сайтов…

Именно эта идея и была реализована в продукте Splunk. Это инструмент сбора и быстрого анализа любой слабоструктурированной ИТ-информации, фактически поисковик для машинных данных. Используя его, один администратор может сразу найти место отказа, а не просить это сделать всех коллег из других направлений последовательно. По статистике внедрения таких систем в крупных банках уровня Barclays итоговое сокращение времени устранения инцидента доходит до 70%.

Кроме прямой аналитики для поиска места отказа в ИТ-инфраструктуре большинство заказчиков начинают использовать Splunk для целей маркетинговых исследований, таргетирования продуктов, противодействия мошенничеству и контроля операций в сложных процессах типа кредитных конвейеров. Концентрация в Splunk большого количества информации о незавершённых, ошибочных и прочих операциях в сложных системах делает это возможным и лёгким. Кроме этого, данные системы Splunk являются зачастую единственным по-настоящему достоверным источником статистики для подразделений отвечающий за анализ операционных рисков.

Информация, поставляемая такими системами как Splunk, может и должна служить основанием для принятия решений об оптимизации тех или иных бизнес-процессов, реорганизации ИТ-служб, профайлинга работы различных подразделений организации. Фактически именно анализ журналов регистрации прикладных систем и ИТ-инфраструктуры позволяет обоснованно определить количество сотрудников ИТ-подразделений, реально необходимых для поддержания требуемого уровня качества ИТ-сервисов.

Компания Открытые Технологии предлагает создание и внедрение системы сбора и быстрого анализа слабоструктурированной ИТ-информации любого рода на базе платформы Splunk Enterprise. 

Вы можете отправить запрос на разработку и реализацию решения для Вашей организации или написать по адресу dsuchkov@ot.ru.

logo_5.png logo-complete.jpg index.png