Системы архивации данных

Повышение степени информатизации, взрывоподобный рост объема информации, хранимой в электронном виде, увеличение ее ценности выводят вопросы создания корпоративных цифровых архивов на принципиально новый уровень. Доля архивных систем в общем объеме систем хранения данных неуклонно растет. Появляются новые требования по гарантированному хранению. Все это неизбежно ведет к пересмотру критериев, учитываемых при создании систем архивации данных.

Компания Открытые Технологии предлагает услуги по созданию систем архивации данных.

От современных решений для архивирования данных требуется:

  • оперативность доступа;
  • высокая степень защиты от потери информации;
  • реализация возможности управления сроком гарантированного хранения данных;
  • обеспечение аутентичности хранимой информации;
  • дедупликация архивируемых данных;
  • обеспечение эффективного поиска по содержимому;
  • масштабируемость с сохранением текущей инфраструктуры архива.

Предназначенные для хранения статичных неструктурированных данных, современные системы архивации ориентированы на оптимальное размещение информации и обеспечение эффективного доступа пользователей к ней. Как правило, такие решения включают в себя специализированную систему хранения архивных данных, программное обеспечение, реализующее механизмы взаимодействия с клиентом и управление хранением, а также компоненты, обеспечивающие взаимодействие со смежными системами (такими, например, как система резервного копирования и восстановления данных).

Особенности построения архивных систем хранения

Отсутствие структуры как таковой усложняет задачу логической организации данных в хранилище. Для повышения коэффициента использования архивных материалов и для обеспечения эффективной реализации требований к системам архивирования, приведенных выше, применяется так называемый контентно-ориентированный подход к хранению или методика адресации данных по содержанию (Content Address Storage - CAS). Реализацию именного этого подхода представляют собой большинство современных систем хранения архивных данных. Суть методики в том, что данные хранятся не в виде файлов или блоков (как в NAS и SAN системах), а в виде неких объектов данных с уникальными идентификаторами (Content Address или "fingerprint").

Идентификатор, присвоенный объекту, пересылается на сторону клиента и используется при дальнейших манипуляциях с данными. Вычисление идентификатора в соответствии с содержимым автоматически исключает дублирование объектов в хранилище. Отсутствие какой-либо логической структуры хранилища (файловой системы, базы данных и др.) позволяет достичь независимости от физических характеристик хранилища и обеспечивает простое масштабирование системы. Данные, размещённые в архиве пользователем или приложением, доступны для удаления или модификации только администратору архива, или же удаляются автоматически в соответствии с применяемой политикой хранения.

systems_data.png

Характерно, что реализация систем по типу CAS позволяет не только достичь необходимых технических характеристик, но и получить ощутимый экономический эффект. Совокупная стоимость хранения 1 Тб данных в них существенно ниже стоимости хранения такого же объема данных в классических системах оперативного хранения и сравнима со стоимостью хранения на ленточных носителях.

Реализация архивных систем хранения EMC

Первая коммерчески успешная реализация системы хранения на основе идеологии CAS появилась на рынке в 2002 году. Платформа архивации с адресацией по содержимому была разработана специалистами корпорации EMC и увидела свет под названием EMC Centera.

EMC Centera – контентно-ориентированная система хранения, построенная по принципу объединения независимых узлов с введением некоторой избыточности (архитектура RAIN). В качестве узла системы выступает сервер стандартной архитектуры с внутренними дисками, которые используются для размещения файлов операционного окружения CentraStar и архивных данных. Для защиты от потери данных в случае выхода из строя дисков узла или одного из узлов системы полностью, узлы объединяются в группы по зеркальной схеме или по схеме с вычислением контрольных сумм. Одной из важных особенностей реализации является то, что при выходе из строя одного из узлов системы обеспечивается не только защита данных, но и сохранение всего функционала решения в целом. Все узлы системы идентичны и используются для работы в одном из трех режимов: режим хранения данных, режим обеспечения доступа к архивным данным и смешанном, позволяющем минимизировать число узлов.

Взаимодействие клиентов с системой архивации осуществляется по протоколу TCP/IP с использованием интерфейсов Gigabit Ethernet. Такие же интерфейсы применяются и для осуществления межузлового взаимодействия внутри платформы архивирования. Соединения для каждого узла дублированы.

Защита данных от катастроф реализуется путём асинхронной репликации между двумя и более системами EMC Centera. Репликация, как и доступ к данным, осуществляется на базе протокола IP и может происходить в одном или обоих направлениях. В случае необходимости возможно построение схем репликации данных по цепочке из нескольких систем EMC Centera.

Программное обеспечение для решений архивации данных

Ввиду особенностей архитектуры систем хранения CAS, классический файловый или блочный доступ к данным невозможен. Это упрощает реализацию политик информационной безопасности и обеспечение сохранности данных, но предусматривает использование специализированного интерфейса (API) для осуществления информационного взаимодействия.

На рынке существует множество продуктов ведущих производителей программного обеспечения, применяемых для организации решений архивного хранения. Основной функцией этих продуктов является обеспечение взаимодействия между системой хранения архивных данных (в частности, EMC Centera), приложениями и клиентами.

Для построения моновендорного решения по архивации данных компания EMC предлагает ряд мощнейших программных продуктов, являющихся лидирующими на рынке.

В первую очередь, это продукты семейства EMC SourceONE, обеспечивающие архивирование файлов, почтовых сообщений, данных прикладных систем, реализующие функционал eDirectory и позволяющие построить полноценное решение для архивного хранения данных уровня Enterprise.

Для интеграции с приложениями, не поддерживающими прямое взаимодействие с EMC Centera, служит продукт EMC Centera Universal Access, представляющий собой шлюз для обеспечения взаимодействия между протоколами HTTP, FTP, NFS или CIFS и Centera API. Продукты EMC Centera Seek и EMC Centera Chargeback Reporter обеспечивают быстрый, точный поиск и функции отчетов для архивов значительных объемов.

Дополнительным уровнем защиты данных, размещаемых на системах хранения любого типа, является их резервное копирование. Платформа архивирования не является исключением из этого правила. Взаимодействие решения для архивирования данных на базе EMC Centera с решениями для резервного копирования осуществляется с помощью EMC Centera Backup and Recovery Module. Данный модуль обеспечивает взаимодействие протоколов NDMP и Centera API, что позволяет интегрировать электронный архив с платформами резервного копирования ведущих производителей. Одной из таких платформ является продукт EMC Networker.

Компания Открытые Технологии имеет большой опыт реализации сложных интеграционных проектов, включающих построение систем хранения данных, платформ архивирования, систем резервного копирования и восстановления данных. Открытые Технологии являются старейшим партнёром компании EMC, а также других производителей продуктов для рынка хранения данных. Мы всегда готовы предложить вам оптимальное решение на базе продуктов, выпускаемых лидерами отрасли.