Системы хранения данных десять лет спустя

10 апреля 2005 LAN
LAN Magazine
апрель 2005 г.
Вячеслав Ковалев, эксперт по ИТ, Открытые Технологии.

Технологии удаленного доступа к устройствам хранения данных, когда-то казавшиеся почти фантастическими, теперь могут быть реализованы несколькими способами, и конечному пользователю остается лишь выбрать наиболее оптимальное решение. Восхищаясь возможностями современных крупномасштабных систем хранения данных, нельзя не вспомнить о том, что послужило толчком к развитию современных архитектурных решений уровня предприятий: если бы почти десять лет назад не был создан интерфейс SCSI, его следовало бы придумать.

На протяжении последних десяти лет компьютерная отрасль претерпела радикальные изменения, причем нет такой области в мире ИТ, которую не коснулся бы ветер перемен на пути модернизации и улучшения качественных характеристик. Появление новых возможностей было тесно связано с разработкой и стандартизацией новых протоколов обмена данными, а те, в свою очередь, привели к изменению архитектурных решений. Если раньше отдельное устройство привязывалось к конкретному узлу или серверу, то сегодня такой способ размещения или адресации оказывается неприемлемым. Как следствие, все чаще приходится пересматривать архитектурное решение в целом, поскольку акцент смещается на получение масштабируемого решения для достижения равномерного распределения ресурсов вне пределов одного сервера, одного помещения и нередко отдельной территории и даже государства. Системы хранения не остались в стороне от происходящих изменений.

Хвала SCSI

Концепция создания интерфейса шины для малых компьютерных систем (Small Computer Systems Interface, SCSI) зародилась задолго до того, как он стал стандартом для устройств хранения данных в решениях корпоративного уровня. Алан Шугарт, стоявший у истоков компаний Seagate Technology и Shugart Associates, предложил собственный интерфейс Shugart Associates Systems Interface (SASI). Во многом благодаря его усилиям в 1986 г. комитет ANSI утвердил стандарт Х3-131-1986 в качестве отраслевого под новым, хорошо знакомым теперь всем названием SCSI-1. Его открытость для других производителей позволила решить существовавшие на тот момент проблемы подключения конечных устройств хранения данных и написания драйверов к крупным вычислительным системам. Мгновенная популярность шины SCSI объяснялась гибкостью предлагаемых решений, поскольку к ней можно было подключать одновременно сначала до семи, а затем и до 15 физических устройств различного назначения: ленточные накопители, жесткие диски, магнитные диски, оптические диски и т. д. Впоследствии популярность SCSI — как у производителей, так и у пользователей — послужила стимулом для его дальнейшего развития; в результате появились новые стандарты: SCSI-2 (IEEE Х3.131-1994, принят в 1994 г.) и SCSI-3 (продолжает развиваться с 1993 г.). Характеристики различных стандартов SCSI представлены в Таблице 1.

Заложенные Шугартом идеи использования шины SCSI оказались очень продуктивными: в 1986 г. началось победное шествие новой на тот момент и хорошо известной сейчас архитектуры непосредственно подключаемых устройств (Direct Attached Storage, DAS) (см. Рисунок 1).

Возможность создавать надежные хранилища данных на основе избыточных массивов недорогих дисков (Redundant Array of Inexpensive Devices, RAID) открыла путь к тиражируемым решениям для корпоративных систем хранения данных, где требовались надежность, скорость и наращиваемость. Эти три качества позволяли закрыть глаза на единственный недостаток на тот момент, а именно — высокую стоимость (из-за чего, кстати, SCSI пользовался низкой популярностью в настольных решениях).

Начало XXI века ознаменовалось резким ростом объема обрабатываемой информации, а успех бизнеса оказался в зависимости от скорости доступа к системам хранения данных. Прикладные задачи перестали быть жестко привязаны к отдельному узлу или серверу, вследствие чего изменились требования к быстроте доступа к данным, а сами данные начали размещать на различных массивах и, зачастую, на различных площадках.

Шина SCSI уже не могла удовлетворить возросшим требованиям, главным образом по причине ограниченных возможностей масштабирования: максимальная длина кабеля составляла 25 м, а скорость передачи данных от конечных устройств хранения деградировала, когда к одной шине подключалось близкое к максимально допустимому число. Единственно возможное решение заключалось в установке на сервере дополнительных адаптеров SCSI, однако это затрудняло задачу администратора по эффективному управлению сервером для обеспечения его непрерывной работы, а из-за ограничения длины шины SCSI серверные комнаты превращались в сплетения кабелей и проводов, идущих от внешних массивов к серверам. Кроме того, коэффициент использования совокупного дискового пространства был весьма низким, что вело к удорожанию инфраструктуры ИТ в целом. Наконец, с течением времени появилось множество дополнительных требований к оборудованию ИТ, в том числе и к системам хранения данных, по обеспечению надежного и безопасного хранения информации, объемы которой резко возросли и демонстрировали тенденцию к дальнейшему росту.

Стало ясно, что проблемы можно устранить только при условии разработки нового архитектурного решения: с одной стороны, оно должно было сохранить преемственность по отношению к распространенному интерфейсу SCSI, а с другой — преодолеть возникшие ограничения и соответствовать современным требованиям безопасного хранения информации. Перечислим основные из них:

увеличение уровня утилизации систем хранения данных;
повышение скорости доступа и передачи данных;
увеличение эффективности работы систем резервного копирования;
повышение уровня доступности хранимых данных;
увеличение длины соединительных линий;
обеспечение физической независимости систем хранения данных от узлов их обработки.

Сетевые хранилища

Ограничения прямого подключения дисковых носителей к серверам были устранены в сетевых устройствах хранения (Network Attached Storage, NAS) и сетях хранения данных (Storage Area Network, SAN) (см. Рисунок 2) — эти архитектурные решения ориентированы на сетевое подключение устройств хранения, а их бурное развитие началось в 2000 г.

Главные отличия архитектур NAS и SAN состоят в следующем. NAS представляет собой специализированный сервер, основная задача которого — обеспечение надежного управления устройствами хранения и файловыми системами и предоставление к ним удаленного доступа с использованием специализированных протоколов доступа к файловым системам: CIFS, NFS и т. д. Если раньше подобные задачи требовали от администраторов значительных усилий по установке и настройке собственных файловых серверов, то с появлением NAS, благодаря применяемым производителями решениям, файловые серверы превратились в своего рода "черные ящики", и объем работ на этапе их установки и запуска в действие сократился до минимума. Не случайно впоследствии они стали обозначаться как NAS Appliance, или сетевые приставки, поскольку предназначались исключительно для решения узкого спектра задач по обеспечению файлового доступа к хранимым данным через локальную сеть. Благодаря узкой специализации функций файловой и операционной систем производителям удалось добиться оптимального соотношения цена/производительность для решений NAS.

Однако если скорость доступа к хранимым данным является основным требованием, то архитектура SAN имеет преимущество перед NAS. В этом случае исключается дополнительное звено — сервер NAS, а все функции управления передаются рабочим серверам (как в примере на Рисунке 2, это Oracle Server и Oracle Application Server). При этом скорость доступа ограничена лишь пропускной способностью каналов передачи данных. В отличие от файлового обмена данными передача осуществляется блоками.

Интерфейс	Скорость передачи данных (Мбайт/с)	Разрядность шины (бит)	Максимальная длина (м)	Максимальное количество устройств
Интерфейс	Скорость передачи данных (Мбайт/с)	Разрядность шины (бит)	Максимальная длина (м)	Single Ended	Differential	LVD
SCSI-1	5	8	6	25	---	8
Fast Narrow SCSI (SCSI-2)	10	8	6	25	---	8
Fast Wide SCSI (SCSI-2)	20	16	6	26	---	16
Ultra SCSI (SCSI-3)	20	8	1,5	25	---	8
Ultra SCSI (SCSI-3)	20	8	3	неприм.	---	4
Wide Ultra SCSI-3 (SCSI-3)	40	16	---	25	неприм.	16
Wide Ultra SCSI-3 (SCSI-3)	40	16	1,5	---	неприм.	8
Wide Ultra SCSI-3 (SCSI-3)	40	16	3	---	---	4
Ultra2 SCSI (Fast-40)	40	8	---	25	25	2
Ultra2 SCSI (Fast-40)	40	8	---	12	12	8
Wide Ultra SCSI (Fast-40)	80	16	---	25	25	2
Wide Ultra SCSI (Fast-40)	80	16	---	12	12	16
Wide Ultra SCSI (Fast-80)	160	16	---	---	12	16

Таблица 1. Характеристики различных шин SCSI.

Архитектура SAN начала развиваться с середины 90-х гг. прошлого столетия. В 1995 г. - IBM уже предлагала архитектурное решение на базе последовательной технологии Serial Storage Architecture (SSA). Базирующееся на топологии кольцевых сетей, оно позволяло подключать гораздо большее количество физических устройств, чем SCSI — до 127 дисковых устройств. Каждое устройство имело четыре канала (два в одну сторону петли и два — в другую), в результате суммарная скорость передачи блоков SCSI достигала 8о Мбайт/с — в то время эти показатели значительно превосходили характеристики самого интерфейса SCSI. Одновременно комитет ANSI начал подготовку стандарта Х3Т10.1, принятие которого состоялось в 1997 г. Важно отметить, что подключение конечных устройств предусматривалось как в виде петли, так и с применением коммутаторов. Однако широкое использование SSA сдерживалось высокой, по сравнению со SCSI, стоимостью.

Примерно в то же самое время к созданию стандартов для технологии Fibre Channel приступила и Seagate Technologies. Разрабатываемый стандарт Fibre Channel Arbitrated Loop (FC-AL) также был ориентирован на соединение устройств по оптическим каналам посредством петли. Дело пошло быстрее после того, как в конце 1995 г. - Seagate приобрела крупного разработчика в области систем хранения данных, компанию Conner Peripherals. Внедрение решений на базе FC-AL обходилось значительно дешевле, чем на базе SSA. В значительной степени это и повлияло на выбор в пользу FC-AL большинства других компаний меньшего размера, что в конечном счете и определило победу FC-AL над архитектурой SSA. Стандарт FC-AL был одобрен ANSI в 1994 г. Его возможности представлены в Таблице 2. Примерно с 1998 г. начались массовое производство и внедрение устройств на базе FC-AL.

Для выработки единого стандарта и обеспечения дальнейшего развития технологий на базе Fibre Channel в рамках Национального американского института стандартизации (American National Standards Institute, ANSI) был создан комитет Т10 под управлением международного комитета по стандартам на ИТ (InterNational Committee on Information Technology Standards, INCITS), он сосредоточился на архитектуре SCSI и ее использовании с Fibre Channel и другими протоколами. В результате те идеи, которые были заложены ТТТу-гартом, получили развитие в новых проектах на базе SCSI-3.

Процесс совершенствования SCSI-3 продолжается и сегодня, а комитет Т10 предложил расширенную модель его стандартизации с сохранением преемственности по отношению к SCSI. В результате, как и десять лет назад, уже обновленный SCSI дал толчок дальнейшей эволюции технологии передачи данных. Это уже совсем иные архитектурные решения — модели использования SCSI, известные как SCSI Architecture Model (SAM). Одновременно произошел отказ от употребления прежних наименований — версий SCSI-4, 5 и т- Д-> ассоциировавшихся с параллельной шиной. Взамен стандарты получили более конкретные названия, предусматривающие использование типовых моделей с различением их по поколениям: SAM (SCSI-3 Architecture Model), SAM-2 (SCSI Architecture Model-2), SAM-3 (SCSI Architecture Model-3), SAM-4 (SCSI Architecture Model-4).

Каждое поколение SAM соответствовало как возросшим требованиям к системам хранения данных, так и возможностям разработчиков программного обеспечения и производителей оборудования. Сегодня наиболее проработанной является модель SAM-4, которая позволяет создавать архитектурные решения с использованием новых протоколов.

Что день грядущий нам готовит

В рамках проекта SAM-4 (Тю/ 1683-D) была продолжена работа над стандартизацией современных протоколов передачи данных в среде SAN, в основе которых — все тот же SCSI. Уже стандартизованы: SCSI Parallel Interface (SPI-5), Serial Bus Protocol (SBP-3), Fibre Channel Protocol (FCP-3), SSA SCSI-3 Protocol (SSA-S3P), SCSI RDMA Protocol (SRP-2), Internet SCSI (iSCSI), Serial Attached SCSI (SAS-1.1), Automation Drive Interface Transport Protocol (ADT-2). Список внушительный, но, к сожалению, в рамках одной статьи сложно описать характеристики каждого из них. Поэтому мы остановимся лишь на нескольких, привлекающих наибольший интерес со стороны производителей и конечных пользователей: FCP, iSCSI и SCSI RDMA.

В конце 1995 г. - был разработан стандарт и принят на вооружение новый протокол Fibre Channel Protocol for SCSI (FCP) в первой редакции FCP-i (X3.269-199X). В его основу были положены принципы хорошо известной сетевой модели OSI, благодаря чему оказалось возможным разбиение служб на уровни обслуживания:

FC-4 — переход на протоколы высокого уровня SCSI, TCP/IP;
FC-3 — находится в стадии разработки;
FC-2 — управление сетевым доступом и каналами передачи данных;
FC-i — управление передачей;
FC-o — среда передачи и устройства передачи.

Разработка данной модели обусловила реализацию архитектурных решений с подключением систем хранения данных по вычислительной сети, для чего были использованы возможности передачи сигналов по оптическим линиям. В зависимости от диаметра оптического волокна генерируются сигналы на различных длинах волн. Максимальное расстояние ю км достигается в случае сигнала на длине волны 1300 нм. Диаметр волокна составляет 9 мкм, сигнал генерируется длинноволновым лазером. Линии на базе длинноволновых кабелей достаточно дороги, поэтому при небольших расстояниях предпочтение отдается кабельным системам, оснащенным коротковолновыми лазерами с длиной волны 780 нм и внутренним диаметром 50 мкм, а также 62,5 мкм (см. Таблицу 3).

Не следует думать, что FCP, хотя его название и переводится как "протокол оптического канала", рассчитан исключительно на волоконно-оптические линии. Уровнем обслуживания FC-o предусмотрено использование и медных линий — как коаксиального кабеля, так и витой пары. Главное преимущество медных линий — их стоимость. При этом основным недостатком остается ограничение на максимальную длину — не более 25 м.

На этапе стандартизации FCP было предусмотрено применение нового протокола в распределенной среде с потенциальной возможностью расширения. В этом отношении особого внимания заслуживает уровень FC-2. Большинство сетей с архитектурой SAN обязано своей развитой функциональностью именно ему. Благодаря организации сетевого доступа удалось преодолеть ограничения ранее широко использовавшегося протокола FC-AL. Конечные устройства перестали быть частью одной оптической петли с единым адресным пространством и ограничением в 127 физических адресов. Теперь FCP закрепляет за каждым физическим устройством:

уникальное имя World Wide Name (WWN), адрес порта;
физический адрес кольца с заданием ведущего узла.

Имя WWN является 64-разрядным идентификатором, присваивается продукту производителем и записывается в программируемую память самого устройства. Адреса портов (24 бит) могут составляться с использованием WWN, а также другими способами, обеспечивающими их уникальность. В случае с WWN — это комбинация из имени узла (World Wide Node Name, WWNN) и имени порта (World Wide Port Name, WWPN). В единое пространство SAN может входить до 2²⁴ устройств.

Интерфейс	Скорость передачи данных (Мбайт/с)	Разрядность шины (бит)	Максимальная длина (м)		Максимальное количество устройств
Интерфейс	Скорость передачи данных (Мбайт/с)	Разрядность шины (бит)	Медь	Оптич. волокно	Максимальное количество устройств
FC-AL, одиночная петля	100	16	30	2000 - 10 000	127
FC-AL, двойная петля	200	16	30	2000 - 10 000	127

Таблица 2. Характеристики арбитражной петли Fibre Channel.

Скорость передачи	Максимальная длина кабеля
Скорость передачи	9 мкм	50 мкм	62,5 мкм
100 Мбайт/с	10 000 м	500 м	300 м
200 Мбайт/с	2100 м	300 м	150 м
400 Мбайт/с	2100 м	175 м	90 м

Таблица 3. Дальности и скорости передачи FCP для различных волокон.

FCP обладает достаточным интеллектом для подключения к портам различных по своему назначению устройств. Ими могут быть система хранения данных, маршрутизатор, мост между FC и SCSI, сканер, принтер и др. Однако возможности FCP этим не ограничиваются. Важным достоинством является то, что с помощью FCP уровень FC~4 обеспечивает передачу пакетов данных протоколов верхнего уровня: SCSI, IP, VIA, HIPPI, IEEE802, SBCCS, AAL5, FICON.

Сегодня протокол FCP стал де-факто отраслевым стандартом в крупных архитектурных решениях. Его высокая популярность привела к появлению новых технологий, применение которых позволило еще больше расширить возможности SAN на базе Fibre Channel. В частности, речь идет об объединении разрозненных SAN посредством организации между ними туннелей. Туннелирование пакетов SCSI и Fibre Channel путем инкапсуляции в протокол нижнего уровня помогло преодолеть ограничения на расстояния вследствие физических ограничений линий связи, место которых заняли логические или виртуальные каналы. Теперь в роли протокола нижнего уровня используется IP (Internet Protocol).

В 2000 г. члены рабочей группы Internet Engineering Task Force (IETF) создали три базовых решения, ставших стандартом для систем хранения данных, ориентированных на передачу блоков в среде SAN. Данные решения определяли протоколы передачи блочных данных: iFCP, FCIP, iSCSI. Таким образом, системы хранения перестали иметь физическую привязку к узлам как составные части — логическая и физическая — распределенных сетевых решений. Сравнительные характеристики всех основных архитектурных решений представлены в Таблице 4.

Технологии продолжают развиваться: новое решение задачи организации туннеля между SAN опирается на технологию оптического уплотнения (Dense Wave Division Multiplexing, DWDM). Последняя была разработана с целью использования дополнительных возможностей передачи светового спектра волоконно-оптических линий связи. Возможности DWDM таковы, что с его помощью можно организовать туннель для передачи любых данных, включая и трафик высокоскоростных сетей Fibre Channel на расстояния свыше 100 км.

DAS	NAS	FC SAN	IP SAN
Установка дополнительных устройств индивидуальна для каждого сервера. Неэффективное использование совокупного дискового пространства в структуре ИТ. Необходимость остановки сервера для подключения новых дисков. Непрерывное увеличение объема дискового пространства приводит к необходимости покупки дополнительного сервера. Увеличение совокупной стоимости владения всего решения.	Упрощенная процедура инсталляции. Архитектура IMAS по мере накопления важной информации становится слабым звеном в случае отказа сервера NAS. Резервирование архитектуры NAS за счет дополнительного сервера в отдельных проектах может быть затруднено. Неэффективное использование совокупного дискового пространства в структуре ИТ. Доступ к хранимым данным только посредством файлов.	Необходимость тщательной архитектурной проработки. Потенциальные конфликты с оборудованием, если оно не прошло тесты производителей на совместимость. Ограниченная протяженность каналов. Высокая стоимость. В больших проектах требуется привлечение дополнительного системного ПО.	Потребность в тщательной архитектурной проработке. Возможны конфликты с оборудованием, не прошедшим тесты производителей на совместимость. В больших проектах требуется привлечение дополнительного системного ПО. Относительно высокая стоимость, определяемая спецификой проектов.
Наиболее удовлетворяет небольшим проектам.	Наиболее удовлетворяет решениям, где требуется преимущественно файловый доступ.	Наиболее удовлетворяет крупным центрам обработки данных, а также при организации резервных центров.	Наиболее удовлетворяет в тех решениях, где нужны высокая надежность и географическая распределенность систем хранения данных, в резервных центрах.

Таблица 4. Сравнительные характеристики основных архитектурных решений в области хранения.

Высокопроизводительные сети хранения

Как было отмечено выше, с некоторых пор пристальное внимание стал привлекать стандарт SRP-2 (SCSI RDMA Protocol). В чем причина? Благодаря бурному развитию архитектурных решений на базе SAN, задачи обеспечения высокой надежности и скорости доступа к данным были успешно решены. Однако если проблему эффективного совместного доступа к общему пулу распределенных систем хранения в той или иной мере удалось преодолеть, то сами ресурсы, накапливаемые по мере роста вычислительных комплексов, использовались неэффективно. Трудность состояла в организации быстрого канала на уровне системных шин серверного оборудования и систем хранения при их объединении в кластеры. Скорости передачи данных давно превысили гигабитный предел, однако высокая латентность передаваемых пакетов не позволяет использовать каналы для межузлового взаимодействия в рамках одного кластера.

По сути, стандарт SRP-2 предложил приемлемый способ решения проблемы с перспективой его промышленного применения. Так родилась технология Infiniband, активным продвижением которой занимаются Intel и ряд других компаний. Она позволила организовать быстрый доступ на системном уровне, отказавшись от использования промежуточных интерфейсов на уровне адаптеров системной шины. Как сетевая технология Infiniband может решать любые задачи по передаче данных от систем хранения и файловых систем к вычислительным комплексам.

Демонстрируя динамичное развитие, она способна взять на себя выполнение системных функций вместо шины PCI. Как видно из характеристик Infiniband, перспективы у нее весьма серьезные:

минимальная скорость передачи 2,5 Гбайт/с в одном направлении;
возможность организовать несколько параллельных каналов с многократным увеличением общей производительности системы;
поддержка «горячей» замены благодаря логической организации каналов;
независимое питание для периферийного внешнего устройства;
отсутствие необходимости внутреннего расширения систем;
последовательная передача пакетов в полнодуплексном режиме.

Очевидно, что стоимость систем на базе Infiniband будет существенно дороже рассмотренных нами ранее. Соответственно и проекты, где используется данная архитектура, могут быть востребованы в первую очередь там, где приоритет отдается созданию кластеров с высокой производительностью, т. е. в крупных корпоративных проектах.

В этой связи уместно вспомнить этапы становления и развития архитектуры SAN на базе Fibre Channel: первоначально она находила применение лишь в крупных бюджетных проектах, постепенно, однако, ею заинтересовались и компании среднего размера, причем широко распространенным стандартным решением она стала за сравнительно небольшой промежуток времени.

Предыдущая новость:
Интервью Сергея Калина и Олега Гизатуллина Следующая новость:
Управление правами доступа в корпоративных web-системах