Надежность RAID-массива

В этой статье пойдет речь о показателях отказоустойчивости дисковых массивов RAID. В качестве исходных параметров мы возьмем показатели надежности одного диска, которые указаны производителями. В течение времени службы эти показатели меняются, но для первого года службы диска теоретические расчеты очень близки к практике.

Как узнать надежность одного диска

Традиционно производители указывают параметр MTBF – среднее время между отказами.

Например, для диска WD Caviar Blue указан параметр MTBF=650 000 часов. Довольно большой срок, но это не значит, что среднее время работы диска составит 74 года. Это статистический параметр и в практических целях проще использовать вероятность отказа, которая связана с MTBF.

Годовая вероятность отказа AFR – вероятность с которой диск выйдет из строя в течении года.

Вычисление AFR из MTBF – очень простой шаг. Вот формула:

где OT – время работы диска в течении года. В этой статье мы исследуем надежность RAID – массивов, и предполагаем, что массив работает круглосуточно, то есть OT=24*365=8760 (число часов в году).

Типичные MTBF для жестких дисков в сотни раз больше, чем 8760. Поэтому формулу для вычисления AFR можно упростить, пользуясь разложением степенной функции в ряд Тейлора.

AFR=8760/MTBF – этой формулой мы и будем пользоваться для вычислений.

Возвращаясь к примеру с диском WD Caviar Blue, AFR для него равна 1,3%. Это можно трактовать так: если в организации 100 дисков, то раз в год один придется менять.

Виды Raid

Рассмотрим основные уровни RAID и их особенности:

УровеньRAID	Описание	Плюсы	Минусы
RAID0 он же Stripe	При отказе одного диска из 2х теряются все данные.	Быстрый	Нет резервирования
RAID1 онже Mirror	При отказе одного диска массив работает, на втором – копия	Быстрое восстановление	Низкая производительность, Полезная емкость=50% от общей
RAID1E	При отказе одного диска массив работает исправно.	Высокая производительность	Полезная емкость=50% от общей
RAID5	При отказе одного диска массив работает с сильно пониженной производительностью	Экономичность (полезная емкость на один диск меньше общей), приемлемая производительность	Долгий процесс восстановления данных
RAID5EE	При сбое физического диска в составе массива данные сбойного диска реконструируются.	Относительно быстрое восстановление данных,Полезная емкость на два диска меньше общей.	Требует специального контроллера
RAID10	При отказе одного диска массив работает исправно.	Высокая производительность, низкое время восстановления данных	Полезная емкость=50% от общей
RAID50	При отказе одного диска массив работает исправно.	Довольно высокая производительность	высокая стоимость и сложность организации,долгий процесс восстановления данных
RAID60	Отазоустойчивость – 2 диска	очень высокая надёжность	высокая стоимость и сложность организации

Пример визуализации одной из самых надежных и быстрый конфигураций:

Дисковый массив по схеме RAID 5+0

Надежность RAID

Пользуясь теорией вероятности, вычислим AFR(RAID) – годовую вероятность отказа для RAID массивов исходя из AFR одного диска, которую и обозначим как AFR:

AFR0 = AFR (RAID0) = 2*(1-AFR)*AFR+AFR^2 = 2*AFR-AFR^2
AFR1 =AFR (RAID1) = AFR^2
AFR (RAID10) = AFR0(AFR1) = 2*AFR^2 – AFR^4 =~ 2*AFR^2
AFR5 = AFR (RAID5) = 1 — (N*AFR*(1-AFR)^(N-1) + (1-AFR)^N) =~=~ 1/2*N*(N-1)*AFR^2 — 1/3*N*(N-1)*(N-2)*AFR^3 ,где N – число дисков в массиве (от 3 до 16)
AFR (RAID50) = 2*AFR5 – AFR5^2 =~ N*(N-1)*AFR^2

Для примера с WD Caviar Blue вычислим вероятность того, что массив выйдет из строя и все данные будут утеряны:

AFR(RAID0) = 2.7%
AFR(RAID1) = 0.02%
AFR(RAID10) = 0.04%
AFR(RAID5 из 3х дисков) = 0.05%
AFR(RAID5 из 5и дисков) = 0.18%
AFR(RAID5 из 8и дисков) = 0.48%

Ради интереса, AFR(RAID5 из 16и дисков) = 1.9% — что выше, чем у исходного диска.

Несколько корректирующих замечаний

На практике оказывается, что число заменяемых дисков (по результатам сервисных журналов) больше, чем показатель AFR. Этот показатель называется ARR – среднегодовой показатель возвратов. Основываясь на исследованиях дата-центров можно полагать, что на практике AFR может оказаться в 2 раза выше, чем полученная из MTBF.
Некоторые производители идут на маркетинговый ход – подразумевая, что диск некорпоративного уровня используется 8 часов в сутки, они указывают AFR, который получается в 3 раза меньший, по сравнению с расчетом из формулы AFR=8760/MTBF
После года использования AFR дисков увеличивается приблизительно в 3 раза
Есть еще один показатель отказоустойчивости диска UER – уровень невосстановимых ошибок. Диски для домашнего применения имеют UER=10^-14, это значит, что ожидается один ошибочный бит на 10^14 бит = 11,6 Tb. Для корпоративных дисков UER = 10^-16..10^-15. Этот показатель следует принимать во внимание при оценке надежности восстановления данных в RAID5. По некоторым данным, вероятность сбоя при восстановлении RAID5 из 8и дисков по 2Tb составит более 50%, если использовать диски с UER=10^-14. Это, впрочем, не означает, что все данные будут потеряны. Ошибочным в этом случае получится только один блок, что может в некоторых случаях оказаться критичным.
RAID5 может перестраиваться довольно долгое время. Например, восстановление массива из дисков по 2TB может занимать до двух дней при использовании RAID контроллера. Если RAID «софтверный», то скорость восстановления может оказаться еще в два раза ниже. И если за это время произойдет сбой хотя бы одного диска, данные окажутся потеряны.

В период восстановления AFR системы RAID5 из 8 дисков = 1-(1-AFR)^8=10.3% – то есть в период восстановления RAID5 особо уязвим.

Вывод можно сделать такой: для RAID5 следует использовать диски только корпоративного уровня, а RAID контроллер должен быть достаточно быстрым, с аппаратной функцией XOR. Еще лучше использовать RAID5EE, так как в этой модификации RAID5 время восстановления меньше, чем в RAID5.

Роль и классификация RAID-контроллеров и дисков

Контроллер RAID-массива играет важную роль в надежности системы. Во-первых, он должен быть достаточно производительным, чтобы в случае отказа восстановить данные с минимальным временем. А во-вторых, рекомендуется использовать контроллеры с батареей резервного питания, чтобы в случае сбоя в электропитании корректно завершить операции и не потерять данные.

Жесткие диски можно условно разделить на обычные и корпоративного уровня. У последних ниже AFR и UER, поэтому они предпочтительнее для использования в RAID. Кроме того «десктопные» диски в большинстве своем не имеют должной прошивки для корректной работы с RAID-контроллером, что может вызывать отказы в случаях, когда на самом деле отказа нет.

Бэкап

Для повышения надежности данные можно архивировать – делать резервное копирование (backup). Бэкап – это обязательная процедура для баз данных. Даже если RAID откажет, и даже если он опять откажет во время восстановления, останется бэкап баз данных, который можно будет восстановить на новой системе.

Надежность RAID-массива

Пн	Вт	Ср	Чт	Пт	Сб	Вс
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Максим Сорокин

Как узнать надежность одного диска

Виды Raid

Надежность RAID

Несколько корректирующих замечаний

Роль и классификация RAID-контроллеров и дисков

Бэкап

Добавить комментарий Отменить ответ

Рубрики

Календарь

Железо

Маркетинг

Программирование

Сервер

Ссылки

Надежность RAID-массива

Как узнать надежность одного диска

Виды Raid

Надежность RAID

Несколько корректирующих замечаний

Роль и классификация RAID-контроллеров и дисков

Бэкап

Добавить комментарий Отменить ответ

Рубрики

Календарь

Метки

Железо

Маркетинг

Программирование

Сервер

Ссылки