Надежность RAID-массива

В этой статье пойдет речь о показателях отказоустойчивости дисковых массивов RAID. В качестве исходных параметров мы возьмем показатели надежности одного диска, которые указаны производителями. В течение времени службы эти показатели меняются,  но для первого года службы диска теоретические расчеты очень близки к практике.

Как узнать надежность одного диска

Традиционно производители указывают параметр MTBF – среднее время между отказами.

Например, для диска WD Caviar Blue указан параметр MTBF=650 000 часов.  Довольно большой срок, но это не значит, что среднее время работы диска составит 74 года. Это статистический параметр и в практических целях проще использовать вероятность отказа, которая связана с MTBF.

Годовая вероятность отказа AFR – вероятность с которой диск выйдет из строя в течении года.

Вычисление AFR из MTBF – очень простой шаг. Вот формула:

Формула для RAID

где OT – время работы диска в течении года. В этой статье мы исследуем надежность RAID – массивов, и предполагаем, что массив работает круглосуточно, то есть OT=24*365=8760 (число часов в году).

Типичные MTBF для жестких дисков в сотни раз больше, чем 8760. Поэтому формулу для вычисления AFR можно упростить, пользуясь разложением степенной функции в ряд Тейлора.

AFR=8760/MTBF – этой формулой мы и будем пользоваться для вычислений.

Возвращаясь к примеру с диском WD Caviar Blue, AFR для него равна 1,3%. Это можно трактовать так: если в организации 100 дисков, то раз в год один придется менять.

Виды  Raid

Рассмотрим основные уровни RAID и их особенности:

УровеньRAID Описание Плюсы Минусы
RAID0  он же Stripe При отказе одного диска  из 2х теряются все данные. Быстрый Нет резервирования
RAID1 онже Mirror При отказе одного диска массив работает, на втором – копия Быстрое восстановление Низкая производительность, Полезная емкость=50% от общей
RAID1E При отказе одного диска массив работает исправно. Высокая производительность Полезная емкость=50% от общей
RAID5 При отказе одного диска массив работает с сильно пониженной производительностью Экономичность (полезная емкость на один диск меньше общей), приемлемая производительность Долгий процесс восстановления данных
RAID5EE При сбое физического диска в составе массива данные сбойного диска реконструируются. Относительно быстрое восстановление данных,Полезная емкость на два диска меньше общей. Требует специального контроллера
RAID10 При отказе одного диска массив работает исправно. Высокая производительность, низкое время восстановления данных Полезная емкость=50% от общей
RAID50 При отказе одного диска массив работает исправно. Довольно высокая производительность высокая стоимость и сложность организации,долгий процесс восстановления данных
RAID60 Отазоустойчивость – 2 диска очень высокая надёжность высокая стоимость и сложность организации

Пример визуализации одной из самых надежных и быстрый конфигураций:

RAID 5+0

Дисковый массив по схеме RAID 5+0

Надежность RAID

Пользуясь теорией вероятности, вычислим AFR(RAID) – годовую вероятность отказа для RAID массивов исходя из AFR одного диска, которую и обозначим как AFR:

  1. AFR0 = AFR (RAID0) = 2*(1-AFR)*AFR+AFR^2 = 2*AFR-AFR^2
  2. AFR1 =AFR (RAID1) = AFR^2
  3. AFR (RAID10) = AFR0(AFR1) = 2*AFR^2 – AFR^4 =~ 2*AFR^2
  4. AFR5 = AFR (RAID5) = 1 — (N*AFR*(1-AFR)^(N-1) + (1-AFR)^N) =~=~ 1/2*N*(N-1)*AFR^2 — 1/3*N*(N-1)*(N-2)*AFR^3 ,где N – число дисков в массиве (от 3 до 16)
  5. AFR (RAID50) = 2*AFR5 – AFR5^2 =~ N*(N-1)*AFR^2

Для примера с WD Caviar Blue вычислим вероятность того, что массив выйдет из строя и все данные будут утеряны:

  • AFR(RAID0) = 2.7%
  • AFR(RAID1) = 0.02%
  • AFR(RAID10) = 0.04%
  • AFR(RAID5 из 3х дисков) = 0.05%
  • AFR(RAID5 из 5и дисков) = 0.18%
  • AFR(RAID5 из 8и дисков) = 0.48%

Ради интереса, AFR(RAID5 из 16и дисков) = 1.9% — что выше, чем у исходного диска.

Несколько корректирующих замечаний

  1. На практике оказывается, что число заменяемых дисков (по результатам сервисных журналов) больше, чем показатель AFR. Этот показатель называется ARR – среднегодовой показатель возвратов. Основываясь на исследованиях дата-центров можно полагать, что на практике AFR может оказаться в 2 раза выше, чем полученная из MTBF.
  2. Некоторые производители идут на маркетинговый ход – подразумевая, что диск некорпоративного уровня используется 8 часов в сутки, они указывают AFR, который получается в 3 раза меньший, по сравнению с расчетом из формулы AFR=8760/MTBF
  3. После года использования AFR дисков увеличивается приблизительно в 3 раза
  4. Есть  еще один показатель отказоустойчивости диска UER – уровень невосстановимых ошибок. Диски для домашнего применения имеют UER=10^-14, это значит, что ожидается один ошибочный бит на 10^14 бит = 11,6 Tb. Для корпоративных дисков UER = 10^-16..10^-15. Этот показатель следует принимать во внимание при оценке надежности восстановления данных в RAID5. По некоторым данным, вероятность сбоя при восстановлении RAID5 из 8и дисков по 2Tb составит более 50%, если использовать диски с UER=10^-14. Это, впрочем, не означает, что все данные будут потеряны. Ошибочным в этом случае получится только один блок, что может в некоторых случаях оказаться критичным.
  5. RAID5 может перестраиваться довольно долгое время. Например, восстановление массива из дисков по 2TB может занимать до двух дней при использовании RAID контроллера. Если RAID «софтверный», то скорость восстановления может оказаться еще в два раза ниже. И если за это время произойдет сбой хотя бы одного диска, данные окажутся потеряны.

В период восстановления AFR системы  RAID5 из 8 дисков = 1-(1-AFR)^8=10.3%   – то есть в период восстановления RAID5 особо уязвим.

Вывод можно сделать такой: для RAID5 следует использовать диски только корпоративного уровня, а RAID контроллер должен быть достаточно быстрым, с аппаратной функцией XOR. Еще лучше использовать RAID5EE, так как в этой модификации RAID5 время восстановления меньше, чем в RAID5.

Роль и классификация RAID-контроллеров и дисков

Контроллер RAID-массива играет важную роль в надежности системы. Во-первых, он должен быть достаточно производительным, чтобы в случае отказа восстановить данные с минимальным временем. А во-вторых, рекомендуется использовать контроллеры с батареей резервного питания, чтобы в случае сбоя в электропитании корректно завершить операции и не потерять данные.

Жесткие диски можно условно разделить на обычные и корпоративного уровня. У последних ниже AFR и UER, поэтому они предпочтительнее для использования в RAID. Кроме того «десктопные» диски в большинстве своем не имеют должной прошивки для корректной работы с RAID-контроллером, что может вызывать отказы в случаях, когда на самом деле отказа нет.

Бэкап

Для повышения надежности данные можно архивировать – делать резервное копирование (backup). Бэкап – это обязательная процедура для баз данных. Даже если RAID откажет, и даже если он опять откажет во время восстановления, останется бэкап баз данных, который можно будет восстановить на новой системе.

Надежность RAID-массива

Добавить комментарий