Вопрос: Сколько перераспределений сектора SMART указывает на проблемы?


У меня есть устройство NAS, которому чуть больше месяца. Он настроен для отправки мне по электронной почте предупреждений, генерируемых данными SMART на жестких дисках. Через один день один из жестких дисков сообщил, что сектор стал плохим и был перераспределен. За первую неделю это число выросло до шести полных секторов для рассматриваемого жесткого диска. Через месяц число составляет девять перераспределенных секторов. Скорость определенно замедляется.

NAS сконфигурирован с шестью дисками емкостью 1,5 ТБ в конфигурации RAID-5. С такими приводами большой емкости я ожидал бы, что сектор будет время от времени терпеть неудачу, поэтому меня не беспокоило, когда были перемещены первые несколько секторов. Это беспокоит меня, хотя ни один из других дисков не сообщает о каких-либо проблемах.

Какую скорость переселения или общее количество перемещений я должен начать беспокоиться о здоровье диска? Может ли это отличаться в зависимости от емкости накопителя?


16
2018-05-04 12:39


Источник


хороший, смелый. один из лучших на serverfault, так как многие другие здесь найдут это полезным, и найти ответ непросто. определенно заслуживает больше, чем +2. вы можете перефразировать вопрос, чтобы он не был специфичным для NetGear, но хранилище в целом, хотя - username
Спасибо за отзывы, я внесла изменения, которые вы предложили, и обновил ситуацию. - Jeremy
Я заменяю диски на один перераспределенный сектор. Вы должны ожидать нулевого значения в течение гарантийного времени на диске. Производители всегда соблюдали гарантию на эти диски. - Michael Hampton♦


Ответы:


Приводы, как и большинство компонентов, имеют частоту отказов кривой ванны. Вначале они сильно терпят неудачу, имеют относительно низкий уровень отказов в середине, а затем терпят неудачу, когда они достигают конца своей жизни.

Так же, как весь диск следует этой кривой, конкретные области диска также будут следовать этой кривой. В начале использования диска вы увидите много перераспределений сектора, но это должно сократиться. Когда диск начинает терпеть неудачу в конце жизни, он начнет терять все больше и больше секторов.

Вам не нужно беспокоиться о 6 (в зависимости от привода - обратитесь к производителю), но вам нужно посмотреть и увидеть частоту каждого нового перераспределения. Если ухудшение ускоряется или остается неизменным, беспокойтесь. В противном случае после начального периода взлома это должно быть хорошо.

-Адам


13
2018-05-04 16:22



Небольшая точка: диски не будут работать LONG перед их MTBF. Я думаю, вы имеете в виду, что они терпят неудачу, когда приближаются к ожидаемой продолжительности жизни. - Eddie
Разве Google не полностью развенчал теорию «кривой ванны»? - Insyte


Перечитав документ Google по этому вопросу,Тенденции отказа в большом количестве дисков», Я думаю, что могу с уверенностью сказать, что ответ Адама неверен. При анализе чрезвычайно массивного населения дисков примерно 9% имели ненулевые подсчеты перераспределения. Рассказывающая цитата такова:

После первого перераспределения накопители более чем в 14 раз с большей вероятностью потерпят неудачу в течение 60 дней, чем приводы без подсчетов перераспределения, что делает критический порог для этого параметра и одним.

Это еще более интересно, когда речь идет о «автономных перераспределениях», которые являются перераспределениями, обнаруженными при фоновой очистке диска, а не во время фактически запрошенных операций ввода-вывода. Их вывод:

После первого автономного перераспределения диски имеют более чем в 21 раз более высокий шанс отказа в течение 60 дней, чем приводы без автономных перераспределений; эффект, который снова становится более резким, чем полное перераспределение.

Моя политика теперь будет заключаться в том, что диски с ненулевым перераспределением рассчитываются для замены.


18
2017-11-17 02:26



Это интересно, я слышал об этом документе, но мне, возможно, придется его перечитать. FWIW, 4 из 6 дисков в моем NAS перераспределили сектора. Спасибо за ответ. - Jeremy


Различные диски, вероятно, имеют разные параметры. На диске, который я в последний раз проверял, что это один серийный диск на 1 ТБ от одного поставщика, было зарезервировано 2048 зарезервированных секторов для перераспределения.

Вы можете оценить количество зарезервированных секторов, смотрящих в S.M.A.R.T. отчет о диске, который имеет ненулевое число перераспределенных секторов. Рассмотрите отчет о неисправном диске ниже.

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

Здесь используется 95% зарезервированной мощности, которая составляет 1955 секторов. Поэтому начальная емкость составляла около 2057. Фактически это 2048, разница обусловлена ошибка округления.

S.M.A.R.T. превращает привод в состояние отказа, когда количество перераспределенных секторов достигает определенного порога. Для данного диска этот порог установлен на уровне 64% от зарезервированной емкости. Это примерно 1310 переделанных секторов.

Однако зарезервированные сектора не лежат в непрерывном промежутке. Вместо этого они разделяются на несколько групп, каждая группа используется для переназначения секторов из определенной части диска. Это делается для сохранения локальных данных в области на диске.

Недостатком местоположения является то, что на диске может быть много зарезервированных секторов. Тем не менее, одна область может уже исчерпать резервную емкость. В этом случае поведение зависит от прошивки. На одном диске мы наблюдали, как он переходит в состояние FAILED и блокируется, когда возникает ошибка в части, которая больше не защищена.


3
2018-05-12 04:42



Как вы определили, что «было 2048 зарезервированных секторов для перераспределения»? - AJ.
Возможно, 2047 - это максимальное количество перераспределяемых секторов. Один из моих дисков имел ровно 2047, когда был куплен eBay для «нового», который равен 0x7FF, также b11,111,111,111. Переход к 2048 году будет лишним лишним. - davide


Возможно, вы захотите запустить программу S.M.A.R.T. если он поддерживает его. Это может дать вам больше информации о состоянии диска. Если ваш NAS не может этого сделать, и если вы можете вытащить диск или отключить NAS в течение нескольких часов, вы можете сделать длинный самотестирование с жестким диском, подключенным к другой машине.


2
2018-05-04 16:09





Когда диск, к которому ведет себя новый, ведет себя так, чтобы ему не доверяли!

Отправьте его как можно скорее и получите запасной диск.


1
2018-05-04 12:52





У разных производителей разные «приемлемые потери» (такая же идея, как у мониторов и плохих пикселей). Обратитесь к производителю дисковода, чтобы узнать, каков их стандарт.

Это похоже на плохую тенденцию, хотя ...


1
2018-05-04 14:49





Western Digital особенно гордится технологией, которая восстанавливает плохой сектор в приемлемое время, а не замораживает диск, размещенный в RAID, его имя TLER (http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery). Время обычно составляет 5..7 секунд.

Как я нашел в Интернете, есть диски WD с отключенной опцией, но некоторые люди включили эту функцию на дешевых накопителях Green WD, а затем поместили их в RAID.

Утилита WDTLER удалена с сайта поддержки WD, но ее легко обнаружить через Google.

Постскриптум Я использую эту утилиту только для чтения статуса, и я не использую RAID уже сейчас :)


-1
2017-11-16 23:05