Вопрос: Безопасно ли пометить диск в порядке, в деградированном массиве RAID-массива 5?


Intel Matrix Storage Console 8.9 показала поврежденный массив с одним сбоем диска. Тем не менее, он предлагает возможность отметить диск как ok и перестроить массив? Когда было бы целесообразно это сделать? Он неправильно оценивает ошибку диска? Зачем предлагать этот вариант?

Это тестовый сервер, и у меня есть резервные копии, поэтому я не очень обеспокоен и попытался маркировать диск как нормально, и он перестроил том, не указав дальнейшую проблему. НО есть проблема в любом случае?

Дополнительно...

Отличные ответы заставляют меня задаться вопросом, какими могут быть лучшие методы тестирования диска. Ниже приводятся тесты SMART. Вероятно, я удалю диск, перестрою его с новой.

Мне все еще кажется неясным, может ли том восстанавливать и не показывать ошибки, как это уже произошло с этим существующим диском?


4
2017-10-17 23:16


Источник


Если у вас есть резервная копия, я думаю, вы должны удалить массив и начать заново. - Ricardo Polo
Это немного экстремально. Почему бы не просто слот в новом диске и позволить массиву перестроить на нем? - sh-beta
Конечно, это безопасно, так же, как ходить по оживленной автостраде, нося ослепию. Не отмечайте диск как OK, если вы не знаете, что все в порядке, - John Gardeniers


Ответы:


Приводы могут быть отмечены как неудачные в массиве по многим причинам. Может быть, есть несколько дефектных секторов. Возможно, головки дисков не работают. Возможно, космические лучи поразили ваш диск под прямым углом и временем, чтобы провалить сканирование. Возможно, у их прошивки есть ошибка, которая ломается.

Некоторые из них - исправляемые сбои, некоторые - нет.

Дело в том, что очень сложно предсказать сбои жесткого диска. Печально известная статья Google что SMART был полезен только в том случае, если он был предупрежден, диски с большей вероятностью потерпят неудачу, чем если бы они этого не сделали. Полностью 36% неудавшихся дисков не имели ошибок SMART, фатальных или нет. Таким образом, вы можете запустить полный набор SMART-сканирований, не найти никого и узнать не больше, чем сейчас.

Но если предположить, что это был несовпадный отказ, а не сбой I-did-something-funny-and-the-failed, у вас уже есть признаки проблем с диском. Теперь это вопрос стоимости.

  • Сколько стоит другой диск?
  • Сколько времени будет потеряно для его пользователей, если этот сервер умер?
  • Сколько вашего времени было бы потеряно, если бы этот сервер умер?
  • Сколько стоит все это время?
  • Двойное это значение для учетной записи (наивно) для альтернативных издержек

Я никогда не был в ситуации, когда стоило сбить диск. Зачем переживать боль? Скорее всего, вам нужно довольно дешево. Просто купите его и двигайтесь дальше.


10
2017-10-17 23:42





У меня когда-то был неисправный кэдди в старом массиве SCSI U160, который был одним из 14 дисков в массиве. Когда я заменил caddy (диск был в порядке), он все еще думал, что он потерпел неудачу, потому что диск имел тот же серийный номер.

Поэтому я отметил это как ОК, массив перестроен, и все было в порядке, пока мы не сняли его с себя.

Все зависит от вашей ситуации, но обычно я никогда не буду отмечать диск как ОК, если я не был на 100% уверен, что все в порядке. Даже на 99,9%, я бы удалил массив и начал снова.


2
2017-10-17 23:30





Если вам нужны данные, немедленно замените диск новым и перестройте массив. Затем вы можете выполнить расширенное тестирование на удаленном диске и перепрофилировать его для использования, если он пройдет. Однако, если вы попытаетесь восстановить отказоустойчивый диск на месте, вы увеличиваете время, когда вы уязвимы для отказа с двойным приводом, если что-то пойдет не так во время или после процесса восстановления.


2
2017-10-17 23:45





Это полностью зависит от причины отказа диска. В некоторых случаях ive видел, что совершенно прекрасные диски не срабатывают при запуске с дешевыми картами рейдов, потому что контроллер имел Derp момент и не обнаружил привод. Это довольно редко, хотя я провел кучу тестов SMART на диске и проверил полный тест badblocks, пропустив весь диск с помощью DD. Этот конкретный диск был в порядке по всем моим стандартам, и когда я запускал raid5, а не Linear или raid0, я снова добавил его в массив.

Запустите SMART-тест, используя диск восстановления Linux или аналогичный, обратите внимание на счет badblocks, запустите полный SMART-тест, а затем снова просмотрите количество неудачных блоков. Если бы это было чем-то больше, чем 20, я бы не доверял ему. То же самое, если badblocks особенно высоки для этого размера / изготовления.

Риск заключается не только в том, что накопители полностью терпят неудачу, но что ваши данные могут повредить с течением времени.

Можете ли вы также включить считывание «smartctl -a / dev / hda» для этого диска в оригинальном вопросе.


0
2017-10-17 23:43



Единственная причина, по которой я даже подумал бы о том, что использовать ранее неактивный диск, - это потому, что его тестовый сервер и вы, похоже, не заботитесь о его данных. Если бы это был производственный сервер, я бы поместил диск и заменил его, а не вопросы. - Silverfire